Lecture 2: Introduction to Deep Learning
|Last edited: 2024-11-28

Outline

  1. Linear Regression
  1. One Layer Neural Network
  1. Multi Layer Neural Network
  1. Gradient Descent
  1. Activation Functions
  1. Regularizations

Linear Regression

One Layer Neural Network

notion image

Multi Layer Neural Network

notion image

Light Theory: Neural Network as Universal Approximator

💡
Neural network can arbitrarily approximate any continuous function for every value of possible inputs
By using enough neurons, we can always find a neural network whose output satisfies for an arbitrary small .
直观理解:可以构造 step function

Activation Function

Sigmoid

优点:
  • 把任何东西压缩到 之中。
  • 可以被理解为“概率”
  • 有良好定义的梯度
缺点
  • 梯度消失问题。当 很大或者很小时,函数的导数接近于零,可能会导致梯度消失问题。
  • 非零中心。sigmoid 函数的输出总是非负的,这会导致在反向传播的过程中,梯度的符号可能一直为正或者一直为负,从而导致梯度更新的方向不对称。
  • 计算复杂。Expensive to compute.

Tanh

附:其他双曲函数
优点:
  • 把输入压缩在 之中。
  • 以零为中心
  • 有良好定义的梯度
缺点
  • 梯度消失问题

ReLU

优点
  • 的时候梯度不会消失
  • 计算非常简单
  • 收敛速度较快
缺点
  • 非零中心

Leaky / Parameterized ReLU

其中 是一个固定的常数,例如 0.01。
也可以将 设置为可学习的参数。
优点:
  • 梯度不消失
  • 计算简单
  • 手链较快

GELU

notion image

Swish

notion image

SwiGLU

在实现中,通常将 的输入通道维度扩展到 ,输出通道维度压缩为 ,然后再进行主元素相乘,最后通过下游的线性层还原维度。

Regularization

L2 Regularization

Learn a more dense distributed representation

L1 Regularization

Learn a sparse representation (few non-zero weight elements)

Batch Normalization

其中, 表示每个数据, 表示每个特征维度。
💡
从上述公式可以看出,batch normalization是对每个特征单独求平均值和方差的。
为了让网络保持表达能力,对归一化后的值进行线性变化
💡
也是针对于每个特征维度 而言的。
💡
通常加在激活函数之前。

Layer Normalization

notion image
notion image
notion image

Dropout

在前向传播的过程中,随机将一些神经元的输出置零。
置零的比例:dropout rate

Loss Function

Binary Classification

假设我的模型是 表示模型认为 的标签应该是 的概率。
则根据最大似然原则,我们要最大化
取对数,取相反数,得

Multiclass Classification

与 Binary Classification 类似,设 表示模型认为 的标签应该是 的概率。
 
Loading...