三、线性神经网络

3.1 线性回归 linear regression

输入包含𝑑个特征时,我们将预测结果(通常使用“尖角”符号表示𝑦的估计值)表示为:
 

梯度下降 gradient descent

notion image
挑选一个作为初始值,重复迭代t=1,2,3,…
沿着梯度方向增加损失函数值
η学习率:步长的超参数 hyperparameter

小批量随机梯度下降 minibatch stochastic gradient descent

批量大小:超参数 hyperparameter
随机采样b个样本来近似损失:

实现

3.2 Softmax回归

notion image
 
可以视为一个正确的概率分布。
softmax运算不会改变未规范化的预测𝑜之间的大小次序,只会确定分配给每个类别的概率。
因此,在预测过程中,我们仍然可以用下式来选择最有可能的类别。

交叉熵损失

我们可以将视为“对给定任意输入𝑥的每个类的条件概率”
交叉熵用来衡量两个概率的区别
将它作为损失:
它的梯度是真实概率和预测概率的区别:

实现

3.3 损失函数

蓝色线:y=0时,变换预测值y’时的函数 绿色线:似然函数(模型参数的概率) 橙色线:损失函数的梯度(蓝色线的导数)

L2 Loss

notion image

L1 Loss

notion image

Huber‘s Robust Loss

notion image
Loading...