基于标准优化的监督学习范式#
- 训练数据 (i=1,...,n)
- Xi: 输入,协变量;
- Yi: 输出,标签
- 模型 fθ(⋅),θ⇐参数
通过经验风险最小化进行训练#
θ^=θargminn1i=1∑nltrain(yi,fθ(xi)):
- 选择一个 θ^,我们可以从数据中学习到,使某个东西最小化
- l(y,y^) 返回一个实数 :l 是一个损失,用于比较 y 和某个 y^ 的预测,总是返回一个实数(训练数据之间的差异,可能是向量或数字),我们可以最小化
真实目标是对未见过的 X 的现实世界表现#
数学代理:
- ∃P(X,Y):假设一个概率分布
- 希望损失 l(Y,fθ(X)) 的 EX,Y(对 X 和 Y 的期望)较低
复杂性#
- 我们无法访问 P(X,Y)
我们希望在我们未见过的东西上表现良好,我们假设有一个平均值是有意义的,并且存在某种潜在分布,但我们不知道它
解决方案:
- (Xtest,i,Ytest,i)i=1ntest:收集一组保留的数据作为测试集
- 测试误差=ntest1i=1∑ntestl(ytest,i,fθ(xtest,i))
我们收集的这个测试集在某种程度上忠实地代表了我们期望在现实世界中看到的东西,我们希望现实世界遵循概率分布的那种东西,因此我们希望平均和抽样能给我们一些对实际发生的事情的预测能力。
我不知道该怎么做,我知道怎么做,所以我就这样做
- 我们关心的损失 ltrue(⋅,⋅) 与我们的优化器不兼容
你想这样做,这需要某种方法来计算这个参数。这是某种算法,他们必须做这项工作,这个算法只有在某些事情发生时才会有效。可能你关心的损失不允许它做它需要做的事情。
你实际上关心的是某种不可微分的损失,因为它对你的问题是实际相关的。但你的最小化器将使用导数,因此你会说它无法工作。
解决方案:
- ltrain(⋅,⋅):使用一个我们可以处理的替代损失。
经典示例:
-
y∈{猫,狗},ltrue:汉明损失
-
y→R,其中训练数据映射为:
{猫→−1狗→+1
- ltrain:平方误差
当我们评估测试误差时,我们使用 ltrue。
评估测试误差的目的是了解你在现实世界数据上可能表现得多好。这是对一个已经优化的特定模型的评估,没有优化会在测试误差上发生。
你应该知道的示例:
附注:
n1i=1∑nltrue(yi,fθ^(xi)) 在训练集上评估,与 n1i=1∑nltrain(yi,fθ(xi)) 不同
这个对象在实际工作中对每个人来说都是调试。
我们希望用这个来理解优化我们的训练损失是否在我们实际关心的事情上做得合理,并看看我们实际做得如何。因为如果有增长,我会添加更多的词。如果你告诉这个优化的内容与您正在朝着的事情之间存在严重不匹配,那么可能有些地方出错了。
ntest1i=1∑ntestl(ytest,i,fθ(xtest,i))
你希望这能忠实地测量事情在实践中可能如何运作,但如果你看着这个家伙说 “哦,等一下,我应该改变这个”,然后你回去说 “让我再看看这个”,那么你可能会运行一个优化循环,涉及你作为优化器,实际上你在查看这个保留的数据,而这些数据不再被保留。因为它不再被保留,你可能不信任事情在实践中会如何运作。(对过拟合现象的某种看法)
在 n1i=1∑nltrain(yi,fθ(xi)) 上没有这样的担忧,因为你已经在使用这些数据来评估你做得如何,从你的优化算法的角度来看,它一直在查看它。因此,无论你选择采取其他看法,都是没有成本的。
- 你用替代损失运行优化器,得到 “疯狂” 的 θ^ 值,你在优化器上,和 / 或你得到非常糟糕的测试表现。(对过拟合现象的另一种看法)
解决方案:
- 在训练期间添加显式回归:θ^=θargmin(n1i=1∑nltrain(yi,fθ(xi)))+Rλ(θ),例如岭回归:R(θ)=λ∥θ∥2
注意:我们添加了另一个参数 λ。我们如何选择它?
原生超参数:θ^=θ,λ≥0argmin()
- 将参数分为 “正常参数 θ 和超参数 λ”
“超参数是一个参数,如果你让优化器只处理它,它会变得疯狂,所以你必须将其分开”
保留额外数据(验证集),用它来优化超参数
>
> > 当你使用验证集进行超参数优化时,你可能使用与寻找参数时不同的优化器。因此,通常在深度学习的背景下,这种设置总是会使用某种变体的梯度下降。但对于超参数设置,你可能会进行暴力网格搜索或与多臂赌博机相关的其他技术的搜索,或者你知道的零阶优化算法,这将帮助你做到这一点,你也可以在某些超参数搜索中使用基于梯度的方法。
所有解决方案:
进一步复杂性#
通常,优化器可能有自己的可调节参数。在实践中,作为一个尝试进行深度学习的人,你将有离散的选择来选择使用哪个优化器。
你会看到两种微妙不同的观点。
梯度下降是一种迭代优化方法,你进行改进,然后在局部进行改进。
你关心的只是你的损失在你所在参数的邻域中的表现。
因此,查看损失在周围的局部邻域。
θt+1=θt+η(−∇θLtrain,θ),Ltrain,θ=n1i=1∑nltrain(yi,fθ(xi))+R(⋅)
这是一个离散时间动态系统
η← "步长"/"学习率" ,这个 η 控制这个系统的稳定性
η 太大,动态变得不稳定(它会振荡)
η 太小,收敛时间太长
Ltrain(θ++Δθ)≈Ltrain(θ+)+"行"∂θ∂Ltrain⌋θ+Δθ
这个 “行” 的转置称为梯度