线性回归
线性模型是一种有监督的学习,每个样本都对应有标签。根据我们预测的结果是否为连续值,分为了线性回归和对数几率回归(分类)。前提是输入和输出之前有线性相关关系。
回归任务
基本形式:
其中x是样本属性的线性组合,是一个向量。W是对每一个属性的权值。模型的可解释性强(白箱模型)。
对于模型好坏的评估,这里选择的loss function为平方误差。
下面需要找到一组W,b使得上述的损失函数可以达到最小。方法有两种。一种是最小二乘法,它只对线性回归适用。函数分别对W和b求偏导,让偏导数为0,得到闭式解(closed-form)。
另一种方式是梯度下降(Gradient Descent)。前提是有损失函数,且函数对参数可微。对于W这一个参数的更新来说,它的变化与它当前值所在的位置以及函数梯度相关。
其中lr为学习率。面临的问题是很容易收敛到一个极小值点,因此训练的效果也与初值位置的选择相关。
同理、对于W、b两个参数来讲,就是两个参数同时变化。这是可以将它们的梯度用一个向量来描述、叫做这个函数的梯度。
值得注意的是,微分为0的点不一定为极小值点,也可能会有鞍点(saddle point)的存在。另外由于一般会设置一个阈值,loss较低时便停止训练,这样也会导致会在平缓下降的位置处停止训练。但是线性回归由于线性的特性所以不会出现这样的问题。
二分类任务
现在思考如何将上述线性回归的结果与类别标签联系起来。可以使用单位阶跃函数或者Sigmoid来进行一个映射。
这样将输出映射到了一个0-1的区间。
对于模型的好坏,首先对于一组W、b产生训练数据的概率为一个似然估计:(x3不属于C1类别)
那么L(W, b)取值最大是的参数是我们想要的。为了方便优化,我们给上述函数取一负对数。同时对于展开后的每一项进行一个补齐,标签值正确的系数为1,否则系数为0。
这样就能得到同一化的公式:
这里面其实蕴含了p、q两个分布:
两个分布越接近,交叉熵越小,也就是效果越好。