这是一种稍微简单的方法来写出损失和成本函数,当我们到达梯度下降时,Logistic回归模型参数的拟合,下图是我们定义的损失函数,在之前的逻辑回归文章中,因为还在研究二进制分类问题,y要么是0,要么是1,因为不能接受除0或1以外的任何值,我们就能想出一个更简单的方法来写这个损失函数,可以按照以下方式来编写,给定x的预测f和目标标签y,损失等于负数,结果如下所示。

为什么这两个式子完全等价?

y只能取1或0的值,在第一种情况下,假设y=1,第一个y=1,这个-y=1-1,因此=0,所以损失变成负数,f(x)的一次对数减去零乘以一堆东西变成零然后消失,所以当y=1时,损失确实是第一个f(x)对应的负对数,看第二种情况,当y=0时,在这种情况下,这里的y=0,所以这一个结束了,第二项是对数项的1-0倍,损失变成-1*log1-f(x),这就等于这里的第二个项,所以在y=0的情况下,我们还得到上面定义的原始损失函数,所以你看到的无论y是0还是1,这里的这个表达式等价于上面更复杂的表达式,这就是为什么这给了我们这一个更简单的方法来写损失只需一个方程,如果不把两个情况分开,就像上面那样,使用这个简化的损失函数,让我们回到过去,写出逻辑回归的成本函数。

所以这里又是简化的损失函数,回想一下,成本j只是平均损失的平均值,在整个训练集的M示例中,1/m也是从i到现在的损失之和等于1-m,如果从上面插入简化损失的定义,然会它看起来像这个超过m次,上面这个项的总和,如果你把负面信号带到外面,然后你就得到了这个表达式,这是成本函数。几乎每个人都用来训练逻辑回归的成本函数。

为什么选择这个特定的函数?

当我们可以选择大量的其他成本函数时,使用一种叫做最大似然估计的统计原理,这是统计学中关于如何有效地找到不同模型的参数的一个想法,这个代价函数有一个很好的性质,它是凸的,但不要担心学习最大似然的细节,这只是在这个特定的成本函数背后的一个更深层次的理由。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐