神经网络和深度学习-第二周神经网络基础-第四节:梯度下降法
本系列博客是吴恩达(Andrew Ng)深度学习工程师 课程笔记。全部课程请查看吴恩达(Andrew Ng)深度学习工程师课程目录
在上一节中学习了损失函数,损失函数是衡量单一训练样例的效果,成本函数用于衡量参数w和b的效果,在全部训练集上来衡量。下面我们讨论如何使用梯度下降法,来训练和学习训练集上的参数w和b,使得 J(w,b) <script type="math/tex" id="MathJax-Element-7">J(w,b)</script>尽可能地小。

这个图中的横轴表示空间参数w和b,在实践中,w可以是更高维的。成本函数 J(w,b) <script type="math/tex" id="MathJax-Element-8">J(w,b)</script>是在水平轴w和b上的曲面,曲面的高度表示了 J(w,b) <script type="math/tex" id="MathJax-Element-9">J(w,b)</script>在某一点的值,我们所想要做的就是找到这样的w和b,使其对应的成本函数J值是最小值。可以看到成本函数 J <script type="math/tex" id="MathJax-Element-10">J</script>是一个凸函数,因此我们的成本函数
对于logistic回归而言几乎任意初始化方法都有效,通用用0来进行初始化,但对于logistic回归,我们通常不这么做。因为函数是凸的无论在哪里初始化,都应到达同一点或大致相同的点。梯度下降法所做的就是从初始点开始朝最陡的下坡方向走,就像图里一样沿着红点一直走,直到到达或接近全局最优解。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)