神经网络和深度学习-第二周神经网络基础-第四节：梯度下降法

geekidentity

454人浏览 · 2017-12-27 22:23:14

geekidentity · 2017-12-27 22:23:14 发布

本系列博客是吴恩达(Andrew Ng)深度学习工程师课程笔记。全部课程请查看吴恩达(Andrew Ng)深度学习工程师课程目录

在上一节中学习了损失函数，损失函数是衡量单一训练样例的效果，成本函数用于衡量参数w和b的效果，在全部训练集上来衡量。下面我们讨论如何使用梯度下降法，来训练和学习训练集上的参数w和b，使得 J(w,b) <script type="math/tex" id="MathJax-Element-7">J(w,b)</script>尽可能地小。

这个图中的横轴表示空间参数w和b，在实践中，w可以是更高维的。成本函数 J(w,b) <script type="math/tex" id="MathJax-Element-8">J(w,b)</script>是在水平轴w和b上的曲面，曲面的高度表示了 J(w,b) <script type="math/tex" id="MathJax-Element-9">J(w,b)</script>在某一点的值，我们所想要做的就是找到这样的w和b，使其对应的成本函数J值是最小值。可以看到成本函数 J <script type="math/tex" id="MathJax-Element-10">J</script>是一个凸函数，因此我们的成本函数J(w,b)<script type="math/tex" id="MathJax-Element-11">J(w,b)</script>之所以是凸函数，其性质是我们使用logistic回归的个特定成本函数 J <script type="math/tex" id="MathJax-Element-12"></script>的重要原因之一。为了找到更好的参数值，我们要做的就是用某初始值初始化w和b，用图上最上面的小红点表示。

对于logistic回归而言几乎任意初始化方法都有效，通用用0来进行初始化，但对于logistic回归，我们通常不这么做。因为函数是凸的无论在哪里初始化，都应到达同一点或大致相同的点。梯度下降法所做的就是从初始点开始朝最陡的下坡方向走，就像图里一样沿着红点一直走，直到到达或接近全局最优解。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

使用概率图路径规划的机器人路径规划研究Octave（Matlab代码实现）

针对复杂未知环境下传统机器人路径规划算法适应性差、避障稳定性弱、全局搜索效率低的问题，本文开展基于概率图的机器人路径规划方法研究。概率图路径规划依托概率路线图建模思想，通过环境随机采样、节点连通性构建、最优路径检索的核心逻辑，摆脱了传统算法对环境精准建模的依赖，具备强环境适配性与高运算效率。本文系统阐述概率图路径规划的核心理论、运行机制与技术优势，基于Octave仿真平台搭建多场景机器人运动规划仿