吴恩达-深度学习-各个变量的求导

这是关于损失函数对各变量的求导是单样本实例的在这里是假设样本有两个特征值那么对应的有两个权重但是偏差是一样的所以关于z的函数则如上图所示关于da/dz的求导是因为 a = σ(z)=1/(1+ⅇ^(-z) ) 所以对于da/dz的求导等于a(1-a) 而L(a,y) = -(...

sui_qiang_kaixin_

1472人浏览 · 2019-12-02 09:04:35

sui_qiang_kaixin_ · 2019-12-02 09:04:35 发布

在这里插入图片描述
这是关于损失函数对各变量的求导是单样本实例的在这里是假设样本有两个特征值那么对应的有两个权重但是偏差是一样的所以关于z的函数则如上图所示关于da/dz的求导是因为 a = σ(z)= 1/(1+ⅇ^(-z) ) 所以对于da/dz的求导等于a(1-a) 而L(a,y) = -(y * logy ̂ +(1-y)*log⁡(1-y ̂)) 所以通过求导可以得到dl/dz = a - y,在python代码中用dz 来表达最终的函数对于z变量的求导所以这里da 代表dl/dz 那么也可以求出 dw1 dw2 db 再分别对 w1 w2 b进行一次梯度下降法但是在训练中你不可能只训练一个样本而是m个样本组成的训练集因此下面则是对于训练集的讨论
在这里插入图片描述其实对于整个训练集的讨论也是一样的因为我们可以求出的单个训练集的关于各变量的求导那么对于m各样本的代价函数关于各变量的求导也就是将各个样本对各变量的求导之和加起来再取一个均值则得到的就是一个全局的梯度值
在这里插入图片描述这是关于对于如何去求得到一个代价函数的最优解的一个步骤通过不断的迭代更新得到我们最终想要的w1 w2 b.这里我们发现用的是两个for循环一个是对m各训练集的遍历一个是对样本特征值的遍历但是在代码中去跑这些程序效率太低因为我们最终对样本集的训练会是特别大的所以在这里显式的for循环不是很好需要用到向量化