深度学习之数学基础:偏导数
1.导数和偏导数
1.1 导数偏导计算
导数定义:
导数(derivative)代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的(瞬时)变化率。
注意:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有
v=st v=\frac{s}{t} v=ts
其中vvv表示平均速度,sss表示路程,ttt表示时间。这个公式可以改写为
vˉ=ΔsΔt=s(t0+Δt)−s(t0)Δt \bar{v}=\frac{\Delta s}{\Delta t}=\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t} vˉ=ΔtΔs=Δts(t0+Δt)−s(t0)
其中Δs\Delta sΔs表示两点之间的距离,而Δt\Delta tΔt表示走过这段距离需要花费的时间。当Δt\Delta tΔt趋向于0(Δt→0\Delta t \to 0Δt→0)时,也就是时间变得很短时,平均速度也就变成了在t0t_0t0时刻的瞬时速度,表示成如下形式:
v(t0)=limΔt→0vˉ=limΔt→0ΔsΔt=limΔt→0s(t0+Δt)−s(t0)Δt v(t_0)=\lim_{\Delta t \to 0}{\bar{v}}=\lim_{\Delta t \to 0}{\frac{\Delta s}{\Delta t}}=\lim_{\Delta t \to 0}{\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t}} v(t0)=Δt→0limvˉ=Δt→0limΔtΔs=Δt→0limΔts(t0+Δt)−s(t0)
实际上,上式表示的是路程sss关于时间ttt的函数在t=t0t=t_0t=t0处的导数。一般的,这样定义导数:如果平均变化率的极限存在,即有
limΔx→0ΔyΔx=limΔx→0f(x0+Δx)−f(x0)Δx \lim_{\Delta x \to 0}{\frac{\Delta y}{\Delta x}}=\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}} Δx→0limΔxΔy=Δx→0limΔxf(x0+Δx)−f(x0)
则称此极限为函数 y=f(x)y=f(x)y=f(x) 在点 x0x_0x0 处的导数。记作 f′(x0)f'(x_0)f′(x0) 或 y′∣x=x0y'\vert_{x=x_0}y′∣x=x0 或 dydx∣x=x0\frac{dy}{dx}\vert_{x=x_0}dxdy∣x=x0 或 df(x)dx∣x=x0\frac{df(x)}{dx}\vert_{x=x_0}dxdf(x)∣x=x0。
通俗地说,导数就是曲线在某一点切线的斜率。
偏导数:
既然谈到偏导数(partial derivative),那就至少涉及到两个自变量。以两个自变量为例,z=f(x,y)z=f(x,y)z=f(x,y),从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。
注意:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。
设函数z=f(x,y)z=f(x,y)z=f(x,y)在点(x0,y0)(x_0,y_0)(x0,y0)的领域内有定义,当y=y0y=y_0y=y0时,zzz可以看作关于xxx的一元函数f(x,y0)f(x,y_0)f(x,y0),若该一元函数在x=x0x=x_0x=x0处可导,即有
limΔx→0f(x0+Δx,y0)−f(x0,y0)Δx=A \lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A Δx→0limΔxf(x0+Δx,y0)−f(x0,y0)=A
函数的极限AAA存在。那么称AAA为函数z=f(x,y)z=f(x,y)z=f(x,y)在点(x0,y0)(x_0,y_0)(x0,y0)处关于自变量xxx的偏导数,记作fx(x0,y0)f_x(x_0,y_0)fx(x0,y0)或∂z∂x∣y=y0x=x0\frac{\partial z}{\partial x}\vert_{y=y_0}^{x=x_0}∂x∂z∣y=y0x=x0或∂f∂x∣y=y0x=x0\frac{\partial f}{\partial x}\vert_{y=y_0}^{x=x_0}∂x∂f∣y=y0x=x0或zx∣y=y0x=x0z_x\vert_{y=y_0}^{x=x_0}zx∣y=y0x=x0。
偏导数在求解时可以将另外一个变量看做常数,利用普通的求导方式求解,比如z=3x2+xyz=3x^2+xyz=3x2+xy关于xxx的偏导数就为zx=6x+yz_x=6x+yzx=6x+y,这个时候yyy相当于xxx的系数。
某点(x0,y0)(x_0,y_0)(x0,y0)处的偏导数的几何意义为曲面z=f(x,y)z=f(x,y)z=f(x,y)与面x=x0x=x_0x=x0或面y=y0y=y_0y=y0交线在y=y0y=y_0y=y0或x=x0x=x_0x=x0处切线的斜率。
1.2 导数和偏导数有什么区别?
导数和偏导没有本质区别,如果极限存在,都是当自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限。
- 一元函数,一个yyy对应一个xxx,导数只有一个。
- 二元函数,一个zzz对应一个xxx和一个yyy,有两个导数:一个是zzz对xxx的导数,一个是zzz对yyy的导数,称之为偏导。
- 求偏导时要注意,对一个变量求导,则视另一个变量为常数,只对改变量求导,从而将偏导的求解转化成了一元函数的求导。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)