Introduction:A Non-Rigorous Review of Deep Learning

原文地址
本篇文章为 MIT 课程 Mathematical Aspects of Deep Learning 的lecture 1 的学习笔记,没有进行完整的翻译,仅供参考

2.卷积网络(Convolution Network)

卷积网络是有线性算子的网络,有使用“底层网格几何”(underlying grid geometry)的局部卷积算子。

卷积层

举例来说,用 m×m <script type="math/tex" id="MathJax-Element-1">m\times m</script> 的网格结构来表示网络的第 k <script type="math/tex" id="MathJax-Element-2">k</script> 层的话,如下图所示
k-th grid

我们定义第 k+1<script type="math/tex" id="MathJax-Element-3">k+1</script> 层的函数 h(k+1)i,j <script type="math/tex" id="MathJax-Element-4">h_{i,j}^{(k+1)} </script> 是由其下面一层的 2×2 <script type="math/tex" id="MathJax-Element-5">2\times2</script> 方阵卷积运算,再带入非线性函数 g <script type="math/tex" id="MathJax-Element-6">g</script> 求得的:

h(k+1)i,j=g(a(k)h(k)i,j+b(k)h(k)i+1,j+c(k)h(k)i,j+1+d(k)h(k)i+1,j+1)
<script type="math/tex; mode=display" id="MathJax-Element-7"> h_{i,j}^{(k+1)}=g(a^{(k)}h_{i,j}^{(k)}+b^{(k)}h_{i+1,j}^{(k)}+c^{(k)}h_{i,j+1}^{(k)}+d^{(k)}h_{i+1,j+1}^{(k)})</script>

参数 a(k),b(k),c(k),d(k) <script type="math/tex" id="MathJax-Element-8">a^{(k)},b^{(k)},c^{(k)},d^{(k)}</script> 只取决于其所在的层,与具体的方阵坐标 i,j <script type="math/tex" id="MathJax-Element-9">i,j</script> 无关(在视觉领域应用中的必要限制,基本定义并无这一限制)

优点:
- 参数共享
- 函数 h <script type="math/tex" id="MathJax-Element-10">h</script> 定义的 局部性 使网络获得了“稀疏性”(sparsity)

池化层(Pooling)

经过卷积操作和 g<script type="math/tex" id="MathJax-Element-11">g</script> 函数运算后,得到 grid-indexed 函数 h(k+1)i,j <script type="math/tex" id="MathJax-Element-12">h_{i,j}^{(k+1)} </script> ,我们用其邻近范围内的所有函数的均值最大值来替代这个函数。

h¯(k+1)i,j=14(h(k+1)i,j+h(k+1)i+1,j+h(k+1)i,j+1+h(k+1)i+1,j+1)
<script type="math/tex; mode=display" id="MathJax-Element-13">\overline{h}_{i,j}^{(k+1)}=\frac{1}{4} (h_{i,j}^{(k+1)}+h_{i+1,j}^{(k+1)}+h_{i,j+1}^{(k+1)}+h_{i+1,j+1}^{(k+1)})</script>
这个技巧也可以用来减少维度

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐