深度学习中的数学--lecture 1(2)

Codename-NC

532人浏览 · 2017-05-17 09:57:44

Codename-NC · 2017-05-17 09:57:44 发布

Introduction:A Non-Rigorous Review of Deep Learning

原文地址
本篇文章为 MIT 课程 Mathematical Aspects of Deep Learning 的lecture 1 的学习笔记，没有进行完整的翻译，仅供参考

2.卷积网络(Convolution Network)

卷积网络是有线性算子的网络，有使用“底层网格几何”（underlying grid geometry）的局部卷积算子。

卷积层

举例来说，用 m×m <script type="math/tex" id="MathJax-Element-1">m\times m</script> 的网格结构来表示网络的第 k <script type="math/tex" id="MathJax-Element-2">k</script> 层的话，如下图所示
k-th grid

我们定义第 k+1<script type="math/tex" id="MathJax-Element-3">k+1</script> 层的函数 h(k+1)i,j <script type="math/tex" id="MathJax-Element-4">h_{i,j}^{(k+1)} </script> 是由其下面一层的 2×2 <script type="math/tex" id="MathJax-Element-5">2\times2</script> 方阵卷积运算，再带入非线性函数 g <script type="math/tex" id="MathJax-Element-6">g</script> 求得的：

h (k + 1) i, j = g (a (k) h (k) i, j + b (k) h (k) i + 1, j + c (k) h (k) i, j + 1 + d (k) h (k) i + 1, j + 1)

参数 a(k),b(k),c(k),d(k) <script type="math/tex" id="MathJax-Element-8">a^{(k)},b^{(k)},c^{(k)},d^{(k)}</script> 只取决于其所在的层，与具体的方阵坐标 i,j <script type="math/tex" id="MathJax-Element-9">i,j</script> 无关（在视觉领域应用中的必要限制，基本定义并无这一限制）

优点：
- 参数共享
- 函数 h <script type="math/tex" id="MathJax-Element-10">h</script> 定义的局部性使网络获得了“稀疏性”（sparsity）

池化层（Pooling）

经过卷积操作和 g<script type="math/tex" id="MathJax-Element-11">g</script> 函数运算后，得到 grid-indexed 函数 h(k+1)i,j <script type="math/tex" id="MathJax-Element-12">h_{i,j}^{(k+1)} </script> ,我们用其邻近范围内的所有函数的均值或最大值来替代这个函数。