联结主义人工智能发展史

核心思想是：认为人的智能归结为人脑的高层活动的结果，强调智能活动是由大量简单的单元通过复杂链接后并行运行的结果。弗兰克·罗森布拉特（Frank Rosenblatt）基于 MP 模型再进一步发明并在 IBM-704 计算机上实现了一种新的神经元数学模型，称为感知机模型（Perceptron），现在也将其称为一种单层神经网络，是神经网络和支持向量机的基础，作为早期神经网络研究的一个重要里程碑。即：感

范桂飓

1340人浏览 · 2025-04-02 16:29:56

范桂飓 · 2025-04-02 16:29:56 发布

1995 年：SVM（支持向量机）

Cortes 和 Vapnik 提出了支持向量机，通过核函数（如高斯核）将数据映射到高维空间，寻找最大间隔超平面进行分类，核函数处理非线性问题。优化目标为：

在这里插入图片描述

它在处理小样本、非线性及高维模式识别问题时展现了显著的优势，并能扩展到函数拟合等其他机器学习问题。

SVM 是在感知机基础上的改进，基于统计学习理论的 VC 维理论和结构风险最小化原则，与感知机的主要区别在于 SVM 寻找的是最大化样本间隔的超平面，具有更强的泛化能力，并通过核函数处理线性不可分问题；

1998 年：卷积神经网络（CNN）

1989年，Yann LeCun（扬·勒丘恩）等人发表论文《Back propagation Applied to Handwritten Zip Code Recognition（反向传播应用于手写邮政编码识别）》，使用结合反向传播算法与权值共享的卷积神经层（Convolution）发明了 CNN（卷积神经网络），并首次将 CNN 成功应用于美国邮局的手写字符识别系统中。

1998 年，Yann LeCun 等人发表论文《Gradient-based learning applied to document recognition》改进了之前的 CNN，提出了 LeNet-5，专为 MNIST 数据集手写数字识别而设计，LeNet-5 引入了卷积、池化和激活函数的使用等关键概念，这些概念已成为现代深度学习的基础。

1998 年，LeCun 使用 BP 算法训练出用于手写数字识别的 LeNet-5 模型，该模型在多层感知机上加了一层卷积层，是第一个正式的卷积神经网络模型；

CNN 是一种专门用于处理图像数据的神经网络，卷积（Convolution）仍然是处理图像数据最有效的运算之一。

CNN 通常由输入层、卷积层、池化层和全连接层组成：

卷积层：负责提取图像中的局部特征。
池化层：用于降低参数量级。
全连接层：则输出结果。

CNN 通过卷积层、池化层等结构来捕捉图像中的局部特征和空间关系。

在这里插入图片描述

卷积运算，就是将两个张量对应元素相乘，再把所有的乘积相加。
请添加图片描述

为什么卷积运算与图像数据是 “相适配” 的呢？用一个 “边缘检测卷积核” 的案例来说明。

假设有一个图像（数值代表像素值），左半边纯黑，右半边纯白，那么中间就存在这一条 “边缘”。一个深度学习模型要想理解这张图，一个至关重要的因素就是能否“意识”到这个 “边缘” 的存在。而下图中间的卷积核，使用这个卷积核在图像上 “滚” 一遍之后，得到的结果在右边，它清晰地标识了 “边缘” 的存在。

在这里插入图片描述

可见，不同的卷积核擅长检测不同的图像特征。在 CNN 中会存在着数不清的卷积核，不同的卷积核会负责检测不同的图像特征。
在这里插入图片描述

并且，卷积核会层层级联：

前端（靠近图像）的卷积核关注细节特征；
靠后的卷积核会关注更加大范围、更加整体性的特征；
最末端的卷积核关注的就是整张图像的总体特征。

这个由细节到大体、由局部到全局的图像解析方式，和人类视神经系统非常相似。

请添加图片描述

2012 年横扫 ImageNet 大赛的 AlexNet，它就是以卷积运算为其主体结构的。
请添加图片描述

2006 年：深度信念网络（DBN）

1993 年，Geoffrey Hinton 发表论文《Auto encoders, minimum description length and Helmholtz free energy》，发表了关于 Auto-encoders（自编码器）的研究。

2006 年，Geoffrey Hinton 等人发表论文《A Fast Learning Algorithm for Deep Belief Nets》，提出深度信念网络（DBN）。这篇论文被认为是近代的深度学习方法的开始。

同年，还是 Geoffrey Hinton 等人发表论文《Reducing the Dimensionality of Data with Neural Networks》，提出深度自编码器。这两篇论文都提出深层网络训练中梯度消失问题的解决方案：逐层贪心预训练，即通过无监督预训练对权值进行初始化+有监督训练微调。

2006年Hinton提出了深度信念网络（DBN），通过pretraining的方法实现了训练五层神经网络，掀开了深度学习神经网络复兴的序幕；

学界认为AI第三次浪潮源于2006年Hinton提出的“深度信念网络模型”，这种网络能使用‘贪婪逐层预训练’的策略对模型进行高效训练并快速收敛。这使得之前不可能被有效训练地深度神经网络变得可被训练，大大提升了模型训练效率和输出的准确性，验证了“深度学习”的可行性。

Hinton提出的“深度信念网络”使用“贪婪逐层预训练”的策略，使得训练深度神经网络模型成为可能，大大促进了深度学习的发展。

杰弗里·辛顿（Geoffrey Hinton）和他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度信念网络（DBN）的概念，采用受限玻尔兹曼机（RBM）对多层神经网络进行逐层预训练，通过对比散度算法调整权重，解决梯度消失问题和深层网络初始化难题。为深层网络训练提供可行方案。

开启了深度学习在学术界和工业界的浪潮，辛顿也因此被誉为深度学习之父。深度学习使用多层隐藏层网络结构，通过大量的向量计算来学习数据的高阶表示。

深度学习是一种机器学习技术，它使用深层神经网络来模拟人脑的学习过程。深度学习通过构建多层次的神经网络结构，能够自动地提取数据的特征并进行复杂的模式识别。深度学习在自然语言处理、计算机视觉等领域取得了重大突破。

2006年Hinton首次实现了5层神经网络的训练，之后行业迎来爆发式发展，不断验证了该技术的潜力。

工程实践中，参数是由数据驱动调整、并在训练过程中自动生成的，训练者需要调节的是“超参数”。区别于传统模式识别方式，深度学习从大数据中自动学习特征，并能自动地将简单特征组合成更加复杂的特征，进而使用组合特征解决问题。本质上深度学习与大脑皮层认知过程类似，深度学习是一个多层传递、不断抽象的过程，从底层模拟人脑机制。

在这里插入图片描述

深度置信网络是神经网络的一种。既可以用于非监督学习，也可以用于监督学习。深度置信网络组成元件是受限玻尔兹曼机。通过下图的网络结构，我们可以看出深度置信网络和受限玻尔兹曼机的关系：
在这里插入图片描述

训练深度置信网络由两部分组成。一是单独训练每一个受限玻尔兹曼机，使它们收敛。二是将每一个受限玻尔兹曼机深入展开，构成一个前向传播的深层网络。然后使用BP算法微调参数，从而使整个网络收敛。

深度神经网络始于 2006 年，亨顿解决了局部最优解问题，将隐含层数提高到7层，让ANN具备真正意义上的“深度”。随着隐含层数的增加，损失函数会出现很多局部最小值，寻找损失函数的最优解变得越来越困难。2006年，连接主义的领军者Hinton提出了深度信念网络，利用预训练方法在一定程度上解决了局部最优解的挑战，使神经网络的能力大大提高。

在这里插入图片描述

2012 年：AlexNet 与卷积神经网络（CNN）

在2009年，带着“Data will redefine how we think about models”的理念，华人计算机科学家李飞飞在WordNet的基础上，利用Amazon的众包服务为一个具有1200万张图片的数据集打上了人工的标签，并组织了每年一度的ImageNet挑战赛。

在2012年时，辛顿带领学生Alex Krizhevsky和Ilya Sutskever用Alexnet深度神经网络以极大的优势战胜了当时所有的竞争对手。Alexnet的横空出世可谓是天时地利人和，将深度卷积神经网络这个模型，利用当时先进的GPU计算能力，应用到大量数据Imagenet上，才获得了成功。这使得深度神经网络一战成名，正式宣布深度学习时代的到来。

2012年之后，在生成学习领域也出现了快速的发展，2014年的Generative Adversarial Network，Variational Autoencoder，2015年的Flow Models，Diffusion Models，2017年的Self-Attention机制和Transformer接踵出现，催生了2022年的ChatGPT，最终到2024年国内外的大火的DeepSeek R1。

可以看到在这场现代生成模型的浪潮中，玻尔兹曼机的身影逐渐消失了。具体的原因是现代的生成模型从模型的角度上解决了玻尔兹曼机的配分函数计算以及采样这两个难题。

在这里插入图片描述

2012 年，Hinton 在 ImageNet 比赛中使用深度卷积神经网络模型 AlexNet，成功将图片识别错误率降低了 10.8pcts，深度学习神经网络发展迎来高峰期。

李飞飞团队所贡献的 ImageNet，李飞飞从互联网上下载了 1400 万张图片，想要手工对这些图片进行标注类别，他们原来预计要 10 多年才能完成的标注任务，通过互联网的众包模式两年就完成了。ImageNet 最开始出现在行业内并没有引起太多的注意，李飞飞就索性自己搞起了竞赛，邀请人工智能的团队来对 ImageNet 中挑选出来的数据进行分类比赛，以此来推广自己的 ImageNet 和新的人工智能算法。

前两届都是传统的人工智能算法 SVM 支持向量机获得了胜利，正当李飞飞团队感到有些泄气的时候，2012 年的第 3 届，这次的结果就有些不一样了，有一个团队用一个叫 AlexNet 的 CNN 卷积神经网络取得了第一名，而且准确率比上一年的最好成绩足足提高了 10%。

2013 年 12 月 19 日，Google DeepMind 发表论文《Playing Atari with Deep Reinforcement Learning》，提出了Deep Q-Network (DQN)，将深度学习与强化学习相结合。DQN 通过使用 CNN 估计 Q 值，成功在 Atari 游戏中实现了超越人类的表现。DQN 对人工智能和自动化控制系统产生了深远影响。

2013 年 12 月 20 日，Durk Kingma 和 Max Welling 在 ICLR 上发表论文《Auto-Encoding Variational Bayes》，提出了变分自编码器（Variational Auto-Encoder，VAE），展示了一种结合贝叶斯推理和深度学习的生成模型。VAE 通过编码器-解码器结构学习数据的潜在表示，并能够生成新样本。VAE 在图像生成、异常检测、数据压缩等领域取得显著成果。其创新方法为生成模型提供了概率框架，推动了深度学习在生成任务中的应用和发展。

VAE 基本思路是将真实样本通过编码器网络变换成一个理想的数据分布，然后把数据分布再传递给解码器网络，构造出生成样本，模型训练学习的过程是使生成样本与真实样本足够接近。

2014 年 6 月 10 日，Ian Goodfellow 等人发表论文《Generative Adversarial Nets》提出生成对抗网络（GAN），在图像生成、图像修复、超分辨率等领域取得了显著成果，为生成模型带来了新的方向。

在这里插入图片描述

业界认为人工智能的第三次复兴起源于 2012 年的 ImageNet 挑战赛，比赛中 Hinton 的研究小组采用深度学习算法成功地将图片识别错误率降低了 10.8pcts。

2012 年，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 的 AlexNet 在 ImageNet 大规模视觉识别挑战赛 (ILSVRC)中取得了巨大成功，首次采用 ReLU 激活函数，从根本上解决了梯度消失问题，于是抛弃了预训练+微调的方法，完全采用有监督训练。AlexNet 展示了 CNN 的强大功能，并标志着计算机视觉的转折点，普及了深度学习技术。
在这里插入图片描述

2012年Hinton在ImageNet挑战赛中引进深度学习算法，在随后几年内，深度学习成功地大幅降低了图片识别错误率，随后行业迎来爆发式发展，深度学习的商用进程得以加速。

Hinton 和他的学生 Alex Krizhevsky 设计的 AlexNet 神经网络模型在 ImageNet 竞赛大获全胜，第一个深度神经网络算法，这是史上第一次有模型在 ImageNet 数据集表现如此出色，并引爆了神经网络的研究热情。

AlexNet 是一个经典的卷积神经网络（CNN）模型，主要应用于计算机视觉领域。在数据、算法及算力层面均有较大改进，创新地应用了 Data Augmentation、ReLU、Dropout 和 LRN 等方法，并使用 GPU 加速网络训练。

大数据的出现在很大程度上缓解了训练过拟合的问题。互联网及互联网企业在此轮AI爆发中起到决定性作用，其生产经营活动中创造并积累了大量数据，更激活了整个社会的数据意识。

使用 ReLU 激活函数加速收敛，引入 Dropout 层随机屏蔽神经元防止过拟合，并应用了 GPU 加速训练，使其在 ImageNet 竞赛中实现 Top-5 错误率 15.3% 的突破。

在这里插入图片描述

AlexNet 神经网络模型是一种深度卷积神经网络模型，它在2012年的ImageNet图像分类竞赛中取得了显著的成绩。AlexNet通过引入ReLU激活函数、Dropout等技术，提高了神经网络的性能和泛化能力。

杰弗里·辛顿第二次将神经网络带出了寒冬，这次神经网络的发展来势凶猛；2012年被称为神经网络元年，2015年出现残差网络，2017年transformer架构提出，2018年基于transformer架构的GPT-1推出，2020年推出1750亿参数的GPT3，2022年推出基于GPT-3.5的ChatGPT为大众所熟知

2014 年：生成对抗网络

Goodfellow 及 Bengio 等人提出生成对抗网络（Generative Adversarial Network，GAN），被誉为近年来最酷炫的神经网络。

GAN 是基于强化学习（RL）思路设计的，由生成网络（Generator, G）和判别网络（Discriminator, D）两部分组成：

生成网络构成一个映射函数 G: Z→X（输入噪声 z, 输出生成的伪造数据 x）
判别网络判别输入是来自真实数据还是生成网络生成的数据

在这样训练的博弈过程中，提高两个模型的生成能力和判别能力。

生成对抗网络是一种深度学习模型，它由生成器和判别器两个网络组成。生成器负责生成逼真的数据样本，而判别器则负责区分真实数据和生成数据。GAN在图像生成、视频合成等领域有广泛的应用。

2014年6月24日，Google DeepMind发表Recurrent Models of Visual Attention，使得注意力机制（Attention Mechanism）开始受到广泛关注。该论文采用了循环神经网络（RNN）模型，并集成了注意力机制来处理图像分类任务，开创了将注意力机制应用于深度学习模型的先河。

2014年9月1日，Dzmitry Bahdanau、KyungHyun Cho 和 Yoshua Bengio 发表论文Neural Machine Translation by Jointly Learning to Align and Translate，将注意力机制（Attention Mechanism）引入机器翻译，以提高长序列处理能力。它在机器翻译的历史中标志着一个重要的转折点。

2015 年：深度学习的联合综述《Deep learning》

为纪念人工智能概念提出 60 周年，深度学习三巨头 LeCun、Bengio 和 Hinton（他们于 2018 年共同获得了图灵奖）推出了深度学习的联合综述《Deep learning》。

文中指出深度学习就是一种特征学习方法，把原始数据通过一些简单的但是非线性的模型转变成为更高层次及抽象的表达，能够强化输入数据的区分能力。通过足够多的转换的组合，非常复杂的函数也可以被学习。

深度学习的成功来自于以下 3 个要素：

一是数据，以 AlphaGo 为例，其中 AlphaGo-Zero 通过强化学习自学了亿级的棋局，而人类在千年的围棋史中，下过的有效棋局只不过 3000 万盘。
二是算法，包括蒙特卡洛树搜索（Monte-Carlotreesearch）、深度学习和强化学习（reinforcementlearning）等。
三是算力，运行 AlphaGo 的机器是由 1920 个 CPU 和 280 个 GPU 组成的分布系统。因此第二代 AI 又称数据驱动方法。

在创建第二代 AI 中做出重大贡献的学者中，有以下 5 位获得图灵奖。他们是菲丽恩特（L. G. Valiant，2010）、珀尔（J. Pearl，2011）、本杰奥（Y. Bengio，2018）、辛顿（G. Hinton，2018）、杨立昆（Y. LeCun，2018）等。

在这里插入图片描述

2015 年：ResNet 残差网络

2015年12月10日，何凯明等人发表论文Deep Residual Learning for Image Recognition，提出了ResNet（残差网络），展示了一种通过残差连接解决深层神经网络训练难题的方法。ResNet在ILSVRC 2015竞赛中获得冠军，显著提高了深度学习模型的性能和可训练性。其创新架构允许构建更深的网络，推动了图像识别、目标检测等计算机视觉任务的发展，成为深度学习领域的重要基石。
在这里插入图片描述

Microsoft Research 的 Kaiming He 等人提出的残差网络（ResNet）在 ImageNet 大规模视觉识别竞赛中获得了图像分类和物体识别的优胜。残差网络的主要贡献是发现了网络不恒等变换导致的 “退化现象（Degradation）”，并针对退化现象引入了 “快捷连接（Shortcut connection）”，缓解了在深度神经网络中增加深度带来的梯度消失问题。支持多达千层的深度网络训练。

在这里插入图片描述

残差网络（ResNet)：是一种深度卷积神经网络模型，它通过引入残差连接来解决深层神经网络中的梯度消失和梯度爆炸问题。ResNet在图像分类、目标检测等任务中取得了优异的性能。

2015年-2016年，Google，Facebook相继推出TensorFlow、PyTorch 和 Keras，极大地促进了深度学习研究和应用的发展，使得复杂的神经网络模型的开发和训练变得更加便捷和高效。

2016年：Google DeepMind开发的AlphaGo击败了围棋世界冠军李世石，展示了深度强化学习的潜力。

参考文档

https://mp.weixin.qq.com/s/S5D6YSsWw2bdUyKMYjwTdg
https://mp.weixin.qq.com/s/QD-nHjUAQwtijGx_s8VLrQ
https://zhuanlan.zhihu.com/p/18014930527
https://mp.weixin.qq.com/s/TfwA4x8dU_rMhC0fuE-xYw
https://zhuanlan.zhihu.com/p/18014930527

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AI五大门派的底牌、命门与终极赌局

作为一个面向Web的动态3D高斯泼溅（3DGS）渲染器，Spark与当前最流行的Web3D框架Three.js集成，并基于Web GL2运行，因此只要有浏览器，无论是桌面端、iOS、Android，还是VR设备，都可以使用。比如Skild AI，它的核心产品“Skild Brain”，作为统一的机器人基础模型，其目标是让同一个“大脑”能够控制任何形态的机器人，无论是四足机器人、人形机器人还是桌面机