【辉光】【存内计算】2-3 寒武纪大爆发——存内计算的多路径探索

“存内计算”这个词本身，就带有一种哲学上的颠覆性。它要求我们打破一个根深蒂固的思维定式：**存储器只能存储，计算器才能计算。**

11741697

888人浏览 · 2025-07-30 09:00:00

11741697 · 2025-07-30 09:00:00 发布

第二部分：寒武纪大爆发——存内计算的多路径探索

(Part II: The Cambrian Explosion - A Multi-Path Exploration of In-Memory Computing)

开篇：打破思想的牢笼 (Breaking the Mental Cage)

“存内计算”这个词本身，就带有一种哲学上的颠覆性。它要求我们打破一个根深蒂固的思维定式：存储器只能存储，计算器才能计算。

存内计算的核心思想，是利用物理定律，让存储单元本身在“存储”的同时，直接完成“计算”。数据不再需要在存储单元和计算单元之间来回奔波，而是在其物理位置的原地，通过模拟或数字的方式完成运算。这从根本上消除了冯·诺依曼瓶颈。

想象一下，如果一个庞大的图书馆（内存），其每一本书（存储单元）都能“知道”并“响应”一个查询，并直接将结果汇总给图书管理员（控制器），而不是让管理员一本一本地借阅、阅读、归还。这将是何等颠覆性的效率提升。

这场“寒武纪大悟发”，正如生命演化史上那个物种骤然丰富的时代一样，涌现出了众多令人眼花缭乱的技术路径。它们基于不同的物理原理、采用不同的存储介质、面向不同的应用场景。我们将它们划分为三大主要“门”类：基于电荷的模拟计算、基于电阻的模拟计算，以及近内存的数字计算。

第三章：模拟的诗篇——基于物理定律的优雅计算 (An Ode to Analog: Elegant Computation Based on Physical Laws)

模拟计算是存内计算最纯粹、最激进，也最富魅力的形态。它放弃了用晶体管开关来模拟0和1的数字逻辑，而是直接利用宏观物理定律本身来执行数学运算。

3.1 核心基石：欧姆定律与基尔霍夫定律 (The Cornerstones: Ohm’s Law and Kirchhoff’s Law)

几乎所有模拟存内计算的核心，都建立在两条中学生都学过的经典电学定律之上。

欧姆定律 (Ohm’s Law): $\frac{V}{R}$ 或 $\cdot V$ (其中 $\frac{1}{R}$ 为电导)。
- 计算内涵： 电流（I）等于电压（V）乘以电导（G）。这揭示了一个惊人的事实：一个简单的电阻器，在施加电压时，其本身就在瞬间“计算”了一次乘法！
基尔霍夫电流定律 (Kirchhoff’s Current Law, KCL): 汇入一个节点的总电流等于流出该节点的总电流。
- 计算内涵： 如果我们将多个电流汇集到一根公共的导线（如位线 Bitline）上，这根导线上的总电流，天然地就是所有支路电流的“加法”结果！

[核心图表 2-1: 模拟存内计算的基本原理]

图表类型： 电路原理示意图。
内容： 描绘一个简化的存内计算阵列（Crossbar Array）。
- 多条水平的“字线 (Wordlines, WL)”代表输入，其上标注电压值 $V_1, V_2, ..., V_n$ 。
- 多条垂直的“位线 (Bitlines, BL)”代表输出。
- 在每个字线和位线的交叉点，有一个可变电阻器件（用一个方框内带电阻符号表示），其电导值为 $G_{ij}$ 。这代表存储的权重。
运算过程演示：
1. 在高亮显示的 WL_i 上施加电压 $V_i$ 。
2. 根据欧姆定律，在交叉点产生的电流为 $Iij=Vi⋅GijI_{ij} = V_i \cdot G_{ij}$ 。
3. 根据基尔霍夫定律，在 BL_j 上汇集的总电流为 $Ij=∑i=1n(Vi⋅Gij)I_{j} = \sum_{i=1}^{n} (V_i \cdot G_{ij})$ 。
图表注解: “Matrix-Vector Multiplication (MVM) in one shot! 矩阵向量乘法，一步完成。” 这个公式正是神经网络中最核心、计算量最大的运算。一个简单的交叉阵列，利用物理定律，在一个时钟周期内就完成了整个矩阵向量乘法，其效率是数字电路无法比拟的。

3.2 主流路径一：基于电荷的计算 (Charge-Based Computing)

这类技术利用电容器存储电荷的多少来代表权重，并通过电荷分享（Charge Sharing）来实现计算。主流的存储介质是闪存（Flash Memory）。

原理：
- 存储： 闪存的浮栅（Floating Gate）中存储的电子数量，可以精确控制，从而模拟出多个不同的电导状态（权重值）。
- 计算： 当字线施加电压脉冲时，浮栅中的电荷量决定了晶体管导通的程度，即产生了大小不同的电流。这些电流在位线上同样根据基尔霍夫定律进行汇总。
代表玩家与技术：
- Mythic AI: 早期存内计算的明星公司，利用NOR Flash阵列进行计算。其核心优势是能够利用成熟的嵌入式闪存（eFlash）工艺，成本较低，易于集成。
- 优点： 技术成熟度高，与标准CMOS工艺兼容性好，存储密度较高。
- 挑战：
  1. 非理想性： 电荷的存储和读取存在噪声和漂移，导致计算精度有限。
  2. 读写不对称： 写入（擦除/编程）操作非常慢且能耗高，使其不适合需要频繁更新权重的在线学习（On-line Learning）场景。它更适合权重固定的推理（Inference）任务。
  3. 耐久性 (Endurance): 闪存的擦写次数有限（通常在10^4到106次），限制了其使用寿命。

3.3 主流路径二：基于电阻的计算 (Resistance-Based Computing)

这是当前研究最活跃、也最被寄予厚望的方向。它使用一类被称为**忆阻器（Memristor）或更广义的阻变存储器（Resistive RAM, RRAM/ReRAM）**的器件作为可变电阻。

原理：
- 存储： RRAM器件的电阻状态可以通过施加特定的电压/电流脉冲来改变。例如，在高阻态（HRS）和低阻态（LRS）之间切换，分别代表0和1。通过精细控制中间状态，可以实现多比特（Multi-Level Cell, MLC）存储。这些不同的电阻值就是存储的权重。
- 计算： 计算过程与图表2-1完全一致，通过欧姆定律和基尔霍夫定律完成矩阵向量乘法。
关键器件类型：
1. 相变存储器 (Phase-Change Memory, PCM): 利用材料（如GST）在晶态（低阻）和非晶态（高阻）之间的相变来存储信息。写入速度快，但需要较高的写入电流。IBM等巨头在此领域有深厚积累。
2. 阻变存储器 (Resistive RAM, RRAM): 通过在绝缘介质中形成/断开导电细丝（Conductive Filament）来改变电阻。结构简单，与CMOS工艺兼容性好，是目前商业化探索的热点。代表性公司如Crossbar, Weebit Nano。
3. 磁阻随机存取存储器 (Magnetoresistive RAM, MRAM): 利用磁隧道结（MTJ）的隧穿磁阻效应。其核心优势是极高的读写速度和近乎无限的耐久性。但其电阻变化范围（On/Off Ratio）较小，给模拟计算带来了挑战。Everspin, Imec等是领导者。
优点：
- 读写速度快： 纳秒（ns）级别的读写速度，远超Flash。
- 高耐久性： RRAM和MRAM的耐久性可达10^9甚至1012次以上，潜力巨大。
- 潜力巨大： 被视为最接近理想“突触”器件的候选，理论上可以实现极高的能效比和密度。
共同的巨大挑战——“模拟之痛” (The Pains of Analog):
- 非理想性： 器件状态的随机性（Variability）、漂移（Drift）、噪声（Noise）等，导致计算结果不精确。
- 外围电路复杂性： 为了驱动阵列并处理模拟信号，需要高精度的数模转换器（DAC）和模数转换器（ADC）。而ADC的功耗和面积会随着精度的要求指数级增长，这往往会抵消掉计算核心本身带来的能效优势，成为整个系统的新瓶颈。
- 非线性与不对称性： 电阻状态的变化往往不是线性的，这给权重更新算法带来了巨大挑战。

结论：
模拟存内计算，以其无与伦比的优雅和潜力，直接挑战了计算的物理本质。它展现了通过驾驭物理定律来获得百倍、千倍能效提升的宏伟前景。然而，“模拟之痛”——即物理世界固有的非理想性——是其从实验室走向大规模商用必须驯服的野兽。如何通过器件创新、电路设计和算法协同优化，来扬长避短，是这一技术路线成功的关键。

— 第二部分，第三章结束 —

以上是第二部分关于模拟存内计算核心思想与两大主流路径的阐述。我们剖析了其物理基石，并系统对比了基于电荷（Flash）和基于电阻（RRAM, PCM, MRAM）的技术分支，以及它们共同面临的深刻挑战。

第四章：数字的回归——近内存计算与逻辑内计算 (The Digital Return: Near-Memory and In-Logic Computing)。