第一部分:芯片产热的原理

芯片产热的根本原因是能量的转换:输入的电能并没有全部转换成有用的计算或信号能量,其中一部分不可避免地转换成了热能。这个过程主要发生在晶体管的级别上。

1. 动态开关功耗 - 主要热源

这是芯片(尤其是CPU、GPU等数字芯片)最主要的热源。

(1)原理:芯片由数十亿个晶体管组成。每个晶体管在“开”(导通)和“关”(截止)状态之间切换,代表“0”和“1”。

(2)产热过程:

  • 电容充电/放电:晶体管的栅极和互联线都存在微小的寄生电容。当状态切换时,需要从电源拉取电流来对这些电容充电;当状态改变时,电容上的电荷又通过晶体管放电到地。
  • 能量损耗:这个充放电过程本身并不消耗能量(理想电容)。但提供电流的电源有电压差,电流流过晶体管(存在电阻)和互联线时,就会产生热量。其公式可以简化为

 P = α* C * V² * f

P:功耗(热耗)

α:活动因子(有多少比例的门电路在切换)

C:负载电容

V:电源电压

f:时钟频率

简单理解:晶体管开关越快(频率f越高),电压越高(V越大),产生的热量就越多。这就是超频和提升主频会导致温度急剧上升的原因。

2. 静态功耗 - 漏电功耗

即使晶体管不切换,只要芯片通电,也会产生热量。

(1)原理:在纳米级工艺下,晶体管无法完全“关断”,会有极其微弱的电流从源极泄漏到衬底。这部分电流也会产生热量。

(2)特点:随着工艺尺寸越来越小(如7nm, 5nm, 3nm),静态功耗占总功耗的比例越来越大,成为一个严峻的挑战。

3. 短路电流功耗

在晶体管切换的极短时间内,源极和漏极之间会形成一个短暂的导通路径,产生一个小的脉冲电流,也会贡献一部分热量。

第二部分:芯片传热的原理

热量一旦在硅晶圆内部产生,就必须被及时带走,否则会导致温度飙升。热量传递遵循传热学三大基本方式:传导、对流、辐射。对于芯片散热,传导和对流是绝对主导。

1. 热传导 - 热量“传递出去”的第一步

这是热量从芯片内部传递到外表面的核心方式。

(1)原理:微观上,温度高的地方分子振动更剧烈,通过碰撞将能量传递给相邻振动较弱的分子,从而实现热量的传递。

(2)傅里叶定律:描述了热传导的速率,与材料的导热系数、横截面积和温度梯度成正比,与传热路径长度成反比。

公式: Q = k * A * (ΔT / L)

Q:热流速率(W)

k:导热系数(W/m·K),是材料固有的属性,k值越大,导热性能越好。

  • 铜 (~400 W/(m·K)): 优良导体,常用于散热器。
  • 硅 (~150 W/(m·K)): 芯片本身,导热不错。
  • 空气 (~0.026 W/(m·K)): 极差的热导体,需用导热膏填充空隙。
  • 导热硅脂 (~1-5 W/(m·K)): 用于填补缝隙,排除空气。

A:横截面积(m²)

ΔT:温差(K)

L:传热路径长度(m)

(3)在芯片中的应用:

  • 从晶圆到外壳:热量从产生热点的晶体管开始,通过硅衬底(k ~150 W/m·K,导热良好)向下传导。
  • 经过界面材料:热量传导到芯片封装外壳后,需要通过导热界面材料(TIM,如硅脂、导热垫片)传导到散热器底座。TIM的作用是填充芯片外壳和散热器之间微小的空气缝隙(空气的k极低,~0.026 W/m·K,是热的不良导体)。
  • 进入散热器:热量传导到散热器(通常由铜或铝制成,k很高)的底座,然后通过散热器的鳍片向上和四周传导。

(4)热阻概念:表示物体阻碍热量传递的能力。热阻定义公式:R_θ = ΔT / Q

其中:

  • R_θ:热阻。单位是 °C/W 或 K/W。物理意义:表示物体阻碍热量传递的能力。热阻越大,散热越困难,相同功耗下温升越高。
  • ΔT: 导热路径两端的温差。单位是 °C 或 K。对于芯片,通常指结温(Tj)与环境温度(Ta)或某个参考点(如外壳)的温差。
  • Q: 通过热阻的热流速率(功耗)。单位是 W。

这个公式是所有热计算中最核心、最重要的公式。它可以变形为:

ΔT = Q * R_θ

这就是芯片温升的计算公式! 例如,一个芯片功耗是 5W,从芯片到环境的总热阻是 10°C/W,那么温升就是 5W * 10°C/W = 50°C。如果环境温度是 25°C,那么结温就是 25°C + 50°C = 75°C。

将傅里叶定律代入热阻公式,得到材料本身的热阻公式:R_θ = L / (k * A)

其中:

  • L: 材料厚度 (m)
  • k: 材料导热系数 (W/(m·K))
  • A: 截面积 (m²)

这个公式是计算一块均匀材料的热阻。

2. 热对流 - 热量“散发到环境中”的关键步骤

这是将散热器上的热量最终散发到周围空气(或液体)中的方式。

(1)原理:流动的流体(空气或液体)与固体表面接触时,由于温差而发生的热量交换。

(2)牛顿冷却定律:描述了表面对流换热的速率。

  • Q = h * A * (T_surface - T_fluid)
  • h:对流换热系数(W/m²·K),代表了流体带走热量的能力。流速越高,h越大。
  • A:与流体接触的表面积(m²)
  • T_surface:固体表面温度
  • T_fluid:流体温度

(3)在芯片散热中的应用:

  • 自然对流:散热器表面的热量加热附近的空气,热空气密度变小上升,冷空气补充过来,形成自然循环。换热能力较弱。
  • 强制对流:使用风扇强制空气流过散热器鳍片,极大地提高了流速,从而显著增大换热系数h,是大多数主动散热的原理。水冷则是通过水泵驱动液体(通常是水)流动,液体的比热容远大于空气,因此能带走更多的热量。

3. 热辐射 - 通常可忽略

所有物体都会以电磁波的形式辐射能量。

(1)原理:温度越高,辐射能力越强。

(2)在芯片散热中的应用:在芯片的工作温度下(通常<100℃),辐射换热量与传导和对流相比非常小(通常<5%),在一般散热分析中可以忽略不计。除非在真空环境(如太空)中,没有空气进行对流,辐射才会成为主要的散热方式。

总结:完整的热量传递路径

(1)一个典型的芯片热量传递“旅程”如下:

  • 产热:电能在大规模集成电路的晶体管开关过程中转化为热能(动态功耗)。
  • 内部传导:热量通过传导在硅芯片内部传递,从晶圆到达芯片封装外壳
  • 界面传导:热量通过传导经过导热界面材料,从芯片外壳传递到散热器底座
  • 散热器传导:热量通过传导在散热器内部从底座扩散到大量的鳍片上。
  • 外部对流:流动的空气(强制对流)与散热器鳍片表面接触,将热量带走,散发到周围环境中。

(2)核心设计思想:整个路径可以看作一个“热流”电路,存在一系列“热阻”。散热设计的目的是优化这条路径,最大限度地降低总热阻,从而在给定的环境温度下,将芯片结温控制在安全范围内。

(3)整个过程的总热阻由多个部分串联而成。总热阻公式:R_θja = R_θjc + R_θcb + R_θba = (Tj - Ta) / P

其中:

  • R_θja: 结到环境的热阻。这是最顶层的系统级热阻。
  • R_θjc: 结到壳的热阻。热量从芯片晶圆传导到封装外壳表面的热阻,主要由芯片封装本身决定。
  • R_θcb: 壳到板的热阻。热量从封装外壳传导到PCB板的热阻,与焊接和PCB材料有关。
  • R_θba: 板到环境的热阻。热量从PCB板散失到环境空气中的热阻,与板子设计、空气流动有关。
  • Tj: 结温,芯片的最高工作温度。
  • Ta: 环境温度
  • P: 芯片功耗

下图清晰地展示了一条典型的热量从芯片内部(结)散发到外部环境(空气)的路径,以及各环节对应的热阻。它形象地说明了总热阻是各级热阻串联叠加的结果:

(4)芯片产热与传热原理流程图:

              

图表解读与关键要点:

该流程图展示了热量在芯片中从产生到散发的完整路径,主要包括以下几个关键阶段:

(1)产热机制(红色部分)

  • 动态开关功耗:晶体管在高速开关状态切换时产生,是最主要的热源。
  • 静态功耗:晶体管漏电流产生,在先进工艺中占比越来越大。
  • 短路电流功耗:状态切换瞬间的短路路径产生。

(2)传热路径 - 热传导(紫色部分):这是热量传递的核心方式,通过分子振动从高温区向低温区传递,依次经过:

  • 硅晶圆/衬底
  • 芯片封装外壳
  • 导热界面材料(TIM,如硅脂/垫片,填补微观空隙,降低接触热阻)
  • 散热器底座
  • 散热器鳍片

(3)最终散热 - 热对流(橙色部分):热量传递到散热器鳍片后,主要通过强制对流(风扇驱动)或自然对流被流动的空气或液体带走,最终散发到环境大气中。

(4)热辐射(灰色部分):所有物体都会辐射热量,但在芯片正常工作温度下(通常 < 100°C),其换热量与传导和对流相比微不足道(通常 < 5%),因此在一般散热分析中常被忽略

核心设计思想:整个散热设计可以看作是在优化一条“热流”电路,目标是最大限度地降低从芯片结(Junction)到环境(Ambient)的总热阻 R_θja,就是通过选择优质材料、增大面积、减少厚度、增强对流等方法,以确保芯片温度工作在安全范围内。任何环节的热阻过高都会导致芯片过热。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐