人工智能应用- 听声辨位：05.声源定位

陈天伟教授 · 2026-03-01 09:14:33 发布

虽然仿生耳朵能够捕获丰富的声音信号，但这些信号通常极为复杂，难以直接从中判断声源的具体方向。图展示了仿生耳朵记录的来自不同方向的声音信号，可以看出，这些信号十分杂乱，难以直接从中判断出声音的方向。

图: 仿生耳朵接收到的来自不同方向的声音信号。图片来源：Yin et al., 2021。

为解决这一问题，研究者引入了深度学习技术，训练卷积神经网络（CNN），让机器学会从复杂的声音信号中提取方向信息。具体而言，仿生耳朵接收到的声音信号首先经过频谱分析得到频谱特征，再将这些特征输入CNN 进行处理。CNN 通过层层计算提取与声源方向相关的特征，最终预测声源的方位角度。

实验结果表明，即便只使用一只仿生耳朵，结合深度学习技术，系统仍然可以达到约 0.5 度的定位精度。这不仅超越了人耳的定位精度（2-3 度），甚至超过了蝙蝠的定位能力（1-3 度）。

这一研究成果展示了深度学习在复杂信号处理中的强大能力。通过结合仿生学与人工智能，科学家们不仅能够模拟自然界中的生物感知系统，还甚至在某些方面超越它们，为高精度声源定位和其他感知设备的研发提供了新的思路。

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

从心理学家的奇想到AI革命：游戏正在重塑世界模型的未来。

国产大模型会写故事后，我用魔珐星云让叙事 Agent 具象交互

魔珐星云 SDK 实战：给 Agent 一副可交互的身体

查看更多评论

已为社区贡献27条内容

温馨提示：您尚未绑定手机号