边缘端LLM/VLM推理框架:TensorRT Edge-LLM
—一个全新的、开源的C++ LLM/VLM推理框架,旨在满足高性能边缘推理的新兴需求。Edge-LLM专为嵌入式汽车与机器人平台(某机构 DRIVE AGX Thor 及某机构 Jetson Thor)上的实时应用而构建。合作伙伴已开始利用TensorRT Edge-LLM作为其车载AI产品的基础,包括某机构、某机构及某机构,这些厂商将在2026 CES上展示相关技术。随着TensorRT Edg
加速汽车与机器人领域的LLM与VLM推理:TensorRT Edge-LLM
大型语言模型(LLM)与多模态推理系统正迅速扩展至数据中心之外。汽车与机器人领域的开发者越来越倾向于在车辆或机器人本体上直接运行对话式AI代理、多模态感知及高层规划任务——这些场景对延迟、可靠性及离线运行能力有着严苛要求。
尽管现有诸多LLM与视觉语言模型(VLM)推理框架聚焦于数据中心需求(如管理海量并发请求、最大化吞吐量),嵌入式推理则需要专属的定制化解决方案。
本文正式介绍 某机构 TensorRT Edge-LLM——一个全新的、开源的C++ LLM/VLM推理框架,旨在满足高性能边缘推理的新兴需求。Edge-LLM专为嵌入式汽车与机器人平台(某机构 DRIVE AGX Thor 及某机构 Jetson Thor)上的实时应用而构建。该框架随某机构 JetPack 7.1 版本发布,并以开源形式托管于GitHub。
TensorRT Edge-LLM具有极少的依赖项,便于生产级边缘应用的部署。其精简、轻量的设计明确聚焦于嵌入式专用能力,最大限度降低了框架自身的资源占用。
此外,TensorRT Edge-LLM的先进特性——如EAGLE-3投机解码、NVFP4量化支持及分块预填充——为高要求的实时用例提供了顶尖性能。
图1. TensorRT Edge-LLM 在使用Qwen3模型与投机解码时展现出卓越性能
实时边缘场景下的LLM与VLM推理
边缘LLM与VLM推理负载具有以下特征:
- 少数用户或单用户请求
- 低批量(通常来自多个摄像头)
- 面向关键任务的生产级部署
- 离线运行,无需持续更新
因此,机器人与汽车领域的实时应用提出了特定需求:
- 极小且可预测的延迟
- 最低限度的磁盘、内存及算力占用
- 符合生产标准
- 高鲁棒性与可靠性
TensorRT Edge-LLM的设计宗旨即是满足并优先处理这些嵌入式特定需求,为嵌入式LLM与VLM推理提供坚实基础。
TensorRT Edge-LLM在汽车用例中的快速应用
合作伙伴已开始利用TensorRT Edge-LLM作为其车载AI产品的基础,包括某机构、某机构及某机构,这些厂商将在2026 CES上展示相关技术。
- 某机构与某机构、某机构合作开发创新的AI座舱,其特色是具备自然语音交互能力的车载AI助手。该方案采用嵌入式自动语音识别(ASR)与语音合成(TTS)AI模型,并通过TensorRT Edge-LLM进行LLM推理,实现强大的车载AI,并通过精密编排器与云端大模型协同工作。
- 某机构将TensorRT Edge-LLM集成至其即将推出的基于某机构 DRIVE AGX Orin的AIBOX平台,实现车内的低延迟、设备端LLM及多模态推理。通过将某机构的汽车软件栈与TensorRT Edge-LLM轻量级C++运行时及优化的解码路径相结合,AIBOX在严格的功耗与内存限制下提供了低延迟的对话及座舱辅助体验。
- 某机构在其CX1系统级芯片上基于TensorRT Edge-LLM进行开发,支持前沿的座舱AI与人机交互应用。TensorRT Edge-LLM为包括驾驶员及座舱活动监控在内的广泛用例加速LLM与VLM推理。某机构通过贡献新的嵌入式专用推理方法,参与TensorRT Edge-LLM的开发。
随着TensorRT Edge-LLM的推出,这些LLM与VLM推理能力现已面向某机构 Jetson生态系统开放,作为机器人技术的基石。
TensorRT Edge-LLM 架构剖析
TensorRT Edge-LLM旨在提供LLM与VLM推理的端到端工作流,涵盖三个阶段:
- 将Hugging Face模型导出为ONNX格式
- 为目标硬件构建优化的某机构 TensorRT引擎
- 在目标硬件上运行推理
图2. TensorRT Edge-LLM 工作流及关键组件
Python导出流水线:将Hugging Face模型转换为ONNX格式,支持量化、LoRA适配器及EAGLE-3投机解码(图3)。
图3. TensorRT Edge-LLM Python导出流水线阶段与工具
引擎构建器:专门为嵌入式目标硬件构建优化后的TensorRT引擎(图4)。
图4. TensorRT Edge-LLM 引擎构建器工作流
C++运行时:负责目标硬件上的LLM与VLM推理。该运行时利用TensorRT引擎执行自回归模型的核心解码循环:基于输入及先前生成的Token进行迭代式Token生成。用户应用程序与此运行时交互,以解决LLM与VLM工作负载。
图5. TensorRT Edge-LLM C++运行时的预填充与解码阶段
关于各组件的更详细说明,请参阅TensorRT Edge-LLM文档。
快速上手 TensorRT Edge-LLM
准备好开始在 Jetson AGX Thor DevKit 上进行LLM与VLM推理了吗?
- 下载JetPack 7.1版本。
- 克隆某机构/TensorRT-Edge-LLM GitHub仓库的JetPack 7.1发布分支:
git clone https://github.com/NVIDIA/TensorRT-Edge-LLM.git - 查阅TensorRT Edge-LLM快速入门指南,获取详细说明:如何从Hugging Face获取开箱即用的支持模型、转换为ONNX、为Jetson AGX Thor平台构建TensorRT引擎,并通过C++运行时运行它们。
- 探索TensorRT Edge-LLM示例,了解更多特性与功能。
- 参阅TensorRT Edge-LLM定制指南,根据自身需求调整框架。
对于某机构 DRIVE AGX Thor用户,TensorRT Edge-LLM已集成至某机构 DriveOS发布包中。DriveOS的未来版本将持续利用该GitHub仓库。
随着LLM与VLM快速向边缘迁移,TensorRT Edge-LLM提供了一条从Hugging Face模型到某机构汽车与机器人平台上实时、生产级执行的清晰可靠路径。
探索工作流,测试您的模型,并着手构建下一代智能设备端应用。欲了解更多,请访问某机构/TensorRT-Edge-LLM GitHub仓库。
致谢
感谢 Michael Ferry, Nicky Liu, Martin Chi, Ruocheng Jia, Charl Li, Maggie Hu, Krishna Sai Chemudupati, Frederik Kaster, Xiang Guo, Yuan Yao, Vincent Wang, Levi Chen, Chen Fu, Le An, Josh Park, Xinru Zhang, Chengming Zhao, Sunny Gai, Ajinkya Rasane, Zhijia Liu, Ever Wong, Wenting Jiang, Jonas Li, Po-Han Huang, Brant Zhao, Yiheng Zhang, 以及 Ashwin Nanjappa 对 TensorRT Edge-LLM 的贡献与支持。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)