【LLM应用开发】大模型使用时的Token数和计算方式？

一文搞懂：大模型使用中的token数及其计算方式

韩小豪001

6053人浏览 · 2025-06-03 10:04:18

韩小豪001 · 2025-06-03 10:04:18 发布

一、前言

大模型中的 Token（标记）是模型处理文本的最小单位，它不同于字数或词数。
大模型处理上下文、控制生成长度、计费等通常都是按 token 来进行的。

二、什么是Token？

Token 是文本被模型切分后的最小单位。
一个 Token 可能是：
- 一个汉字（如 “你”）
- 一个英文字母、单词（如 “hello”）
- 一个标点（如 “，”）
✅ 中文：每个字 ≈ 1 个 token
✅ 英文：一个词 ≈ 1～2 个 token

三、计算方式

模型	分词器/编码规则	平均 token/字比率
OpenAI GPT	tiktoken	1 token ≈ 0.75 字
通义千问	qwen tokenizer（近似）	中文 1字 ≈ 1 token
ChatGLM	自研分词器（按词切分）	中文词 ≈ 1～2 token
Baichuan	基于 SentencePiece	中文1字 ≈ 1 token

不同大模型使用不同的分词器（Tokenizer）来计算Token使用量。

四、实际举例

输入内容：你好，AI 助手！
- 中文 6 个字符，对应大约 6 个 token
- 你、好、，(中文标点逗号)、助、手、！(中文感叹号)
英文输入：Hello, how are you today?
- 大约为 7～8 个 token
- hello、,（英文标点逗号）、how、are、you、today、?（英文标点暗号）

五、模型生成中 Token 的作用

大模型 API 调用时通常会有两个 Token 限制：

限制类型	含义
`max_tokens`	输出最多生成多少 token
`context_limit`	输入 + 输出 token 总数不能超过该值

例如：

# 调用通义千问模型生成内容
response = dashscope.Generation.call(
    model="qwen-plus",
    messages=[{"role": "user", "content": "请介绍一下大模型"}],
    result_format='message',
    max_tokens=500  # 最多生成 500 token
)

六、为什么要关注 Token？

Token 限制：每个模型的上下文窗口（context window）有限（如 4096、8192）。
计费依据：多数 API 是按 Token 计费（如 1000 token ＝ $0.01）。
Prompt 构建影响：太长的 Prompt 可能被截断或额外收费。

七、辅助工具推荐

若你使用 OpenAI，可用 tiktoken 工具计算 token 数：

import tiktoken
enc = tiktoken.encoding_for_model("gpt-3.5-turbo")
tokens = enc.encode("你好，AI 助手！")
print(len(tokens))  # 输出 token 数

若使用通义千问（Qwen）系列大模型进行 Token 数量估算时，可以通过其官方推荐的分词工具 tiktoken 或 tokenizers 替代品进行模拟。
但目前通义没有完全开放的 Tokenizer 工具，因此你可以用以下替代方案进行计算：
✅ 推荐：使用 transformers 中的 Qwen Tokenizer 辅助工具
- 通义千问已经上线 Hugging Face 可用的分词器，推荐使用如下工具来估算 Token 数：
1.🔧 安装依赖：

	pip install transformers

2.🧪 示例工具代码（基于 Qwen tokenizer）：

from transformers import AutoTokenizer

# 使用通义千问的官方 Tokenizer 名称（根据模型选择）
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-0.5B", trust_remote_code=True)

def count_qwen_tokens(text):
    tokens = tokenizer.encode(text, add_special_tokens=False)
    return len(tokens), tokens

if __name__ == "__main__":
    test_text = "你好，AI 助手！"
    count, tokens = count_qwen_tokens(test_text)
    print(f"原始文本: {test_text}")
    print(f"Token 数量: {count}")
    print(f"Token ID 列表: {tokens}")

3.📦 输出示例：

原始文本: 你好，AI 助手！
Token 数量: 9
Token ID 列表: [1234, 4567, 789, ...]

- ⚠️ 注意：不同 Qwen 版本（如 Qwen1.5-7B、0.5B）Tokenizer 可能略有差异；
- 推荐使用与你部署模型版本一致的 tokenizer。

4.📚 参考模型库：
Qwen1.5 模型仓库 (Hugging Face)
推荐使用：Qwen/Qwen1.5-0.5B, Qwen/Qwen1.5-1.8B, 等

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

【无标题】

本文总结了工业互联网网络运维技术学习成果，重点围绕华为HCIA课程展开。课程通过VRP系统实训，系统讲解了工业互联网底层网络技术，涵盖路由、交换、安全及IPv6四大板块。在路由技术方面，掌握了静态路由、OSPF动态路由的配置及工业应用场景；交换技术重点学习VLAN划分、生成树协议及VRRP网关冗余；安全技术包括ACL访问控制、AAA认证及NAT地址转换。课程强调理论与实践结合，通过十余项实操项目深

DAMO开发者矩阵

无人车机器人图传通信落地方案：依托HT-SDR-1400机载自组网模块实现空地协同组网

本文探讨了特种巡检、应急勘探等场景中无人车和机器人面临的通信难题，如视频卡顿、延迟和断连等问题。针对这些痛点，介绍了基于HT-SDR-1400机载自组网模块的解决方案，该模块具备轻量化、低时延、远距离和自组网能力，支持多节点协同工作，能有效应对复杂环境。通过搭建空中中继、地面终端和指挥基站的三层架构，实现稳定高速的全域通信覆盖，已在矿山巡检、城市应急等领域成功应用，为工业无人设备提供了可靠的通信保

DAMO开发者矩阵

被滥用的“世界模型”：李飞飞万字长文厘清渲染、模拟与规划的底层逻辑

但现实是骨感的，虽然现在的机器人演示视频看起来很惊艳，但几乎所有的系统都局限于高度受限的实验室环境中，任务时间极短、面对的物体极少。这也是当前最难啃的硬骨头：带物理标注的三维数据极其稀缺，且多物理模拟（如流体、布料、刚体的交互）的计算成本高昂。比如 World Labs 推出的首个模型 Marble，就已经打破了渲染器和模拟器之间的界限，能从单一模型中同时输出用于视觉观看的“高斯泼溅（Gaussi