一文详解最强开源模型Qwen3，看这一篇就够了！

感觉本次Qwen3最大的亮点就是模型原生支持思考模式和非思考模式，可以根据不同的任务需要选择不同的模式，无需跟往常一样同时部署推理模型和对话模型，一个模型即可搞定所有工作。思考模式：在这种模式下，模型会逐步推理，适合需要深入思考的复杂问题。非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用简单问题。

安卓老猴子

9166人浏览 · 2025-06-18 12:06:21

安卓老猴子 · 2025-06-18 12:06:21 发布

一、Qwen3模型家族

本次千问3开源了两个 MoE 模型：Qwen3-235B-A22B以及Qwen3-30B-A3B，其中，235B和30B表示模型总参数量，A22B和A3B表示激活的参数量。

此外，六个密集模型也已开源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，以及多种量化的版本。

Qwen3系列模型

从官方披露的性能测试上，旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，全面超越了DeepSeek-R1，不少地方与Gemini 2.5 Pro十分接近甚至有所超越。

评测性能对比

二、亮点介绍

混合模式

感觉本次Qwen3最大的亮点就是模型原生支持思考模式和非思考模式，可以根据不同的任务需要选择不同的模式，无需跟往常一样同时部署推理模型和对话模型，一个模型即可搞定所有工作。

思考模式：在这种模式下，模型会逐步推理，适合需要深入思考的复杂问题。
非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用简单问题。

双模式

多语种

Qwen3在语言方面卷到极致，支持119 种语言和方言，目标是让全球用户都能直接调用这个模型，无需再经过微调等后处理步骤。

多语种支持

软切换机制

软切换机制是指允许用户在已开启模型推理能力的时候，动态控制模型的行为。操作起来非常简单，只需要在用户提示词或系统消息中添加 /think 和 /no_think ，即可在不同轮次的交互中实现推理或者简单对话。

以下是官方提供的一个代码样例：

# Example Usage
if __name__ =="__main__":
    chatbot =QwenChatbot()

    # First input (without /think or /no_think tags, thinking mode is enabled by default)
    user_input_1 ="How many r's in strawberries?"
    print(f"User: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"Bot: {response_1}")
    print("----------------------")

    # Second input with /no_think
    user_input_2 ="Then, how many r's in blueberries? /no_think"
    print(f"User: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"Bot: {response_2}")
    print("----------------------")

    # Third input with /think
    user_input_3 ="Really? /think"
    print(f"User: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"Bot: {response_3}")

三、训练过程

1、预训练阶段

预训练数据

1.数据规模突破性扩展 Qwen3基于约36万亿token构建训练语料库，较前代Qwen2.5（18万亿token）实现翻倍增长。该数据集涵盖119种语言及方言，通过网页爬取与PDF文档深度挖掘相结合的方式获取。特别采用Qwen2.5-VL提取非结构化文档内容，并利用Qwen2.5-Math和Qwen2.5-Coder两个专用模型生成高质量数学与代码领域数据，显著提升STEM领域知识密度。

2.三阶段渐进式训练机制

第一阶段（基础能力建设期）：在30万亿token上进行通识教育，建立4K token上下文处理能力，完成基本语言规则与常识性知识的积累。
第二阶段（专业技能强化期）：针对科技创新需求，将STEM（科学、技术、工程、数学）、编程实践和逻辑推理类数据占比提升至40%，通过5万亿token专项训练强化高阶认知能力。
第三阶段（长文本处理突破）：构建包含超长学术论文、技术文档的优质语料库，将上下文窗口扩展至32K token，使模型能够完整理解复杂技术方案并进行跨段落关联分析。

2、后训练阶段

后训练流程

四阶段混合训练框架

阶段1（深度推理能力奠基）：构建覆盖数学证明、程序调试、科学实验设计等领域的长思维链示例库（平均思考路径长度>512 tokens），让模型具备基本的推理能力。
阶段2（探索性学习强化）：开发基于奖励函数的强化学习环境，鼓励模型在解决复杂数学题、编写多函数程序等任务中尝试非常规解法，提升创造性解决问题的能力。
阶段3（双模态认知融合）：创新性地将快速响应指令数据（平均响应时间<2s）与深度推理案例进行联合训练，在保证即时交互体验的同时维持复杂问题处理能力，实现两种工作模式的无缝切换。
阶段4（通用能力校准）：基于20余类应用场景（含法律咨询、医疗问答、金融分析等）的反馈数据，通过人类偏好排序优化模型输出质量，同步修正潜在行为偏差。

这个流程图看着与DeepSeek R1技术文档非常相似，前面2个阶段基本一致，Qwen3增加了推理/非推理模式融合策略。同时也通过对强大的模型进行蒸馏，提取具备推理能力的小模型。

四、使用方法

1、transformer

可以直接使用transformer库，基本不需要改动什么代码即可调用Qwen3系列模型。

from modelscope importAutoModelForCausalLM,AutoTokenizer

model_name ="Qwen/Qwen3-30B-A3B"

# load the tokenizer and the model
tokenizer =AutoTokenizer.from_pretrained(model_name)
model =AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt ="Give me a short introduction to large language model."
messages =[
{"role":"user","content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True# Switch between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
**model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# parsing thinking content
try:
# rindex finding 151668 (</think>)
    index =len(output_ids)- output_ids[::-1].index(151668)
exceptValueError:
    index =0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

2、ollama

Ollama已经上架了包含量化版本在内的共33个模型，从0.6B～235B不等，可以根据自己硬件设备选择恰当的模型。

链接：https://ollama.com/library/qwen3

Ollama Qwen3模型列表

3、服务部署

Qwen3同样支持流行的部署框架，可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4 来创建一个与OpenAI API 兼容的Rest API：

vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser qwen3
python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3

如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

DreamZero技术解析：当世界模型成为机器人“物理大脑”

DAMO开发者矩阵

硬实时·强生态：鸿道Intewell硬实时操作系统

DAMO开发者矩阵

【随手记】Covariant’s Brain Service和gRPC谷歌远程过程调用

高性能：HTTP/2 + Protobuf，高吞吐量、低延迟实时双向通信：机器人和 Brain Service 可持续交换数据支持流式数据：感知数据和动作指令都是连续流跨语言系统支持：简化分布式开发正是 gRPC 的这些特性，使得 Covariant 的机器人系统能够像“智能团队”一样高效协作，实现真正的工业自动化智能。