Milvus 向量库带来 2.5 倍性能飞跃, Qwen3-VL-Embedding 多模态 RAG 能力全面升级
KnowFlow v2.3.3 正式发布,带来重大性能升级与多模态增强。核心更新包括:1)采用 Milvus 作为默认向量数据库,实测高并发下吞吐量提升 2.5 倍;2)引入 Qwen3-VL-Embedding 实现图文混合检索;3)新增表格内图片提取功能;4)支持钉钉机器人企业集成;5)提供负载均衡部署方案。技术亮点包括独创的"按维度分Collection"架构、统一多模态
KnowFlow v2.3.3 发布:Milvus 向量库带来 2.5 倍性能飞跃,多模态 RAG 能力全面升级
引言
经过团队数周的深度优化,KnowFlow v2.3.3 正式发布。本次更新最大的亮点是将 Milvus 作为默认向量数据库,经实测在高并发场景下相比 Elasticsearch 带来了 2.5 倍的吞吐量提升。同时,我们引入了 Qwen3-VL-Embedding 多模态嵌入模型,让图文混合检索成为现实。
让我们一起深入了解这些激动人心的新特性。
一、Milvus 向量库:为 RAG 而生的性能怪兽
为什么选择 Milvus?
Elasticsearch 作为全文检索引擎,虽然通过 kNN 插件支持向量检索,但其本质仍是为文本搜索设计的。而 Milvus 是专门为大规模向量相似性搜索打造的数据库,在高维向量检索场景下具有天然优势。
压测数据:真实的性能差距
我们使用相同的测试环境和数据集,对 ES 和 Milvus 进行了全场景压力测试:
| 测试场景 | 并发数 | ES 首Token响应 | Milvus 首Token响应 | 性能提升 |
|---|---|---|---|---|
| 基准测试 | 10 | 6.44s | 2.86s | 55% ↓ |
| 日常负载 | 30 | 15.98s | 8.83s | 45% ↓ |
| 高峰负载 | 50 | 21.28s | 13.48s | 37% ↓ |
| 压力测试 | 100 | 70.43s | 27.55s | 61% ↓ |
吞吐量对比:
- ES 最高吞吐量:2.29 QPS
- Milvus 最高吞吐量:3.55 QPS
- 提升幅度:55%
在 100 并发的极限压力下,Milvus 依然保持 3.55 QPS 的稳定吞吐,而 ES 则下降至 1.40 QPS。这意味着在真实的高并发业务场景中,Milvus 可以用更少的资源服务更多的用户。
技术架构亮点
我们为 Milvus 设计了独特的「按维度分 Collection」架构:
┌─────────────────────────────────────────┐
│ Milvus Cluster │
├─────────────────────────────────────────┤
│ Collection: ragflow_tenant_1024 │ ← 1024 维向量
│ Collection: ragflow_tenant_768 │ ← 768 维向量
│ Collection: ragflow_tenant_1536 │ ← 1536 维向量
└─────────────────────────────────────────┘
这种设计带来三大优势:
- 定向查询:根据知识库使用的 Embedding 模型维度,直接定位到对应 Collection
- 资源高效:相同维度的知识库共享 Collection,避免碎片化
- 混合检索:原生支持 BM25 + Dense Vector 双路融合,无需额外组件
二、Qwen3-VL-Embedding:打破图文边界的多模态对齐
传统 RAG 的痛点
在传统 RAG 系统中,图片和文本使用不同的 Embedding 模型,导致:
- 图片搜索只能匹配图片
- 文本搜索只能匹配文本
- 图文混合的文档检索效果大打折扣
多模态统一语义空间
Qwen3-VL-Embedding 将图片和文本映射到同一语义空间,实现了真正的跨模态检索:
用户查询:"产品架构图"
↓
统一 Embedding
↓
┌─────────────────────────────────────┐
│ 可匹配文本:"系统架构设计说明..." │
│ 可匹配图片:[架构示意图.png] │
│ 可匹配混合:含架构图的技术文档 │
└─────────────────────────────────────┘
接入方式
我们提供了完整的 Docker 部署方案,支持两种推理后端:
Transformers 版本(推荐,显存占用更低):
cd docker/qwen3vl-embedding/transformers
docker compose up -d
vLLM 版本(吞吐量更高):
cd docker/qwen3vl-embedding/vllm
docker compose up -d
服务启动后,在 KnowFlow 的模型管理页面添加即可使用,完全兼容 OpenAI Embeddings API 格式。

三、MinerU 表格图片提取:复杂文档不再是难题
技术文档中经常包含嵌入表格的图片,例如流程图、数据图表等,这种场景往往 MinerU/PaddleOCR 都无法识别到表格内图片。本次更新中,MinerU 解析器新增了表格内嵌图片自动提取功能:
处理流程:
PDF 表格区域
↓
MinerU 识别 table_img_path
↓
自动提取图片 → 上传 MinIO
↓
在 Chunk 中嵌入图片引用
↓
检索时返回完整的表格+图片内容
这意味着用户在问答时,不仅能获取表格的文字内容,还能看到表格中嵌入的图片,大幅提升了复杂文档的可理解性。

四、钉钉机器人接入:企业级 IM 集成
KnowFlow 现已支持钉钉企业机器人接入,让知识库能力触达企业 IM 场景:
核心特性:
- 双协议支持:单聊使用 API,群聊使用 Webhook
- 图文混排:自动检测内容类型,智能选择 Markdown 或纯文本消息
- 多轮对话:内置会话管理,支持 10 轮历史记忆
- 安全验证:HmacSHA256 签名校验,防止恶意请求
配置步骤:
- 在钉钉开放平台创建企业内部应用
- 获取 ClientID 和 ClientSecret
- 在 KnowFlow 对话设置中填写配置
- 配置消息接收地址,即可开始使用

五、负载均衡部署:轻松应对高并发
针对企业级部署场景,我们提供了开箱即用的水平扩展方案:
架构概览:
┌─────────────────────────────┐
│ Nginx LB (nginx-lb) │
│ 端口: 80/443/9380 │
└──────────────┬──────────────┘
│
┌──────────────────────────┼──────────────────────────┐
│ │ │
▼ ▼ ▼
┌───────────────┐ ┌───────────────┐ ┌───────────────┐
│ ragflow-server│ │ ragflow-server│ │ ragflow-server│
│ #1 │ │ #2 │ │ #3 │
└───────────────┘ └───────────────┘ └───────────────┘
一键启动:
cd docker
bash scaling.sh start
# 动态扩缩容
bash scaling.sh scale ragflow=5 backend=3
# 查看状态
bash scaling.sh status
性能提升:
| 部署模式 | 并发能力 | 高可用 |
|---|---|---|
| 单实例 | ~100 请求/秒 | 单点故障 |
| 负载均衡 | ~300+ 请求/秒 | 故障自动转移 |
基于 Docker DNS 的动态服务发现,扩缩容无需重启 Nginx,真正实现弹性伸缩。
六、ColPali 图文混排优化
ColPali 解析模式进一步增强,现已支持:
- 图文混排检索:页面级多向量嵌入,保留完整视觉布局
- 两阶段检索:FDE 单向量粗排 + MaxSim 多向量精排
- Blackwell GPU 支持:适配最新 NVIDIA GPU 架构
这使得扫描件、PPT、报表等视觉密集型文档的检索准确率大幅提升。

七、其他重要更新
优化
- 问答文档筛选:支持在对话中选择特定文档参与检索

- 知识库异步删除:大型知识库删除不再阻塞,后台自动清理
修复
- 修复 LLM 回复"未找到内容"时仍显示引用信息的问题
- 修复创建知识库时选择 video 解析方法报权限不足的问题
八、新功能预告
- PaddleOCR VL 新版适配
- 三方接入支持飞书
- 视频解析支持 qwen3-vl-embdedding 模型端到端召回
- 国际化全面适配
写在最后
KnowFlow v2.3.3 是一次面向性能和多模态能力的重大升级。Milvus 带来的性能飞跃让我们有信心应对更大规模的生产负载,而 Qwen3-VL-Embedding 的引入则为图文混合检索打开了新的可能。
我们始终相信,真正好用的 RAG 系统,应该让用户忘记技术的存在,专注于获取知识本身。
如需了解 KnowFlow 更多细节,欢迎关注公众号KnowFlow 企业知识库联系我们进行交流。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)