Milvus 向量库带来 2.5 倍性能飞跃， Qwen3-VL-Embedding 多模态 RAG 能力全面升级

KnowFlow v2.3.3 正式发布，带来重大性能升级与多模态增强。核心更新包括：1）采用 Milvus 作为默认向量数据库，实测高并发下吞吐量提升 2.5 倍；2）引入 Qwen3-VL-Embedding 实现图文混合检索；3）新增表格内图片提取功能；4）支持钉钉机器人企业集成；5）提供负载均衡部署方案。技术亮点包括独创的"按维度分Collection"架构、统一多模态

cangermeng

358人浏览 · 2026-02-05 14:53:53

cangermeng · 2026-02-05 14:53:53 发布

KnowFlow v2.3.3 发布：Milvus 向量库带来 2.5 倍性能飞跃，多模态 RAG 能力全面升级

引言

经过团队数周的深度优化，KnowFlow v2.3.3 正式发布。本次更新最大的亮点是将 Milvus 作为默认向量数据库，经实测在高并发场景下相比 Elasticsearch 带来了 2.5 倍的吞吐量提升。同时，我们引入了 Qwen3-VL-Embedding 多模态嵌入模型，让图文混合检索成为现实。

让我们一起深入了解这些激动人心的新特性。

一、Milvus 向量库：为 RAG 而生的性能怪兽

为什么选择 Milvus？

Elasticsearch 作为全文检索引擎，虽然通过 kNN 插件支持向量检索，但其本质仍是为文本搜索设计的。而 Milvus 是专门为大规模向量相似性搜索打造的数据库，在高维向量检索场景下具有天然优势。

压测数据：真实的性能差距

我们使用相同的测试环境和数据集，对 ES 和 Milvus 进行了全场景压力测试：

测试场景	并发数	ES 首Token响应	Milvus 首Token响应	性能提升
基准测试	10	6.44s	2.86s	55% ↓
日常负载	30	15.98s	8.83s	45% ↓
高峰负载	50	21.28s	13.48s	37% ↓
压力测试	100	70.43s	27.55s	61% ↓

吞吐量对比：

ES 最高吞吐量：2.29 QPS
Milvus 最高吞吐量：3.55 QPS
提升幅度：55%

在 100 并发的极限压力下，Milvus 依然保持 3.55 QPS 的稳定吞吐，而 ES 则下降至 1.40 QPS。这意味着在真实的高并发业务场景中，Milvus 可以用更少的资源服务更多的用户。

技术架构亮点

我们为 Milvus 设计了独特的「按维度分 Collection」架构：

┌─────────────────────────────────────────┐
│           Milvus Cluster                │
├─────────────────────────────────────────┤
│  Collection: ragflow_tenant_1024        │  ← 1024 维向量
│  Collection: ragflow_tenant_768         │  ← 768 维向量
│  Collection: ragflow_tenant_1536        │  ← 1536 维向量
└─────────────────────────────────────────┘

这种设计带来三大优势：

定向查询：根据知识库使用的 Embedding 模型维度，直接定位到对应 Collection
资源高效：相同维度的知识库共享 Collection，避免碎片化
混合检索：原生支持 BM25 + Dense Vector 双路融合，无需额外组件

二、Qwen3-VL-Embedding：打破图文边界的多模态对齐

传统 RAG 的痛点

在传统 RAG 系统中，图片和文本使用不同的 Embedding 模型，导致：

图片搜索只能匹配图片
文本搜索只能匹配文本
图文混合的文档检索效果大打折扣

多模态统一语义空间

Qwen3-VL-Embedding 将图片和文本映射到同一语义空间，实现了真正的跨模态检索：

用户查询："产品架构图"
     ↓
   统一 Embedding
     ↓
┌─────────────────────────────────────┐
│  可匹配文本："系统架构设计说明..."      │
│  可匹配图片：[架构示意图.png]          │
│  可匹配混合：含架构图的技术文档         │
└─────────────────────────────────────┘

接入方式

我们提供了完整的 Docker 部署方案，支持两种推理后端：

Transformers 版本（推荐，显存占用更低）：

cd docker/qwen3vl-embedding/transformers
docker compose up -d

vLLM 版本（吞吐量更高）：

cd docker/qwen3vl-embedding/vllm
docker compose up -d

服务启动后，在 KnowFlow 的模型管理页面添加即可使用，完全兼容 OpenAI Embeddings API 格式。

三、MinerU 表格图片提取：复杂文档不再是难题

技术文档中经常包含嵌入表格的图片，例如流程图、数据图表等，这种场景往往 MinerU/PaddleOCR 都无法识别到表格内图片。本次更新中，MinerU 解析器新增了表格内嵌图片自动提取功能：

处理流程：

PDF 表格区域
    ↓
MinerU 识别 table_img_path
    ↓
自动提取图片 → 上传 MinIO
    ↓
在 Chunk 中嵌入图片引用
    ↓
检索时返回完整的表格+图片内容

这意味着用户在问答时，不仅能获取表格的文字内容，还能看到表格中嵌入的图片，大幅提升了复杂文档的可理解性。

四、钉钉机器人接入：企业级 IM 集成

KnowFlow 现已支持钉钉企业机器人接入，让知识库能力触达企业 IM 场景：

核心特性：

双协议支持：单聊使用 API，群聊使用 Webhook
图文混排：自动检测内容类型，智能选择 Markdown 或纯文本消息
多轮对话：内置会话管理，支持 10 轮历史记忆
安全验证：HmacSHA256 签名校验，防止恶意请求

配置步骤：

在钉钉开放平台创建企业内部应用
获取 ClientID 和 ClientSecret
在 KnowFlow 对话设置中填写配置
配置消息接收地址，即可开始使用

五、负载均衡部署：轻松应对高并发

针对企业级部署场景，我们提供了开箱即用的水平扩展方案：

架构概览：

┌─────────────────────────────┐
                    │      Nginx LB (nginx-lb)     │
                    │       端口: 80/443/9380       │
                    └──────────────┬──────────────┘
                                   │
        ┌──────────────────────────┼──────────────────────────┐
        │                          │                          │
        ▼                          ▼                          ▼
┌───────────────┐        ┌───────────────┐        ┌───────────────┐
│ ragflow-server│        │ ragflow-server│        │ ragflow-server│
│      #1       │        │      #2       │        │      #3       │
└───────────────┘        └───────────────┘        └───────────────┘

一键启动：

cd docker
bash scaling.sh start

# 动态扩缩容
bash scaling.sh scale ragflow=5 backend=3

# 查看状态
bash scaling.sh status

性能提升：

部署模式	并发能力	高可用
单实例	~100 请求/秒	单点故障
负载均衡	~300+ 请求/秒	故障自动转移

基于 Docker DNS 的动态服务发现，扩缩容无需重启 Nginx，真正实现弹性伸缩。

六、ColPali 图文混排优化

ColPali 解析模式进一步增强，现已支持：

图文混排检索：页面级多向量嵌入，保留完整视觉布局
两阶段检索：FDE 单向量粗排 + MaxSim 多向量精排
Blackwell GPU 支持：适配最新 NVIDIA GPU 架构

这使得扫描件、PPT、报表等视觉密集型文档的检索准确率大幅提升。

七、其他重要更新

优化

问答文档筛选：支持在对话中选择特定文档参与检索

知识库异步删除：大型知识库删除不再阻塞，后台自动清理

修复

修复 LLM 回复"未找到内容"时仍显示引用信息的问题
修复创建知识库时选择 video 解析方法报权限不足的问题

八、新功能预告

PaddleOCR VL 新版适配
三方接入支持飞书
视频解析支持 qwen3-vl-embdedding 模型端到端召回
国际化全面适配

写在最后

KnowFlow v2.3.3 是一次面向性能和多模态能力的重大升级。Milvus 带来的性能飞跃让我们有信心应对更大规模的生产负载，而 Qwen3-VL-Embedding 的引入则为图文混合检索打开了新的可能。

我们始终相信，真正好用的 RAG 系统，应该让用户忘记技术的存在，专注于获取知识本身。

如需了解 KnowFlow 更多细节，欢迎关注公众号KnowFlow 企业知识库联系我们进行交流。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

基于模仿学习的机器人操作：分类、演化、基准测试与挑战

DAMO开发者矩阵

惊爆！提示工程架构师揭秘Agentic AI上下文工程实体识别核心技术

当我们谈论Agentic AI（具身智能/自主代理AI）时，最核心的问题从来不是“它能做什么”，而是“它能理解什么”——毕竟，一个无法准确理解上下文的自主代理，和只会机械执行指令的“工具人”没有本质区别。而实体识别，正是Agentic AI理解上下文的“第一块拼图”：它像一把“信息手术刀”，从用户的输入（文本、语音、图像）中精准提取出关键元素（比如“华为Mate 60 Pro”“订单号123456

DAMO开发者矩阵

【机械臂路径规划】基于约束的增量拓展随机树CBiRRT算法实现机械臂机器人路径规划附Matlab复现和论文

随着工业4.0和智能制造的快速发展，机械臂作为自动化生产线的核心执行单元，其路径规划能力直接影响生产效率与安全性。传统路径规划算法（如A*、Dijkstra）在复杂障碍物场景中易陷入局部最优，而基于采样的RRT（Rapidly-exploring Random Tree）算法虽能高效探索高维空间，但存在路径非最优、采样效率低等问题。尤其在机械臂关节空间受限、动态障碍物避障等约束条件下，传统RRT算