Dolphin开源模型-文档支持解析将解析结果转换为结构化的 JSON 和 Markdown 格式

字节跳动开源的Dolphin模型是一款高效的文档解析工具，采用两阶段方法：首先生成文档布局元素序列，然后并行解析内容。该模型在多种文档解析任务中表现优异，超越GPT-4.1和Mistral-OCR等模型。Dolphin具有322M参数，体积小、速度快，支持文本、表格、公式等多种文档元素解析。其代码和预训练模型已公开，提供页面级和元素级两种解析粒度。技术原理包括使用SwinTransformer进行

微丽宝

728人浏览 · 2025-05-23 14:50:01

微丽宝 · 2025-05-23 14:50:01 发布

Dolphin 是字节跳动开源的轻量级、高效的文档解析模型。基于先解析结构后解析内容的两阶段方法第一阶段生成文档布局元素序列，第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色，性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数，体积小、速度快，支持多种文档元素解析，包括文本、表格、公式等。Dolphin的代码和预训练模型已公开，方便开发者使用和研究。

alt text

Dolphin 提供了两个推理框架，支持两种解析粒度：

页面级解析：将整个文档图像解析为结构化的 JSON 和 Markdown 格式

元素级解析：解析单个文档元素（文本、表格、公式）

Dolphin的技术原理

页面级布局分析:

用Swin Transformer对输入的文档图像进行编码，提取视觉特征。基于解码器生成文档元素序列，每个元素包含其类别(如标题、表格、图表等)和坐标位置。

这一阶段的目标是按照自然阅读顺序生成结构化的布局信息。

元素级内容解析:

根据第一阶段生成的布局信息，从原始图像中裁剪出每个元素的局部视图。用特定的提示词(prompts)，对每个元素进行并行内容解析。例如，表格用专门的提示词解析HTML格式，公式和文本段落共享提示词解析LaTeX格式。解码器根据裁剪后的元素图像和提示词，生成最终的解析内容。

来源地址：Dolphin开源模型-文档支持解析将解析结果转换为结构化的 JSON 和 Markdown 格式 - AI - 微丽宝

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

cover

KingbaseES数据库：医疗信创潮涌沅江，国产化信创打造医疗新质生产力

DAMO开发者矩阵

cover

告别迁移焦虑：金仓KDMS V4带你轻松搞定数据库国产化替代

DAMO开发者矩阵

cover

KingbaseES数据库在常德二院全栈国产化信创中产生新质生产力,医疗信创的部署如何实现，如何操作？

DAMO开发者矩阵

所有评论(0)

查看更多评论

微丽宝

已为社区贡献11条内容