Dolphin 是字节跳动开源的轻量级、高效的文档解析模型。基于先解析结构后解析内容的两阶段方法第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色,性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。Dolphin的代码和预训练模型已公开,方便开发者使用和研究。

alt text

Dolphin 提供了两个推理框架,支持两种解析粒度:

页面级解析:将整个文档图像解析为结构化的 JSON 和 Markdown 格式 

元素级解析:解析单个文档元素(文本、表格、公式)

Dolphin的技术原理

页面级布局分析:

用Swin Transformer对输入的文档图像进行编码,提取视觉特征。基于解码器生成文档元素序列,每个元素包含其类别(如标题、表格、图表等)和坐标位置。

这一阶段的目标是按照自然阅读顺序生成结构化的布局信息。

 元素级内容解析:

根据第一阶段生成的布局信息,从原始图像中裁剪出每个元素的局部视图。用特定的提示词(prompts),对每个元素进行并行内容解析。例如,表格用专门的提示词解析HTML格式,公式和文本段落共享提示词解析LaTeX格式。解码器根据裁剪后的元素图像和提示词,生成最终的解析内容。

来源地址:Dolphin开源模型-文档支持解析将解析结果转换为结构化的 JSON 和 Markdown 格式 - AI - 微丽宝

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐