微软开源神器 MarkItDown:一键将办公文档转换为 Markdown 的 Python 工具
MarkItDown 是一个用于将各种文件转换为 Markdown 的工具,例如用于索引、文本分析等。PDF (.pdf)图片(EXIF 元数据和 OCR)音频(EXIF 元数据和语音转录)HTML(特殊处理 Wikipedia 等)各种基于文本的格式(csv, json, xml 等)
·
项目简介
MarkItDown 是一个用于将各种文件转换为 Markdown 的工具,例如用于索引、文本分析等。该工具目前支持以下格式:
- PDF (.pdf)
- PowerPoint (.pptx)
- Word (.docx)
- Excel (.xlsx)
- 图片(EXIF 元数据和 OCR)
- 音频(EXIF 元数据和语音转录)
- HTML(特殊处理 Wikipedia 等)
- 各种基于文本的格式(csv, json, xml 等)
安装
您可以使用 pip 安装 MarkItDown:
pip install markitdown
或者从源代码安装:
pip install -e .
使用
API 非常简单:
from markitdown import MarkItDown
markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)
您还可以配置 MarkItDown 使用大型语言模型 (LLM) 来描述图片。为此,您需要向 MarkItDown 对象提供 mlm_client
和 mlm_model
参数:
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)
📌 开发者必备工具: 在 Tool.tushuoit.com 发现免费在线工具集!推荐 App Store 截图生成器、应用图标生成器 和 Chrome插件-强制开启复制-护眼模式-网页乱码设置编码,让您的开发和运营工作更轻松高效。

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)