项目简介

MarkItDown 是一个用于将各种文件转换为 Markdown 的工具,例如用于索引、文本分析等。该工具目前支持以下格式:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • 图片(EXIF 元数据和 OCR)
  • 音频(EXIF 元数据和语音转录)
  • HTML(特殊处理 Wikipedia 等)
  • 各种基于文本的格式(csv, json, xml 等)
安装

您可以使用 pip 安装 MarkItDown:

pip install markitdown

或者从源代码安装:

pip install -e .
使用

API 非常简单:

from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)

您还可以配置 MarkItDown 使用大型语言模型 (LLM) 来描述图片。为此,您需要向 MarkItDown 对象提供 mlm_clientmlm_model 参数:

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)

📌 开发者必备工具:Tool.tushuoit.com 发现免费在线工具集!推荐 App Store 截图生成器应用图标生成器Chrome插件-强制开启复制-护眼模式-网页乱码设置编码,让您的开发和运营工作更轻松高效。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐