page contents

微软开源MarkItDown项目 支持将PDF/办公文档/图片/音视频转换为Markdown格式

Markdown 格式是开发者们比较喜欢的书写格式,所以现在微软向开发者们开源了 MarkItDown 的新项目,该项目可以将大量内容基于 AI 转换为 Markdown 格式。

attachments-2024-12-03UGgQv867734fb096876.pngMarkdown 格式是开发者们比较喜欢的书写格式,所以现在微软向开发者们开源了 MarkItDown 的新项目,该项目可以将大量内容基于 AI 转换为 Markdown 格式。

例如可以将以下格式进行转换:

  • PDF
  • PowerPoint / PPTX
  • Excel / XLSX
  • Word / DOCX
  • 图片 / EXIF 元数据和 OCR
  • 音频 / EXIF 元数据和语音转录
  • HTML / 维基百科等的特殊处理
  • 其他基于文本的格式例如 CSV、JSON、XML 等

诸如图片和音频是没法直接转换为文本格式的,在这种情况下借助人工智能就可以很方便的使用了,例如图片使用 EXIF 元数据和 OCR 进行光学识别,音频则可以使用 AI 进行语音转录为文本。

那这个项目有什么用的?其实就是帮助开发者将大量各种格式的文件统一为 Markdown 格式方便用于后续的索引和文本分析等,确实有实际使用场景。

该项目采用 MIT 许可证进行开源,有兴趣的开发者们可以在这里获取项目:https://github.com/microsoft/markitdown

下面是简单的操作示例:

可以使用 pip 安装:pip install markitdown

从源头安装:pip install -e .

API 用法也非常简单:



  1. from markitdown importMarkItDown
  2. markitdown =MarkItDown()
  3. result = markitdown.convert("test.xlsx")
  4. print(result.text_content)

也可以使用大型语言模型来描述图像,这种情况下需要提供模型客户端和参数等:



  1. from markitdown importMarkItDown
  2. from openai importOpenAI
  3. client =OpenAI()
  4. md =MarkItDown(mlm_client=client, mlm_model="gpt-4o")
  5. result = md.convert("example.jpg")
  6. print(result.text_content)

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg



  • 发表于 2024-12-31 09:58
  • 阅读 ( 53 )
  • 分类:行业资讯

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
小柒
小柒

1658 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 1658 文章
  3. Pack 1135 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章