Markdown 格式是开发者们比较喜欢的书写格式,所以现在微软向开发者们开源了 MarkItDown 的新项目,该项目可以将大量内容基于 AI 转换为 Markdown 格式。
例如可以将以下格式进行转换:
诸如图片和音频是没法直接转换为文本格式的,在这种情况下借助人工智能就可以很方便的使用了,例如图片使用 EXIF 元数据和 OCR 进行光学识别,音频则可以使用 AI 进行语音转录为文本。
那这个项目有什么用的?其实就是帮助开发者将大量各种格式的文件统一为 Markdown 格式方便用于后续的索引和文本分析等,确实有实际使用场景。
该项目采用 MIT 许可证进行开源,有兴趣的开发者们可以在这里获取项目:https://github.com/microsoft/markitdown
下面是简单的操作示例:
可以使用 pip 安装:pip install markitdown
从源头安装:pip install -e .
API 用法也非常简单:
也可以使用大型语言模型来描述图像,这种情况下需要提供模型客户端和参数等:
更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。
想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!