AI 新工具

AI新工具(20240729) 六个开源的PDF转Markdown项目





✨ 1: gptpdf

gptpdf 是一个利用VLLM解析PDF为Markdown的工具,几乎完美支持数学公式、表格等。

GPTPDF 是一个使用视觉大模型(如 GPT-4o)将 PDF 文件解析成 Markdown 文件的工具。它主要用于高效地解析 PDF 文档中的排版、数学公式、表格、图片、图表等内容,并将这些内容转换为结构化的 Markdown 格式。其显著特点是简单且成本低,每页平均费用为 $0.013。

地址:https://github.com/CosmosShadow/gptpdf

✨ 2: marker

Marker是一款将PDF快速精准转换为Markdown的工具,支持多种文档格式和语言。

Marker是一款能够快速且准确地将PDF转换为Markdown的工具。它支持多种类型的文档(针对书籍和科学论文进行了优化),支持所有语言,并且能够去除页眉、页脚及其他杂乱信息。此外,它还能正确格式化表格和代码块,并提取图像保存为Markdown。同时,Marker将大多数的公式转换为LaTeX格式,适用于GPU、CPU或MPS环境。

地址:https://github.com/vikparuchuri/marker

✨ 3: PDF-Extract-Kit

PDF-Extract-Kit 提供高质量PDF内容提取,支持布局检测、公式识别和OCR功能

  • 版面检测:使用 LayoutLMv3 模型进行区域检测,如检测图片、表格、标题、文本等。
  • 公式检测:使用 YOLOv8 模型检测公式,包括行内公式和独立公式。
  • 公式识别:使用 UniMERNet 进行公式识别。
  • 光学字符识别 (OCR):使用 PaddleOCR 进行文本识别。

地址:https://github.com/opendatalab/PDF-Extract-Kit

✨ 4: zeroX

Zerox OCR 是一种经济高效且准确的文档OCR工具,适用于AI数据处理。

Zerox OCR 是一种极其简便的方法,用于将文档进行光学字符识别(OCR)并方便人工智能进行后续处理。鉴于文档往往包含复杂布局、表格、图表等,视觉模型在处理这些内容时尤其有效。

基本逻辑如下: 提供一个 PDF 文件(URL 或文件缓冲区)。 将 PDF 转换成一系列图像。 将每个图像传给 GPT,让其生成 Markdown 格式的文本。 聚合所有响应,并返回 Markdown 格式的结果。

地址:https://github.com/getomni-ai/zeroX

✨ 5: omniparse

OmniParse是一个将各种非结构化数据转换为结构化、适用于生成式AI(LLM)应用的平台。

OmniParse 是一个数据解析平台,旨在将各种非结构化数据转换为适用于生成式AI(GenAI)应用的结构化数据。无论是文档、表格、图像、视频、音频文件,还是网页,OmniParse 都能对其进行处理,使其变得干净、结构化,并为诸如 RAG(Retrieval-Augmented Generation)和细调等AI应用做好准备。

  • 完全本地化,无需外部API
  • 支持多达 20 种文件类型
  • 将文档、多媒体和网页转换为高质量的结构化 Markdown
  • 支持表格提取、图像提取与标注、音频/视频转录、网页爬取
  • 通过 Docker 和 Skypilot 轻松部署
  • 兼容 Colab
  • 交互式 UI 由 Gradio 提供支持

地址:https://github.com/adithya-s-k/omniparse

✨ 6: MinerU

MinerU 是一个开源的高质量数据提取工具,支持多种文件格式

MinerU 是一个一站式、开源的高质量数据提取工具,主要包括以下两个核心功能模块:

Magic-PDF

  • 功能介绍:Magic-PDF 能将 PDF 文档转换为 Markdown 格式,可以处理本地存储或支持 S3 协议的对象存储中的文件。
  • 主要特色
    • 支持多种前端模型输入
    • 自动去除页眉、页脚、脚注和页码
    • 保留文档原有的结构和格式,包括标题、段落、列表等
    • 提取并显示图片和表格
    • 将公式转换为 LaTeX 格式
    • 自动检测和转换乱码 PDF 文档
    • 兼容 CPU 和 GPU 环境
    • 可在 Windows、Linux 和 macOS 平台上使用

Magic-Doc

  • 功能介绍:Magic-Doc 能将网页或多格式电子书转换为 Markdown 格式。
  • 主要特色
    • 网页提取:跨模态精确解析文本、图片、表格和公式信息
    • 电子书文档提取:支持包括 epub、mobi 在内的多种文档格式,完美适配文本和图片
    • 语言类型识别:精确识别176种语言

地址:https://github.com/opendatalab/MinerU



更多AI工具,参考国内AiBard123Github-AiBard123 公众号:每日AI新工具

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621