MinerU MinerU MinerU 简介 MinerU 是一个一站式、开源的高质量数据提取工具，主要包括以下两个核心功能模块： Magic-PDF 功能介绍：Magic-PDF 能将 PDF 文档转换为 Markdown 格式，可以处理本地存储或支持 S3 协议的对象存储中的文件。主要特色：支持多种前端模型输入自动去除页眉、页脚、脚注和页

MinerU

MinerU 简介

MinerU 是一个一站式、开源的高质量数据提取工具，主要包括以下两个核心功能模块：

Magic-PDF
- 功能介绍：Magic-PDF 能将 PDF 文档转换为 Markdown 格式，可以处理本地存储或支持 S3 协议的对象存储中的文件。
- 主要特色：
  - 支持多种前端模型输入
  - 自动去除页眉、页脚、脚注和页码
  - 保留文档原有的结构和格式，包括标题、段落、列表等
  - 提取并显示图片和表格
  - 将公式转换为 LaTeX 格式
  - 自动检测和转换乱码 PDF 文档
  - 兼容 CPU 和 GPU 环境
  - 可在 Windows、Linux 和 macOS 平台上使用
Magic-Doc
- 功能介绍：Magic-Doc 能将网页或多格式电子书转换为 Markdown 格式。
- 主要特色：
  - 网页提取：跨模态精确解析文本、图片、表格和公式信息
  - 电子书文档提取：支持包括 epub、mobi 在内的多种文档格式，完美适配文本和图片
  - 语言类型识别：精确识别176种语言

使用场景

学术研究：将学术文献、文章或书籍快速转换为 Markdown 格式，便于后续的编辑和分析。
数据整理：高效提取和组织来自PDF文档和网页的内容，用于数据分析、报告生成等。
知识管理：个人知识管理工具，方便将各类文档和网页内容整理成统一的格式，便于管理和查阅。
企业应用：企业内部文档或报告的处理和整理，提高文档处理的效率和规范性。

安装和使用

安装：通过 pip 安装 Magic-PDF
```
pip install magic-pdf
```

命令行使用

cp magic-pdf.template.json ~/magic-pdf.json
magic-pdf pdf-command --pdf "pdf_path" --model "model_json_path"

API 使用

本地环境

image_writer = DiskReaderWriter(local_image_dir)
image_dir = str(os.path.basename(local_image_dir))
jso_useful_key = {"_pdf_type": "", "model_list": model_json}
pipe = UNIPipe(pdf_bytes, jso_useful_key, image_writer)
pipe.pipe_classify()
pipe.pipe_parse()
md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")

对象存储环境

s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint)
image_dir = "s3://img_bucket/"
s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir)
pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN)
jso_useful_key = {"_pdf_type": "", "model_list": model_json}
pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli)
pipe.pipe_classify()
pipe.pipe_parse()
md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")

综上所述，MinerU 提供了强大的 PDF 和网页数据提取功能，能够显著提升文档处理效率，适用于多种数据提取和知识管理场景。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621