MinerU
MinerU 简介
MinerU 是一个一站式、开源的高质量数据提取工具,主要包括以下两个核心功能模块:
-
Magic-PDF
- 功能介绍:Magic-PDF 能将 PDF 文档转换为 Markdown 格式,可以处理本地存储或支持 S3 协议的对象存储中的文件。
- 主要特色:
- 支持多种前端模型输入
- 自动去除页眉、页脚、脚注和页码
- 保留文档原有的结构和格式,包括标题、段落、列表等
- 提取并显示图片和表格
- 将公式转换为 LaTeX 格式
- 自动检测和转换乱码 PDF 文档
- 兼容 CPU 和 GPU 环境
- 可在 Windows、Linux 和 macOS 平台上使用
-
Magic-Doc
- 功能介绍:Magic-Doc 能将网页或多格式电子书转换为 Markdown 格式。
- 主要特色:
- 网页提取:跨模态精确解析文本、图片、表格和公式信息
- 电子书文档提取:支持包括 epub、mobi 在内的多种文档格式,完美适配文本和图片
- 语言类型识别:精确识别176种语言
使用场景
- 学术研究:将学术文献、文章或书籍快速转换为 Markdown 格式,便于后续的编辑和分析。
- 数据整理:高效提取和组织来自PDF文档和网页的内容,用于数据分析、报告生成等。
- 知识管理:个人知识管理工具,方便将各类文档和网页内容整理成统一的格式,便于管理和查阅。
- 企业应用:企业内部文档或报告的处理和整理,提高文档处理的效率和规范性。
安装和使用
-
安装:通过 pip 安装 Magic-PDF
pip install magic-pdf
-
命令行使用
cp magic-pdf.template.json ~/magic-pdf.json magic-pdf pdf-command --pdf "pdf_path" --model "model_json_path"
-
API 使用
- 本地环境
image_writer = DiskReaderWriter(local_image_dir) image_dir = str(os.path.basename(local_image_dir)) jso_useful_key = {"_pdf_type": "", "model_list": model_json} pipe = UNIPipe(pdf_bytes, jso_useful_key, image_writer) pipe.pipe_classify() pipe.pipe_parse() md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")
- 对象存储环境
s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint) image_dir = "s3://img_bucket/" s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir) pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN) jso_useful_key = {"_pdf_type": "", "model_list": model_json} pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli) pipe.pipe_classify() pipe.pipe_parse() md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")
- 本地环境
综上所述,MinerU 提供了强大的 PDF 和网页数据提取功能,能够显著提升文档处理效率,适用于多种数据提取和知识管理场景。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621