AI新工具
banner

MinerU


介绍:

MinerU 是一个开源的高质量数据提取工具,支持多种文件格式。









MinerU

MinerU 简介

MinerU 是一个一站式、开源的高质量数据提取工具,主要包括以下两个核心功能模块:

  1. Magic-PDF

    • 功能介绍:Magic-PDF 能将 PDF 文档转换为 Markdown 格式,可以处理本地存储或支持 S3 协议的对象存储中的文件。
    • 主要特色
      • 支持多种前端模型输入
      • 自动去除页眉、页脚、脚注和页码
      • 保留文档原有的结构和格式,包括标题、段落、列表等
      • 提取并显示图片和表格
      • 将公式转换为 LaTeX 格式
      • 自动检测和转换乱码 PDF 文档
      • 兼容 CPU 和 GPU 环境
      • 可在 Windows、Linux 和 macOS 平台上使用
  2. Magic-Doc

    • 功能介绍:Magic-Doc 能将网页或多格式电子书转换为 Markdown 格式。
    • 主要特色
      • 网页提取:跨模态精确解析文本、图片、表格和公式信息
      • 电子书文档提取:支持包括 epub、mobi 在内的多种文档格式,完美适配文本和图片
      • 语言类型识别:精确识别176种语言

使用场景

  • 学术研究:将学术文献、文章或书籍快速转换为 Markdown 格式,便于后续的编辑和分析。
  • 数据整理:高效提取和组织来自PDF文档和网页的内容,用于数据分析、报告生成等。
  • 知识管理:个人知识管理工具,方便将各类文档和网页内容整理成统一的格式,便于管理和查阅。
  • 企业应用:企业内部文档或报告的处理和整理,提高文档处理的效率和规范性。

安装和使用

  1. 安装:通过 pip 安装 Magic-PDF

    pip install magic-pdf
    
  2. 命令行使用

    cp magic-pdf.template.json ~/magic-pdf.json
    magic-pdf pdf-command --pdf "pdf_path" --model "model_json_path"
    
  3. API 使用

    • 本地环境
      image_writer = DiskReaderWriter(local_image_dir)
      image_dir = str(os.path.basename(local_image_dir))
      jso_useful_key = {"_pdf_type": "", "model_list": model_json}
      pipe = UNIPipe(pdf_bytes, jso_useful_key, image_writer)
      pipe.pipe_classify()
      pipe.pipe_parse()
      md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")
      
    • 对象存储环境
      s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint)
      image_dir = "s3://img_bucket/"
      s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir)
      pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN)
      jso_useful_key = {"_pdf_type": "", "model_list": model_json}
      pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli)
      pipe.pipe_classify()
      pipe.pipe_parse()
      md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")
      

综上所述,MinerU 提供了强大的 PDF 和网页数据提取功能,能够显著提升文档处理效率,适用于多种数据提取和知识管理场景。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621