gptpdf gptpdf gptpdf 是一个利用具备视觉能力的大规模语言模型（如 GPT-4o）将 PDF 文件解析为 Markdown 格式的工具，旨在准确地转换排版、数学公式、表格、图片和图表等非文本区域。整个工具的代码量仅有293行，但是功能十分强大，并且转换成本相对较低，每页平均花费约 $0.0

gptpdf

gptpdf 是一个利用具备视觉能力的大规模语言模型（如 GPT-4o）将 PDF 文件解析为 Markdown 格式的工具，旨在准确地转换排版、数学公式、表格、图片和图表等非文本区域。整个工具的代码量仅有293行，但是功能十分强大，并且转换成本相对较低，每页平均花费约 $0.013。

使用场景：

使用步骤：

代码示例：

from gptpdf import parse_pdf
api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

API 调用说明：
```
parse_pdf(pdf_path, output_dir='./', api_key=None, base_url=None, model='gpt-4o', verbose=False)
```
- pdf_path: PDF 文件路径
- output_dir: 输出目录，用于存储所有图片和生成的 Markdown 文件
- api_key: OpenAI API 密钥（可选项，若未提供则使用环境变量）
- base_url: OpenAI 基础 URL（可选项，若未提供则使用环境变量）
- model: 使用的视觉大规模语言模型，默认是 ‘gpt-4o’，也可以选择其他模型如 qwen-vl-max
- verbose: 是否开启详细模式

通过这些步骤，用户可以快速方便地利用 gptpdf 实现 PDF 文件向 Markdown 格式的转换。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621