AI新工具
banner

SmolDocling-256M-preview


介绍:

SmolDocling-256M-preview是一个用于高效文档转换的多模态Image-Text-to-Text模型,支持多种文档元素的识别和转换。









SmolDocling-256M-preview

SmolDocling-256M-preview 是一个多模态的图像-文本到文本的模型,专为高效文档转换而设计。它保留了 Docling 的主要功能,并完全兼容 Docling,通过无缝支持 DoclingDocuments 实现。主要特点包括:

  • DocTags: 采用DocTags标签,这是一种高效且最小的文档表示方法,完全兼容 DoclingDocuments,更清晰地分离文本和文档结构。
  • OCR: 准确地从图像中提取文本。
  • 布局和定位: 保留文档结构和元素边界框。
  • 代码识别: 检测并格式化代码块,包括缩进。
  • 公式识别: 识别和处理数学表达式。
  • 图表识别: 提取并解释图表数据。
  • 表格识别: 支持列和行标题,进行结构化表格提取。
  • 图像分类: 区分图形元素。
  • 标题对应: 将标题链接到相关图像和图形。
  • 列表分组: 正确组织和结构化列表元素。
  • 整页转换: 处理整个页面,包括所有页面元素(代码、公式、表格、图表等)。
  • 带边界框的OCR: 使用边界框进行OCR区域识别。
  • 通用文档处理: 经过科学和非科学文档的训练。
  • 无缝Docling集成: 导入Docling并导出为多种格式(MD, HTML 等)。
  • 快速推理: 使用VLLM,在A100 GPU上平均每页0.35秒。

该模型基于 Idefics3 微调,使用 DocTags 进行高效 Token 化,并将提供图表识别增强,多页推理支持,以及化学识别等功能。 开发者还提供了使用 transformers 或 vllm 进行推理,并使用 Docling 将结果转换为多种输出格式的代码示例。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621