AI新工具(20250114) AI助手利用Deepseek和实时语音技术;多语言嵌入模型vdr-2b-multi;结构化PDF和office的信息
✨ 1: Always-On
Always-On AI助手利用Deepseek和实时语音技术,为工程师提供持续支持。
“Always-On” 深度智能助手是一种基于 Deepseek-V3、RealtimeSTT(实时语音转文本)和 Typer 的工程师专用 AI 助手,其设计理念是始终在线,并能够实时响应用户的指令和问题。该助手集成了强大的语音识别、生成和任务执行能力,使用户能够通过自然语言与系统进行互动,提升工作效率。
地址:https://github.com/disler/always-on-ai-assistant
✨ 2: vdr-2b-multi-v1
vdr-2b-multi-v1是一款多语言视觉文档检索模型,支持高效搜索丰富的多语言文档。
vdr-2b-multi-v1是一种多语言嵌入模型,专为视觉文档检索而设计,支持多种语言和领域。该模型能够将文档页面截图编码为单一密集向量表示,从而可以在无需OCR或数据提取管道的情况下,搜索和查询丰富的多语言文档。vdr-2b-multi-v1是基于MrLight/dse-qwen2-2b-mrl-v1训练的,使用了自制的多语言查询-图像对大数据集,包含50万个高质量样本,是目前最大的开源多语言合成数据集。
该模型支持意大利语、西班牙语、英语、法语和德语,具有更快的推断速度和更低的显存使用,并在跨语言检索上表现优异。通过Matryoshka表示学习(MRL),模型可以在不降低嵌入质量的情况下减少向量尺寸,从而加快检索速度并降低存储成本。
vdr-2b-multi-v1在多语言和跨语言场景中显著提高了检索性能,并为语言不通的用户提供了便利,特别是在复杂的多语言环境如欧洲。未来的工作将集中在模型在特定领域的适应性上,为开拓新的应用场景提供可能。
地址:https://huggingface.co/blog/vdr-2b-multilingual
✨ 3: LlamaV-o1
LlamaV-o1是一种大型多模态模型,专注于逐步视觉推理,已在多个基准测试中表现优异。
LlamaV-o1 是一种大型多模态模型,专注于逐步视觉推理的能力。该模型展现了强大的自发推理能力,在多个多模态基准上超越了包括 Gemini-1.5-flash、GPT-4o-mini 和 Llava-CoT 等其他先进模型。LlamaV-o1 的核心创新在于其开发的 VRC-Bench 基准,专门用于评估多模态多步骤推理任务,涵盖视觉推理、数学与逻辑推理、社会文化背景等多个领域。
地址:https://github.com/mbzuai-oryx/LlamaV-o1
✨ 4: Train LLM From Scratch
本文介绍了一种从零开始使用PyTorch训练大型语言模型(LLM)的方法,支持在单个GPU上训练千万至十亿参数的模型。
“Train LLM From Scratch” 是一个基于 PyTorch 实现的变换器模型训练框架,允许用户从头开始训练自己的大型语言模型(LLM),支持亿级或千万级参数的版本。该框架基于论文《Attention is All You Need》,并提供完整的代码结构,包括模型定义、数据加载、训练和文本生成等功能。
该项目使用了 “Pile” 数据集,这是一个多样化的、开源的大规模数据集,包含来自书籍、文章、网站等的文本。在该框架中,用户可以在单GPU上训练模型,并快速生成有意义的文本输出。
地址:https://github.com/FareedKhan-dev/train-llm-from-scratch
✨ 5: NVIDIA-Ingest
NVIDIA-Ingest是一个高性能的文档内容及元数据提取微服务,支持PDF、Word和PPT等多种格式。
NVIDIA-Ingest 是一款可扩展且性能导向的文档内容和元数据提取微服务,支持解析 PDF、Word 和 PowerPoint 文档。它利用专门的 NVIDIA NIM 微服务来查找、上下文化和提取文本、表格、图表及图像,以便在后续的生成应用中使用。
NVIDIA-Ingest 允许将文档并行拆分为多个页面,分类内容(如表格、图表、图像和文本),并通过光学字符识别(OCR)进一步上下文化为定义良好的 JSON 格式。从那里,NVIDIA-Ingest 可以选择性地管理提取内容的嵌入计算,并可选择性地存储到向量数据库(如 Milvus)中。
地址:https://github.com/NVIDIA/nv-ingest
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621