AI新工具(20240529) Google 使用 AI 改进了 Sheets;开源的先进视觉语言模型llama3v;开源情绪语音模型ChatTTS;
✨ 1: Google has improved Sheets with AI.
Google 使用 AI 改进了 Sheets
您可以使用 Gemini 处理您的数据并将其变成老师。
- 优化您的数据
Gemini 了解您的数据并提出改进建议。
例如,它可以将重复数据转换为更实用的下拉框。
- 解释数据
通过单击双子座图标,您可以自动获得表格的摘要。
您也可以通过提示直接提出问题。
3.教我
不再需要弄清楚如何处理数据或使用特定功能。
只需询问双子座如何操作并获得分步指南即可。
例如:“教我如何使用带有色标的条件格式。“
- 自然语言代替公式
如果你不知道公式,只需向双子座解释你想计算什么。
例如:“创建一个公式来计算西部地区所有产品的平均单价。“
地址:https://workspace.google.com/"
✨ 2: llama3v
llama3v模型通过结合Llama3 8B和siglip-so400m,实现了图像-文本生成的顶级性能。
llama3v是一种由Llama3 8和Bsiglip-so400m驱动的SOTA视觉模型
- 开源的最先进视觉语言模型(VLLM)
- 可以在本地快速推理
- 可通过Huggingface获得模型权重
- 已发布推理代码(训练代码将很快发布)
地址:https://github.com/mustafaaljadery/llama3v
✨ 3: FlashRAG
FlashRAG是一个高效研发RAG的Python工具包,包含32个基准数据集及12个先进算法。
FlashRAG 是一个用于再现和开发检索增强生成(RAG)研究的Python工具包。该工具包包括32个预处理后的RAG基准数据集和12种最先进的RAG算法。
- 广泛且可定制的框架:包含RAG场景中所需的关键组件,如检索器、重排序器、生成器和压缩器,允许灵活地组装复杂的流水线。
- 全面的基准数据集:涵盖32个预处理后的RAG基准数据集,用于测试和验证RAG模型的性能。
- 预实现的高级RAG算法:基于此框架,提供了12种先进的RAG算法,并可以在不同设置下轻松复现结果。
- 高效的预处理阶段:提供各种脚本简化RAG工作流程的准备,如语料库处理、检索索引构建和文档预检索等。
- 优化的执行:通过工具如vLLM、FastChat和Faiss实现LLM推理加速和向量索引管理来提升库的效率。
地址:https://github.com/RUC-NLPIR/FlashRAG
✨ 4: ChatTTS
ChatTTS 是专为对话场景设计的文本到语音模型,支持中文和英文生成。
ChatTTS
ChatTTS 简介
ChatTTS 是一款专为对话场景设计的文本转语音(Text-to-Speech, TTS)模型,特别适用于大语言模型(LLM)助手。该模型支持中英文,并经过100,000+小时的中英文语音数据训练。HuggingFace 上的开源版本是基于40,000小时数据进行预训练的模型,无SFT(监督微调)。
亮点
- 对话TTS:ChatTTS 针对对话任务进行优化,能够生成自然且富有表现力的语音,支持多位说话者,实现互动对话。
- 细粒度控制:该模型可以预测和控制包括笑声、停顿、感叹词等细粒度的韵律特征。
- 更好的韵律:ChatTTS 在韵律方面超越了大多数开源TTS模型,提供了预训练模型以支持进一步的研究和开发。
地址:https://github.com/2noise/ChatTTS
✨ 5: AnyNode
AnyNode是一个利用LLM进行输入处理并生成任意类型输出的ComfyUI节点。
AnyNode 是一个集成在 ComfyUI 中的节点插件,利用大语言模型(LLM)的强大功能,根据你的输入生成任何类型的输出。用户可以通过简单的输入生成多种复杂的任务和处理功能。AnyNode 的最大特点是它能够自动生成Python函数,基于提供的输入和输出需求来完成特定的任务。
AnyNode 为用户在 ComfyUI 中创建自定义处理节点提供了极大的灵活性和便利性,是一款功能强大的插件工具。
地址:https://github.com/lks-ai/anynode
更多AI工具,参考国内AiBard123,Github-AiBard123
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621