AI 新工具

AI新工具(20240529) Google 使用 AI 改进了 Sheets;开源的先进视觉语言模型llama3v;开源情绪语音模型ChatTTS;





✨ 1: Google has improved Sheets with AI.

Google 使用 AI 改进了 Sheets

您可以使用 Gemini 处理您的数据并将其变成老师。

  1. 优化您的数据

Gemini 了解您的数据并提出改进建议。

例如,它可以将重复数据转换为更实用的下拉框。

  1. 解释数据

通过单击双子座图标,您可以自动获得表格的摘要。

您也可以通过提示直接提出问题。

3.教我

不再需要弄清楚如何处理数据或使用特定功能。

只需询问双子座如何操作并获得分步指南即可。

例如:“教我如何使用带有色标的条件格式。“

  1. 自然语言代替公式

如果你不知道公式,只需向双子座解释你想计算什么。

例如:“创建一个公式来计算西部地区所有产品的平均单价。“

地址:https://workspace.google.com/"

✨ 2: llama3v

llama3v模型通过结合Llama3 8B和siglip-so400m,实现了图像-文本生成的顶级性能。

llama3v是一种由Llama3 8和Bsiglip-so400m驱动的SOTA视觉模型

  • 开源的最先进视觉语言模型(VLLM)
  • 可以在本地快速推理
  • 可通过Huggingface获得模型权重
  • 已发布推理代码(训练代码将很快发布)

地址:https://github.com/mustafaaljadery/llama3v

✨ 3: FlashRAG

FlashRAG是一个高效研发RAG的Python工具包,包含32个基准数据集及12个先进算法。

FlashRAG 是一个用于再现和开发检索增强生成(RAG)研究的Python工具包。该工具包包括32个预处理后的RAG基准数据集和12种最先进的RAG算法。

  1. 广泛且可定制的框架:包含RAG场景中所需的关键组件,如检索器、重排序器、生成器和压缩器,允许灵活地组装复杂的流水线。
  2. 全面的基准数据集:涵盖32个预处理后的RAG基准数据集,用于测试和验证RAG模型的性能。
  3. 预实现的高级RAG算法:基于此框架,提供了12种先进的RAG算法,并可以在不同设置下轻松复现结果。
  4. 高效的预处理阶段:提供各种脚本简化RAG工作流程的准备,如语料库处理、检索索引构建和文档预检索等。
  5. 优化的执行:通过工具如vLLM、FastChat和Faiss实现LLM推理加速和向量索引管理来提升库的效率。

地址:https://github.com/RUC-NLPIR/FlashRAG

✨ 4: ChatTTS

ChatTTS 是专为对话场景设计的文本到语音模型,支持中文和英文生成。

ChatTTS

ChatTTS 简介

ChatTTS 是一款专为对话场景设计的文本转语音(Text-to-Speech, TTS)模型,特别适用于大语言模型(LLM)助手。该模型支持中英文,并经过100,000+小时的中英文语音数据训练。HuggingFace 上的开源版本是基于40,000小时数据进行预训练的模型,无SFT(监督微调)。

亮点
  1. 对话TTS:ChatTTS 针对对话任务进行优化,能够生成自然且富有表现力的语音,支持多位说话者,实现互动对话。
  2. 细粒度控制:该模型可以预测和控制包括笑声、停顿、感叹词等细粒度的韵律特征。
  3. 更好的韵律:ChatTTS 在韵律方面超越了大多数开源TTS模型,提供了预训练模型以支持进一步的研究和开发。

地址:https://github.com/2noise/ChatTTS

✨ 5: AnyNode

AnyNode是一个利用LLM进行输入处理并生成任意类型输出的ComfyUI节点。

AnyNode 是一个集成在 ComfyUI 中的节点插件,利用大语言模型(LLM)的强大功能,根据你的输入生成任何类型的输出。用户可以通过简单的输入生成多种复杂的任务和处理功能。AnyNode 的最大特点是它能够自动生成Python函数,基于提供的输入和输出需求来完成特定的任务。

AnyNode 为用户在 ComfyUI 中创建自定义处理节点提供了极大的灵活性和便利性,是一款功能强大的插件工具。

地址:https://github.com/lks-ai/anynode



更多AI工具,参考国内AiBard123Github-AiBard123

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621