AI 新工具

AI新工具(20240218)


  • By AiBard123
  • February 18, 2024 - 2 min read



UFO-UFO是一个用于Windows操作系统交互的UI聚焦双Agent框架

UFO是一个用于Windows操作系统交互的UI聚焦双Agent框架。它通过自然语言理解用户请求,并在一个或跨多个应用程序内无缝导航和操作来执行这些请求。该框架包含AppAgent和ActAgent两个agent。AppAgent负责根据用户请求选择应用程序。ActAgent负责在选定的应用程序内迭代执行操作,直到任务成功完成。两者都利用GPT-Vision的多模态功能来理解应用程序的UI并满足用户的请求。

BASE TTS-亚马逊的大规模语音合成模型

BASE TTS是亚马逊开发的大规模文本到语音合成模型,运用了10亿参数的自动回归转换器,可将文本转换成语音代码,再通过卷积解码器生成语音波形。该模型使用了超过10万小时的公共语音数据进行训练,实现了语音自然度的新状态。还具有音素解离和压缩等新颖的语音编码技术。随着模型规模的增大,BASE TTS展现出了处理复杂句子的自然语调能力。

Goose-Google内部开发的AI编码助手

Google Goose是Google内部自主研发的AI编码助手,通过学习Google多年积累的代码库和编程经验,Goose可以辅助Google工程师更高效地进行编程工作。它具备代码自动补全、语法纠错、代码质量评估、指定风格代码生成等功能。工程师们可以利用Goose自动生成代码框架、提升编程效率、减少重复劳动。Goose涵盖了Google内部使用最广泛的编程语言,如Python、JavaScript、Java、C++等。相比市面上其他AI编程助手,Goose更契合Google的技术栈与代码风格。它的问世将大幅提升Google工程团队的生产力,加快产品和服务上线速度。

LangSmith-LLM应用开发者平台

LangSmith是一个统一的DevOps平台,用于开发、协作、测试、部署和监控LLM应用程序。它支持LLM应用程序开发生命周期的所有阶段,为构建LLM应用提供端到端的解决方案。主要功能包括:链路追踪、提示工具、数据集、自动评估、线上部署等。适用于构建基于LLM的AI助手、 ChatGPT应用的开发者。

Sora-大规模视频生成扩散模型

Sora是一个基于大规模训练的文本控制视频生成扩散模型。它能够生成长达1分钟的高清视频,涵盖广泛的视觉数据类型和分辨率。Sora通过在视频和图像的压缩潜在空间中训练,将其分解为时空位置补丁,实现了可扩展的视频生成。Sora还展现出一些模拟物理世界和数字世界的能力,如三维一致性和交互,揭示了继续扩大视频生成模型规模来发展高能力模拟器的前景。



更多AI工具,参考国内AiBard123Github-AiBard123

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621