20240410 OpenAI推出视觉能力的GPT-4 Turbo模型
🦉 AI新闻
🚀 OpenAI推出视觉能力的GPT-4 Turbo模型
摘要:OpenAI最新发布的GPT-4 Turbo with Vision模型,现通过API向开发者广泛提供。该版本在保持之前128,000个token的窗口大小和更新至2023年12月的知识库基础上,最大的创新是引入了视觉理解能力。这一特性使得开发者无需分别调用文本和图像信息处理模型,简化了开发流程,并拓展了应用场景。包括编程辅助、饮食营养分析、将草图转化为网站等多种应用案例,显示了其广泛的潜能。目前该模型尚未集成至ChatGPT或向公众开放,但OpenAI暗示不久将会实现。
🚀 谷歌推出 Gemini 1.5 Pro,并增加数字水印功能
摘要:谷歌在最近的Google Next大会上宣布,通过其AI应用平台Vertex AI向公众开放了Gemini 1.5 Pro的公共预览版。此更新旨在帮助用户更高效地处理音频内容,例如通过上传音频文件来进行分析或总结。Gemini 1.5 Pro在性能上超越了自家的大型模型Gemini Ultra,尽管Gemini Ultra能够理解更长的指令,但处理速度较慢。除此之外,文生图模型Imagen 2也得到了更新,加入了图片修复和扩充功能,并为所有图片提供了数字水印功能“SynthID”,从而提升了内容的安全性。谷歌计划在公开预览中尝试将AI响应与谷歌搜索结果结合,以提供最新的信息解答。
🚀 Stability AI发布Stable LM 2 12B模型
摘要:Stability AI最新推出的Stable LM 2 12B,基于2万亿Token训练,支持七种语言,并拥有120亿参数。该模型性能强大,能够在某些基准测试中超越Llama 2 70B模型。Stable LM 2 12B还包括基础和指令微调版本,旨在处理多语言任务,提高AI语言技术的创新与应用。此外,Stability AI承诺将推出支持更长上下文窗口的版本,以满足更广泛的需求。
🚀 谷歌在 Android Studio 集成 Gemini 1.0 Pro
摘要:谷歌近期宣布在 Android Studio 中集成了 Gemini 1.0 Pro功能,目的是帮助开发者更高效地编写代码。该功能现处于预览阶段,为开发者提供了免费体验的机会。Gemini 的技能包含生成应用程序代码、高级代码补全、回答问题、寻找资源和添加代码注释等。谷歌还强调了对隐私的重视,只有在开发者登录并手动启用后,该功能才会生效。开发人员现可通过 Android Studio Canary 来试用 Gemini API。Android Studio 自2013年发布以来,一直是 Android 应用开发的主要工具。
🚀 JetBrains IDE 2024.1版本新增AI代码补全功能
摘要:JetBrains宣布其IDE 2024.1版本将引入一项新功能,允许开发者在编写代码时获取AI智能生成的全行代码建议,目前支持Java、Python和JavaScript等热门编程语言,并计划未来扩展到C#、Rust与C++。该功能基于本地运行的模型,能够根据上下文提供适当的代码补充建议,并通过静态分析确保建议的代码不含错误。JetBrains特别强调,此功能旨在生成全行代码,以减少开发者的键入工作量,而不是生成长篇代码,以避免效率低下。所使用的AI模型是专门为此目的训练的,拥有一亿参数,最大上下文长度为1536个Token,约170行代码。
🚀 马斯克预测AI将在2026年前超越人类智能
摘要:特斯拉CEO埃隆·马斯克近日在接受采访时表示,通用人工智能(AGI)有望在明年或2026年超越最聪明的人类智能。AGI旨在开发能够在未被直接教导的情境中解决问题的人工智能,具备自主自我控制和学习新技能的能力。马斯克还提到,xAI正在开发Grok 2.0模型,而更先进的版本将需要更多的英伟达H100 GPU,但目前因芯片短缺受阻。他预测,未来电力供应将成为人工智能发展的关键。
🚀 微软与OpenAI共同推出声音识别AI专利
摘要:据IT之家4月9日消息,微软联手OpenAI,根据美国商标和专利局(USPTO)最新公示,共同构想出一项声音识别AI技术专利。该项技术能够辨识日常生活中的声音如门铃、狗叫或婴儿啼哭,同时也能检测到地震和风暴等自然灾害的早期迹象。该系统将声音信号经过分解、处理并通过神经网络识别,为不同类型的声音生成置信度值。此技术在公共安全和备灾工作中具有重要应用潜力。
更多AI工具,参考国内AiBard123,Github-AiBard123
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621