20240410 OpenAI推出视觉能力的GPT-4 Turbo模型 🦉 AI新闻 🚀 OpenAI推出视觉能力的GPT-4 Turbo模型摘要：OpenAI最新发布的GPT-4 Turbo with Vision模型，现通过API向开发者广泛提供。该版本在保持之前128,000个token的窗口大小和更新至2023年12月的知识库基础

20240410 OpenAI推出视觉能力的GPT-4 Turbo模型

By AiBard123
April 10, 2024 - 2 min read

🦉 AI新闻

🚀 OpenAI推出视觉能力的GPT-4 Turbo模型

摘要：OpenAI最新发布的GPT-4 Turbo with Vision模型，现通过API向开发者广泛提供。该版本在保持之前128,000个token的窗口大小和更新至2023年12月的知识库基础上，最大的创新是引入了视觉理解能力。这一特性使得开发者无需分别调用文本和图像信息处理模型，简化了开发流程，并拓展了应用场景。包括编程辅助、饮食营养分析、将草图转化为网站等多种应用案例，显示了其广泛的潜能。目前该模型尚未集成至ChatGPT或向公众开放，但OpenAI暗示不久将会实现。

🚀 谷歌推出 Gemini 1.5 Pro，并增加数字水印功能

摘要：谷歌在最近的Google Next大会上宣布，通过其AI应用平台Vertex AI向公众开放了Gemini 1.5 Pro的公共预览版。此更新旨在帮助用户更高效地处理音频内容，例如通过上传音频文件来进行分析或总结。Gemini 1.5 Pro在性能上超越了自家的大型模型Gemini Ultra，尽管Gemini Ultra能够理解更长的指令，但处理速度较慢。除此之外，文生图模型Imagen 2也得到了更新，加入了图片修复和扩充功能，并为所有图片提供了数字水印功能“SynthID”，从而提升了内容的安全性。谷歌计划在公开预览中尝试将AI响应与谷歌搜索结果结合，以提供最新的信息解答。

🚀 Stability AI发布Stable LM 2 12B模型

摘要：Stability AI最新推出的Stable LM 2 12B，基于2万亿Token训练，支持七种语言，并拥有120亿参数。该模型性能强大，能够在某些基准测试中超越Llama 2 70B模型。Stable LM 2 12B还包括基础和指令微调版本，旨在处理多语言任务，提高AI语言技术的创新与应用。此外，Stability AI承诺将推出支持更长上下文窗口的版本，以满足更广泛的需求。

🚀 谷歌在 Android Studio 集成 Gemini 1.0 Pro

摘要：谷歌近期宣布在 Android Studio 中集成了 Gemini 1.0 Pro功能，目的是帮助开发者更高效地编写代码。该功能现处于预览阶段，为开发者提供了免费体验的机会。Gemini 的技能包含生成应用程序代码、高级代码补全、回答问题、寻找资源和添加代码注释等。谷歌还强调了对隐私的重视，只有在开发者登录并手动启用后，该功能才会生效。开发人员现可通过 Android Studio Canary 来试用 Gemini API。Android Studio 自2013年发布以来，一直是 Android 应用开发的主要工具。

🚀 JetBrains IDE 2024.1版本新增AI代码补全功能

摘要：JetBrains宣布其IDE 2024.1版本将引入一项新功能，允许开发者在编写代码时获取AI智能生成的全行代码建议，目前支持Java、Python和JavaScript等热门编程语言，并计划未来扩展到C#、Rust与C++。该功能基于本地运行的模型，能够根据上下文提供适当的代码补充建议，并通过静态分析确保建议的代码不含错误。JetBrains特别强调，此功能旨在生成全行代码，以减少开发者的键入工作量，而不是生成长篇代码，以避免效率低下。所使用的AI模型是专门为此目的训练的，拥有一亿参数，最大上下文长度为1536个Token，约170行代码。

🚀 马斯克预测AI将在2026年前超越人类智能

摘要：特斯拉CEO埃隆·马斯克近日在接受采访时表示，通用人工智能（AGI）有望在明年或2026年超越最聪明的人类智能。AGI旨在开发能够在未被直接教导的情境中解决问题的人工智能，具备自主自我控制和学习新技能的能力。马斯克还提到，xAI正在开发Grok 2.0模型，而更先进的版本将需要更多的英伟达H100 GPU，但目前因芯片短缺受阻。他预测，未来电力供应将成为人工智能发展的关键。

🚀 微软与OpenAI共同推出声音识别AI专利

摘要：据IT之家4月9日消息，微软联手OpenAI，根据美国商标和专利局（USPTO）最新公示，共同构想出一项声音识别AI技术专利。该项技术能够辨识日常生活中的声音如门铃、狗叫或婴儿啼哭，同时也能检测到地震和风暴等自然灾害的早期迹象。该系统将声音信号经过分解、处理并通过神经网络识别，为不同类型的声音生成置信度值。此技术在公共安全和备灾工作中具有重要应用潜力。

更多AI工具，参考国内AiBard123，Github-AiBard123

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621