AI 日报

20241204 腾讯混元大模型上线,开源文生视频能力





🦉 AI新闻

🚀 腾讯混元大模型上线,开源文生视频能力

摘要:腾讯于12月3日宣布混元大模型正式上线,并开源其文生视频生成能力,支持中英文输入,参数量达130亿。该模型可生成超写实的高质量视频,拥有良好的光影反射效果。腾讯采用DiT架构,提升语义理解,支持更细致的描绘。目前,开发者可通过“腾讯元宝 App”申请试用,开源内容包含模型权重和推理代码,便于开发生态插件。

🚀 字节跳动豆包推出图片理解功能

摘要:字节跳动旗下的AI助手豆包近日上线了图片理解功能,用户可通过App或PC版上传图片,识别内容及元素特征。同时,用户可查询景点位置或影视角色来源。此前,豆包还推出了视频生成内测功能,支持多种创作功能。尽管豆包在市场表现出色,但由于其娱乐化定位,用户对体验要求高,功能丰富度仍需提升。

🚀 百度将发布Apollo 10.0 自动驾驶平台

摘要:百度将在12月4日10:30发布Apollo开放平台10.0,基于自动驾驶大模型ADFM重构算法进行全面升级。该版本旨在提升技术应用性能并降低成本和提高安全性,专为全球用户设计,以扩展竞争优势。百度的无人驾驶出租车服务在武汉已有400余辆,第二季度在中国提供了近90万次乘车服务。

🚀 快手推出“可灵 AI”导演共创计划短片

摘要:快手宣布将于12月6日上线由“可灵 AI”生成的短片,涉及奇幻、亲情等多种题材。该计划由快手与9位知名导演共同发起,自9月启动以来,已生成超5100万视频和1.5亿图片。快手CEO程一笑透露,可灵 AI用户已超过500万,单月商业化流水超千万人民币,未来将探索更多变现模式,预计明年可灵收入将快速增长。

🚀 李飞飞首个AI项目:单图生成互动3D世界

摘要:李飞飞创办的World Labs发布首个AI项目,通过输入一张图片生成可互动的3D游戏世界。生成的场景在浏览器中实时渲染,用户可通过键盘和鼠标自由探索。系统预测3D场景而非像素,确保场景持久且遵循物理规则,引起广泛关注与赞誉。该项目被视为VR领域的新突破,Li Feifei表示这只是“空间智能”技术的初步体现。

更多AI工具 Github-AiBard123

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621