AI新工具(20240612) 腾讯生成面部说话视频;理解人类行为的多模态模型;Apple Intelligence的技术要点
✨ 1: Follow-Your-Emoji
腾讯生成面部说话视频Follow-Your-Emoji
Follow-Your-Emoji,该框架可以通过目标标记序列对参考肖像进行动画处理。这个方法主要解决了保持参考肖像身份和迁移目标表情的挑战,同时维护了动画的时间一致性和真实性。
为了达到这些目标,Follow-Your-Emoji使用了两个经过精心设计的技术:首先,采用一种新的显性运动信号,即表情感知标记来引导动画过程。这种标记不仅能够确保参考肖像与目标运动之间的准确运动对齐,还能增强描绘夸张表情(如大幅度瞳孔运动)的能力,并避免身份泄露。其次,提出了一种面部细节损失,通过使用表情和面部遮罩来提高模型对细微表情感知和参考肖像外观重建的能力。
该方法展示了在控制自由风格肖像表情上的显著性能,包括真实人物、卡通、雕像,甚至动物的肖像。通过一种简单有效的渐进生成策略,扩展了模型的长时间动画稳定性,增加了其应用潜力。此外,为了应对这一领域缺乏基准的问题,研究团队引入了一个综合性基准EmojiBench,包含多样的肖像图像、驱动视频和标记。
地址:https://follow-your-emoji.github.io/
✨ 2: social-auto-upload
自动化发布视频到各个社交媒体平台
social-auto-upload 项目旨在实现视频自动发布到各种社交媒体平台,如抖音、视频号、YouTube 等。 该项目使用了 playwirght 技术模拟浏览器行为,实现了自动化上传和定时发布功能。 项目中对不同社交媒体平台的操作进行了详细解释,包括视频准备、cookie 获取、上传视频等步骤。
地址:https://github.com/dreammis/social-auto-upload
✨ 3: LlamaGen
LlamaGen 由香港大学和字节跳动团队开发
基于 Llama 架构的图像生成模型,参数量从 1.11 亿到 31 亿不等。这些模型采用自回归方式生成图像,并在 ImageNet 256 × 256 基准测试中取得了优于 LDM 等流行扩散模型的性能。
LlamaGen 是一组面向图像生成的新型模型家族,旨在将大型语言模型(如 Llama)的经典“下一个词预测”范式应用于视觉生成领域。这种方法验证了在适当扩展的条件下,传统的自回归模型在没有视觉信号上的归纳偏置的情况下,能否实现最先进的图像生成性能。LlamaGen 通过重新审视图像标记器的设计空间、图像生成模型的可扩展性属性以及训练数据的质量,提升了自动回归模型在图像生成任务中的表现。
地址:https://github.com/FoundationVision/LlamaGen
✨ 4: MotionLLM
MotionLLM是一种用大模型联合视频和动作序列理解人类行为的新框架。
MotionLLM是一种用于理解人类行为的多模态模型,包括视频和运动模态。传统的大语言模型(LLMs)通常只针对单一模态(如仅视频或仅运动)进行训练,然而,全面理解人类行为需要同时建模视频和运动序列,以捕捉细微的身体部位动态和语义。为此,MotionLLM提出了一种简单但高效的框架,整合视频和运动数据进行训练,从而获取丰富的时空信息。
MotionLLM采用了统一的视频-动作训练策略,结合现有的粗粒度视频-文本数据和细粒度运动-文本数据,能够更加准确地进行人类运动理解、描述和推理。此外,研究团队还收集了一个包含多样化视频、动作、字幕和指令的大型数据集MoVid,并提出了MoVid-Bench用于更好地评估视频和动作上的人类行为理解性能。大量实验结果表明,MotionLLM在描述、时空理解和推理能力方面都有显著优势。
地址:https://github.com/IDEA-Research/MotionLLM
✨ 5: Apple Intelligence
Apple Intelligence的技术要点
本地模型优化与推理性能:
Apple Intelligence依赖于本地基础模型,通过微调和适配器技术进行优化,使其能够在设备上高效运行。微调通过不同训练通道专注于特定任务,而适配器则是覆盖在基础模型上的小组权重,动态加载以适应当前任务。此外,采用量化技术将模型参数压缩到更小的位数,并通过推测解码、上下文修剪和组查询注意等技术优化推理性能,充分利用苹果芯片的神经引擎。
私有云计算与安全架构:
对于更复杂的数据处理,Apple Intelligence扩展到私有云计算,确保隐私和安全。私有云计算运行在一个强化的新操作系统上,删除不必要的功能,避免特权访问,并通过端到端加密和认证机制保护用户数据。苹果还公开虚拟镜像供安全研究人员检查,进一步增强安全性。
苹果智能是将这一切结合在一起的个人智能系统。 它包括一个可以跨应用程序组织个人信息的设备上语义索引, 以及一个应用能力工具箱,可以理解应用程序的功能并代表用户调用这些功能。 当用户提出请求时, 苹果智能会协调如何处理, 无论是通过设备上的智能堆栈,还是使用私有云计算。 它利用语义索引,将每个请求基于相关的个人上下文,并使用其应用意图工具箱为用户采取行动。
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621