马斯克也逃不过「科目三」，阿里这个应用都要把外国人馋哭了作者：机器之心来源：机器之心机器之心原创作者：陈萍、大盘鸡阿里开年整新活了。最近，不少社交平台都被一种名为「科目三」的舞蹈视频刷屏了，摇花手、半崴不崴的脚，配合着节奏鲜明的音乐，这一舞蹈动作遭全网模仿。对于有点舞蹈功底的人来说，学会「科目三

马斯克也逃不过「科目三」，阿里这个应用都要把外国人馋哭了

By AiBard123
January 4, 2024 - 2 min read

作者：机器之心来源：机器之心

机器之心原创

作者：陈萍、大盘鸡

阿里开年整新活了。

最近，不少社交平台都被一种名为「科目三」的舞蹈视频刷屏了，摇花手、半崴不崴的脚，配合着节奏鲜明的音乐，这一舞蹈动作遭全网模仿。

对于有点舞蹈功底的人来说，学会「科目三」并不是一件很难的事，但对于四肢不是很协调的小伙伴而言，这可真是有点难度了。为了让广大网友学会这个舞蹈，还有人出了保姆级分解教程，声称几分钟速成大摇子。

其实，对于想要跳舞的你来说，根本不用真人出镜，一张照片就能化身舞蹈达人。不信，你看，一位小姐姐正在你面前大秀舞技。

你以为这是真人在跳舞，不，不，不！眼见不一定为真，其实这是根据照片生成的，而且只需一张照片就可以搞定。

现在技术已经发展成这样了吗？跳舞不需要真人，这是哪家出的黑科技，期待值直接拉满。

不卖关子了，谜底揭开，这项研究来自阿里。

在刚刚到来的 2024 年，阿里通义千问 APP 上线图片生成舞蹈功能，用户只需要输入一张图片，就能生成爆款舞蹈视频。

不管是科目三，还是鬼步舞、兔子舞…… 练习时长无需两年半，通义千问分分钟帮你搞定。有了它，让你瞬间变身舞蹈达人，再也不用担心自己没有舞蹈功底了。

操作过程也非常简单，打开通义千问 APP，然后在对话框中输入咒语「全民舞王」或者「通义舞王」，在弹出的界面中就可以体验了，最重要的是，不需要你花一分钱，完全免费使用！

该功能一经上线火爆国内外，在 AI 圈可谓是掀起了一波全民热舞小高潮，众多研究者纷纷玩了起来。X（原推特）上关于这项研究的浏览量动不动就上万。

不用自己出镜，上传照片就能化身舞王，这样的黑科技谁不想试一试呢。隔壁小伙伴的妈妈都羡慕哭了，老师，我们家子涵怎么不会。

其实，不管是子涵、还是子豪，不管是真人、还是纸片人，甚至是雕塑，通义千问都能让他们舞起来，简单到只需三步：

第一步选择自己喜欢的舞蹈种类，通义千问 APP 内置了不同的舞蹈模板，包括 DJ 慢摇、鬼步舞、蒙古舞、科目三、划桨步、兔子舞等十多种舞蹈，选择你喜欢的其中一种作为目标舞蹈。

第二步上传图片，图片的要求是全身照、正面站立、全身无遮挡、无俯仰角，图片的分辨率不能低于 500×500。你可以使用手机里保存的照片，也可以是现场拍摄的照片。此外，通义千问 APP 里还内置了照片模板供大家使用。

通义千问 APP 对上传照片的一些要求

最后一步，点击「立即生成」就可以了。

谁能想到，生成舞蹈视频已经简单到这样了。由于人人都可免费使用，一经上线，受到广大网友追捧。

效果到底怎么样，我们接着往下看。

谁都能跳？

我们先从古代人开始吧，这些只在历史文献中出现的人物，跳起舞来会是什么样子呢。想必大家都对桃园三结义的故事很熟悉，不知道三兄弟一起舞蹈是怎样的画面。

这不刘皇叔打了一辈子仗，马上就要来享受享受。接着奏乐接着舞，这波科目三跳得理所应当。由刘关张三兄弟发起的「全民舞王」比赛正式开始，你来品一品，谁跳得最好。

哈尔滨不只有圣索菲亚教堂升起的月亮，背上小书包出游的企鹅，还有会跳兔子舞的梦露。东北 DJ 大哥见了都得夸一句，这兔子舞真不赖啊。

即使脖子上已经插了 99 根麻醉针，依然能跳最甜的舞。毛利老弟给大家带来《只想对你说「爱你」》，这灵活的身姿，妖娆的步伐，有没有让你心动呢？

2000 多岁的高龄选手高级军吏俑扭起了秧歌。新的一年已经到来，他用舞蹈传递喜气。

钢铁侠上演一段极乐劲舞，舞蹈动作不输真人，迈着欢快的小步伐，还以为是真人扮演的呢：

玲娜贝儿跳起西域慢摇，胯部摆动流畅，手臂在空中跟着音乐节拍不停的变化：

路飞扭起大秧歌，也毫无违和感：

这种大秀舞技的时刻，怎么少的了马斯克马老板，谁看了不说一句，马老板的科目三确实跳的很妖娆：

跳起蒙古舞来，马老板也是有模有样：

上线即爆火的 Animate Anyone

通义千问之所以能够生成如此丝滑的舞蹈视频，背后离不开阿里在视频生成领域的深耕。不久之前，研究团队提出了一种名为 Animate Anyone 的算法，论文公布之初在国内外就掀起了一波不小的讨论高潮。短短一个月，Animate Anyone 在 YouTube 单个视频播放量已经高达 16 万次，而且这只是其中一位油管博主的视频播放量，如果统计全网，将会是一个很大的数字：

在这个视频的评论区，大家也是满屏的赞叹：「太惊人了。」

「人工智能的能力太神奇了，」之后忍不住又补了一句，「真的太神奇了。」

截至目前，该项目 GitHub 星标量已经达到 11 k 多。

论文地址：https://arxiv.org/pdf/2311.17117.pdf
项目地址：https://humanaigc.github.io/animate-anyone/

说到视频生成，从 GAN 开始，研究者们致力于将图像进行动画化以及进行姿态迁移的探索，然而，生成的视频仍然存在局部失真、细节模糊、语义不一致和时序不连续等问题。

为了解决上述问题，阿里提出了专为角色动画量身定制的新颖框架 Animate Anyone，它能无缝地把静态图像转变成动态的角色视频。通过巧妙设计的 ReferenceNet、轻量级姿态引导器和时间建模方法，Animate Anyone 解决了图像到视频生成中的细节不一致和运动不连贯等问题。Animate Anyone 框架如下：

Animate Anyone 具有以下特点：

首先，它有效地保持了视频中人物外观的空间和时间一致性；
其次，它生成的高清视频不会出现时间抖动或闪烁等问题；
第三，它能够将任何角色图像动画化为视频，不受特定领域的限制。

为了让大家更好地理解，我们以示例来说明。下图中同样是驱动一张照片动起来，直观来看，DreamPose 和 BDMM 在保留服装的精细纹理细节方面存在缺点，能看到明显的运动不连贯、闪烁等问题；而 Animate Anyone 就像真人模特在运动一样，衣服纹理保持良好，就连腿部衣裙的开衩都精准到位，把细节直接拉满了。

通过上述示例我们可以看出，由 Animate Anyone 驱动的视频生成技术，更好的保持了时序上的连续以及合理性，视频中人物的动作丝滑连接，没有跳跃或不自然的变化；生成的视频质量也非常逼真，人物的图像与视频内容能够保持高度的一致性；此外，视频的风格和色彩与原始图片一致性也较高。

结语

刚刚过去的 2023 年是人工智能技术迅速发展的一年，仿佛一刹那间，AI 就摇身一变，成为一个「六边形战士」，从一开始的会写小说、写代码、生成高清大片，到现在已经发展成生成视频了，AI 的发展速度已经超乎大多数人的想象。

作为引领新一代技术潮流的科技大厂们，自然是紧紧抓住机遇，不断进行创新与突破，给人们带来一次又一次的惊喜。

除了大语言模型继续刷屏外，视频生成技术也取得了重大进展，国外如 Runway 升级了 Gen-2 模型，带来了电影级别的高清晰度；Meta 发布视频生成模型 Emu Video，其视频的动态性比 Gen-2 有明显的提高；经典的文生图模型 Stable Diffusion 的公司 Stability AI 也发布了视频生成模型 Stable Video Diffusion (SVD) 等等。国内也在迎头赶上，如字节发布 Magic Animate，华为提出的 Animate124 模型等，都在视频生成领域进行不断的创新。

同样的，阿里也在视频生成领域交出了一份满意的答卷，将 Animate Anyone 集成到通义千问 APP，使得人人都可以进行无门槛的舞蹈合成，或许用不了多久，这一轮 AI 突破带来的变革将会触及更多人，我们将见证生成式 AI 对生产力和创新的颠覆。

在这场变革中，我们相信阿里会带来更多令人惊叹的应用。

参考链接：https://www.youtube.com/watch?v=8PCn5hLKNu4

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具