AI 文摘

记录活在OpenAI阴影里的AI创业经历


  • By AiBard123
  • February 27, 2024 - 2 min read



作者: DASOU 来源: DASOU

作者 | 像素炼金师

整理 | NewBeeNLP

https://zhuanlan.zhihu.com/p/682525947

作为一个生性散漫,不怎么和外界交互的野生 AI 算法工程师,这两天看到 OpenAI 的 Sora 之后,也不免想要写两句。因为我有些害怕科技巨头的产品像隆隆火车一样驶过,而我做的东西如同路边的野草一样,在这个技术进步就像跑马灯一样的时代里,留不下一丝痕迹

所以,连论文都不发的我决定发个知乎,在这里记录一下,这一年来的思考、经历和成果,以及对未来展望。也希望可以获得来自同行和其他各行业对 AI 感兴趣的人士的各种讨论和指教。

2023.05 - 2023.07 动机

一年前的时候,我从字节跳动抖音离职,寻求从零到一的机会。那时正是国内 AIGC 投资的顶峰,我也在接触各种类型的创业公司。我还记得那时有位创业公司的 CEO 和我说

视觉生成技术落地的机会很快就会到来,我觉得未来两年内,阿凡达这种效果的电影片段,可能只是高中生的课程作业。而视觉才是人类感知和认识这个世界的最直接的方式,所以这里有最大的机会。

** 确实,很可能 AI 最大的机会在 C 端,而 C 端最大的机会在视觉** ,我心里很认同他的后半句,但对前半句保持疑虑。在图片上生成人脸或者手部的时候还是一团糟的时候,怎么就已经能对视频抱有那么大的期望呢?我决定踏实一些,还是从图片出来一步一步解决已有的问题。

我的思考是先从人物的一致性入手,尝试通过一张参考图,生成同一个人物。进可生成图片序列进行故事创作,退可做些图片写真获得直接的现金流。于是我找了一家和我设想差不多的创业公司。

2023.08 - 2023.09 第一版 Demo

当时我加入的创业公司没有太强算法背景,老板作为产品经理给了我很大支持,我很快成了技术负责人,第一个月内,我就交付了第一版模型,基于 StableDiffusion 训练的从一张参考图片生成大头照的模型。

我们的人脸模型:随机一批明星的生成图片

说实话这没太大技术含量,只不过把自然语言的条件改成人脸特征而已,后来类似的开源工作 IP-Adapter 和 InstantID 也给出差不多的效果。但当时我们还是很兴奋,这条路能用很小的算力成本走通,而且同期妙鸭相机的爆火也给了我很大的信心。

不过我们的野心也不只是人像写真这种低用户粘性的产品,我们要做更大的应用场景,要实现内容创作。所以摆在我们面前的是还有人物互动下的语义对齐、图像的完整性等问题。一开始我们采取了一些不足为道的捷径,当时的 Demo 是这样的:

我们的第一版Demo:通过用户输入文本实现多人物互动的场景生成

乍一看挺不错的,我们一开始是这样觉得,但只要仔细看人物的肢体或手等细节就一定会找到错误的地方。我们越使用这个模型就越发现,想要获得一张准确无误且称心如意的图片的概率实在太低了。这是一个 C 端产品不能接受的,我们预定 10月份的发布,并没有达成。

而即使在我们的持续优化下我们发现这恐怕也就是这个规模的模型的上限了,因此我们想要在模型优化上做出更大的突破。老板的计划是能用这个 Demo 寻找新一轮的融资。但这时 DALL·E 3 横空出世了。

2023.10 - 2023.12 曲折的进展

DALL·E 3 让哪怕原本在图像生成领域执牛耳的 Midjourney 也受到了巨大冲击,更不要说我们创业小公司。融资市场几乎冰封,图像生成领域的创业公司再难拿到任何一笔投资。DALL·E 3 既完成了某些程度上的图片序列的一致性,也给出了几乎完全找不出什么毛病的图片,让我们对我们产品的竞争力的信心荡然无存。

但老板并没有放弃,还是坚持我们原先设想的目标,还是动用了不少的资金租了一些 A100 显卡给我做图像生成模型训练。计算资源对创业公司来说很贵,实验的过程也很曲折,不过那都不足为外人道了。

我们慢慢地加数据量、加训练机器量和训练时间,也加大了模型的规模,最终还是做出了一些效果,说不上多好,但只求不被认为落下 DALL·E 3、Midjourney 等第一梯队太多。

我们的一些中间实验结果,双人测试

实验的过程比我预期的漫长的多,习惯了深度学习上一个时代的快节奏,很难把握的了目前梭哈所有资源动不动跑一两个礼拜的实验周期。可能是因为我的资源有限吧 [sigh],也可能是项目管理经验不足,模型交付一直延期到了年底,很多功能也没有做好。

但好歹还是最终上线了。

2024.02 发布

先直接给一版参考效果吧,随便写的图不是太满意,细节也有不少不到位的地方,但大概就这回事了。(产品体验的地址暂时不留了,有缘或许可以遇到。或者我有信心了再分享。)

人物、服装和环境一致的图片序列:(1) 小李子和凯特在船上相遇恋爱 (2) 船撞上冰山,他们浮在冰块上 (3) 他们来到救生艇上,远处的船沉了 (4)他们安全上岸

我原先对我们的模型还有不少期许—比起一众图片生成模型,我们有着不少差异化和领先的地方。我也期待用户可以在我们的产品里创建他们自己的形象,演绎自己的故事。

但在这个档口又遇上了 OpenAI。2月16号视频生成模型发布,可以生成 60s 的的短视频,视频当中每一帧的质量完全不输任何的图像生成模型。当 Sora 出现的时候,似乎我们做的差异化有些微不足道了。60s 的视频完全是图片序列的上位替代,我们一步一步手工构造的一致性,完全输给了短视频连续性的约束。那么作为 AI 创业公司还有什么生存之道呢?

2024 及未来 迷茫

在科技巨头海量的计算资源和数据资源面前,千万资金的创业公司确实如路边的野草一样,只是历史滚滚车轮旁的一些点缀。希望野草也能有一片立足的土壤,见证这个世界的更新。

人类和机器交互的门槛被技术进步踏平,编程语言被自然语言取代,专业复杂的软件变成简单的语言指令控制——或许科技巨头会达成技术的垄断,内容创作者迎来最美好的时代,但在技术舞台上可能却容纳不了多少从业者了。

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具