Meta、Midjourney、Adobe、DALL·E：四大巨头的AI绘图模型综合评测作者： Founder Park 来源： Founder Park 上周三，Meta 发布了一个免费的 AI 图片生成工具——Imagine with Meta AI，该产品基于其 Emu 图像模型。Meta 使用了 11 亿张公开可见的 Facebook 和 Instagram 图片来训练 AI 模型。在某种程度上，大模型时代，这句老话「如果你不花钱，你就是产品」有了全

Meta、Midjourney、Adobe、DALL·E：四大巨头的AI绘图模型综合评测

By AiBard123
December 12, 2023 - 2 min read

作者： Founder Park 来源： Founder Park

上周三，Meta 发布了一个免费的 AI 图片生成工具——Imagine with Meta AI，该产品基于其 Emu 图像模型。Meta 使用了 11 亿张公开可见的 Facebook 和 Instagram 图片来训练 AI 模型。

在某种程度上，大模型时代，这句老话「如果你不花钱，你就是产品 」有了全新的演绎。截至 2016 年，Instagram 用户每天上传超过 9500 万张照片，因此 Meta 用于训练其 AI 模型的数据集只是其整个照片库的一小部分。由于 Meta 表示它只使用公开的照片进行训练，因此在 Instagram 或 Facebook 上将照片设置为私有应该会阻止它们包含在公司未来的 AI 模型训练中（当然，除非它改变了该政策）。

Ars Technica 对 Meta 生成图片能力的评价是：

Meta 的模型通常可以很好地创建逼真的图像，但不如 Midjourney。它可以比 Stable Diffusion XL 更好地处理复杂的提示，但可能不如 DALL-E 3。它似乎并不擅长文本渲染，而且在处理不同的媒体输出，如水彩画、刺绣和钢笔画时效果参差不齐。它的人物形象似乎包含了种族背景的多样性。总体而言，就 AI 图像合成而言，它在当今算是中规中矩。

公众号「数字生命卡兹克」迅速体验了 Meta 的绘图模型，并且对比了 Meta Imagine，Midjourney，Adobe Firefly，Dalle 四家产品的不同能力。

以下内容转载自「数字生命卡兹克」，Founder Park 转载时有调整。

SDXL 之所以没放在里面是因为它毕竟是个开源模型，是靠后续大神们的微调和生态来玩的，而且原生的质量确实有一点点差……

所以主要来对比这四个大模型。

我会从细节质量、审美（构图色彩等）、风格多样化、语义理解 这四个维度来评测，每个维度 3 个 Prompt，同时每个 Prompt 我会在 AI 绘图模型中 roll 3 次，取效果最具有代表性的那个图，尽量减少偏见。

同时，为了有最后整体可视化的评分让大家看着更直观，所以我会进行打分。在每个案例中，第一名为 4 分，第二为 3 分，第三为 2 分，最后一名为 1 分，最后计算和。

####01

####细节质量

主要测试 AI 绘图对于细节的表现能力，比如人物面部皮肤的质感、比如织物纹理的细节、场景细微元素的细节等等，这个是对模型精度和输出质量一个非常重要的考量。

Prompt1：Portrait of a 2000s blonde woman posing on a sports car, white wired headphones, expressionless, 2000s hairstyle, 2000s fashion, sun rays, light teal and amber,Cinestill 50D

2000 年代金发女郎在跑车上摆姿势的肖像，白色有线耳机，面无表情，2000 年代发型，2000 年代时尚，太阳光线，浅青色和琥珀色，Cinestill 50D

明显可以看出，Adobe 在人物皮肤质感和衣服质感上最佳，Meta 和 MJ 其次，Dalle3 最差；耳机细节都有问题，Dalle3 取巧了所以没有 BUG，Meta 直接没给你画；背景的细节都差不多。

Adobe：4，MJ：3，Meta：2，Dalle：1。

Prompt2：Amazing photo of golden retriever chasing tennis ball underwater, close-up portrait

金毛猎犬在水下追逐网球的惊人照片，特写肖像

Meta 整体最好，MJ 其次，被水沾湿的细节都画出来了，Adobe 狗身上的细节少了一些，Dalle3 还是拉了，水的气泡的细节崩了。

Meta：4，MJ：3，Adobe：2，Dalle：1。

Prompt3：A girl with a bunny sitting and smiling in 1970s fashion in a field of flowers

一个带着兔子的女孩，穿着 1970 年代的时尚，坐在花丛中微笑

MJ 完胜，花和兔子、头发细节基本都没啥可挑的，Adobe 的细节很足但是裤子崩了，Meta 的面部皮肤质感很难受，Dalle 基本就没啥东西，一股子油画感。

MJ：4，Adobe：3，Meta：2，Dalle：1。

在细节质量上，总分如下:

####02

####审美

主要测试 AI 绘图的审美能力，一张图好不好看，是美是丑，除了细节之外，更多的还需要看模型的审美能力，比如构图、色彩、光影等等，审美强，出的图才好看。

Prompt1：Product shot of juicy burger, artisan, rustic, food photography, delicious, close-up

多汁汉堡的产品拍摄，工匠，质朴，食物摄影，美味，特写镜头

一张非常强调审美的图，Meta 的色彩几乎就不能看，让人毫无食欲，Dalle 的构图问题很大背景太乱，两个瓶子跟门神一样，MJ 也没有构图就一个大主体，Adobe 完胜。

Adobe：4，MJ：3，Dalle：2，Meta：1。

Prompt2：Dungeons and Dragons, Close up of a fire breathing flying dragon, cinematic shot

龙与地下城，喷火飞龙的特写，电影镜头

特写镜头，很强调构图，还有火与龙身的光影对比，Meta 的龙极其呆逼，其他所有的龙眼睛也都会发光来做强调，就它真画了个眼睛上去，色彩和构图也不太行，整体最佳还是 Adobe，色彩和构图都棒，其次是 MJ，再次是 Dalle，构图差点意思，太偏左上了，最次是 Meta。

Adobe：4，MJ：3，Dalle：2，Meta：1。

Prompt：Diagonal Shot. Constantinople, 1453, masked sorceress, in the style of biblical drama, movie scene, low saturation, muted colors, extreme detail, 8K

对角线拍摄。君士坦丁堡，1453 年，蒙面女巫，圣经戏剧风格，电影场景，低饱和度，柔和的色彩，极端细节，8K

MJ 的构图和色彩质感基本爆杀全场了，Adobe 完全没理解我最后的低饱和度，Dalle 的构图也很奇怪。

MJ：4，Meta：3，Adobe：2，Dalle：1。

在审美上，总分如下:

####03

####风格多样化

主要测试 AI 绘图对于风格的包容度，比如皮克斯风格、吉卜力风格、折纸艺术等等，理论上是需要大规模用几百个艺术风格去测成功率的，但是我个人精力有限，所以简单测试 3 个稍微常见一点但是不是那么烂大街的艺术风格吧。

Prompt1：an anime illustration of a samurai girl carrying a ninja sword, in the style of ethereal brushstrokes, ink painting, dark white and dark gray, fluid formation

拿着忍者剑的武士女孩的动画插图，风格空灵，水墨画，深白色和深灰色，流体形成

在水墨画这块，得神韵的还是 MJ 和 dalle，Meta 那个笔触就很诡异一点都不连贯断断续续得，Adobe 画出来就感觉一个日漫一样。

MJ：4，Dalle：3，Meta：2，Adobe：1。

Prompt2：small boy looking out of his bedroom window into a cyberpunk world, pixelated, 8 bit style

小男孩从卧室窗户望向赛博朋克世界，像素化，8 位风格

8bit 的像素画+赛博朋克，Adobe 和 Dalle 都画出了这种风格，Meta 差了一些，MJ 是完全没画出。在像素化上，Adobe 确实最好。

Adobe：4，Dalle：3，Meta：2，MJ：1。

Prompt3：Colorful logo of a French restaurant called “Khazix” with a flying seagull

一家名为「Khazix」的法国餐厅的彩色标志，上面有一只飞翔的海鸥

在做 Logo 上，Dalle3 的精准文字目前确实是独一档，无人可比，logo 的设计上，Dalle 最强，MJ 次之，Adobe 普普通通，Meta 的图形和细节简直稀碎。

Dalle：4，MJ：3，Adobe：2，Meta：1。

在风格多样化上，总分如下:

####04

####语义理解

主要测试 AI 绘图对于复杂语义的理解能力，能否将文本内容都能清晰的表达出来并保证生成图片的质量。

Prompt1：A cup of coffee sitting on a table in front of a window; outside the window is a futuristic city; a futuristic monorail can be seen close by; many lush plants around; shot from ground floor; clouds above

窗前的桌子上放着一杯咖啡；窗外是一座未来的城市；附近可以看到未来派的单轨列车；周围有许多茂盛的植物；从一楼拍摄；上面有云

MJ 崩了，是唯一没画出列车的，Adobe 画了列车但是轨道有 BUG，Meta 画出来了但是很乱，Dalle 完美。

Dalle：4，Meta：3，Adobe：2，MJ：1。

Editorial photography of astronaut cooking Christmas colorful chocolate honey cookies on spaceship, Christmas honey cookies floating around astronaut, no gravity, in spaceship, levitated

宇航员在宇宙飞船上烹饪圣诞彩色巧克力蜂蜜饼干的编辑摄影，圣诞蜂蜜饼干漂浮在宇航员周围，没有重力，在宇宙飞船中，悬浮

Dalle 暴揍全场，唯一理解了圣诞、彩色元素的，Adobe 在做饼干但是没这些元素，MJ 好看是好看但是快把自己炸没了，饼干都没在做，Meta 的饼干没漂浮。。。

Dalle：4，Adobe：3，Meta：2，MJ：1。

Prompt3：Shot diagonally. Cinematic shot of several astronauts in the space station, surrounding a chromium metal water droplet suspended in the air, the surface of the water droplet can reflect everything like a mirror, indoor scene

对角线拍摄。几名宇航员在空间站中的电影镜头，围绕着一个铬金属水滴周围，铬金属水滴悬浮在空中，水滴的表面可以像镜子一样反射一切，室内场景