AI 文摘

我调研了650+用户,他们心中的AI应用排名是什么样的?





作者: 数字生命卡兹克 来源: 数字生命卡兹克

自从ChatGPT去年11月发布,已经过去快1年了。而距离2月份在国内爆火,也已经过去整整半年了。

这期间,有太多太多的AI大模型,在公关口径、在媒体传播、在各种榜单评分上,号称达到了“最强”,超过了GPT3.5,甚至有的都已经号称将GPT4踩在了脚下。

包括今天科大讯飞星火的发布会,说星火V3.0综合能力也全面超越ChatGPT,“国内领先,国际一流”。

于是,我就有一个想法,想看看真实用户,到底对这么多AI大模型的能力,是一个怎么样的排名, 是否真如媒体口中所说,XX全面超越GPT4,遥遥领先?

我就做了一个问卷调查,最后收到了647人的回答。

相对于这些AI大模型的日活体量,这个样本的代表性肯定不够完美,但是我已经尽力了,我在我自己的群里、朋友圈、微博等等都发了,也很感谢一些朋友的帮忙。

不过647个真实用户的回答,在统计学上,也能客观的展现出一定的特征了。

在这些用户的使用经验上,使用较久的用户偏多。57%的用户都是已经用了6个月以上的老用户,23%的用户也用了3~6个月了。这些用户大部分都用了绝大多数的大模型。这个比例符合AI的热度曲线。

2、3月的时候是AI热度最炸裂的时候,后面流入的新用户是越来越少。包括我自己社群的特征,也是老用户居多。

而在最常用的大模型上,GPT3.5和GPT4基本遥遥领先,占据了最大的比例。两者直接瓜分掉了54%的用户

剔除GPT、Claude、Bard后,国内的AI大模型只拿到了31%的份额。

文心一言最多,213票占据14%,其次是智谱清言,100票占据7%,讯飞星火93票占据6%,剩下的一些国产大模型几乎没人用,暂且按下不表。

因为这是最常用的AI大模型占比,涉及到网络、习惯、需求等等,常用并不一定等于最强。

所以我们再来看看用户心中最强大模型的数据。这个比例就有意思了。

GPT4一柱擎天,真正的遥遥领先。

不管评测机构、公关文怎么说"超越"。用户真实使用下来以后,他们的心智和认知就是如此。以极度碾压的姿态完胜。

第二名是GPT3.5,第三名是Claude,而这一次数据更夸张,国外大模型直接拿走了84%的比例,认为国产大模型最强的人,只有19%

国产前三名和常用榜单一致,文心一言在国产阵营中大幅度领先,76票,第二还是智谱清言,46票。

最有意思的一个数据是:在最常用榜单里,最常用文心一言和智谱清言的313个人中,在认为最强的AI大模型上,有79.8%的人,认为最强大模型是GPT4 …至于还投给GPT3.5和Cluade的比例,我就不放了,留点面子。

在使用场景的比例上,可以发现基本都是以工作场景为主。

创意写作占比22%,办公助理占比22%,学习/教育占比20%,代码辅助占到14%。

基本都是工作场景,而情感对话和娱乐,加起来仅仅只有10%而已。

这基本上也可以看出,用户真正的需求在哪里。工作流嵌入实现降本增效才是唯真正的核心。

从场景上去看GPT4、文心一言、智谱清言的雷达能力图,是这样的。

可以非常明显的看到,GPT4是多边形战士。而文心一言用户更倾向于用它进行创意创作,而智谱清言用户更倾向于将它作为办公助理去实际的解决问题。

这个小调研,可能并不能跟主流机构们去比。它不客观也不全面,跟没有打榜和跑分,仅仅都是用户自己主观的认知。

至少在用户认知里,牛逼的还是GPT和Claude,国产里面还可以的只有御三家:文心一言、智谱清言、讯飞星火

至于其他的国产大模型,用户们可能听都没听说过。

不管怎么样,我觉得还是正视差距为好。

我为什么一直都很喜欢智谱这家公司?

因为他们真的不吹牛逼,踏踏实实的干事,客观的承认自己的不足。比如智谱8月发的这片文章。承认自己跟GPT4的差距,承认目前只能达到GPT4的1/4的Agent的能力。

再看看别人,前几天跟GPT4旗鼓相当,今天全面超越GPT3.5。。。

长点心吧,现在的用户们都长大了,他们不傻。不是一两句公关稿就能忽悠了。

我尊重一切踏踏实实、不吹牛逼、认认真真做事的公司和人。

我也愿意全力支持这样的公司和人。

毕竟现在这个时代,要脸,且不愿意忽悠的人啊。

真不多了。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,并给我个星标⭐~感恩。

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具