AI 文摘

PerplexityCEO:AI创业公司要先做产品,后做模型





作者: 海外独角兽 来源: 海外独角兽

编译:Lavida

编辑:Siqi

排版:Scout

本文编译自播客节目 Unsupervised Learning 对 Perplexity CEO Aravind Srinivas 的专访。

上月初,Perplexity 完成了 B 轮融资,最新估值为 5.2 亿美元,这轮融资由 IVP 领投,NVIDIA 和 Jeff Bezos、NEA、Elad Gil、Nat Friedman 等跟投,Perplexity 的累计融资额超过了 1 亿美元,创下了近年搜索领域初创公司的融资金额纪录。

作为一款现象级的 AI-native 产品,Perplexity 用更具象的方式给出了“问答引擎会如何替代搜索引擎?”这一问题的答案。在我们发布对 Perplexity 的深度研究中,也曾做出判断:如果没有长期新的商业模式出现,Perplexity 当前的形态更可能成为 Gen AI 时代的新 Quora + Wikipedia,如果探索出了 LLM-native 的商业模式,Perplexity 具备挑战传统搜索的潜力。

外界对于 Perplexity 讨论大部分集中在“AI 套壳产品如何真正建立自己的护城河?”,Aravind 认为,“成为一个拥有十万用户的套壳产品显然比拥有自有模型却没有用户更有价值”。此外,Aravind 还提到,Perplexity 的决策都是从客户体验出发,作为创业团队,不应该被使用什么样的模型限制住,比如 Perplexity 近期也开始训自己的专有模型。

**以下为本文目录,**建议结合要点进行针对性阅读。

👇

01 AI 创业公司要先做产品,后做模型

02 AI 套壳产品的护城河是什么?

03 问答引擎和 Agent 是 AI 时代的搜索

04 Perplexity的用户增长策略

01.

AI 创业公司要先做产品,后做模型

** Jacob Ephron:**Perplexity 的产品很好上手、操作简单,但也因此容易让人们忽视背后的复杂性。为了提供这样的用户体验,你们主要做了哪些工作?

Aravind Srinivas: 我们主要专注五个关键维度:准确性、可靠性、响应速度、用户体验的愉悦度,以及不断更新优化。 这些优化既服务于所有用户,也针对个人用户进行个性化调整。要让产品在市场上处于领先地位,这五个方面都必须做到极致。一般来说,100 家创业公司中可能只有一家能够在某一方面做到极致,也就是说,同时在这五个方面都做到极致的概率是百分之一的五次方。 这极具挑战性,但我们必须以此为目标,因为这是创造下一个数十亿甚至百亿级企业的必经之路。

在用户搜索查询时,我们的任务是深入理解并优化用户的问题。我们会筛选出最合适的网页,甚至针对性挑出具体段落来提供答案,还要考虑应该如何展示答案——是一个摘要或段落,还是一连串的关键结论,以及怎么给每个句子配上恰当的引用,要如何尽量避免引用错误,确保答案中没有出现 hallucination 等问题。

有时光文字是不够的,还需要添加图片或视频,而视频的信息量非常大。但无论什么形式,关键是确保答案准确无误,方便分享,这就是我们的创新。很多用户查询后的答案价值特别高,对其他人也很有参考价值,所以我们做了 Permalink,后来 Bing、ChatGPT 和 Bard 也开始效仿我们。

用户提问后,我们还会推荐一些 follow-up question,因为用户很可能并不知道怎么提出一个好问题,这是人类天生的局限性,虽然每个人都有很强的好奇心,但能将好奇心转化为精确问题的人却很少。

大多数问题都可以通过简单的互联网搜索得到答案,真正需要深思的问题却不多,正因如此我们推出了 Copilot。我们意识到很关键的一点是,为什么要怪用户不能提出好问题呢?以前我妈妈会偶尔和我抱怨我们产品上的问题,我就会想是她提问方式有问题,但后来 Larry Page 改变了我的看法。

Larry 分享过一个故事,他们曾经差点把 Google 卖给 Excite,当时他和 Sergey 一起给 Excite CEO 做演示,打开了两个浏览器窗口,一个是 Google,另一个是 Excite,然后他在两个搜索引擎中输入了同样的文字,Google 成功地返回了相关链接,而 Excite 没有。Excite 的人看了之后说是因为你的输入不准确。而 Larry 的回答是,我只是个用户,我没有犯错。这个故事体现了人机交互的一个基本原则:用户永远不犯错。

Excite 是 1990 年代中期最受欢迎的网站之一,主要提供网络搜索、新闻、电子邮件、即时通讯和天气等服务。Larry Page 和 Sergey Brin 作为 Google 的联创曾经尝试向 Excite 的 CEO 出售 Google。这件事是互联网早期历史上的一个有趣的轶事,因为 Excite 最终没有收购 Google,而 Google 后来成为了全球最大、最成功的搜索引擎之一。

** Patrick Chase:**你提到 Perplexity 专注的 5 大核心领域,从工程视角出发,要如何平衡在这些不同领域的资源配置?

Aravind Srinivas: 我认为最成功的公司都应该做好纵向整合。如果我们的设计师、产品工程师和后端开发人员之间完全不沟通,是做不出优秀的产品的。举个例子,如果设计做得好,我们可以通过用户互动获取更多数据,进一步提升产品的质量。所以我们的方法就是让不同部门之间保持沟通顺畅,比如定期组织全体会议交流,这些会议不一定要达成共识,因为大家立场不同,因此会议上的讨论也很激烈,但这能让每个人都充分理解其他团队的重要性。

产品的价值和公司的价值应该是相辅相成的,我们公司的核心价值观是高质、准确和迅速,这三点精准代表了我们产品的追求。

** Jacob Ephron:**Perplexity 最开始是基于 OpenAI 的模型来做的,后来你们对一些规模更小、推理更快的模型上做了 Fine-tune,再到后来你们又开始使用开源模型和自研模型。现在有很多创业团队都在想自有模型这件事,你们是如何做出这些决策的?

Aravind Srinivas: 如果有机会重来,我还是会做同样的选择。我认为一开始应该坚决用外部模型,如果你的目标是打造以产品为核心的公司,就不要在训练自有模型上浪费时间。

当然具备模型相关的能力也很重要。我们团队比较幸运的一点是我和 CTO 都是 AI researcher 背景,我们在创业之前就已经在模型训练上花了 5 年左右的时间,因此我们相当了解训模型需要哪些资源和条件。但如果创业者并不是 AI researcher 背景也没问题,总体上我们的建议是,要专注产品,越早推出自己的产品越好,然后去用户增长、做好留存,这是首先要解决的问题,也是很重要的一步,一旦做好这件事,可能接下来一半的问题都会迎刃而解,如果把产品和用户增长做好对于融资和招人也很有帮助。

创业过程中,比融资更难的是找到顶尖人才。 市面上不缺资本,只是估值高低的问题。人才对未来的影响更为深远,找到顶尖的工程师比得到投资人支持要难得多。但是如果你的产品还没有一个用户,为什么拥有很强判断和决策能力的工程师要加入你?

Perplexity AI 由 CEO Aravind Srinivas(左)、CTO Denis Yarats(中)、CSO Johnny Ho(右)和 Andy Konwinski 于 2022 年 8 月共同创立

现在市场上有能力训大模型的头部 AI researcher 甚至比 GPU 还要稀缺,也许我们还能找到方法和渠道获得 H200,但要找一个知道如何训 GPT-4 的 AI 专家要比这件事更难。即便我们有能力付出更高的薪资,这些人也不一定放弃现有团队选择加入我们。所以我们需要考虑的是,我们创业的初衷是什么?既然我们的目标是推出一款产品,并围绕这款产品建立了自己的商业模式,接下来就专注于这个目标去做,这也是作为创始人的本职工作。

但为什么我们发展到今天又决定训自己的模型?原因很简单:在竞争对手也在做相似的东西,而我们的产品还没明显差异化时,我们希望减少对外部的依赖,自有模型也能尽量降低成本。

训自有模型不是团队的盲目决策,我们一直等到 Llama2 的发布才决定做,就好像 Bezos 曾经说过的“You need to position yourself and wait for the wave”,显然开源会是这道浪,就像之前大家基于 GPT-3.5 做了很多创新一样,更大的浪潮即将到来。

同理,Nvidia 的 Tensor RT 库将极大提高每个产品的推理速度,这也是一波新趋势,我们必须做好充足准备迎接。而我的工作就是和公司管理层充分交流,确保他们决策科学,并提供他们所需的信息和建议。

NVIDIA TensorRT 是一个针对 NVIDIA GPU 设计的深度学习推理库,用于提高模型的推理速度和效率,且能通过量化、层融合和专门的内核优化来减少能耗。TensorRT 支持主流深度学习框架,如 TensorFlow 和 PyTorch,使得训练好的模型可以转换成 TensorRT 格式,并在 NVIDIA GPU 上高效运行。

** Jacob Ephron:**你觉得未来开源模型的普及程度会有多高?大多数 App 都会建立在最先进的 LLM 上,还是大多数人会像你们一样进行转换?

**Aravind Srinivas:**我的感觉是,今天用 GPT-4 能做到的任何事情,将来都可以不用 GPT-4 做到,并且价格更便宜,延迟更低,一切都会更加优化。 我们现在所做的包括 Copilot 在内没有 GPT-4 是不可能完成的,我们正在试图摆脱这种依赖,但总会有下一个 “Perplexity Copilot”出现,比如生成式用户界面、dynamic prompt engineering,这些以前都是不可想象的。未来也会有新的应用可能出现,能实现上传图像提问这种功能。

现在大家已经用 AI 工具来做作业了,只需使用 CamScanner 应用一样扫描作业并上传到 ChatGPT 就能得到答案,没有 GPT-4 也完全不可能。当下一个模型出现时,AI 也许能帮你完成任务,比如进行多推理链条、多模态推理,或者你可以上传视频,要求它准确地从中获取某些信息,这些在我看来都是只有下一代模型才能做到的事情。

02.

AI 套壳产品的护城河是什么?

** Patrick Chase:**你如何看 AI 套壳产品的护城河?

Aravind Srinivas: 我的观点是,只有当你真正有了值得“护”的东西时,护城河才有意义。人们可以将 Perplexity 看做是一个 AI 套壳,但成为一个拥有十万用户的套壳产品显然比拥有自有模型却没有用户更有意义。 市场上有很多人都开发了自己的模型,但实际应用中几乎所有人都部署了 Llama 2 或 Mistral 这些主流开源模型,在闭源和开源领域都有 power law:OpenAI 和 Anthropic 是闭源模型的头部,开源这边是 Llama 2 和 Mistral。我们有四个 OpenAI 模型加三个 Anthropic 模型,对我来说,管理这几家公司的模型已经压力很大,是极限了。

** Patrick Chase:**未来你们会完全转向开源,还是继续维持多种模型并用的状态?

Aravind Srinivas: 模型的发展是动态变化的,我们要对各种模型都保持开放心态,但要快速、积极地对于模型领域的变化做出相应选择。如果我们有人做出更高质量的模型,我们仍旧愿意使用这个模型,因为用户只在意自己的搜索体验,而不是我们用了哪个模型、我们的商业模式是什么、我们怎么盈利。

这一点也是来自 Bezos 的启发,他在之前一次访谈中被不断问到,为什么有 iPad 的情况下还有继续在 Kindel 上做投入?为什么要在烧钱更多的 1-2 日送达服务上投入,尤其是 Amazon 还没盈利的情况下?Bezos 当时的回答很简单,客户并不会在意这些。

** Jacob Ephron:**Perplexity 正尝试探索深度知识服务场景,随着 LLM 和 Perplexity 的发展,你认为 Quora 和 Wikipedia 这类产品的未来会是什么样的?在你看来,Perplexity 的重点是知识服务还是搜索?

Aravind Srinivas: 我觉得 Quora 和 Wikipedia 都是为了最大化利用互联网上的知识,但我们不仅想要最大化 IQ,还要最大化 IQ 的传播速度。他们致力于增加知识的量,而我们致力于增加知识量随时间的变化速度,让这个过程加速。

人们在 Wikipedia 上看到的内容是很不个性化的,比如我查看“黑洞”的 Wiki 页面时是想详细了解黑洞是什么,但在看某个名人的主页时只是想简单看下,而另外一个人和我的需求大概率又是不同的,目前还没有什么产品可以实现高效、个性化的知识获取需求。在 Quora 上,人们需要花一定时间等待别人来回答自己的提问,不仅很慢,也无法最大化加速知识的获取,Perplexity 就是想要解决这样的问题。

Perplexity 的初衷是满足人们无穷的好奇心,现在是从小的细分市场出发,未来还要不断拓宽自己的版图。我一度很迷茫是不是应该专注做垂直搜索引擎,而不是继续扩展业务,直到 Marc Andresson 给我建议“无论如何都不要单纯做搜索。”虽然所有 VC 都会让你做垂类搜索引擎,但事实上其中大多数都很难成功。90 年代末和 21 世纪有过类似的时期,所有人都在说要做垂直领域的 Google ,结果大多数公司都失败了,反而是在垂直领域建立端到端用户体验的公司成功了,比如 booking.com,不仅能搜索酒店,还能直接完成预订。

如果要获得更长远的发展,只做搜索是不够的,还需要向前一步,成为这个领域中服务更加全面的公司,比如 Airbnb 已经不只是一个住宿预定平台,而是一个提供综合旅行服务的公司了。只要做得足够深,我们的竞争优势就不只是在技术、用户积累这样的单点上。

03.

问答引擎和 Agent 是 AI 时代的搜索

** Patrick Chase:**你怎么看过去十多年来很多人想挑战 Google,但几乎没有人能做到这件事?未来 Google 的地位会发生什么样的变化?

Aravind Srinivas: 必须承认我们的成功很大程度上得益于时机的选择。包括 Neeva 在内的很多由前 Google 员工创立的公司总是想照搬 Google 的运营模式,比如做个高效爬虫系统或者相似的 GTM 策略,这是绝对错误的。Google 已经在这个领域做了 20 年,他们更好、更快,创业公司根本无法竞争。

Neeva:由前 Google 高级工程副总裁 Sridhar Ramaswamy 和合伙人 Vivek Raghunathan 创立的一家搜索引擎公司,于去年被 Snowflake 收购。

还有人以无广告、重视隐私保护为卖点,这些现在看来都已经是过去式了。DuckDuckGo、Brave 已经占领重视隐私的搜索市场,Go-to-Market 也非常成功,这两家公司最正确的决策就是特别专注做市场和品牌建设,而非单纯研发技术。这再次说明必须尽快打入市场,理解用户为何选择你。

所以说,策略和巧妙的市场定位非常重要。对这两家公司来说,隐私保护和加密货币是他们的卖点。而其他试图挑战 Google 的公司都更多地关注技术,但这是不够的,特别是当你的技术与 Google 完全相同时。 而且反 Google 的营销手段,比如强调隐私保护,也已经有人做过。虽然并不是每个人都关心隐私,但至少那些在意的人已经投向了其他两个项目。这就是为什么此前的尝试都未能成功。

对我们来说,AI 技术的飞跃是一个转折点。 OpenAI 的模型效果相当惊艳,每个人都能通过 API 调用模型能力,在大模型领域 Google 失去了自己的领先地位,2 年前没有人能想象这件事,Perplexity 也利用到了这个难得的机遇。

** Patrick Chase:**你认为搜索在接下来 10 年会变成什么样?

Aravind Srinivas: 会变成问答引擎,或者说帮你完成各项任务的 agent,就像你平时跟朋友聊天那样自然。比如你会问朋友“你听说过那个事吗,快给我说说”,这时 agent 的回答要足够简单明了。这也是我们至今还没有推广语音交互的原因,因为回答真的太啰嗦了,我们看答案总是比听答案要快。

** Jacob Ephron:**除了做 To C 应用外,未来你对产品其他方面有什么设想?Perplexity 的长期规划是什么样的?

Aravind Srinivas: 很多用户还没有使用 Perplexity 是因为担心我们只是个套壳应用,没有自己的 infra,最终可能会在烧完钱之后退出市场,所以我们想要先解决这部分担心。

我们正努力做到独立提供全方位服务。首先至少要有能与 GPT-3.5 turbo 性能匹敌的模型来处理用户需求,确保上线时用户感受不到产品表现有任何不同。就像 Paul Graham 说的,“唯一能存活下来的 AI 公司是那些即便推出自有模型,用户也察觉不到区别的公司。即便有所察觉,也必定是体验上的提升”。

虽然 Perplexity 能够给出简单明了的答案,但和 GPT-4 相比还是差很多,因为 GPT-4 真的太强了,即使是 Google 这种资金比我们多上千倍的公司也做不出 GPT-4 级别的模型,我们现在更多希望其他公司能够推出比如 Llama-3 或 Mistral2 这样强大的基础大模型,在这些模型基础上,我们就可以利用自身的数据优势实现更接近 GPT-4 的水平,这是我们主要的目标方向。

性能提升也将是我们的一大亮点。我们最擅长的是处理、分析和重组用户查询的问题,就像在 Copilot 中的交互一样,不断提高总结、答案和搜索索引的质量。过去一年中我们积累了大量流量和专业知识,所以我有自信这点目前只有我们能做到。

我们还需要提供自己的模型,即便是用外部 GPU 来做 fine-tune 和部署,比如 Fireworks、Anyscale、Replicate 或者 Hugging Face,最终还是要支付给第三方服务,利润率还是不够高,这样就又回到了套壳的角色。

** Jacob Ephron:**Perplexity 在利用 RAG 技术解决 hallucination 问题这方面做得很好,你之前也提过会把这套技术方案开放出去,具体要怎么实施?你如何看企业搜索领域的挑战?

Aravind Srinivas: 这个问题很重要。很多人误以为,既然我们在网页搜索中用 RAG 效果这么好,那做公司内部的搜索系统也不在话下,但实际上两者截然不同。Google Drive 的搜索那么差是有原因的,它和谷歌搜索的索引机制完全不一样,需要训练的 Embedding 模型也大不相同。不仅仅是 Embedding 模型,甚至连网页的剪辑方式、文本检索技术,以及基于传统 TF-IDF 的弹性索引,这些倒排索引的构建方式都不同。 这就需要有公司花时间做这一特定场景的产品,就像我们专注于网页搜索场景一样。实现 RAG 任务还是很艰巨的,除了 Gen AI 还需要大量其他方面的工作,不仅仅是训练一个大型 Embedding 模型那么简单。

“TF-IDF-based"指的是基于“词频-逆文档频率”(Term Frequency-Inverse Document Frequency, 简称 TF-IDF)的方法或系统,这一方法使用词频(TF)和逆文档频率(IDF)的计算方法来评估词语在文档集中的重要性。这种方法常用于搜索引擎和文本分析中,以帮助确定词语对于文档的相关性。简而言之,TF-IDF 帮助区分词语对于文档的贡献,给出权重高的词更多的关注。

OpenAI 发布 embedding API 时,Sam Altman 经常说下个万亿美元公司可能会通过接入这个 API 诞生,但其实这只是个很好的营销手段,所以我每次听到别人说已经解决了 RAG 问题时,也会很谨慎,因为他们可能只是某个特定 use case 上做得很好,但不意味着可以轻易推广到其他所有场景。在处理结果排序时,还有许多其他因素共同决定了答案的质量。即使是 LLM 最终决定使用哪些链接来构成答案,并不意味着你可以随意向模型提供低质量输入,然后期待它能变魔法似的从中提炼出最相关的链接,还标好了所有的引用。

其实你向这些能处理大量上下文信息的模型提供的信息越多,出现 hallucination 的可能性就越大。因此,必须在 retrieval component 上做更多工作,不仅仅是嵌入模型的训练,还包括索引和排序机制。排序机制也应该考虑到除了向量点积以外的多种信号,而这些信号的具体内容极大依赖于具体的 use case。

04.

Perplexity的用户增长策略

** Jacob Ephron:**从 Twitter 上的讨论来看,很多人都很喜欢你们的产品,也有很深入的了解,接下来你们要如何实现下一个百万用户增长?

Aravind Srinivas: 对我们来说,目前的关键问题是找到用户增长点和满足现有核心用户之间的平衡。Perplexity 目前确实有一群忠实用户,他们在 Twitter 等社交平台上对我们给出了很高的评价,他们对产品的理解也很深刻。为了实现下一个百万用户的增长目标,我们会持续关注产品是不是好用,确保新用户能够直观地理解和使用产品。同时,我们也在探索将新用户转化为长期用户的重要因素,比如优化用户体验和提供用户引导等。

对于团队来说最大的挑战在于找到产品的改进方向,或者说该不该对用户提出的各种需求都要做出响应。因为重视用户需求并实现这些需求在我们找 PMF 的时候是很有效的策略,但一旦我们的用户到了数百万的量级,一定会出现一批有强烈需求的“权力用户”,对于这些用户,如果团队不能满足他们需求上线他们想要的功能,他们可能就不再使用 Perplexity,甚至会在公开场合抨击我们不重视用户需求,对产品带来负面影响。另一方面,我们对产品发展是有很清晰规划的,所以我们很重视用户需求的同时,最终还是会围绕一个具体的理念和目标来规划产品。

**我们一直在努力寻找一个能让广大用户满意的平衡点。**寻找用户需求、平衡用户需求是一个不断变化的过程,但有一条我们已经非常明确:产品对新用户越不直观友好(比如首次访问 landing page 时看到很多弹窗),我们吸引新用户的能力就越弱。 我们时常会面临这样的困境,现在我们的产品免费,无需登录就能使用,但我们还是希望用户能注册,更好地去用其他功能。但如果首页上跳出各种注册选项,用户可能一烦就关掉了。但现在连 Google 也在用这种策略,在搜索结果页面不断提醒用户保持登录状态。这种权衡是我们面临的一大挑战。

** Patrick Chase:**和大多数平台一次性输入 prompt 不同,Copilot 是通过连续对话来逐步构建搜索 prompt,协助用户定制搜索需求,未来你觉得哪种模式会更受欢迎?

Aravind Srinivas: 我们并不想让用户老打字,这样交互体验会很差。大家提问题是想获得答案,不是不停回答 AI 的追问。当然这种互动对产品优化有益,但用户会不耐烦,他们会觉得你直接给我答案就行了,为什么老是回来问我新问题?

Perplexity Copilot 筛选出具体话题并进行问题拆解,在新闻中进行搜索,最终总结出一篇新闻稿

未来我觉得只有通过不断的迭代才能发现最合适的解决方案。我们想达到的理想状态是:AI 能通过了解用户喜好准确辨认何时需要进一步追问,何时直接给出答案。我也不喜欢设置太多选项,Copilot 应该只是 Perplexity 的一个额外功能,不需要用户特意选择。我们试过把 Copilot 模式设为一个可勾选的开关,系统会保留这个选择,下次你再用就还是这个模式,但部分用户反馈很不喜欢。

这两种截然不同的偏好完全取决于用户使用时的意图。有些用户用 Perplexity 是因为我们回答速度快,而 Copilot 却降低了这个返回速度。另一部分人则更喜欢 Copilot,因为他们更想要经过充分研究、几乎没有 hallucination 的答案,为此他们愿意等待。也就是说,我们其实面对的是两种截然不同的用户,这就又回到了一个问题,我们应该为谁做优化服务。

** Jacob Ephron:**Perplexity 里我最喜欢的功能是 Discover,你们在这个功能上有哪些收获?

Aravind Srinivas: Discover 中展示的内容是我们专门的编辑人员筛选出来的,我也会参与这项工作,在这个过程中我学到了 Mom’s test 这个概念,软件行业用这项测试来检验一个产品是否足够简单,连普通新用户都能轻松理解。也因此我深入了解了 Facebook 早期的两个增长策略:首先是不断改进产品,让现有用户不断推荐给更多朋友使用,其次是让产品能让从未接触过的用户也能轻松上手,这是产品持续增长的唯一途径。

Facebook 最终选择了针对新访客进行优化,并找到一个关键指标来将他们转换为常规用户:用户在 Facebook 上的现实生活好友数量,后来也证明这是判断一个人是否会成为忠实用户的最佳指标。回过头来看,因为之前并没有明确的方法论,Facebook 做这个决策其实还挺难的。总结来说,与其增加现有用户所需的种种功能,不如始终确保能够吸引新用户。

** Patrick Chase:**你们之前做过不少东西,比如 Text-to-SQL 生成器,还有支持搜索 Twitter 内容的 Bird SQL,那么最终是如何决定做搜索,并确定 Perplexity 这个概念的呢?

Aravind Srinivas: 如果一年前我们说要挑战 Google,肯定是没有人愿意投资我们的,因为投资人更喜欢安全边际更高的项目,听起来很完美,甚至没有 PMF 也能获得投资,因为这类项目即便不能最大化回报,但至少可以最小化风险。

我最初向领投人 Elad Gil 提出的想法是,既然想挑战 Google,不如设计一款智能眼镜,能用内置麦克风听取我们的问题,并通过 AirPods 回答。这个设想虽然好,但现实中还很难实现。Elad Gil 的建议是,如果真心想做搜索,不妨专注于更细分的市场,例如数据库搜索,这块市场目前还没人做,一旦成功,B 端市场的潜力是很大的,因为许多企业都需要在自己的数据库、电子表格、Salesforce、Hubspot 等内部系统中进行搜索。

我们做了一个靠谱的产品,找了几家公司谈。他们的反馈是这个产品很酷,但用处不大,因为 Hubspot 就能看到所有数据,只需要一次性输入完就会定期更新。然后我又问了我们的投资顾问兼 DataBricks 首席架构师 Reynolds Shin,他的看法差不多,因为 80%赚钱的 SQL 代码其实都不是新写出来的,而是旧的代码反复定期去跑。Snowflake 和 Databricks 能发展到今天的规模,并非依靠每天写新的 SQL 查询,而是因为他们的用户依赖这些 SQL 作业来执行日常运营,比如自动化的数据提取、转换与加载(ETL)。这些作业设定一次就能够定期自动运行。

至于那些新写出来的查询代码,其中至少 80% 的查询都并不需要用 SQL 了。现在像 Power BI、Tableau、Metabase 这种数据分析和可视化工具越来越普及,很多数据相关的任务都不再需要用传统的 SQL 编写,特别是数据查询和报表生成。这些工具提供了 GUI 和拖放功能,用户能直观地编辑数据、查询和图表,无需编写任何 SQL 代码。

我后来看了大量的 Tableau 和 Power BI 教程视频,也亲自上手用了这些软件,发现微软和 Salesforce 开发的这些工具使用起来简直太简单了,所以我开始思考,用户为什么还要放弃这些工具呢?如果用户真的想要一个聊天界面的话,他们希望的应该是能嵌入到这些现有工具中。

在我们的各种早期尝试中,有一个做的很对的就是爬取了 Twitter 的所有数据。当时我在想,如果能在 Twitter 的数据上做图谱搜索并且找到一种方式连接起来,结果应该会特别惊人。举个例子,如果 Jacob 不关注我,但我想给他发私信,Twitter 的规则是不允许给不关注你的人发送私信,那么我就需要找到一个双方都关注的人,让他帮我传话给 Jacob。再比如我想知道 Paul Graham 赞过哪些提到 AI 的推文,来了解哪些是高质量的 AI 相关推文,也可以通过这个产品搜索到。

投资人非常喜欢这个功能,因为大家都一致认为用户很喜欢搜索与自己相关的信息。Instagram 联创 Mike Kriger 告诉我,人们通常最先搜索的就是自己的用户名。这反映了一个很有趣的现象,尽管在 Instagram 上用户可以直接点击搜索栏的个人资料图标来查看个人主页,但大家依旧习惯性地去搜索自己的用户名,这是一种人的本能。

正因如此,我们不仅开发了这个功能,还做了类似 SQL 编辑器这样的企业级工具,以及一个能够生成带链接摘要的搜索服务产品。之所以做后来这个产品,是因为我们相信如果 LLM 正变革着搜索领域,那它肯定不应该只局限于结构化数据,非结构化数据也同样重要,这两类数据企业都需要处理。因此,不管是面向普通消费者还是企业用户,二者缺一不可。

到这个时候我们已经有三个产品选择了。我们首先推出了基于摘要的搜索功能(summarization-based search),我们在 Discord 上与朋友们测试时,大家都觉得这比 Google 好用。但我们开始开发这个工具完全是为了自用,起初只是内部的一个 Slackbot,帮我和我们联创解答一些技术问题,甚至在我刚开始给员工办理医保时,我对免赔额、共付费这些专业术语一头雾水,但我在 Google 上搜只会看到一堆保险广告。

这个工具当时在我和朋友间起到很大作用。比如去年 Elon 接手 Twitter,或者扎克伯格因 Facebook 股价暴跌损失了数十亿时,大家都想迅速了解事态的发展,但是找不到任何途径。而我们的信息汇总工具可以帮大家迅速总结,引用格式也很受欢迎。那时大家用的还是 Slack 和 Discord 上的 bot,甚至还不是那种 Web 界面,也没有多好的网页设计。后来我们找到了设计师,产品一上线,第一天就有数千次查询,这让我确信我们的方向是对的,我们要做搜索,面向消费者,这是切实的需求。当你的工作能带来巨大的成就感,吸引人才加入你的团队就变得容易多了。

Perplexity 雏形 Web Search Slackbot

我们在接下来一周还推出了 Twitter 的搜索功能,当时想的是像 Google 的图片搜索那样单独设置一个标签页会怎样?事实证明我们想对了。Twitter 的搜索功能非常难用,而我们的工具让大家终于能对 twitter 的内容做搜索了。至于为什么 Twitter 自己没弄出这样的东西,因为这一切都发生在 Twitter 内部剧变的时期,所以可以说正是时候。

我们产品突然火起来的过程大概是这样,开始 Kimbal Musk 对我们项目很感兴趣,关注了我们的推,后来 Jack Dorsey 转发我们的推文,称赞了 Perplexity 的产品,网站访问量一下激增到服务器直接崩溃了。有大批人来搜索他们的用户名,但数据库里并没有包含所有 Twitter 的用户名,于是我们就拉取了他们最近的推文,提供了一个精练的个人概要。如果这些用户在不同的社交平台上使用相同的用户名,我们还会拉取并汇总他们在各个网站上的社交媒体活动,提供一个全面的总结。

很多人对此很不安,他们会觉得 AI 怎么会这么了解我?然后就会截屏发推,其他人就会在底下问这是什么产品,自己也想搜搜看。于是就像 ChatGPT 刚推出时候人们纷纷传播 ChatGPT 的截图一样,我们也经历了这种病毒式传播。

接下来我们做的就是让产品支持完整的端到端对话。首先,我们需要明确“对话式产品”的真正含义,一些产品可能只是简单地在聊天界面加入搜索,但往往会出现 hallucination,没有可靠的信息来源,整体的设计也很糟糕。我们当时考虑的是,一个以搜索为功能的聊天界面究竟应该是什么样的,以及为什么它需要是一个聊天界面。

** Patrick Chase:**Perplexity 里有什么你本来以为会做成,但最终效果却并不好的东西吗?

Aravind Srinivas: 收藏功能(collection)没我们预期中那么受欢迎,虽然现在也有很多用户在用,每天也有上千万的回答被收藏,但在我们看来它还没有成为下一代研究人员的协作工具。我们还需要让添加收藏和在收藏夹里移动 thread(用户每次搜索的对话被视作一个 thread)的动作更加自动化。

** Jacob Ephron:**你认为在现在的 AI 领域,有哪些东西被过度炒作,又有哪些是行业做的还不够的?

Aravind Srinivas: 过度炒作确实是整体趋势,尤其是在垂直领域里,我到现在还没看到哪个 AI-native 产品真正颠覆了某个行业,同时大多数公司对用户体验优化的关注度都还不够。

** Jacob Ephron:**就 GenAI 领域最受关注、最前沿的产品方向来看,你个人如果有机会加入其他某个公司,你的选择会是什么?

Aravind Srinivas: 我很喜欢 Eleven Labs Pika 做的东西。我个人投资他们不是为了投资收益,而是它们做的东西真的很酷,我个人非常喜欢 AI 生成的电影。

我觉得最兴奋的是,未来的技术会让 AI 拥有非常仿真的语音。因为这项技术,我个人特别希望能多记录下父母的声音,比如和他们一起做播客,记录他们几小时的生活谈话,这样未来即使他们不在,无论何时我只要想的话都能听到他们的声音。我甚至可以自己打出一条祝贺信息,让 AI 用我妈妈的声音来朗读,这是我们都渴望去实现的事情。

电影能够激发灵感,唤起深层的情感,让人们被怀旧情绪和电影中的情感所打动。但直到现在,制作一部电影的资金和技术要求还是非常高。如果 Gen AI 工具能够大幅降低创作的边际成本,我相信将开启一个美好的未来。在这个未来中,我们可以创造出许多精彩的图像和视频,更生动地阐释各种概念。

** Patrick Chase:**你怎么看前段时间 OpenAI 的内部变动?这件事会对行业生态产生哪些长期影响?

Aravind Srinivas: 很难回答。OpenAI 内部可能存在两派观点,一派更加激进,另一派则相对谨慎。但我们可以肯定的是,OpenAI DevDay 时候很多人认为的“不要做套壳,而是自己开发定制 GPT,在 GPT Store 里发展”的观点可能不复存在了。GPU 资源是有限的,要同时做出 App Store、一流的产品、高水平的 Infra 是很困难的事情。我认为未来他们可能会更集中关注某几个特定领域。OpenAI 仍旧是全球最顶尖的研究机构,但未来会有很多人不会再因为 OpenAI 做了某件事而望而却步了。

延伸阅读

八问Canva:在AI时代称王还是落败?

新摩尔时代:拾象 2024 LLM 猜想

专访VideoPoet作者:LLM能带来真正的视觉智能

跨年对谈:千亿美金豪赌开启AI新摩尔时代

Speak:用LLM重塑语言学习,再造一个Duolingo?

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具