AI 文摘

CES上的惊喜AI硬件!199美元、真正的AI助手rabbitr1,可以帮用户操作任意app





作者: Founder Park 来源: Founder Park

CES 2024 上,一款新发布的 AI 硬件引起了媒体关注,由 rabbit.tech 发布的 rabbit r1,一款定价 199 美元的手持式 AI 设备,旨在帮助用户完成各种日常任务的 AI 助手。

这款设备可以让用户在不需要手机的情况下很便携完成很多任务:叫车、放歌、订餐、订酒店,甚至直接帮用户 PS 修图或者 Midjourney 上生成图片。

Rabbit(曾用名 Cyber Manufacture)此前完成由 Synergis Capital 和硅谷知名风险投资人 Vinod Khosla 投资的种子轮融资。联合创始人及 CEO 吕骋(Jesse Lyu)是一位连续创业者。在 2020 年共同创立 Cyber Manufacture 之前,他曾是渡鸦科技(Raven Tech)的创始人及 CEO,该公司于 2017 年被百度收购。

文章编译自The Verge、Wired的报道,Founder Park 有所增删。

####01

####一个几乎全能的 AI 助理

Rabbit r1 是一个橙色的方形设备,大小约为 iPhone 的一半,外观设计是由 rabbit 公司与设计公司 Teenage Engineering 合作设计。配备 2.88 英寸的的触摸屏、用于拍摄照片和视频的旋转摄像头,以及用于导航或与设备内置助手交谈的滚轮/按钮。

配置参数:2.3GHz 联发科处理器、4GB 内存和 128GB 存储空间,官方宣称续航可以持续一整天。售价 199 美元,3 月份开始发货。

右侧有一个模拟滚轮。滚轮上方是一个可以 360 度旋转的相机。它被称为「兔子眼」(Rabbit Eye)——不使用时,可以把相机朝上或朝下,事实上这也是个隐私快门——你可以把它用作自拍或后置摄像头。虽然您可以使用 Rabbit Eye 进行视频通话,但它并不能像传统智能手机摄像头那样使用。

右边是一个一键通按钮,您可以按住发出语音命令,还有一个 4G LTE SIM 卡插槽(竟然不是 5G)用于进行网络连接,这意味着它不需要与任何其他设备配对。

官方介绍中,这款设备不是要取代手机,无法拿来来观看电影或玩游戏。

相反,它旨在帮助用户从琐碎的任务中解脱。吕骋将其比作将手机交给私人助理以完成任务。例如,它可以为用户呼叫 Uber。只需按住一键通按钮,然后说:「帮我打一辆优步去帝国大厦。r1 将需要几秒钟来解析请求,然后它会在屏幕上显示显示票价和其他详细信息,然后开始叫车。这个过程在各种类别中都是相同的,无论是想在餐厅预订、预订机票、将歌曲添加到 Spotify 播放列表等等。

R1 没有任何内置 app。它也不会连接到任何应用程序的 API,没有插件,也没有代理帐户。同样,它不需要与智能手机配对。

Rabbit 的操作系统,称为 Rabbit OS,在实际操作中更像是中间中转层,用户可以通过 rabbit 的网站 Rabbit Hole 的网页进行绑定 app 的操作,你可以在网站登录 OpenTable、Uber、Spotify、Doordash 和 Amazon 等服务上的帐户,授予 Rabbit OS 代表用户在连接的帐户上执行操作的能力

Rabbit 声称它不存储第三方服务的任何用户凭据。此外,所有身份验证都发生在第三方服务的登录系统上,用户可以随时自由取消链接 Rabbit OS 的访问并删除任何存储的数据。

同样,由于 r1 使用一键通按钮(如对讲机)来触发语音命令提示符,没有唤醒词,因此 r1 不必像大多数流行的语音助手那样不断倾听您的声音。设备上的麦克风仅在您点击该按钮时激活和录制音频。

####02

####大模型与硬件结合的新尝试

Rabbit 表示,Rabbit OS 不是类似 ChatGPT 的大语言模型,而是基于「大动作模型(Large Action Model)」,可以简单理解为一种 app 的通用控制器。「我们想找到一个通用的解决方案,就像大型语言模型一样,」他说。「我们如何才能找到一个通用的解决方案来实际触发我们的服务,无论你是网站还是应用程序,或者任何平台或桌面?」

某种意义上,这是一个类似于 Alexa 或 Google Assistant 的想法。Rabbit OS 可以通过一个界面控制音乐播放、订购商品、购买杂货、发送消息等等。无需打开或者登录 app。只需询问想要什么,然后让设备交付。

不过,Rabbit 并没有构建一堆 API 并试图说服开发人员支持 r1,而是训练了如何使用现有应用程序的模型。后端使用大语言模型(由 OpenAI 的 ChatGPT 提供支持)和 Rabbit 开发的大动作模型的组合来理解用户的意图。大动作模型(LAM)是由与 Spotify 和 Uber 等应用程序交互的人类所训练,人类向模型展示了这些 app 的工作方式。这些 LAM 通过演示来学习——它们观察人类如何通过移动、桌面或云界面执行任务,然后自行复制该任务。该公司已经为最流行的 app 提前进行了训练,吕骋说,所有这些流程都可以应用于任何地方的任何应用程序。

LAM的演示

R1 还有一个专用的训练模式,你可以用它来教设备如何做某事,它能够自行重复这个动作。吕骋举了一个例子:「你会说,‘嘿,首先,去一个叫做 Photoshop 的软件。打开。在这里获取您的照片。在水印上做套索,然后单击,单击,然后单击,然后单击。这就是你去除水印的方式。吕骋说,Rabbit OS 需要 30 秒才能处理完毕,然后它可以自动删除所有水印。

Rabbit 的方法非常聪明。即使是科技巨头,让开发者都支持新的操作系统是很困难的,而 LAM 的方式是仅仅通过教模型如何使用应用程序来颠覆这一点。当下,我们看到一大批新的人工智能硬件进入市场,但很多时候,这些工具所做的只是连接到 ChatGPT。相比之下,Rabbit 更像是一个超级应用程序——一个单一的界面,你可以通过它做任何事情。

R1 的设计更像是我们在过去一年中看到的 Ai Agent,即在网站和应用程序等普通用户界面上训练的机器学习模型。因此,他们不能通过一些专用的 API 订购披萨,而是通过与人类相同的方式:通过单击普通 Web 或移动应用程序上的普通按钮来完成。

对于 Rabbit OS 来说,它和应用商店的关系,或许正如同 ChatGPT 之于搜索。

「我们不是想杀死你的手机,」首席执行官兼创始人吕骋在 CES 展前与记者的沟通中说到。「手机是一种娱乐设备,但如果你想完成一些事情,它不是效率最高的机器。为了安排与同事共进晚餐,我们需要四到五个不同的应用程序来协同工作。大型语言模型是自然语言的通用解决方案,我们希望为这些服务提供通用解决方案——它们应该能够理解你。

####03

####取代 Ai Pin 还是会被大公司取代

根据 Rabbit 首席执行官吕骋的说法,r1 的愿景是语音助手、屏幕和摄像头的结合。吕骋表示,它更有可能与 Humane 的 AI Pin 等设备竞争,而不是 iPhone。与 r1 相比,像 Alexa 等智能助手已经过时了。

归根结底,最大的问题不是 rabbit r1 是否成功地完成了它的销售目标,而是在面对极其强大的竞争时,这种方法是否可行。

谷歌、苹果、Microsoft、OpenAI、Anthropic、亚马逊、Meta——他们中的每一个每天都在努力创造更强大的 AI 产品。Rabbit 最大的危险不是没有人会买它,而是在六个月内,一家价值千亿美元的公司制造了自己的 AI Agent,可以完成 r1 80% 的工作,并且可以在手机上免费使用。

Rabbit 这家公司只有 17 名员工,规模并不大。

「我们当然很担心,」他回答说,「我们是一家初创公司。但仅仅因为这些大公司能做到这一点并不意味着我们需要停下来。

他指出,尽管这些公司拥有丰富的资源,但他们缺乏初创公司的敏捷性,这些初创公司今天正在搭建自己的内容,以及数据。他指出,大语言模型本身是基于一个开放的配方——五篇论文,仅此而已。几乎没有机会在那里建立护城河。但 Rabbit 的 LAM 是建立在专有数据之上的,可以在非常特定的设备上提供非常具体的用户体验。

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。

更多阅读

Adobe 放弃收购 Figma,真正的原因是 AI 正在重构交互设计行业

苹果官宣 Vision Pro 2 月 2 日上市!它为什么能值 3499 美元?

那些百亿美金 APP 的前 1000 个用户都是怎么来的?

那些 2023 年创业失败的 AI 项目,踩了那些坑?

生成式AI的2023:技术突破、商业落地、政策监管与AI恐慌

AGI Hackathon获奖项目介绍:AI如何落地,这6个项目给出了回答

转载原创文章请添加微信:geekparker

更多AI工具,参考Github-AiBard123国内AiBard123

可关注我们的公众号:每天AI新工具