AI新战场！硅谷巨头聚焦智能眼镜赛道

42 0 0

智东西（公众号：zhidxcom）

编译 | 徐珊

编辑 | 云鹏

大模型之战席卷了整个 2023 年，紧接着的是，各大科技巨头似乎都瞄准了 AI 可穿戴设备，尤其是智能眼镜！

智东西 12 月 18 日消息，据 The Information 报道，Meta、谷歌、微软、OpenAI 等科技巨头都准备将 AI 大模型应用在智能眼镜等带有摄像头的可穿戴设备上。他们认为智能眼镜等硬件将成为 AI 大模型的合适载体，因为多模态 AI 大模型可以处理声音、图片、视频等多类型的信息。

近期，各大科技巨头都在尝试将 AI 功能融入到不同移动设备中。有知情人士透露，OpenAI 最近正在将 “GPT-4 with Vision” 的物体识别软件嵌入到社交公司 Snap 的产品中。这或许将为 Snap 的智能眼镜 Spectacles 提供新功能。

Meta 也在上周二展示了自己将 AI 功能融入至雷朋（Ray-Ban）智能眼镜的效果。该智能眼镜可以通过 AI 语音助手描述用户看到哪些东西，同时能够告诉用户哪件衬衫适合哪件裤子，以及拥有西班牙语报纸翻译成英语等一系列新功能。

亚马逊 Alexa AI 助理团队内同样有个小组在研发一种新型带有设觉功能的 AI 设备。此外，和多数手机厂商一样，谷歌开始尝试将 AI 功能应用到手机中。

今年 6 月，苹果 Vision Pro 头显正式亮相，计划在明年出售。但据 The Information 推测，该设备可能刚开始并不会具备多模态 AI 功能。

当一场新的移动终端变革开始，苹果、微软、OpenAI、Meta 等科技巨头将会如何布局新的战场？他们又是如何在各大硬件中凸显出自己的 AI 优势？哪些新的 AI 硬件或成为 AI 大模型的最佳载体？我们通过最新爆料可以看到一场 AI 硬件创新战正在开始。

一、谷歌：已适配手机 AI 助手 Pixie，借助软件为智能眼镜提供搜索服务

在上周刚刚发布的 AI 大模型 Gemini 中，展示了一段 AI 是如何根据模仿者的动作，猜出电影名称的视频。它还展示了如何猜地图、如何处理手工问题等细节。

尽管视频内容可能有所编辑，但是该视频也透出了谷歌想要传达的基本思想：打造一款始终在线的 AI，它可以通过人们在看、在听的东西，给用户直接的反馈或者帮助。一位直接了解谷歌消费硬件战略的人士表示，谷歌可能还需要数年时间才能提供这种体验，因为这种实施基于环境的计算将会耗费大量电力。

▲谷歌眼镜

现如今，谷歌正在重新设计其 Pixel 手机的操作系统，希望嵌入较小规模的 Gemini 模型，为其手机 AI 助手 Pixie 升级体验，比如说告诉用户周边哪里可以买到他们刚刚拍摄下来的产品。

基于谷歌在搜索技术上长期布局，The Information 觉得基于周围环境信息，学习和预测人们需要或想要的 AI 设备似乎非常适合谷歌。尽管十年前，谷歌眼镜失败了，但是谷歌后续也推动安卓手机厂商们通过手机摄像头扫描环境并将图像推送到谷歌，然后基于云系统进行分析，从而形成 “Google Lens” 的图像搜索应用程序。

了解该战略的人士表示，该公司最近取消了眼镜式设备的开发，但仍在为该类型的设备开发软件。这些人士表示，谷歌计划将图像搜索软件授权给硬件制造商，类似于为三星等手机制造商开发安卓移动操作系统的方式，发挥其 AI 大模型的作用。

二、微软：在 HoloLens 上运行 AI 软件，通过聊天机器人提供多模态语言

在多模态 AI 大模型的热潮下，微软研究人员和产品团队也开始尝试升级自己的语音助手，并且尝试在一些小型设备上运行 AI 功能。

根据专利申请显示以及知情人士透露，其模型可以为一些平价的智能眼镜或者其他硬件提供支持。微软正计划在其 AR 头显 HoloLens 上运行 AI 软件。用户将头显前置摄像头对准物体，拍下照片发送给由 OpenAI 驱动的聊天机器人，让聊天机器人直接识别物体。同时，用户还可以通过对话的方式，从聊天机器人这里获得更多的信息。

▲ HoloLens

三、苹果：Vision Pro 发布时或不会搭载 AI 大模型

苹果 Vision Pro 拥有不少多模态的新功能，但 AI 大模型方面的进展，和其他几家相比略有落后。目前，没有任何迹象表明 Vision Pro 在发布时将拥有复杂的物体识别或其他多模态 AI 功能。

但苹果花了数年时间完善 Vision Pro 的计算机视觉功能，以便该设备能够快速识别周围环境。这包括快速识别家具并了解佩戴者是坐在客厅、厨房还是卧室。或许，苹果正在开发可以识别图像和视频的多模态大模型。

▲ Vision Pro

但和其他公司正在开发的眼镜相比，Vision Pro 又大又重，且不适合在户外日常场景中使用。

另一方面，据报道，苹果公司今年早些时候暂停了自己的 AR 眼镜的开发工作，以专注于其头显的销售。目前尚不清楚 AR 眼镜的研发工作何时会恢复。

四、Meta：已适配雷朋眼镜，提供 AI 新功能

Meta 首席技术官 Andrew Bosworth 周二在 Instagram 发帖说，部分雷朋（Ray-Ban）眼镜用户将能够直接在智能眼镜端访问 AI 大模型。

▲ Ray-Ban

Meta 的一些领导者将雷朋眼镜视为 AR 眼镜的 ” 先驱 “。该设备可以将数字图像与周围现实世界融合在一起。按照原计划，Meta 计划在未来几年推出 AR 眼镜，但该计划遇到了一系列困难。具体而言，有报道成，智能眼镜很难吸引用户，并且新一代显示器开发遇到了难题。

但多模态 AI 大模型的到来似乎让 Bosworth 以及其团队重新焕发了新活力，让他们了解这款眼镜在短期内可以为客户带来一系列 AI 新功能。

五、亚马逊：开发新 AI 设备系列，或为智能眼镜提供支持

今年夏天，在亚马逊每年两次的产品规划中，Alexa 团队的工程师提出推出一款能够运行多模态 AI 的新设备。

据直接了解相关项目的人士透露，该团队特别关注的是如何减少在设备上处理图像、视频和语音等 AI 计算和内存的需求。目前尚不清楚该项目是否获得了资金支持，也不清楚该设备打算为客户解决什么问题，但它与该公司的 Echo 语音助理设备系列是分开的。

此前，Alexa 团队也曾研发过一款名为 Echo Frames 的智能音频眼镜。该设备不支持屏幕显示器或摄像头。目前尚不清楚亚马逊是否会开发具有视觉识别功能的智能眼镜。

六、AI 可穿戴设备 + 摄像头，或成大模型最佳硬件载体

这不是硅谷巨头们第一次设计这类带有摄像头的可穿戴设备产品。此前谷歌、微软以及其他科技巨头都曾研发过 AR 头显。他们当初希望能够让数字屏幕出现在头显的半透明屏幕上，逐步提供指引帮助用户完成任务。但由于光学设计较复杂，最后多数产品反响不佳。

OpenAI 推出的多模态大语言模型，可以通过视觉识别功能，让 AI 知道人们在看什么，在做什么，并且可以对这些行为、事物提供进一步信息。当大语言模型开始轻量化，一些小型设备也可以搭载模型，能够即时反馈用户的请求。考虑到人们对隐私安全的重视，人们可能还需要一段时间才能接受智能眼镜，以及一些内置摄像头的 AI 设备。

The Information 觉得智能眼镜拥有 AI 助手后，或许将会成为像智能手机一样变革性的产品。它不但能成为指导学生数学问题或者论文问题的导师，还可以随时给周边的人提供环境信息，如翻译广告牌、告诉用户如何解决汽车故障等。

苹果公司前工程经理，AI 搜索公司 Objective 的首席执行官巴勃罗 · 门德斯（Pablo Mendes）说：”AI 大模型对一切都至关重要，它们将在计算机、手机和其他设备的底层架构中起到作用 “。

结语：科技巨头寻求 AI 大模型最佳硬件载体

在由 ChatGPT 掀起的第三轮人工智能热潮中，多模态大模型属于底层基础设施，ChatGPT 属于直接应用，这些都是已经明晰的答案。但 ChatGPT 在哪些设备上才能最大发挥出其应用潜力，哪些设备又是大语言模型的最佳载体？这些成为 OpenAI、微软、谷歌等科技巨头们如今开始摸索的方向。

从 The Information 最新爆料看来，带有摄像头的智能眼镜成为不少巨头探索的重要方向，同时也有部分企业开始摸索研发新的可穿戴 AI 设备。又或者，尝试在手机上适配各类 AI 大模型。

其实不仅是科技巨头们如此思考。在国内，不少 AR 眼镜厂商们同样也认为这是机遇所在。” 机器人和 AR 眼镜或许将成为这波 AI 大模型的最大受益者。” 一位关注 AI 产业十余年的产业人士说道。

但在同一设计思路下，最后谁能调教出最好的轻量化 AI 大模型？谁又能打造出最实用的智能眼镜？我们将持续观察各大科技巨头的进展，找到答案。

（来源：智东西）