Apple 将如何永远改变你的 iPhone

iPhone 15 Pro Max 背面平放,显示主屏幕。
乔·马林/数字趋势

在过去的几个月里,苹果公司发布了源源不断的研究论文,详细介绍了其在生成人工智能方面的工作。到目前为止,苹果一直对其研究实验室的具体进展守口如瓶,而有传言称,苹果正在与谷歌谈判,以授权其用于 iPhone 的 Gemini AI。

但有一些我们可以期待的预告片。今年 2 月,苹果公司的一篇研究论文详细介绍了一种名为 MLLM 引导图像编辑 (MGIE) 的开源模型,该模型能够使用用户的自然语言指令进行媒体编辑。现在,另一篇关于Ferret UI的研究论文让人工智能社区陷入了疯狂。

这个想法是部署多模式人工智能(一种能够理解文本和多媒体资产的人工智能),以更好地理解移动用户界面的元素。 ——最重要的是,提供可行的建议。这是一个关键的目标,因为工程师们竞相让人工智能对普通智能手机用户来说比当前的“客厅把戏”状态更有用。

在这个方向上,最大的推动力是从云端拔除生成人工智能功能,结束对互联网连接的需求,并将每项任务部署在设备上,以便更快、更安全。以 Google 的 Gemini 为例,它在Google Pixel三星 Galaxy S24 系列手机(很快还会在 OnePlus 手机上)本地运行,并执行摘要和翻译等任务。

苹果的 Ferret UI 是什么?

Apple Ferret UI 功能卡。
苹果

苹果似乎希望通过 Ferret-UI 将多模式人工智能模型的智能与 iOS 融合在一起。目前,重点是更多“基本”琐事,例如“图标识别、查找文本和小部件列表”。然而,它不仅仅是理解 iPhone 屏幕上显示的内容,还要从逻辑上理解它,并通过其推理功能回答用户提出的上下文查询。

描述 Ferret UI 功能的最简单方法是作为由 AI 驱动的智能光学字符识别 (OCR) 系统。研究论文指出:“在对精选数据集进行训练后,Ferret-UI 表现出了对 UI 屏幕的出色理解能力以及执行开放式指令的能力。” Ferret UI 背后的团队对其进行了调整,以适应“任何分辨率”。

您可以提出“这个应用程序对我 12 岁的孩子安全吗?”之类的问题。在 App Store 中冲浪时。在这种情况下,人工智能将读取应用程序的年龄评级,并相应地提供答案。没有具体说明如何提供答案(文本或音频),因为该论文没有提及 Siri 或任何虚拟助手。

苹果并没有离 GPT 树太远

Apple Ferret UI 概述。
苹果

但这些想法更加全面和聪明。询问“我如何与朋友分享该应用程序?” AI 会在屏幕上突出显示“分享”图标。当然,它会给你一个屏幕上闪烁的内容的要点,但同时,它会逻辑地分析屏幕上的视觉资产——就像框、按钮、图片、图标等等。这是一个巨大的可访问性胜利。

如果您想听听技术术语,那么本文将这些功能称为“感知对话”、“功能推理”和“交互对话”。其中一篇研究论文的描述实际上完美地总结了 Ferret UI 的可能性,将其描述为“第一个 MLLM,旨在执行特定于 UI 屏幕的精确引用和基础任务,同时熟练地解释开放式语言指令并根据开放式语言指令采取行动。”

Apple Ferret UI 回答屏幕感知问题。
苹果

因此,它可以描述屏幕截图,告诉特定资产在点击时会做什么,并辨别屏幕上的某些内容是否与触摸输入交互。 Ferret UI 不仅仅是一个内部项目。相反,对于推理和描述部分,它依赖于 OpenAI 的GPT-4 技术,该技术为 ChatGPT 以及一大堆其他对话产品提供支持。

值得注意的是,本文提出的特定版本适用于多种纵横比。除了屏幕上的分析和推理功能之外,该研究论文还描述了一些令人惊叹的高级功能。例如,在下面的屏幕截图中,它似乎不仅能够分析手写文本,还可以从用户拼写错误的潦草文字中预测正确的版本。

Apple Ferret UI 识别文本。
苹果

MIt 还能够准确阅读在顶部或底部边缘被切断的文本,否则需要垂直滚动。然而,它并不完美。有时,它会将按钮错误地识别为选项卡,并误读将图像和文本组合到单个块中的资源。

当与 OpenAI 的 GPT-4V 模型进行比较时,当询问与屏幕内容相关的问题时,Ferret UI 提供了令人印象深刻的对话交互输出。如下图所示,Ferret UI 更喜欢更简洁、直接的答案,而 GPT-4V 则写出更详细的答案。

选择是主观的,但如果我问人工智能,“我如何购买屏幕上出现的拖鞋”,我更希望它能用尽可能少的文字告诉我正确的步骤。但 Ferret UI 不仅在保持简洁方面表现出色,而且在准确性方面也表现出色。在上述任务中,Ferret UI 在对话交互输出方面得分为 91.7%,而 GPT-4V 仅略微领先,准确率为 93.4%。

充满有趣可能性的宇宙

Apple Ferret UI 快捷方式
苹果

Ferret UI 标志着人工智能的首次亮相,它可以理解屏幕上的动作。现在,在我们对这里的可能性感到太兴奋之前,我们不确定苹果究竟打算如何将其与 iOS 集成,或者它是否会实现,原因有多种。彭博社最近报道称,苹果公司意识到自己在人工智能竞赛中处于落后地位,这一点从苹果生态系统中缺乏原生生成式人工智能产品就可以明显看出。

首先,有传言称苹果甚至考虑与谷歌或 OpenAI 达成 Gemini 授权协议,这表明苹果自己的工作与竞争对手的工作不在同一水平。在这种情况下,利用谷歌已经在 Gemini 上所做的工作(它现在正试图取代手机上的谷歌助手)比在 iPhone 和 iPad 上推出不成熟的人工智能产品更明智。

苹果显然拥有雄心勃勃的想法,并继续致力于实现这些想法,正如多篇研究论文中详细说明的实验所证明的那样。然而,即使苹果成功地在 iOS 中实现了 Ferret UI 的承诺,它仍然只是设备上生成式人工智能的肤浅实现。

Apple Ferret UI 读取屏幕内容。
苹果

然而,功能集成,即使仅限于内部预装的应用程序,也可以产生惊人的结果。例如,假设您正在阅读一封电子邮件,而人工智能已经在后台评估了屏幕上的内容。当您在邮件应用程序中阅读消息时,您可以通过语音命令要求人工智能从中创建日历条目并将其保存到您的日程安排中。

它不一定是一项涉及多个应用程序的超级复杂的多步骤杂务。假设您正在查看一家餐厅的 Google 搜索知识页面,只需说“致电该地点”,人工智能就会读取屏幕上的电话号码,将其复制到拨号器,然后开始通话。

或者,假设您正在阅读一条有关 4 月 6 日上映的电影的推文,并且您告诉 AI 创建一个指向 Fandango 应用程序的快捷方式。或者,越南海​​滩的帖子激发了您下一次独自旅行的灵感,简单的“给我预订一张去昆岱的机票”就会带您进入 Skyscanner 应用程序,其中所有条目均已填写。

嘿西里
纳迪姆·萨瓦尔 / 数字趋势

但所有这些说起来容易做起来难,并且取决于多个变量,其中一些可能超出了苹果的控制范围。例如,充满弹出窗口和侵入性广告的网页将使 Ferret UI 几乎无法完成其工作。但从积极的一面来看,iOS 开发人员严格遵守 Apple 制定的设计指南,因此 Ferret UI 很可能会在 iPhone 应用程序上更有效地发挥其魔力。

这仍然是一场令人印象深刻的胜利。由于我们谈论的是在操作系统级别紧密结合的设备上实现,因此苹果不太可能会为了方便而收费,这与 ChatGPT Plus 或 Microsoft Copilot Pro 等主流生成式 AI 产品不同。 iOS 18 最终会让我们一睹重新构想的、增强 AI 智能的 iOS 的风采吗?我们必须等到 2024 年苹果全球开发者大会才能找到答案。


Posted

in

by

Tags: