高通希望将这些疯狂的人工智能工具添加到你的 Android 手机中

在2024 年世界移动通信大会上，高通在其由 Android 手机的 Snapdragon 系列芯片推动的手机人工智能技术组合中添加了更多内容。该芯片制造商已经为Snapdragon 8 Gen 3 旗舰产品展示了一些令人印象深刻的人工智能功能，例如声控媒体编辑、使用稳定扩散的设备上图像生成，以及基于 Meta 等大型语言模型构建的更智能的虚拟助手。

如今，该公司正在为这些人工智能超级大国增添更多的力量。第一个是在智能手机上运行大型语言和视觉助手（LLaVa）的能力。可以将其视为像ChatGPT 一样的聊天机器人，它已被授予 Google Lens 功能。因此，高通的解决方案不仅可以接受文本输入，还可以处理图像。

例如，您可以推送描绘熟食板的图像并根据它提出问题。 AI 助手基于可处理超过 70 亿个参数的大型多模态模型 (LMM)，然后将告诉您输入图像中所示的棋盘上的所有种类的水果、奶酪、肉类和坚果。

它还可以处理后续查询，因此您可以进行流畅的来回对话。现在，ChatGPT 等也获得了多模态功能，这意味着 OpenAI 的工具也可以处理图像输入。然而，有一个至关重要的区别。

ChatGPT和Copilot等产品仍然很大程度上依赖于基于云的架构，这意味着您的数据是在远程服务器上处理的。高通的推动方向是设备内处理。一切都发生在您的手机上，这意味着整个过程更快，并且隐私侵犯的风险很小。

高通表示：“该 LMM 在设备上以响应式令牌率运行，从而增强了隐私性、可靠性、个性化和成本。”高通承诺的基于 LLaVa 的虚拟助手是否会作为独立应用程序或是否收费，尚未得到官方确认。

高通公司的下一个公告将深入研究图像生成和操作的创意领域。不久前，高通公司使用稳定扩散技术在手机上演示了世界上最快的文本到图像生成功能。今天，该公司首次展示了 LoRA 驱动的图像生成技术。

LoRA 采用与 Dall.E 等常规生成 AI 工具不同的图像生成方法。 LoRA是Low-Rank Adaptation的缩写，是微软开发的一项技术。训练人工智能模型的成本可能非常高，延迟很高，而且从硬件角度来看要求特别高。

LoRA 的作用是显着降低模型权重，这一目标是通过仅关注模型的特定部分并减少用于训练目的的参数数量来实现的。这样做时，内存需求会下降，过程会变得更快，并且调整文本到图像模型所需的时间和精力也会大幅下降。

随着时间的推移，LoRA 蒸馏技术已应用于稳定扩散模型，用于根据文本提示生成图像。由于基于 LoRA 模型的效率提升和更容易的适应性，它被视为为智能手机量身定制的路线。高通当然是这么认为的，甚至竞争对手联发科也在其旗舰产品天玑 9300 芯片上采用了相同的生成式 AI 解决方案。

高通还在 MWC 2024 上展示了其他一些人工智能技巧，其中一些已经出现在三星 Galaxy S24 Ultra 上。其中包括使用生成式人工智能填充和人工智能驱动的视频生成来扩展图像画布的能力。后者是相当雄心勃勃的，尤其是在看到 OpenAI 与 Sora 取得的成就之后。看看高通如何设法将其移植到智能手机上将会很有趣。