
随着Google 、 Anthropic和OpenAI等公司更新和升级其人工智能模型,这些法学硕士与用户互动的方式也肯定会发生变化。然而,对于用户来说,习惯新系统可能会很麻烦,他们必须调整提出查询的方式才能获得他们期望的结果。 Apple研究团队开发了一种新方法来简化升级过渡,同时将两个版本之间的不一致减少多达 40%。
作为 7 月 15 日发表的研究“ MUSCLE:兼容 LLM 进化的模型更新策略”的一部分,研究人员认为,在升级模型时,开发人员倾向于更多地关注提高整体性能,而不是确保过渡模型之间对于用户来说是无缝的。这包括确保负翻转(即新模型预测旧模型正确预测的测试样本的错误输出)保持在最低限度。
研究作者认为,这是因为每个用户都有自己的怪癖、狡辩和与聊天机器人交互的个性化方式。必须不断地调整和适应他们与模型交互的方式可能会成为一件令人筋疲力尽的事情——这与苹果期望的用户体验背道而驰。
研究团队甚至认为,人工智能的错误预测应该保留在版本之间,“当两个模型都不正确时,保持一致是有价值的,”他们写道。 “用户可能已经制定了当模型不正确时如何与模型交互的应对策略。”
苹果推出肌肉
兼容LLM演化的模型更新策略
由于数据或架构的变化,大型语言模型 (LLM) 会经常更新,以提高其性能。更新模型时,开发人员通常专注于提高整体性能…… pic.twitter.com/ATm2zM4Poc
— AK (@_akhaliq) 2024 年 7 月 15 日
为了解决这个问题,研究人员首先开发了衡量模型之间回归程度的指标,然后制定了一种策略来最大限度地减少其发生。结果就是 MUSCLE,这种策略不需要开发人员重新训练整个基础模型,而是依赖于训练适配器的使用。 适配器小型人工智能模块,可以在整个法学硕士的不同点进行集成。
然后,开发人员可以微调这些特定模块而不是整个模型。这使得模型作为一个整体能够以训练成本的一小部分执行不同的任务,并且参数数量只需要少量增加。它们本质上是大型语言模型的插件,使我们能够微调整个人工智能的特定部分而不是整个事物。
作为研究的一部分,研究团队升级了包括 Meta 的 Llama 和微软的 Phi 在内的法学硕士,使用特定的数学查询作为样本,发现负翻转的发生率高达 60%。通过采用 MUSCLE 策略,该团队无法完全消除负面翻转,但与对照组相比,他们确实设法将负面翻转的发生率减少了 40%。