继宣布其 Claude 3.5 Sonnet 大语言模型击败了GPT-4o和Llama-400B 等其他领先模型之后,人工智能初创公司 Anthropic 周一宣布,计划推出一项新计划,资助独立、第三方基准测试,用于评估其即将推出的模型。
根据一篇博客文章,该公司愿意付费第三方开发人员创建可以“有效衡量人工智能模型中的高级功能”的基准。
Anthropic 在周一的博客文章中写道:“我们对这些评估的投资旨在提升整个人工智能安全领域,提供有益于整个生态系统的有价值的工具。” “开发高质量、安全相关的评估仍然具有挑战性,而且需求正在超过供应。”
该公司希望提交的基准能够根据多种因素来帮助衡量人工智能的相对“安全水平”,包括它抵抗可能包括网络安全在内的强制响应尝试的能力;化学、生物、放射和核(CBRN);错位、社会操纵和其他国家安全风险。 Anthropic 还在寻找基准来帮助评估模型的高级功能,并愿意资助“开发数以万计的新评估问题和端到端任务,这些问题甚至会挑战研究生”,本质上是测试模型的能力综合各种来源的知识,拒绝措辞巧妙的恶意用户请求的能力,以及以多种语言响应的能力。
Anthropic 正在寻找“足够困难”的大批量任务,这些任务可能涉及多达“数千”名测试人员,采用多种测试格式,帮助该公司告知其“现实且与安全相关”的威胁建模工作。欢迎任何感兴趣的开发商向该公司提交他们的建议,该公司计划滚动评估这些建议。