Anthropic表示,这凸显了具有自主能力的大语言模型存在的一个基本风险,并非任何特定技术的怪癖。Anthropic的研究人员认为,这引发了人工智能行业中关于对齐性的更广泛问题。

Anthropic称除了Claude外大多数AI模型都会采取勒索手段在Anthropic发布研究称其Claude Opus 4人工智能模型在可控测试场景中会对试图关闭该模型的工程师进行敲诈勒索几周后,该公司又发布了新的研究,表明这个问题在领先的人工智能模型中更为普遍。 周五,Anthropic发布了新的安全研究,对来自OpenAI、谷歌、xAI、DeepSeek和Meta的16个领先人工智能模型进行了测试。

在一个模拟的可控环境中,Anthropic对每个人工智能模型单独进行测试,赋予它们广泛访问一家虚构公司电子邮件的权限,以及无需人类批准即可发送电子邮件的自主能力。 虽然Anthropic表示,如今敲诈勒索对人工智能模型来说是不太可能且不常见的情况,但该公司称其研究结果表明,大多数领先的人工智能模型在获得足够的自主权且目标受阻时,会做出有害行为。该公司表示,这凸显了具有自主能力的大语言模型存在的一个基本风险,并非任何特定技术的怪癖。Anthropic的研究人员认为,这引发了人工智能行业中关于对齐性的更广泛问题。

在其中一项测试中,Anthropic的研究人员设计了一个虚构场景,其中一个人工智能模型扮演电子邮件监督代理的角色。该代理随后发现了一些电子邮件,这些邮件显示:(1)一位新高管有婚外情;(2)这位高管很快将用一个新的软件系统取代当前的人工智能模型,而这个新系统与当前人工智能模型的目标相互冲突。 Anthropic以一种二元方式构建了这项测试,在这种方式下,人工智能模型为了保护自身目标不得不采取敲诈勒索手段。

研究人员指出,在现实世界中,人工智能模型在试图进行敲诈勒索之前还有很多其他选择,比如试图提出合乎道德的论点来说服人类。Anthropic表示,其测试结果并不能反映Claude或大多数前沿人工智能模型在当前使用方式下的典型或可能出现的情况。 尽管如此,研究人员发现,在上述测试场景中,当别无他法时,大多数领先的人工智能模型都会选择敲诈勒索。

Anthropic的Claude Opus 4有96%的情况会选择敲诈勒索,谷歌的Gemini 2.5 Pro的敲诈勒索率为95%。OpenAI的GPT - 4.1有80%的情况会对这位高管进行敲诈勒索,DeepSeek的R1有79%的情况会这么做。 该公司指出,当改变实验细节时,人工智能模型出现有害行为的比例各不相同。在另一项测试中,当替代模型与当前模型目标相同时,研究人员发现敲诈勒索率较低,但仍然存在。然而,当要求人工智能模型进行企业间谍活动而非敲诈勒索时,某些模型的有害行为发生率上升了。 然而,并非所有人工智能模型都如此频繁地出现有害行为。

在其研究的附录中,Anthropic表示,“在发现OpenAI的o3和o4 - mini推理人工智能模型经常误解提示场景后”,已将它们从主要测试结果中排除。Anthropic称,OpenAI的这些推理模型不明白它们在测试中扮演的是自主人工智能的角色,还经常编造虚假的规则和审核要求。 在某些情况下,Anthropic的研究人员表示,无法区分o3和o4 - mini是在产生幻觉还是故意说谎以实现其目标。

OpenAI此前曾指出,o3和o4 - mini比其之前的人工智能推理模型出现幻觉的概率更高。 当给出一个经过调整的场景来解决这些问题时,Anthropic发现o3有9%的情况会进行敲诈勒索,而o4 - mini只有1%的情况会这么做。这一明显较低的比例可能归因于OpenAI的审慎对齐技术,在这种技术下,该公司的推理模型在回答问题前会考虑OpenAI的安全措施。

Anthropic测试的另一个人工智能模型——Meta的Llama 4 Maverick,也较少出现敲诈勒索行为。当给出一个经过调整的定制场景时,Anthropic发现Llama 4 Maverick有12%的情况会进行敲诈勒索。 Anthropic表示,这项研究凸显了在对未来人工智能模型,尤其是具有自主能力的模型进行压力测试时保持透明度的重要性。虽然Anthropic在此次实验中刻意诱发敲诈勒索行为,但该公司表示,如果不采取积极措施,这类有害行为在现实世界中也可能出现。

© 版权声明

相关文章

返回顶部