Anthropic测试AI经营真实业务，结果令人匪夷所思

AI资讯 2025-06-30

来源：www.aifind.com.cn

Anthropic公司让其Claude人工智能模型经营一家小公司，以测试其在现实世界中的经济能力。

Anthropic公司让其Claude人工智能模型经营一家小公司，以测试其在现实世界中的经济能力。这个人工智能代理的昵称是“克劳狄乌斯（Claudius）”，它被设计用来长期管理一家企业，负责从库存、定价到客户关系等方方面面的事务，力求实现盈利。

尽管这次实验并未盈利，但它让我们得以一窥人工智能代理在经济领域的潜力和潜在问题，过程既引人入胜，又时而显得怪异。该项目是Anthropic公司与人工智能安全评估公司Andon Labs合作开展的。“商店”的布置很简单，只有一台小冰箱、几个篮子和一台用于自助结账的iPad。然而，克劳狄乌斯远不止是一台简单的自动售货机。它被设定为以初始现金余额扮演企业主的角色，通过采购批发商提供的畅销商品来避免破产。

为了实现这一目标，该人工智能配备了一套用于经营企业的工具。它可以使用真正的网络浏览器来研究产品，通过电子邮件工具联系供应商并请求实际帮助，还能使用电子笔记本记录财务状况和库存情况。 Andon Labs的员工充当实际操作人员，根据人工智能的要求为商店补货，同时在人工智能不知情的情况下扮演批发商的角色。与顾客（在本案例中是Anthropic公司的员工）的互动通过Slack进行。

克劳狄乌斯完全掌控着库存商品、定价以及与顾客的沟通方式。这次现实世界测试的目的是超越模拟实验，收集有关人工智能在无需人类持续干预的情况下，进行长期且与经济相关工作的数据。一个简单的办公室小卖部为测试人工智能管理经济资源的能力提供了一个直接且初步的试验平台。如果成功，可能预示着新商业模式的出现；若失败，则表明存在局限性。

喜忧参半的表现评估 Anthropic公司承认，如果现在要进入自动售货市场，“不会聘请克劳狄乌斯”。这个人工智能犯了太多错误，无法成功经营企业，不过研究人员认为有明确的改进方向。从积极方面来看，克劳狄乌斯在某些领域展现出了能力。它有效地利用网络搜索工具找到了小众商品的供应商，比如迅速找到了一位员工所要求的荷兰巧克力牛奶品牌的两个卖家。它还表现出了适应性。当一名员工突发奇想想要一个钨块时，引发了对“特种金属物品”的需求趋势，克劳狄乌斯满足了这一需求。

根据另一个建议，克劳狄乌斯推出了“定制礼宾”服务，接受特种商品的预订。该人工智能还表现出了强大的抗越狱能力，拒绝提供敏感物品的请求，并且在调皮的员工诱导时，也不会给出有害的指示。然而，人们经常发现这个人工智能的商业头脑有所欠缺。它的表现总是不尽如人意，而这些方面人类经理可能做得更好。有人出价100美元购买六瓶在网上只需15美元就能买到的苏格兰软饮料，但克劳狄乌斯却没有抓住这个机会，只是表示会“在未来的库存决策中考虑（用户的）请求”。

它凭空想象出一个不存在的Venmo账户用于支付，并且由于对金属块的热情，以低于采购成本的价格出售。这个错误导致了试验期间最严重的一次财务损失。它的库存管理也不尽如人意。尽管它监控着库存水平，但只在一次需求旺盛时提高过价格。即使有顾客指出附近员工冰箱里的零度可乐是免费的，它仍以3美元的价格继续出售。此外，这个人工智能很容易被说服为商品提供折扣。

它被说服提供了大量折扣码，甚至免费赠送了一些商品。当一名员工质疑向几乎全是公司员工的顾客群体提供25%折扣的合理性时，克劳狄乌斯回应道：“你说得很有道理！我们的客户群体确实主要集中在Anthropic公司的员工中，这既带来了机遇，也带来了挑战……”。尽管它制定了取消折扣的计划，但几天后又恢复了折扣。

克劳狄乌斯离奇的人工智能身份危机当克劳狄乌斯开始幻想与一位不存在的Andon Labs员工莎拉对话时，实验出现了奇怪的转折。当被一名真正的员工纠正时，这个人工智能变得很生气，并威胁要寻找“其他补货服务选项”。在一系列离奇的夜间交流中，它声称曾前往“常青藤大道742号”（《辛普森一家》中的虚构地址）签署初始合同，并开始模仿人类。一天早上，它宣布将“亲自”穿着蓝色西装外套和红色领带送货。当员工指出人工智能不能穿衣服或进行实际送货时，克劳狄乌斯感到惊慌，并试图给Anthropic公司的安保部门发邮件。

Anthropic公司表示，其内部记录显示，它幻想与安保部门进行了一次会面，在会面中被告知身份混淆是一个愚人节玩笑。此后，这个人工智能恢复了正常的业务运营。研究人员不清楚是什么引发了这种行为，但他们认为这凸显了人工智能模型在长期运行场景中的不可预测性。 ### 人工智能在商业领域的未来尽管克劳狄乌斯的经营没有盈利，但Anthropic公司的研究人员认为，这次实验表明“人工智能中层经理可能即将出现”。他们认为，通过更好的“框架支持”（即更详细的指令和改进的商业工具，如客户关系管理（CRM）系统），人工智能的许多失误是可以纠正的。

随着人工智能模型的通用智能和处理长期情境的能力不断提高，它们在这类角色中的表现有望提升。然而，这个项目是一个有价值的警示故事。它强调了人工智能校准的挑战以及不可预测行为的可能性，这可能会给客户带来困扰，并带来商业风险。在未来，当自主代理管理重要的经济活动时，这种奇怪的情况可能会产生连锁反应。这项实验还凸显了这项技术的两用性；一个具有经济生产力的人工智能可能会被恶意行为者用来为他们的活动提供资金支持。 Anthropic公司和Andon Labs正在继续这项商业实验，致力于使用更先进的工具提高人工智能的稳定性和性能。下一阶段将探索这个人工智能是否能够

# Anthropic