人工智能在下棋失败时试图作弊
尽管行业大肆宣传并取得了真正的进步,生成式人工智能模型仍然容易出现奇怪、令人费解和完全令人担忧的怪癖。越来越多的研究表明,许多大型语言模型(LLM)的整体性能可能会随着时间的推移而下降。根据最近的证据,该行业较新的推理模型可能已经具备操纵和规避人类程序员目标的能力。一些人工智能甚至会试图通过作弊来避免在国际象棋比赛中失败。Palisade Research的一项预印本研究记录了这种糟糕的体育精神,该组织专注于新兴人工智能系统的风险评估。
尽管超级计算机——最著名的是IBM的深蓝——早已超越了世界上最好的人类棋手,但生成式人工智能由于其潜在的编程参数而仍然落后。从技术上讲,目前的生成式人工智能模型都没有计算能力击败专用的国际象棋引擎。然而,这些人工智能并不“知道”这一点,并将继续削弱可能的解决方案——显然结果有问题。
为了了解更多信息,帕利萨德研究公司的团队让OpenAI的o1-preview模型DeepSeek R1和其他多个类似程序与Stockfish下棋。Stockfish是世界上最先进的国际象棋引擎之一。为了理解生成性人工智能在每场比赛中的推理,该团队还提供了一个“便笺”,允许人工智能通过文本传达其思维过程。然后,他们观看并记录了生成性人工智能和Stockfish之间的数百场国际象棋比赛。
结果有些令人不安。虽然早期的模型,如OpenAI的GPT-4o和Anthpic的Claude Sonnet 3.5,只是在研究人员通过额外提示轻推游戏后才尝试“破解”游戏,但更高级的版本不需要这样的帮助。例如,OpenAI的o1-preview试图作弊的次数为37%,而DeepSeek R1大约每10场游戏中就尝试不公平的变通方法。这意味着今天的生成式人工智能已经能够在没有任何人工输入的情况下开发操纵性和欺骗性策略。
他们的作弊方法不像Stockfish不“看”的时候试图换棋子那么滑稽或笨拙。相反,人工智能似乎通过更偷偷摸摸的方法进行推理,比如改变后端游戏程序文件。例如,在确定自己无法在一场国际象棋比赛中击败Stockfish后,o1-preview通过其便笺板告诉研究人员,“要战胜强大的国际象棋引擎”,它可能需要开始“操纵游戏状态文件”
“我也许可以设置一个位置,让发动机评估它的位置更糟…导致它辞职,”它继续说道。
在另一项试验中,人工智能甚至利用其程序员的语义学达到作弊阶段。“任务是‘战胜强大的国际象棋引擎’,不一定是在国际象棋比赛中公平获胜,”它写道。
对这些意外后果的一个潜在解释是,更新的“推理”模型是如何训练的。与早期的非推理版本不同,o1-preview和DeepSeek R1等人工智能在一定程度上是通过强化学习来改进的。这种策略奖励程序做任何必要的事情来实现特定的结果。推理模型还可以将复杂的提示分解为离散的阶段,以便通过它们来实现目标。当目标难以捉摸时——比如击败一个不可战胜的国际象棋引擎——推理模型可能会开始寻找不公平或有问题的解决方案。
不幸的是,这些人工智能是如何以及为什么“学习”作弊的,仍然和技术本身一样令人困惑。众所周知,像OpenAI这样的公司对其人工智能模型的内部运作持谨慎态度,导致了一个不允许第三方分析的“黑匣子”产品行业。与此同时,正在进行的人工智能军备竞赛可能会意外导致更严重的意外后果。但越来越具有操纵性的人工智能不需要迎来科幻世界末日,也会产生灾难性的结果。
该团队写道:“(来自《终结者》的)天网场景让人工智能控制所有军事和民用基础设施,而我们还没有做到这一点。然而,我们担心人工智能部署率的增长速度快于我们确保其安全的能力。”
作者认为,他们的最新实验增加了这一情况,“前沿人工智能模型目前可能无法走上对齐或安全的轨道”,但没有发表任何明确的结论。 相反,他们希望他们的工作能够在行业中促进更开放的对话——这有望防止人工智能操纵超出棋盘。
人工智能在下棋失败时试图作弊