以下是一个新的人工智能如何掌握棘手的策略游戏
根据本周发表的一篇论文,一个名为“DeepNash”的新人工智能已经掌握了策略,这是少数几个计算机不会经常击败人类玩家的标志性棋盘游戏之一。这是一个巨大而令人惊讶的结果——至少对策略社区来说是这样。
策略围棋是一款具有两种不同挑战的游戏:它需要长期的战略思维(如国际象棋),也需要玩家处理不完整的信息(如扑克)。目标是在棋盘上移动并捕获对方的旗帜块。每场比赛都在一个10 x 10的网格棋盘上进行,两个2 x 2的方形湖泊挡住了棋盘的中间。两个玩家都有40个具有不同战术价值的棋子,可以在比赛开始时部署——问题是你看不到对手的棋子,他们也看不到你的棋子。当你计划进攻时,你不知道防守方是一个会击败你几乎所有棋子的高级元帅,还是一个可以被中尉或上尉干掉的低级中士。其他一些可玩的游戏包括炸弹(强大但不动)、侦察兵(可以同时移动多个方块)和矿工(可以拆除炸弹),这一切都增加了战术的复杂性。只有当一个玩家的旗帜被捕获或者他们不能再进行任何合法的移动时,游戏才会结束。
所有这一切都表明,策略哥为计算机创造了一个独特的挑战来解决。国际象棋相对容易,因为所有的信息对每个人来说都是可见的——在博弈论中,它被称为“完美信息游戏”。计算机可以查看你的防御,模拟10个左右的移动来选择几个不同的选项,然后选出最好的一个。这让他们比最好的人类玩家更具战略优势。国际象棋是一种往往在几个关键时刻而不是逐渐施压来决定输赢的游戏,这也有所帮助。国际象棋平均需要40步左右,而策略哥需要380多步。这意味着国际象棋中的每一步都要重要得多(对人类来说,需要更多的考虑),而策略哥的节奏更快,更灵活。
[相关:Meta的新AI可以使用欺骗来征服棋盘游戏世界]
另一方面,策略哥是一种“不完全信息游戏”。在对手的棋子攻击或被攻击之前,你无法知道它是什么。在扑克中,有10^164个可能的游戏状态,每个玩家只有10^3个可能的两张牌开始手。在策略哥中,有10^535个可能的状态和超过10^66个可能的部署——这意味着有更多的未知信息需要解释。这是最重要的战略挑战。
结合起来,这两个挑战使得战略对计算机(或人工智能研究人员)来说尤其困难。根据该团队的说法,“不可能使用最先进的基于模型的完美信息规划技术,也不可能使用最先进的不完美信息搜索技术将游戏分解成独立的情况。”计算机必须能够制定战略计划,纳入它所拥有的不完美信息。
但是DeepNash已经成功了。研究人员使用了一种新方法,让人工智能在开发自己的策略的同时学会自己玩策略。它使用了一种叫做正则化纳什动态(R-NaD)的模型强化学习算法,结合了一种寻求非合作博弈均衡的深度神经网络架构——“零和双人游戏中不可利用的策略”,比如策略——通过这样做,它可以学习“人们可以期望顶级玩家掌握的定性行为”。这种方法以前在简单的囚犯困境式游戏中使用过,但从来没有在如此复杂的游戏中使用过。
DeepNash的测试对象是现有最好的策略机器人和专业人类玩家。它击败了所有其他机器人,并在在线棋盘游戏平台Gravon上与专业人类玩家展开了激烈的竞争。更好的是,从定性的角度来看,它能够玩得很好。它可以在获取材料和隐藏棋子的身份之间做出权衡,进行虚张声势,甚至进行有计划的赌博。(尽管研究人员也认为“欺骗”和“虚张声势”等术语很可能指的是DeepNash无法拥有的精神状态。)
总而言之,这是一个令人兴奋的演示,展示了一种训练人工智能模型玩游戏的新方法(也许将来会执行其他类似的任务)——它不依赖于以前用于玩国际象棋、围棋和扑克等其他游戏的计算量大的深度搜索策略。
以下是一个新的人工智能如何掌握棘手的策略游戏