XK星空官网人工智能在什么时候会犯错误？通过游戏揭示判断机制

语言 ≫ 日语

松崎公则

专业领域: 游戏信息学、深度强化学习、编程方法

了解详情

如今，人工智能 (AI) 不仅在围棋和将棋领域超越人类，而且在文本生成和图像识别等多个领域也超越了人类。然而，黑匣子问题，即解释人工智能为何得出结论的困难，仍未得到解决。此外，既然人工智能可以比人类更准确地得出答案，那么基本的问题就出现了：什么才是正确的答案？我们应该如何评估绩效？ 松崎公纪教授正在通过熟悉的游戏解决这些困难的数学问题。他以曾经流行的智能手机益智游戏“2048”为主题，致力于以一种易于理解的方式可视化人工智能如何学习以及何时出错。

走向一个反映现实生活的不确定世界

松崎教授的研究生涯最初始于并行编程：协调多台计算机高速解决问题。那里的主要研究目标是理论和优化。但在 2009 年加入 KUT 后，他开始探索新的方向。

“高度抽象的并行计算往往会让学生感到困难和遥远。我想知道是否有一个新的主题可以让学生在真正享受乐趣的同时参与其中。就在那时，我将注意力转向了游戏。我认为游戏以其明确的规则和可量化的结果，将是理想的学习切入点和研究基础，”他回忆道。

这导致他转向游戏信息学，这种方法不仅将游戏视为娱乐，而且将其视为准确评估人工智能性能并可视化其思维过程和问题的研究平台。

当他加入 KUT 时，全球研究已经在将棋和围棋等完美信息游戏方面取得了进展，所有棋盘信息都是可见的。因此，松崎教授将注意力转向了不完美信息游戏的世界：涉及机会（如骰子）或隐藏信息（如纸牌游戏中看不到对手的牌）的游戏。

“2009年的时候，将棋研究已经相当成熟，围棋研究也有了长足的进步。所以我特意瞄准了一个尚未探索的领域。在信息不完整和不确定的情况下如何做出判断？这是一个与现实社会直接相关的主题。”

建立一个经过全面分析的理想实验试验场

为了更定量地处理这方面的不确定性，他选择了“2048”，一款全球公认的益智游戏。在这款游戏中，玩家在 4x4 棋盘上向上、向下、向左或向右滑动方块，组合匹配的数字以创建更大的数字。由于新图块的位置和数值是随机确定的，因此游戏需要运气和策略。

Matsuzaki 教授和他的团队决定使用 Mini 2048（将游戏缩小到 3×3 棋盘的版本）详细分析 AI 决策机制。他们首先承担了从理论上解决游戏本身的工作。他们确定了可能出现的每种可能的游戏状态，计算了每种情况的最佳移动以及从该点开始的预期得分。他们确定了大量州的真实评估值，总共约 4100 万个州。这产生了一个数据库，全面记录了每个游戏状态的预期得分。

这项完整的分析建立了一个理想的实验环境，可以根据真实的正确答案来验证人工智能的判断。在强化学习的过程中，AI通过分配自己的评价值来学习最优行为，做出“这种情况好”或“那种情况坏”等判断。通过将这些分数与真实值进行单独比较，可以定量地掌握人工智能在何时、何地以及何种程度上做出了错误判断。

“大多数游戏人工智能研究都使用最终的输赢记录或平均分数作为衡量标准，但我想看看整个过程中发生了什么。我希望能够解释‘为什么它会做出这样的判断？’”他说。

根据完整的分析数据，他们创建了一个“完美玩家”，可以在每种情况下选择最佳动作。当他们分析 10,000 个游戏时，他们发现了多个难点，导致存活率显着下降。当在真实值数据中添加人工噪声的同时进行测试时，他们还获得了清晰的关系：误差越大，得分越低。这支持了这样一种观点，即评估函数的准确性（AI 如何评估每个游戏状态）是 AI 性能的决定因素。

接下来，他们使用“N 元组网络”比较了在不同结构和条件下训练的 AI 玩家，该网络已广泛用于 2048 和 Othello。他们证实，即使设置不同，错误倾向也基本一致，并且错误在残局中尤其增加。 AI 所苦苦挣扎的“残局墙”清晰可见。

这项研究表明，在学习决定 AI 性能的评估函数方面仍有很大的改进空间。

为什么人工智能会变得过度自信？

一旦衡量人工智能判断力的基础就位，出现的下一个挑战就是平衡探索和利用的困难。你越积极地尝试未知的动作，就越容易有新的发现，但错误也会增加。离线时，如果您只重复熟悉的方法，学习就会陷入停滞状态。如何控制这种困境是强化学习领域的一个重要主题。

为了解决这个问题，最先进的 2048 玩家采用了“乐观初始化”，即为未知的游戏状态分配较高的初始值以鼓励探索。然而，当用Mini 2048验证这一点时，我们发现，虽然它对促进早期勘探有效，但效果有限。 AI对自己的预测过于自信，不断重复错误的判断。

松崎教授和他的团队因此引入了一种促进探索、同时强调质量和时间安排的设计。当他们仔细地采取诸如优先考虑过去很少选择的动作之类的方法时，学习就会稳定下来，分数也会提高。他们颠覆了“2048年探索是不必要的，过度自信的人工智能表现最好”的传统观点，提出了添加适当的探索可以改善人工智能学习成果的新观点。

此外，他们通过使用 Mini 2048 与真实评估值进行比较，新近关注了高估问题。利用对称性的效率技术（例如棋盘旋转和反射）被用于意外发展的 2048 玩家中。然而，人们发现这会产生副作用。在对称的情况下，尤其是在游戏早期，无论选择哪一步棋，得分差异都很小，人工智能倾向于轻易地假设“所有选择都是正确的”。当这些条件重叠时，人工智能就会对自己的“成功经验”过于自信，从而导致高估。

为了解决这个问题，Matsuzaki 教授和他的团队引入了一种称为“双 Q 学习”的技术，其中两个独立的网络相互纠正彼此的学习，以抑制高估。实验结果证实，高估确实受到了抑制，但这次他们观察到了相反的趋势：低估，总体评价下降。人工智能开始规避风险并做出过于谨慎的决策。换句话说，他们创造了一个过于谨慎的人工智能。这是一个不适合与传统博弈树搜索相结合的属性。

当过度自信被纠正时，AI反而变得胆怯，能够在完整分析的坚实基础上可视化这种波动具有重要意义。人工智能学习过程中潜在的判断偏差正变得更加具体易懂。

重新审视世界最强游戏AI AlphaZero的传统智慧

在解开人工智能的每一个思维过程后，松崎教授现在将目光投向研究 AlphaZero 背后的力量，AlphaZero 是由 Google DeepMind 开发的世界上最强的游戏人工智能。

AlphaZero 因通过融合了强化学习、神经网络和蒙特卡罗树搜索 (MCTS) 三种技术的创新方法，取得了远远超过将棋、围棋和国际象棋领域顶级专业人士的实力而闻名。然而，其强大的基础尚未得到明确解释。

“AlphaZero 非常好，但几乎没有研究能够正面解决“它为什么强大？”的问题。我们希望根据理论基础一次验证其结构。”

松崎教授使用Mini 2048进行的一系列分析表明，搜索并不一定会导向正确的方向，控制评估函数中的偏差是决定性能的关键。这一结果澄清了已被视为 AlphaZero 设计理念的既定理论的一个方面，即“神经网络和 MCTS 的结合是最强的。”

“AlphaZero 的开发人员解释说，‘神经网络执行非线性计算，因此将它们与 MCTS 结合起来是最佳选择。’但没有人真正验证这是否真的是唯一的最佳解决方案。我想澄清一下‘为什么’。”

除了这项基础研究之外，松崎教授还继续追求创造世界上最强的 2048 玩家的挑战。目前的世界纪录为 625,000 分。他实验室的AI玩家已经达到了587,000分，即将打破纪录。

“发展理论的研究很重要，但当有成为世界第一的实际目标时，学生的积极性就会真正提高，”他笑着说。

阐明人工智能的理论问题，努力打破世界纪录……通过并行追求这两种方法，这项研究正在朝着更深入、更确定的方向前进。

为造福社会的游戏AI而奋斗

松崎教授的研究是一项超越游戏框架、探究 AI 智能基础的挑战。在未来不确定的情况下（如现实世界），如何做出理性决策？他继续在游戏的小世界里寻找这个问题的答案。

“在2048年的大多数局面中，只要不犯明显的错误，选择任何方向都不会造成大问题。但是，在棋盘上布满棋子的残局中，一个误判就会立即导致“游戏结束”。也就是说，虽然游戏通常很简单，但有时也会出现极其困难的局面。这种结构与我们生活的现实世界非常相似。例如，在自动驾驶中，大多数驾驶是操作单调，但当孩子突然冲到街上时，需要立即做出判断。在现实社会中，大多数决定都很简单，但最重要的是偶尔的困难点。”

在医疗环境中从多种选择中选择最佳选择，在灾难期间利用有限的信息决定行动，或者立即评估金融市场的风险这些“罕见但极其重要的时刻”是人工智能真正价值得到检验的地方。

Matsuzaki 教授目前担任 KUT 新成立的进化游戏 AI 应用研究中心的中心主任，他正在构想将 AI 与社会联系起来的新应用领域。

“通过完整的分析彻底研究了人工智能的原理后，我的下一个目标是‘造福社会的游戏’。”一旦建立了规则和评分系统，现实世界的问题也可以被重新定义为游戏。”

通过与大学内外的研究人员合作，他将寻求应用游戏框架，将复杂的现象转化为人工智能可以理解的形式，将他的工作与解决社会问题联系起来。他想到的应用领域是材料化学和神经科学等领域。

“例如，在材料科学中，如果您将物理约束视为游戏规则，将材料属性视为分数，那么寻找最佳材料的问题与玩高分游戏的结构相同。换句话说，您可以教人工智能将寻找轻而坚固的材料视为赢得游戏。同样，关于人工智能何时犯错的见解对于将大脑功能重建为数学模型的神经科学研究来说很有价值。”

基于从游戏中学到的失败法则，设计具有更类似于人类的学习过程的人工智能成为可能。这里的关键点是预先消除迄今为止已发现的人工智能陷阱。

“通过了解人工智能在特定情况下容易失败的模式并围绕它们进行设计，我们可以获得更可靠的结果。换句话说，提前消除这些风险对于社会实施至关重要。我相信，从熟悉的游戏中衍生出的人工智能特性一定会对未来支持人类社会有所帮助。”

在《Mini 2048》这款看似简单的游戏中，松崎教授探索了 AI 智能的本质，并将这些见解与解决社会问题联系起来。他的研究不仅重新审视了人工智能为何如此强大，而且还努力为人工智能发展成为人类社会中更值得信赖的东西——我们可以一起做出决策——开辟可能性。

发布日期：2026 年 1 月/采访日期：2025 年 10 月

上一个
下一个

推文

XK星空官网 人工智能在什么时候会犯错误？通过游戏揭示判断机制

XK星空官网人工智能在什么时候会犯错误？通过游戏揭示判断机制