
XK星空中国官方网站 AI 哪里出了问题?通过游戏揭示“判断”机制

- 人工智能 (AI) 现在不仅在围棋和将棋领域,而且在文本生成和图像识别等各个领域都取得了超越人类的成果。另一方面,黑匣子问题仍然没有得到解决,这使得很难解释为什么得出某个结论。此外,现在人工智能可以比人类更准确地得出答案的时代,出现了一些基本问题,例如“什么构成正确答案?”和“应该如何评估它?”
Kiminori Matsuzaki 教授正在通过熟悉的游戏从数学上解决这些难题。以智能手机上流行的益智游戏“2048”为主题,我们试图以一种易于理解的方式可视化人工智能如何学习以及在哪里犯错误。
走向通往现实社会的“不确定的世界”
松崎教授的研究生涯最初是从“并行编程”开始的,它涉及协调多台计算机以高速解决问题。当时的主要研究目标是探索理论和效率,但2009年来到我校后,他开始探索新的方向。
``对于学生来说,高度抽象的并行计算往往是困难和遥远的。难道没有一个新的主题可以让学生们享受学习的乐趣吗?那时,我把目光投向了游戏。我认为具有明确规则和数值结果的游戏将是理想的学习入门和研究基础。''
这样,我们转向了“游戏信息学”,它不再将游戏视为纯粹的娱乐,而是将其视为准确评估人工智能性能以及可视化思维过程和问题的研究基础。
当我到达时,世界范围内已经在进行“完整信息游戏”的研究,你可以在棋盘上看到所有信息,就像将棋或围棋一样。松崎教授将注意力转向了“不完全信息游戏”的世界,其中涉及运气和隐藏信息,例如骰子的随机性以及像扑克牌一样看不到对手牌的情况。
“截至 2009 年,将棋的研究已经足够成熟,围棋的研究也取得了长足的进步。这就是为什么我特意瞄准了一个人迹罕至的地方。您如何根据不完整和不确定的信息做出决策?这是一个与现实社会相关的主题。”
构建一个经过全面分析的理想测试站点
选择世界著名的益智游戏“2048”是为了更定量地处理“不确定性”的本质。在 4x4 板上向上、向下、向左、向右滑动图块,并组合相同的数字以创建更大的数字。新方块的位置和数量是随机决定的,所以这既是运气又是策略的问题。
松崎教授和他的同事决定使用“Mini 2048”(该游戏缩小为 3x3 的小棋盘的版本)来对人工智能如何做出决策进行详细分析。我们开始的第一件事是从理论上解释游戏本身。我们识别游戏中可能出现的所有情况,并计算每种情况下的最佳走法以及您可以从中获得的分数。我们寻找大量情况(大约 4100 万种)的“真实评估值”,并建立了一个涵盖每种情况的可能点的数据库。
这种“完整的分析”创造了一个理想的实验环境,可以用“真正的正确答案”来验证人工智能的判断。在强化学习的过程中,AI 通过分配“这种情况好”和“那种情况不好”等评价值来学习最优行为。通过将每个分数与真实值进行比较,现在可以定量地了解 AI 何时、何地以及在多大程度上做出了错误决策。
“大多数游戏人工智能研究都使用最终的输赢或平均分数作为指标,但我想看看一路上会发生什么。我希望能够解释为什么我做出这个决定。”
基于完整的分析数据,我们创建了一个在每种情况下都会选择最佳走法的“完美玩家”,并分析了10,000次游戏,发现存在多个“难点”,导致生存率显着下降。此外,当在真值数据中添加人工噪声并进行测试时,得到了清晰的关系:误差越大,得分越低。这证实了人工智能评估各个方面的“评估函数”的准确性是人工智能能力的决定因素。
接下来,我们使用在《2048》和《黑白棋》中拥有良好记录的“N元组网络”,比较了在不同结构和条件下训练的AI玩家,发现无论设置如何,错误趋势几乎相同,并且确认错误在游戏的最后阶段尤其增加。人工智能无力对抗的“残局墙”已经明显出现。
这项研究表明,在学习决定人工智能性能的“评估函数”方面仍有改进的空间。

为什么人工智能会变得“过度自信”?
一旦衡量人工智能判断力的基础就位,接下来显而易见的是“平衡探索和利用”的困难。你越积极地尝试新事物,你就越有可能有新的发现,但你犯的错误也就越多。另一方面,如果你重复熟悉的方法,你的学习就会达到一个平台期。如何控制这种困境是强化学习领域的一个重要课题。
另一方面,最先进的2048玩家使用“乐观初始化”,对未知情况给予较高的初始评估并鼓励尝试。但用Mini 2048测试时发现,虽然对前期探索有一定的促进作用,但作用有限。 AI对自己的预测过于自信,屡屡做出错误的决定。
因此,松崎教授和他的同事转而采用强调质量和时机的设计,促进探索。当他们仔细引入诸如优先考虑过去较少选择的动作之类的策略时,学习就会稳定下来,分数也会提高。这项研究推翻了“2048年搜索没有必要,过度自信的人工智能是好的”的普遍看法,并提出了一个新的视角,表明添加适当的搜索可以改善人工智能的学习结果。
此外,我们通过使用 Mini 2048 将其与真实评估值进行比较,重点关注“高估”这一新问题。2048 的玩家发展采用了利用对称性的效率技术,例如棋盘的旋转和反转。然而,他们发现这有一个意想不到的副作用。对称下,无论你选择哪一步,分数差异都很小,尤其是在早期阶段,因此AI倾向于认为“全部都是正确的”。当这些条件重叠时,人工智能就会对自己的“成功经验”过度自信并高估自己。
为了解决这个问题,Matsuzaki教授和他的同事引入了一种称为“双Q学习”的方法,其中两个独立的网络纠正彼此的学习以抑制高估。实验的结果是,虽然高估确实被抑制了,但也证实了存在整体评价偏低的“低估”倾向。人工智能现在会做出规避风险且安全的决策。换句话说,我们创造了一个过于谨慎的人工智能。这是一个不适合与传统博弈树搜索结合的属性
纠正过度自信导致胆怯——我们能够在完整分析的坚实基础上定量可视化这种波动具有重要意义。隐藏在人工智能学习过程中的判断偏差正变得更加具体。
质疑世界最强游戏AI“AlphaZero”的常识
松崎教授就是这样一一解开AI的思想的。下一步是要问是什么让 Google DeepMind 开发的世界上最强大的游戏 AI AlphaZero 如此强大。
AlphaZero 因使用结合了强化学习、神经网络和蒙特卡罗树搜索 (MCTS) 三种技术的创新方法,达到了远远超过将棋、围棋和国际象棋顶级专业人士的实力水平而闻名。然而,其强大的基础尚未得到明确解释。
“AlphaZero非常好,但是几乎没有研究直接解决它为什么这么强的问题。我们想在理论支持的基础上一一验证它的结构。”
Matsuzaki 教授等人使用 Mini-2048 进行了一系列分析。研究表明,搜索并不一定会导向正确的方向,评估函数的偏差控制是决定性能的关键。这可以说是一项成就,澄清了 AlphaZero 既定的设计理念的一个方面,即“神经网络和 MCTS 的结合是最强的。”
“AlphaZero 的开发者解释说,“神经网络执行非线性计算,因此它们最好与 MCTS 结合使用。”但是,没有人证实这是否真的是唯一的最佳解决方案。我们想澄清“原因”。''
与此同时,在这项基础研究的同时,松崎教授继续接受“创造世界最强2048选手”的挑战。目前的世界纪录是625,000分。松崎实验室的AI玩家积分已经达到了587000分,这个记录即将被打破。
“虽然建立理论的研究很重要,但当学生有成为世界上最好的实际目标时,他们的积极性就会大大增加,”他笑着说。
阐明人工智能的理论问题并试图打破世界纪录。通过结合这两种方法,研究正在朝着更深入、更可靠的方向发展。

瞄准能够回馈社会的游戏AI
松崎教授的研究是一项超越游戏框架、触及AI智能根源的挑战。在未来不确定的情况下,比如现实社会,我们如何做出理性的决定?我们继续在游戏的小世界里寻找答案。
“在 2048 年的很多情况下,只要不是明显的错误,选择哪个方向并不重要。但是,在棋盘上布满棋子的最后阶段,一个错误的决定可能会导致游戏立即结束。换句话说,即使情况通常很简单,有时也可能非常困难。是的。这种结构与我们生活的现实世界非常相似。例如,在自动驾驶中,大多数操作都是单调,但在现实生活中,很多决定很简单,比如当一个孩子突然跳出来时,但有时困难点很重要。
当医疗领域从多个选项中选择最佳选项时,当发生灾难时根据有限的信息决定行动时,或者当在金融市场上做出即时风险判断时——这些“很少发生但极其重要的情况”才是考验人工智能真正价值的地方。
松崎教授目前担任该大学新成立的“游戏人工智能深化研究中心”的主任,正在构想连接人工智能和社会的新应用领域。
“在深入分析人工智能原理后,我们的目标是创造一款可以回馈社会的游戏。如果我们制定规则并评分,即使是现实世界的问题也可以重新解释为游戏。”
通过与校内外研究人员合作,我们将应用游戏的框架,将复杂的现象转化为人工智能可以理解的形式,以帮助解决社会问题。我们正在考虑将其应用到“材料化学”和“神经科学”等领域。
例如,在材料科学中,如果我们将物理约束视为游戏规则,并将材料的属性视为分数,那么寻找最佳材料的问题与“玩游戏以获得高分”具有相同的结构。人工智能可以学习如何找到强有力的材料来通关游戏。此外,在将大脑运作再现为数学模型的神经科学研究中,人工智能何时犯错的知识也发挥了作用。
基于从游戏中学到的“失败规则”,还可以将人工智能设计得更加类似于人类的学习过程。这里重要的是消除迄今为止已经发现的人工智能陷阱。
“通过了解人工智能在某些情况下容易失败的模式,并通过设计来避免这些模式,我们可以获得更可靠的结果。换句话说,在将这些风险应用于社会之前,必须消除这些风险。我相信,源自熟悉游戏的人工智能特性必将成为未来支撑人类社会的力量。”
《Mini 2048》是一款看似简单的游戏,它探索了 AI 智能的本质,并将这些知识与解决社会问题联系起来。松崎教授的研究试图重新思考人工智能为何如此强大,同时开启其进化成为更值得信任、能够与人类社会共同决策的实体的可能性。

发布日期:2026 年 1 月/报道日期:2025 年 10 月
- 上一页
- 下一个