
日前于乌镇举办的围棋人机大战,中国顶尖棋士柯洁失利,以 1/4 子负于 AlphaGo。面对加强版的 AlphaGo,赛前外界普遍不看好柯洁能获胜。5 月 24 日的人工智慧论坛上,AlphaGo 团队负责人就揭露了更多 AlphaGo 的开发细节,指 AlphaGo 化身 Master 在经过网上 60 场顶尖水準的对弈和自我学习后,棋力已比 2016 年对战李世乭时更进一步 ,而且使用最新的硬体和机器学习技术。面对更强的 Master 版本,柯洁仅负半目于首战落败,已表现出身为世界顶尖棋士的实力。
2016 年 3 月,由 DeepMind 研发团队开发的 AlphaGo 一鸣惊人,在五局对弈中以四胜一负的成绩压倒性击败南韩职业九段棋士李世乭。事隔一年,Google 于中国乌镇举办为期 5 天的围棋暨人工智慧高峰会,掀起人工智慧与人类顶尖棋士的第二次正式公开对决:DeepMind 的围棋人工智慧 AlphaGo 与世界排名第一的柯洁九段展开三番棋对弈。在 23 日的首局对弈中,执白棋的 AlphaGo 以 1/4 子的优势先拔头筹获胜。柯洁亦在赛后表示,AlphaGo 实在出色,这一局输得心服口服,还形容 AlphaGo 已接近围棋之神了。
AlphaGo 快速自我完善 进步神速全靠独特演算法AlphaGo 能屡屡击败人类顶尖棋手,在于其先进的机器学习演算法。一直以来,围棋被认为是传统游戏中对人工智慧最具挑战的项目。不单是因为围棋包含庞大的搜寻空间,更是因为对落子位置的评估难度,已远远超过简单的启发式演算法,以现在的电脑运算能力,也无法就所有可能的棋局情况做穷举搜寻。DeepMind 研究科学家 David Silver 就在首日赛后的人工智慧峰会上详细解构了 AlphaGo 背后演算法的细节。
为了应对围棋的複杂性,在训练 AlphaGo 时,团队採用新颖的机器学习技术,结合人类专家监督学习和强化学习的优势。透过训练形成策略网络(Policy network),以棋盘上的局势为输入资讯,并对所有可行的落子位置产生概率分布,然后训练出价值网路(Value network)对自我对弈进行预测,以对手的绝对胜利到 AlphaGo 的绝对胜利为标準,预测所有可行落子位置的结果。

AlphaGo 的训练模式。
在获取棋局资讯后,AlphaGo 就会根据策略网路探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜寻时间结束时,类比过程中系统最频繁考察的位置将成为 AlphaGo 的最终选择。

策略网路运作模型。

价值网路运作模型。
David Silver 解释,AlphaGo 透过将这两种网路整合进基于概率的蒙特卡罗树搜寻(MCTS)中,展现它真正的优势。而 2016 年初在网上突然出现,与世界顶级围棋选手进行了 60 场网上对局并取得全胜战绩的 Master,正是 AlphaGo 的升级版本。

DeepMind 研究科学家兼 AlphaGo 团队负责人 David Silver。
对比李世乭时期的 AlphaGo,其主要透过预判 50 个回合和预测对手可能落子的位置来限制减少搜寻树规模,新的 Master 版本已经可以考虑到整个棋局最有价值的位置,而且能以最少回合预测数来达到更高的準确度。现在最新版本的 AlphaGo 能产生更大量自我对弈棋局,为下一代版本提供了训练资料,此过程循环往复,能不断将 AlphaGo 达致近乎完美。

AlphaGo 在对决职业二段棋手樊麾,对战李世乭及与 60 名顶级水平棋手 3 个不同阶段的实力水平对比,AlphaGo Master 更达到可让 AlphaGo Lee 3 子的差距。
DeepMind 创办人:AlphaGo 已具备有限创造力
DeepMind 的联合创始人兼 CEO Demis Hassabis。
David Silver 亦提到,AlphaGo 经过前期的全盘探索和过程中对最佳落子的不断揣摩后,其搜寻演算法已可在计算能力上加入近似人类的直觉判断。DeepMind 的联合创始人兼 CEO Demis Hassabis 更表示,虽然领域有限,但 AlphaGo 已明显展现出具备透过组合现有知识产生新颖或独特想法的能力,即人类所说的创造力。
除了演算法上的改进,硬体上的提升亦功不可没。David Silver 透露,AlphaGo Lee 版本时,需要在 Google Cloud 上 50 个 TPU(Tensor Processing Unit)运作,而搜寻 50 个棋步为每秒 10,000 个位置。他解释,每秒 10,000 个位置看似很多,但 20 年前由 IBM 研发,应用于分析西洋棋的深蓝 (Deep Blue),已可每秒搜寻 1 亿个位置。相较之下,AlphaGo 透过策略网路和价值网路进行判断无疑更聪明,亦大幅节省无意义的穷举搜寻分支。
现在的 AlphaGo Master 版本,已可在单个 TPU 机(包含 4 个 TPU)上运作,亦能透过产生大量自我对弈进行自我学习,进一步调整出更强大的策略及价值网路,缩减搜寻树的分支和规模。他又指,目前运作 AlphaGo 的 TPU 是上週 Goolge I/O 2017 大会上公布的最新版本,专为机器学习设计,对比旧版,新版本在处理计算时所消耗的电量仅为以往的十分之一,运作效率亦提升了 10 倍。
AlphaGo 与柯洁的对决固然吸引人,人工智慧的讨论也是这次峰会的另一重点议题。适逢 Google 上週在 I/O 2017 会上提出将「行动为先」转为「AI 为先」的策略,DeepMind 及 AlphaGo 团队的代表在乌镇现场的演讲中,不时提到 AlphaGo 只是 AI 在不同领域和行业应用的开始。