‘这其中最重要的方面……是AlphaGo不仅仅是一个手动规则构建下的专门系统,’负责DeepMind监督的戴密斯·哈萨比斯说,‘相反,它还使用通用的机器学习技术来赢得胜利。’
1、穷举与剪枝
早在2014年初,库伦的围棋程序Crazystone就挑战了日本的职业棋手依田纪基并获得了胜利,但有一点需要声明——这是AI在受让四子的情况下。
在围棋中,这代表着开局的巨大优势。
当时,库伦预测,机器还需要10年的发展,才能在分先的情况下赢得顶尖棋手。
这项研究的难度在于围棋规则本身。
即使是功能再强大的超级计算机,处理能力也有极限,无法在给定任意的合理的时间内分析出棋盘中可行的每步棋着的变化。
当深蓝在1997年战胜国际象棋冠军卡斯帕罗夫时,就是以这样的‘暴力’做到的。
从本质上讲,IBM的超级计算机分析了当前可行的每一步棋的结果,这样的预测视野超越了人类棋手的极限。
但在围棋中,这是不可能做到的。
在国际象棋中,任意给定的回合平均约有35种可行的变化;而围棋--这种两个玩家在19×19的网格上以抛光的棋子互相对抗的游戏,有着约250种变化,并且每种都能生出另外的250种,依此类推,无法穷尽。
就像哈萨比斯指出的一样:横盘上存在的变化比宇宙中的原子还要多。
在使用一种被称为蒙特卡罗树搜索的技术后,像Crazystone这样的系统能够脱颖而出,结合其他技术,系统可以缩小必须分析的步数的范围,最终他们可以战胜一些围棋高手——但不能战胜最顶尖的棋手。
2、局面形式判断
在顶尖棋手中,每一手棋更具直观性。
棋手可能会告诉你,要基于盘中的棋形和局势来决定下一步棋着(棋手思维),而不是仔细分析盘上每个点可能的后续变化(系统思维)。
‘好的选点看上去就觉得很棒,就像遵循着某种美学一般。’同时也是一名棋手的哈萨比斯说,‘历经数千年依然是一个迷人的游戏,或许这就是它的魅力所在。’
但是,随着2014年让步至2015年,包括爱丁堡大学团队,Facebook团队以及DeepMind团队在内的研究者们,开始将深度学习应用于围棋研究。
这个想法是利用技术来模仿下棋时所需要的‘人类直觉’。‘围棋是隐式的,且都是模式匹配(一种算法)’哈萨比斯说:‘但这正是深度学习的优势所在。’
3、自我增强
深度学习依赖于所谓的神经网络——一种硬件和软件网络,类似于人脑中的神经元。
这些神经网络并非依靠暴力计算或手动制定的规则来运作,他们分析大量数据以‘学习’特定的任务。
将足够多的袋熊照片送入神经网络,它可以学习识别袋熊;给它‘投喂’足够多的口语,它可以学会辨认你说的话;‘投喂’足够的围棋走法,它就可以学会下围棋。
在DeepMind,研究人员希望神经网络可以通过‘看’盘中的选点来掌握围棋,就像人类在下棋时一样。
这项技术反馈良好,通过将深度学习与‘蒙特卡洛树’方法结合,Facebook旗下的系统已经击败了一些人类玩家。
但DeepMind团队更加深入的执行了这个理念。