AlphaGo是做什么用的?

开课吧开课吧锤锤2021-04-08 15:33

点赞
有用
分享分享

    阿尔法围棋(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人,由谷歌(Google)旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发。其主要工作原理是“深度学习”。

    中国IDC圈6月3日报道,DeepMind团队(google旗下)的AlphaGo(一个围棋的AI)以4:1战胜顶尖人类职业棋手李世石。她到底是怎么下棋的?

ai

    AlphaGo在面对当前棋局时,她会模拟(推演棋局)N次,选取“模拟”次数最多的走法,这就是AlphaGo认为的最优走法。

    这是迄今为止,AlphaGo算法最清晰的解读

    例如图中,所有没有落子的地方都是可能下子的,但在模拟中,右下那步走了79%次,就选那一步了,就那么简单。后面你会发现,“模拟”次数“最多”的走法就是统计上“最优”的走法。

    这是迄今为止,AlphaGo算法最清晰的解读

    啥是模拟?

    模拟就是AlphaGo自己和自己下棋,相当于棋手在脑袋中的推演,就是棋手说的“计算”。

    AlphaGo面对当前局面,会用某种(下面会讲)策略,自己和自己下。其中有两种策略:往后下几步(提前终止,因为AlphaGo有一定判断形势的能力);或者一直下到终局(终局形势判断相对简单,对于棋手简单,对于机器还有一定难度,但是这个问题已经基本解决)。对于棋手来说就是推演棋局。

    AlphaGo怎么模拟的?

    AlphaGo会模拟多次,“不止一次”。越来越多的模拟会使AlphaGo的推演“越来越深”(一开始就1步,后来可能是几十步),对当前局面的判断“越来越准”(因为她知道了后面局面变化的结果,她会追溯到前面的局面,更新对前面局面的判断),使后面的模拟“越来越强”(更接近于正解,她后面模拟出来的着法会越来越强)。怎么做到的?看她怎么模拟的。

    每一次的模拟,AlphaGo都是这样。每个步骤中有一个函数来决定下一个步骤。这些功能包括:这种情况大概应该怎样下(选点:policynet),这一步将导致什么样的情况,我的胜率有多大(情况判断:valuenet和rollout小模拟),鼓励探索未模拟的技巧。这是用来解释这些英文名词的。

    在模拟一次之后,AlphaGo记得要模拟棋局,例如几步之后的棋局。然后计算policy,value。由于此时已接近终点,此时值将更为精确(相对于先前的模拟或情况)。AlphaGo也将使用这些更准的值来更新这个函数,函数值也将变得更准,因此模拟的每一步都将越来越接近于正解(最优下法),整个模拟过程将越来越接近于黑白两色的最优下法(principlevariation,principlevariation),就像围棋书籍中的正解一样。到目前为止,你大概已经知道AlphaGo的工作原理了,这里有一些细节,还有数学。

    如果这些还不足够,那么不妨点击下方课程,跟着老师好好学习。

ai

有用
分享