TOPNetwork > Google AlphaZeroの進化を支えた強化学習とは(...

Network

Google AlphaZeroの進化を支えた強化学習とは(下)

2019/07/05

Martin Heller InfoWorld

 この記事では、強化学習の概要や用途について大まかに取り上げる。数式やマルコフ決定過程、アルゴリズムなどの細かな部分には深入りせず、AlphaGoとAlphaZeroの話を交えながら概略を説明していく。

前回から続く)

AlphaGoとAlphaZero

Credit: Peshkova / Getty Images

 前述のとおり、AlphaGoの囲碁学習は、人間の対局のデータベースを学習するところから始まった。この第一歩で、それなりに強固なディープニューラルネットワークベースの価値関数が得られた。

 次のステップの学習では、自己対局を膨大に行い、その結果を用いて、価値ネットワークと方策ネットワークの重み付けを修正した。こうして、ほとんどの人間棋士より強いプログラムになった。

 AlphaGoは、対局中の一手ごとに、その時点で成立し得るすべての打ち方に対して価値関数を適用し、勝利につながる確率という観点でランクを決める。そのうえで、特に価値が高い手で得られる盤面からモンテカルロ木探索のアルゴリズムを適用し、勝利の可能性が最も高い一手を探索に基づいて選ぶ。こうした勝利の確率を、それぞれの一手の木探索に対する注目度の重み付けに用いる。

 後の「AlphaGo Zero」では、人間の対局のデータベースを使った学習はなくなり、ゲームのルールと強化学習だけでスタートが切られるようになった。最初はでたらめな手を打っていたが、膨大な自己対局を通じた学習により、飛躍的な進歩を遂げた。AlphaGo Zeroは、3日後には、九段のプロ棋士を破った「AlphaGo Lee」に100戦100勝できるほどの強さになり、21日後には世界最強の棋士に勝った「AlphaGo Master」のレベルに達した。そして40日で、従来のどのバージョンよりも強くなった。

↑ページ先頭へ