TOPNetwork > Google AlphaZeroの進化を支えた強化学習とは(...

Network

Google AlphaZeroの進化を支えた強化学習とは(上)

2019/07/01

Martin Heller InfoWorld

 この記事では、強化学習の概要や用途について大まかに取り上げる。数式やマルコフ決定過程、アルゴリズムなどの細かな部分には深入りせず、AlphaGoとAlphaZeroの話を交えながら概略を説明していく。

Credit: Martin Heller / IDG

 「AlphaGo」という名前を聞いたことがあると思う。米Google傘下のDeepMindが開発した囲碁プログラムで、2015年に二段のプロ棋士に勝った時にはニュースで大きく取り上げられた。その後も進化を続け、2016年には九段(最高段位)のプロ棋士を、2017年5月には世界最強の棋士を破っている。また、2017年末に発表された新たなプログラム「AlphaZero」は、AlphaGoよりはるかに強いうえ、チェスや将棋の学習にも対応できる。

 AlphaGoとAlphaZeroはどちらも、強化学習を用いている。強化学習のネットワークにディープニューラルネットワークを利用し、結果の確率の予測に生かしている。

 この記事では、強化学習の概要や用途について大まかに取り上げる。数式やマルコフ決定過程、アルゴリズムなどの細かな部分には深入りせず、AlphaGoとAlphaZeroの話を交えながら概略を説明していく。

↑ページ先頭へ