TOPNetwork > Google AlphaZeroの進化を支えた強化学習とは(...

Network

Google AlphaZeroの進化を支えた強化学習とは(中)

2019/07/03

Martin Heller InfoWorld

 この記事では、強化学習の概要や用途について大まかに取り上げる。数式やマルコフ決定過程、アルゴリズムなどの細かな部分には深入りせず、AlphaGoとAlphaZeroの話を交えながら概略を説明していく。

前回から続く)

強化学習の適用例

Credit: Thinkstock

 強化学習の適用例は、囲碁、将棋、チェスといったボードゲームの分野だけではない。ビデオゲームや、ロボットに自律的に作業させるためのトレーニングにも強化学習が適用されている。

 2013年にDeepMindは、強化学習を利用して高次元の感覚入力から制御の方策を直接学習するモデルについての論文を発表した。Q学習(強化学習の手法の一種)を用いる畳み込みニューラルネットワークを、「Atari 2600」の7種類のゲームのプレーに適用したところ、6種類のゲームで従来の手法すべてを上回る結果を残し、うち3つのゲームでは、熟練した人間のプレーヤーをも上回ったという。

 この畳み込みニューラルネットワークの入力は生のピクセル値、出力は将来の報酬を推測する価値関数である。この価値関数は、より一般的な線形価値関数に比べて優れた結果を残した。入力が画像である場合に畳み込みニューラルネットワークを選択することは意外ではない。畳み込みニューラルネットワークは視覚野を模してデザインされているからだ。

 DeepMindはその後、この路線の研究を、リアルタイムストラテジーゲーム「StarCraft II」にまで拡大した。「AlphaStar」というプログラムが、自己対戦を通じてStarCraft IIを学習し、少なくともProtossという種族同士の対戦に関しては、トッププレーヤーにほぼ確実に勝てる水準にまで到達した。

 ロボット制御の分野でも、強化学習とディープニューラルネットワークを組み合わせた深層強化学習の適用が進められている。多くは、畳み込みニューラルネットワークを使って、動画のフレームから特徴を抽出する。だが、実際のロボットを使った学習には時間がかかる。学習時間を短縮するために、多くの研究は、まずはシミュレーションから始め、その後で、物理的なドローン、犬型ロボット、人型ロボット、ロボットアームなどでアルゴリズムを試している。

↑ページ先頭へ