TOPNetwork > Google AlphaZeroの進化を支えた強化学習とは(...

Network

Google AlphaZeroの進化を支えた強化学習とは(上)

2019/07/01

Martin Heller InfoWorld

強化学習の概略

 機械学習には、「教師なし学習」「教師あり学習」「強化学習」の3種類があり、解決に適した問題がそれぞれ異なる。

 教師なし学習は、ラベルを付けていない包括的なデータセットを学習に用いる。データから構造や法則を導き出すのに向いており、クラスタリング、次元削減、表現学習、密度推定などのタスクに使われる。

 教師あり学習は、ラベルの付いた包括的なデータセットを学習に用いる。離散データの分類モデルや、連続データの回帰モデルの作成に向く。教師あり学習で作成する機械学習モデルやニューラルネットワークモデルは、通常は予測に利用し、例えば「この融資が焦げ付く確率は?」「来月確保しておくべき在庫数は?」といった問いへの答えを導き出すことができる。

 強化学習は、環境に合わせて価値を最大化するようにアクターまたはエージェントをトレーニングする。もう少し具体的な用語を交えて見ていこう。

 例えばAlphaGoの場合、囲碁(環境)の打ち方(行動)を学習するために、まずは、過去の対局の膨大なデータセットを基に、人間の打ち手を模倣するように学習した(見習い学習)。その後は、膨大な回数の自己対局を行い、試行錯誤を通じて打ち手を向上させていった(強化学習)。

 ただしAlphaGoは、有段者のように勝利の規模の最大化を目指すのでも、初心者のように目の前の形勢だけの最適化を目指すのでもなく、最終的に勝利する確率を最大化するように次の一手を決める。1目差で勝つか50目差で勝つかは気にしない。

翻訳:内山卓則=ニューズフロント

↑ページ先頭へ