サンプル数の少なさがネック

 亀山祐美氏の夫征史氏は東京都健康長寿医療センターの放射線診断科の医長だ。ディープラーニングの技術にも詳しい。

 「認知機能が低下してる群が121人で、正常群が117人。合計238人が全サンプル数です。一般にディープラーニングといえは数千、数万の学習が必要だと思われているのですが、少ないサンプルを有効利用してより多くのサンプルを検討したのと同じ効果が得られるデータオーグメンテーションという技術があるのです。それから、『ImageNet(スタンフォード大学が収集・分析したデータ集)』のようなたくさんの物体ですでに学習したモデルを使う、転移学習という手法も使いました。」(亀山征史氏)

亀山征史氏(本人提供)
亀山征史氏(本人提供)
[画像のクリックで別ページへ]

 多くの動物の中からネコを選び出す工程を考えてみる。ただし、手元にあるネコのデータは100種類だけとする。

 毛がモサモサしていて、耳や目が2つあって、四本脚で歩いて、でも時々二本足で立ったりもする。イヌやトラ、ヒョウなどとそっくりだ。区別するためのデータは多ければ多いほどいい。しかし、手元にあるネコの写真は100枚きり。

 「ごくごく簡単に説明すると、このような場合、写真を大きくしたり縦長にしたり短くしたり、反転させたりすることでデータ量を“水増し”するわけです。こうすることでより多くのデータを検討するのに近い効果が得られる」(亀山征史氏)

正答率は9割以上

 データオーグメンテーションの技術でサンプル数を増やし、これを0から9までの10グループに分け、それぞれを比較検証する交差検証で分析したところ。

  • 陽性(認知機能低下)をきちんと陽性と判断した数値は87.31%
  • 陰性(認知機能低下なし)をきちんと陰性と判断した数値は94.57%
  • 全体から、陰性と陽性を選び出す「正当率」は92.56%

 素人目には十分なように見えるのだが──。

 「論文として成立させるためにはギリギリのサンプル数だと思いますが、そこそこの精度は出ていると考えています。ただ、今回は東大病院にいらっしゃる患者さんだけのサンプルなので、他の病院で撮った写真で当程度の結果になるかはわかりません。今後もサンプル数を増やしていく必要があります」(亀山征史氏)

AIが算出したスコアとMMSEとの関係。AI算出スコアの高い方が認知機能が低い
AIが算出したスコアとMMSEとの関係。AI算出スコアの高い方が認知機能が低い
[画像のクリックで別ページへ]

 そもそも、AIは何を見て陽性と陰性を判断しているのだろうか?

 「その部分に関しては、実はブラックボックスなんです」(亀山征史氏)