自然言語処理

インターネット由来の情報に限ったことではないが、完全フリーに記載される非構造化データの場合、その長々とした文章を全部読み込むには我々現代人はあまりにも時間が足りない。例えば、乳がん患者さんがどのようなことを思っているだろうか、そのブログを検索したとして、恐らく相当数がヒットすることになる。その全てをしっかりと読み込むには1日や2日では到底足りない。そこで必要となってくるのが、こうした文章を人間に変わって読み込んでもらうためのAI(Artificial Intelligence、人工知能)技術である。ここでのAI技術はNLP(Natural Language Processing、自然言語処理)に主に属するものであって、その基礎となるのは私たちが作る文章を細かく刻んで単語単位にする(形態素解析)といったものであるが、より応用的になると文章の構造分析や、さらには皮肉や隠喩までも見極めるといった意味分析にまで及ぶ。究極的なNLP技術が記載した返信メールについて、それがAIによるものだと我々が見破れないところまで到達したら、それはAIの概念を定義化したアラン・チューリング先生も合格点を与えることだろう。

ところで、言語分析一般の学問領域はAIの登場とは無関係で、例えば戦時下における報道や手紙の内容分析等はその源流ともいえよう。人工知能学会に参加してみると、出所の分からない文章がいつの時代に書かれたものかを解析したり、シェークスピアは某氏と同一人物ではないかという疑いを文章特性で解析したりといった、非常に文学的な研究をされている研究者に出会える。こうした学問領域は文系ど真ん中の文学部に属するのだろうが、それが理系ど真ん中のAI技術を駆使している。政府のAI戦略でも「AI×専門分野」のダブルメジャー(二重専攻)の学位が取得できる環境作りを進める方針が打ち出されており、もう少し先の未来では日本でも文系と理系の境目が分からなくなっているに違いない。

画像分析

[画像のクリックで拡大表示]

AI研究の第一人者である松尾豊先生(東京大学)によると、種々のAI技術は従来のものの延長のようなものであって、唯一ディープラーニング(深層学習)こそが、AIの中でも革命と呼ぶに相応しい“進化”なのだそうである。生き物が「目」を持ったカンブリア時代を例えに、画像、動画データをAIがそれと認識できるようになるディープラーニング技術の発展は、短期間に生物の多様性が爆発的に向上したことと同様に、我々の社会構造を豹変させるだろう、と。何よりAIらしさは、「勝手に勉強をして頭が良くなる」ところでもあって、既存のルールベースを継ぎ足し継ぎ足して画像認識率を向上していた時代は既に終焉を迎え、AI技術、ディープラーニングによる画像認識は人間の「目」にかなり近づいている。医療分野においても既に一流の画像診断医師よりもAIが正しく判定できるようになったと聞く。一方で、AIが学習するには大量の“教師”データ(「猫の顔」の写真に対して、それが猫の顔が映された写真であるとAIに教える一対のデータ)を要する。それゆえ画像データが指数関数的に蓄積されてきたことは必然であったといえるだろう。ビッグデータ時代の正体は決して文字データの集合によるものではなく、データ容量の面でも情報量の面でも圧倒的に画像データによってもたらされたものであることは疑いのないところだろう。しかるに情報爆発時代にあっては、医療の文字データだけを取り扱ってきた医薬系の研究者においても、ディープラーニングをはじめとした画像や動画、音声といったデータの活用、AI技術のスキル獲得の必要性が高まっていくことになるだろう。