人工知能(AI)が製造業の世界を大きく変えようとしている。人の能力を超える認識や制御を可能にするディープラーニング技術が実用段階に入った。人の目視を上回る制度で不良品を検出したり、装置が壊れる何日も前に修理を手配したりできる技術が、早くも工場に入り始めた。人に近い動作をロボットに実行させたり、熟練者によるプラントの制御を置き換えたりできるAI技術も、もうすぐ手に入る。世界中で競うように進む研究開発が、これからも幅広い応用を実現していきそうだ。 (文:今井拓司)

 人工知能(AI)が機械を制御して、人が操作するよりも高い性能を引き出す。既にこれは現実の話だ。米Google社は、データセンターで無数のサーバー群を冷却する設備の制御をAIに任せていることを2018年8月に明らかにした。人手に頼っていた従来と比べて、電力を約30%削減できたという。しかも、実運用を始めた9カ月前には削減効果は12%程度だった。AIが経験を積むことでよりよい制御手法を考え出し、当初の2倍以上の効率を達成したわけだ。今後も継続して改善が進む見込みという(発表資料)(図1)。

図1 AIが冷却装置を運用
Google社のデータセンターでは、関連会社の英DeepMind社と共同で開発したAIが冷却設備を運用しており、人手による場合と比べて約3割の節電を実現しているという。(写真提供:DeepMind社)

 2018年10月開催の展示会「CEATEC JAPAN 2018」では、AI技術で日本でもトップ級のベンチャー企業Preferred Networks(PFN)が「全自動お片付けロボット」のデモを披露して世間を驚かせた(同ロボットの説明サイト)。部屋に散らばった100種類を超える物を認識してピックアップし、所定の場所に持っていって、しまうことができる。人が音声やジェスチャーで指示を出したり、物がある場所を尋ねると音声で答えたりすることも可能だ。この世界を現実にするために、同社は家庭用ロボットのソフトウエア開発基盤を、2020年をメドに公開する計画だ(図2)。

図2 AIロボットが散らかった部屋を片付け
日本のAIベンチャー、Preferred Networksは、2018年10月開催の展示会「CEATEC JAPAN 2018」で部屋に散らかった様々な物をロボットが認識して片付けるデモを見せた。

人の業務を人よりも上手に

 AIが、製造業の世界を塗り替えようとしている。大きく2つの角度から変化が訪れるだろう。まず、製造業が市場に送り出す製品が様変わりする。代表例は家庭用ロボットや自動運転車だが、それだけに限らない。スマートフォンのような小型の電子機器から巨大な建設機械まで、様々な製品に応用される見込みだ。もう1つは製品を生み出す製造工程の変革だ。Google社の事例のように、機械による状況の認識や設備の制御が各所に入り込むだろう。これによって製造効率の大幅アップや「止まらない工場」の実現、人手不足の解消が視野に入ってくる。

 どちらの方向にも共通するのは、これまで人にしかできないと思っていたことが、機械にも可能になることである。しかも、Google社の例のように、人よりもうまくこなすことが期待できる。2020年前後に登場するとみられる自動運転車は、人より上手に運転することで、交通事故が大幅に減る見込みだ。工場で使われつつあるAIは、熟練者も気づかない機械の故障の兆候を早期に発見する。

 この記事では、製造工程への応用を中心に、AIの最新の応用事例や、技術の基本を解説する。工場でのAI活用は段階を踏んで進化するだろう。今始まっているのが、画像認識を使った不良品の検出や、故障の予知への応用だ。熟練者でなければ分からなかった欠陥の高精度な特定や、装置が壊れる何日も前に予兆を検知して修理を手配することが可能になる。基本的に、各種の画像やデータの中に人間が何らかのパターンを見いだして判断や予測をする作業であれば、AIで置き換えることができそうだ。

 将来を見た基礎技術の開発も活発である。非常に時間がかかるシミュレーションを一瞬で実行したり、人の行動によく似た動作を生成したりできる技術が登場している。いずれは熟練工の代わりに巧みに作業するロボットが登場する見込みだ。

不良検出や故障検知から始まる

 AIを用いた高精度な画像認識は、既に実用段階にある。通信ケーブルや電線を手掛けるフジクラは、高出力半導体レーザーの製造工程で不良品の検出に活用している。人間の良/不良の判定精度が95%だったのに対し、AIでは98%の精度を達成した(同社がGTC2017で発表した資料)。これによって、人手による作業を省くことが可能になる。同様な用途では、東芝メモリがNANDフラッシュメモリーの製造工程に使った事例もある。各工程で撮影したSEM(走査型電子顕微鏡)画像を欠陥の種類ごとに分類する作業で、人手では49%しか判断できなかったのが、AIにより83%まで適切に分類できた(関連記事)。

 機械部品の不良品判定に使おうとしているのが、自動車向けの歯車などを手がける武蔵精密工業だ。同社はベベルギア(傘歯車)の製造ラインでAIを使った検品作業の自動化に取り組んでいる。こちらも人の目視の代わりにAIがチェックする。問題は、もともと不良品の率が0.002%と非常に低いこと。後述するように、現在のAIはたくさんのデータを与えて学習させる必要があるが、武蔵精密のように学習に使う不良品が少ないと、AIを学習させるためのデータ不足という問題が生じる(図3)。

図3 歯車の製造ラインで不良品を自動判定
武蔵精密工業は製造した歯車をロボットでピックアップして画像を撮影し、不良品を検査するシステムを開発している。(写真:武蔵精密工業)

 そこで同社が使ったのは正常な状態の歯車の画像をAIに学習させて、そこから外れるものを不良品と判断する手法だ。これによってAIで異常な製品を97.7%の割合で正しく検出できた例がある(日経Roboticsの関連記事)。このほか、例えば米Google社が開発した「GoogLeNet」を転移学習(あらかじめ学習済みのAIに追加のデータを与えて一部を学習し直す手法)させた場合では、不良品を約81%の割合で正しく検出できた。同社は実際の製造ラインに組み込むために、さらなる精度の改善に取り組んでいる。

 同様な手法を適用できるのは画像だけに限らない。ファナックは先述のPFNと協力してロボットの故障を早期に発見する技術を開発した。やはり正常な状態から異常を検知する手法を応用して、故障を約40日前に検出可能と発表している。こうした共同研究の成果を生かして、ファナックは2018年1月に射出成形機の逆流防止弁の磨耗状態をAIが判断して壊れる前に知らせる機能を追加した( ファナックの発表資料)。

ディープラーニングが原動力

 これらの応用を可能にしたAIの技術が、近頃話題のディープラーニング(深層学習)だ。ディープラーニングを一言で表せば、非常に高精度なパターン認識技術といえる。パターン認識とは画像認識や音声認識などを含む広い概念で、画像の中から特徴的な要素を探すことで何が映っているかを判断したり、データのパターンから将来を予測したりする技術である。上述の用途を実現できるのは、製品の写真から不良品に特有な画像のパターンを見つけたり、製造装置の状態を示すセンサーのデータから故障の兆候を表すパターンを読み取れたりするからだ。

 ただし、AIの実体がパターン認識と言われても、違和感のある読者もいるかもしれない。AIと聞けば誰しも「考える機械」を思い浮かべそうだが、パターン認識にはあまり「考えている」感じがしないのではないだろうか。例えばAIが画像を見て、「これは犬です」「これは猫です」と正しく答えてくれたとしても、あまり賢くは見えないだろう。

 実は、かつてのAIは「人のように考える」ことを狙って開発されていた。1980年代に盛り上がった前回のAIブームでは、人間の専門家が持っている知識をルール化してコンピューターに教え、三段論法などの論理的な推論方法で役に立つ結果を導こうとしていた。ところがこの方法ではなかなか実用的なAIを実現できなかった。その結果、当時のブームは1990年代になる頃には下火になってしまう。

 これに対してディープラーニングは、パターン認識の分野であっという間に人の能力を超える成果をたたき出した。ブームに火がついたのは2012年。AIに画像を見せて何が映っているのかを判断させる国際的な画像認識コンテストで、ディープラーニングを使った研究グループがダントツの成績を上げたのだ。しかも、1年ごとに精度はぐんぐん改善されて、2015年には誤り率が3.6%と、人間の誤り率の目安とされる5%さえ下回っている。

 さらにディープラーニングがすごかったのは、応用範囲が非常に広がったことだ。音声認識をはじめ隣接する分野で目覚ましい成果を上げたのはもちろん、「人のように考える」アプローチを使うのが普通だった言語処理などにも進出している。今では、外国語の翻訳や質疑応答、天気予報や創薬や医療診断、さらにはプロ顔負けの作曲や女性の化粧のアドバイスさえディープラーニングの守備範囲だ。囲碁の世界チャンピオンを破った「AlphaGo」にも、もちろん使われている。この結果、3回目のAIブームと言われる現在では、ディープラーニングがAIの代名詞になった。

「考える機械」から「学習する機械」へ

 これまでにもパターン認識の技術はいろいろあった。ところが、これほどの性能を実現できたものは皆無だった。なぜディープラーニングは、幅広い用途で人を超えるほどの実力を発揮できたのか。実は、他のパターン認識手法と比べてディープラーニングには決定的な違いがある。

 従来のパターン認識の技術は、認識の基本となる「特徴」を人間が考えて設計していた。例えば画像から人の顔を認識したい場合には、「目があって、鼻があって…」など、どのような特徴が画像中にあれば人の顔といえるのかを、技術者が考える必要があった。認識したいものに合わせてどんな特徴を見つければいいのかを、その都度、試行錯誤して何とかひねり出していた。

 ディープラーニングでは、この作業が不要になる。人が考えた特徴を使う代わりに、コンピューターが大量のデータの中から自分で特徴を見つけ出すからだ。ディープラーニングがすごい結果を出せるのは、コンピューターが発見した特徴が、人が考えたものよりも格段に優れているからだ(図4)。

図4 大量の画像から特徴を学ぶ
ディープラーニング(深層学習)を使うと、認識したい対象の特徴を、大量の画像から抽出できる。例えば、膨大な数の人の顔画像から人の顔の特徴を自動的に導き出せる。コンピュータが抽出した特徴を利用することで、初めて見る画像でも人の顔が映っているかどうかを判断できるわけである。

 コンピューターが特徴を抽出するために必要なのが、学習と呼ばれる処理だ。人の顔を認識させたいのなら、まずは顔が写った写真と顔が写っていない写真をものすごくたくさん用意する。そして、こっちは顔の写真、こっちは違う、とコンピューターに繰り返し教えていく。その結果、コンピューターが勝手に顔の特徴を抽出してくれるのだ(囲み記事「ディープラーニングの結果は超複雑な関数」を参照)。

»»次のページへ  「パターンを見つけて判断や行動」

ディープラーニングの結果は超複雑な関数

 ざっくり言うとディープラーニングとは、大量のデータを使った学習によって、パターン認識に使える特徴を自動的に抽出する技術だ。学習した結果は、関数として表される。例えば画像認識の場合、この関数の入力は画像に含まれる画素ひとつひとつの数値データ、出力は認識結果(図Aの場合は猫が映っている確率など)になる。ディープラーニングが抽出した特徴は、この関数のパラメーターとして表現される。

 ディープラーニングが人の手で設計する場合よりも優れた特徴を表現できるのは、この関数が極めて多数のパラメーターを持っているから。画像認識の場合では、数百万から億の単位に達する場合もある。これほどたくさんのパラメーターがあることが、学習に大量のデータが必要な理由でもある。パラメーターの総数に匹敵する数のデータがなければ、それぞれのパラメーターの値を一意に決められないからだ(図A)。

 しかもこの関数は、非線形な要素も含む非常に複雑な形をしている。ディープラーニングの説明で、たくさんの○が互いに線でつながった図をご覧になった読者もいるだろう。あの図は、この関数の計算手順を、直感的に分かりやすく図示したものだ。図中のそれぞれの○が数式、それぞれの線は計算に使うデータの流れを表している。

 この図が表す計算手順のことを、ニューラルネットワークと呼ぶ。人の脳の中で、無数の神経細胞が並列で信号処理を実行しているさまに、ヒントを得たものだ。図中の○は人の神経細胞、線は神経細胞間をつなぐ経路に当たる。

 ちなみに「ディープラーニングを使うと、処理の内容がブラックボックスになって、何をしているのか分からない」などと言われるのは、この関数が実行している計算処理を、人が理解できる言葉にうまく置き換えて表現できないからだ。画像の中から非常に高い精度で犬を認識できるニューラルネットワークができた場合に、この図の形で表現された計算手順をいくら眺めても、高精度の秘密はさっぱり分からない。

 ただし最近では、ニューラルネットの処理内容を画像の上に可視化するなどして、判断の理由を推測する工夫が登場している。例えば画像認識の場合には、認識結果に画像のどの部分が寄与しているのかをヒートマップ状に表すなどの方法がある。

本文に戻る

図A ディープラーニングの結果は関数
大量の画像を使って学習した結果は関数として表される。画像認識の場合、関数の入力は画像のひとつひとつの画素で数百万次元ものベクトルで表され、出力は画像に何が映っているかを表す確率などになる。この関数のパラメーターが、認識対象の特徴を表現している。高い認識精度を実現できるのは、関数のパラメーター数が膨大で、認識に利用できる特徴の表現力が高いためだ。