人工知能(AI)が製造業の世界を大きく変えようとしている。人の能力を超える認識や制御を可能にするディープラーニング技術が実用段階に入った。人の目視を上回る制度で不良品を検出したり、装置が壊れる何日も前に修理を手配したりできる技術が、早くも工場に入り始めた。人に近い動作をロボットに実行させたり、熟練者によるプラントの制御を置き換えたりできるAI技術も、もうすぐ手に入る。世界中で競うように進む研究開発が、これからも幅広い応用を実現していきそうだ。 (文:今井拓司)

 人工知能(AI)が機械を制御して、人が操作するよりも高い性能を引き出す。既にこれは現実の話だ。米Google社は、データセンターで無数のサーバー群を冷却する設備の制御をAIに任せていることを2018年8月に明らかにした。人手に頼っていた従来と比べて、電力を約30%削減できたという。しかも、実運用を始めた9カ月前には削減効果は12%程度だった。AIが経験を積むことでよりよい制御手法を考え出し、当初の2倍以上の効率を達成したわけだ。今後も継続して改善が進む見込みという(発表資料)(図1)。

図1 AIが冷却装置を運用
Google社のデータセンターでは、関連会社の英DeepMind社と共同で開発したAIが冷却設備を運用しており、人手による場合と比べて約3割の節電を実現しているという。(写真提供:DeepMind社)

 2018年10月開催の展示会「CEATEC JAPAN 2018」では、AI技術で日本でもトップ級のベンチャー企業Preferred Networks(PFN)が「全自動お片付けロボット」のデモを披露して世間を驚かせた(同ロボットの説明サイト)。部屋に散らばった100種類を超える物を認識してピックアップし、所定の場所に持っていって、しまうことができる。人が音声やジェスチャーで指示を出したり、物がある場所を尋ねると音声で答えたりすることも可能だ。この世界を現実にするために、同社は家庭用ロボットのソフトウエア開発基盤を、2020年をメドに公開する計画だ(図2)。

図2 AIロボットが散らかった部屋を片付け
日本のAIベンチャー、Preferred Networksは、2018年10月開催の展示会「CEATEC JAPAN 2018」で部屋に散らかった様々な物をロボットが認識して片付けるデモを見せた。

人の業務を人よりも上手に

 AIが、製造業の世界を塗り替えようとしている。大きく2つの角度から変化が訪れるだろう。まず、製造業が市場に送り出す製品が様変わりする。代表例は家庭用ロボットや自動運転車だが、それだけに限らない。スマートフォンのような小型の電子機器から巨大な建設機械まで、様々な製品に応用される見込みだ。もう1つは製品を生み出す製造工程の変革だ。Google社の事例のように、機械による状況の認識や設備の制御が各所に入り込むだろう。これによって製造効率の大幅アップや「止まらない工場」の実現、人手不足の解消が視野に入ってくる。

 どちらの方向にも共通するのは、これまで人にしかできないと思っていたことが、機械にも可能になることである。しかも、Google社の例のように、人よりもうまくこなすことが期待できる。2020年前後に登場するとみられる自動運転車は、人より上手に運転することで、交通事故が大幅に減る見込みだ。工場で使われつつあるAIは、熟練者も気づかない機械の故障の兆候を早期に発見する。

 この記事では、製造工程への応用を中心に、AIの最新の応用事例や、技術の基本を解説する。工場でのAI活用は段階を踏んで進化するだろう。今始まっているのが、画像認識を使った不良品の検出や、故障の予知への応用だ。熟練者でなければ分からなかった欠陥の高精度な特定や、装置が壊れる何日も前に予兆を検知して修理を手配することが可能になる。基本的に、各種の画像やデータの中に人間が何らかのパターンを見いだして判断や予測をする作業であれば、AIで置き換えることができそうだ。

 将来を見た基礎技術の開発も活発である。非常に時間がかかるシミュレーションを一瞬で実行したり、人の行動によく似た動作を生成したりできる技術が登場している。いずれは熟練工の代わりに巧みに作業するロボットが登場する見込みだ。

不良検出や故障検知から始まる

 AIを用いた高精度な画像認識は、既に実用段階にある。通信ケーブルや電線を手掛けるフジクラは、高出力半導体レーザーの製造工程で不良品の検出に活用している。人間の良/不良の判定精度が95%だったのに対し、AIでは98%の精度を達成した(同社がGTC2017で発表した資料)。これによって、人手による作業を省くことが可能になる。同様な用途では、東芝メモリがNANDフラッシュメモリーの製造工程に使った事例もある。各工程で撮影したSEM(走査型電子顕微鏡)画像を欠陥の種類ごとに分類する作業で、人手では49%しか判断できなかったのが、AIにより83%まで適切に分類できた(関連記事)。

 機械部品の不良品判定に使おうとしているのが、自動車向けの歯車などを手がける武蔵精密工業だ。同社はベベルギア(傘歯車)の製造ラインでAIを使った検品作業の自動化に取り組んでいる。こちらも人の目視の代わりにAIがチェックする。問題は、もともと不良品の率が0.002%と非常に低いこと。後述するように、現在のAIはたくさんのデータを与えて学習させる必要があるが、武蔵精密のように学習に使う不良品が少ないと、AIを学習させるためのデータ不足という問題が生じる(図3)。

図3 歯車の製造ラインで不良品を自動判定
武蔵精密工業は製造した歯車をロボットでピックアップして画像を撮影し、不良品を検査するシステムを開発している。(写真:武蔵精密工業)

 そこで同社が使ったのは正常な状態の歯車の画像をAIに学習させて、そこから外れるものを不良品と判断する手法だ。これによってAIで異常な製品を97.7%の割合で正しく検出できた例がある(日経Roboticsの関連記事)。このほか、例えば米Google社が開発した「GoogLeNet」を転移学習(あらかじめ学習済みのAIに追加のデータを与えて一部を学習し直す手法)させた場合では、不良品を約81%の割合で正しく検出できた。同社は実際の製造ラインに組み込むために、さらなる精度の改善に取り組んでいる。

 同様な手法を適用できるのは画像だけに限らない。ファナックは先述のPFNと協力してロボットの故障を早期に発見する技術を開発した。やはり正常な状態から異常を検知する手法を応用して、故障を約40日前に検出可能と発表している。こうした共同研究の成果を生かして、ファナックは2018年1月に射出成形機の逆流防止弁の磨耗状態をAIが判断して壊れる前に知らせる機能を追加した( ファナックの発表資料)。

ディープラーニングが原動力

 これらの応用を可能にしたAIの技術が、近頃話題のディープラーニング(深層学習)だ。ディープラーニングを一言で表せば、非常に高精度なパターン認識技術といえる。パターン認識とは画像認識や音声認識などを含む広い概念で、画像の中から特徴的な要素を探すことで何が映っているかを判断したり、データのパターンから将来を予測したりする技術である。上述の用途を実現できるのは、製品の写真から不良品に特有な画像のパターンを見つけたり、製造装置の状態を示すセンサーのデータから故障の兆候を表すパターンを読み取れたりするからだ。

 ただし、AIの実体がパターン認識と言われても、違和感のある読者もいるかもしれない。AIと聞けば誰しも「考える機械」を思い浮かべそうだが、パターン認識にはあまり「考えている」感じがしないのではないだろうか。例えばAIが画像を見て、「これは犬です」「これは猫です」と正しく答えてくれたとしても、あまり賢くは見えないだろう。

 実は、かつてのAIは「人のように考える」ことを狙って開発されていた。1980年代に盛り上がった前回のAIブームでは、人間の専門家が持っている知識をルール化してコンピューターに教え、三段論法などの論理的な推論方法で役に立つ結果を導こうとしていた。ところがこの方法ではなかなか実用的なAIを実現できなかった。その結果、当時のブームは1990年代になる頃には下火になってしまう。

 これに対してディープラーニングは、パターン認識の分野であっという間に人の能力を超える成果をたたき出した。ブームに火がついたのは2012年。AIに画像を見せて何が映っているのかを判断させる国際的な画像認識コンテストで、ディープラーニングを使った研究グループがダントツの成績を上げたのだ。しかも、1年ごとに精度はぐんぐん改善されて、2015年には誤り率が3.6%と、人間の誤り率の目安とされる5%さえ下回っている。

 さらにディープラーニングがすごかったのは、応用範囲が非常に広がったことだ。音声認識をはじめ隣接する分野で目覚ましい成果を上げたのはもちろん、「人のように考える」アプローチを使うのが普通だった言語処理などにも進出している。今では、外国語の翻訳や質疑応答、天気予報や創薬や医療診断、さらにはプロ顔負けの作曲や女性の化粧のアドバイスさえディープラーニングの守備範囲だ。囲碁の世界チャンピオンを破った「AlphaGo」にも、もちろん使われている。この結果、3回目のAIブームと言われる現在では、ディープラーニングがAIの代名詞になった。

「考える機械」から「学習する機械」へ

 これまでにもパターン認識の技術はいろいろあった。ところが、これほどの性能を実現できたものは皆無だった。なぜディープラーニングは、幅広い用途で人を超えるほどの実力を発揮できたのか。実は、他のパターン認識手法と比べてディープラーニングには決定的な違いがある。

 従来のパターン認識の技術は、認識の基本となる「特徴」を人間が考えて設計していた。例えば画像から人の顔を認識したい場合には、「目があって、鼻があって…」など、どのような特徴が画像中にあれば人の顔といえるのかを、技術者が考える必要があった。認識したいものに合わせてどんな特徴を見つければいいのかを、その都度、試行錯誤して何とかひねり出していた。

 ディープラーニングでは、この作業が不要になる。人が考えた特徴を使う代わりに、コンピューターが大量のデータの中から自分で特徴を見つけ出すからだ。ディープラーニングがすごい結果を出せるのは、コンピューターが発見した特徴が、人が考えたものよりも格段に優れているからだ(図4)。

図4 大量の画像から特徴を学ぶ
ディープラーニング(深層学習)を使うと、認識したい対象の特徴を、大量の画像から抽出できる。例えば、膨大な数の人の顔画像から人の顔の特徴を自動的に導き出せる。コンピュータが抽出した特徴を利用することで、初めて見る画像でも人の顔が映っているかどうかを判断できるわけである。

 コンピューターが特徴を抽出するために必要なのが、学習と呼ばれる処理だ。人の顔を認識させたいのなら、まずは顔が写った写真と顔が写っていない写真をものすごくたくさん用意する。そして、こっちは顔の写真、こっちは違う、とコンピューターに繰り返し教えていく。その結果、コンピューターが勝手に顔の特徴を抽出してくれるのだ(囲み記事「ディープラーニングの結果は超複雑な関数」を参照)。

»»次のページへ  「パターンを見つけて判断や行動」

ディープラーニングの結果は超複雑な関数

 ざっくり言うとディープラーニングとは、大量のデータを使った学習によって、パターン認識に使える特徴を自動的に抽出する技術だ。学習した結果は、関数として表される。例えば画像認識の場合、この関数の入力は画像に含まれる画素ひとつひとつの数値データ、出力は認識結果(図Aの場合は猫が映っている確率など)になる。ディープラーニングが抽出した特徴は、この関数のパラメーターとして表現される。

 ディープラーニングが人の手で設計する場合よりも優れた特徴を表現できるのは、この関数が極めて多数のパラメーターを持っているから。画像認識の場合では、数百万から億の単位に達する場合もある。これほどたくさんのパラメーターがあることが、学習に大量のデータが必要な理由でもある。パラメーターの総数に匹敵する数のデータがなければ、それぞれのパラメーターの値を一意に決められないからだ(図A)。

 しかもこの関数は、非線形な要素も含む非常に複雑な形をしている。ディープラーニングの説明で、たくさんの○が互いに線でつながった図をご覧になった読者もいるだろう。あの図は、この関数の計算手順を、直感的に分かりやすく図示したものだ。図中のそれぞれの○が数式、それぞれの線は計算に使うデータの流れを表している。

 この図が表す計算手順のことを、ニューラルネットワークと呼ぶ。人の脳の中で、無数の神経細胞が並列で信号処理を実行しているさまに、ヒントを得たものだ。図中の○は人の神経細胞、線は神経細胞間をつなぐ経路に当たる。

 ちなみに「ディープラーニングを使うと、処理の内容がブラックボックスになって、何をしているのか分からない」などと言われるのは、この関数が実行している計算処理を、人が理解できる言葉にうまく置き換えて表現できないからだ。画像の中から非常に高い精度で犬を認識できるニューラルネットワークができた場合に、この図の形で表現された計算手順をいくら眺めても、高精度の秘密はさっぱり分からない。

 ただし最近では、ニューラルネットの処理内容を画像の上に可視化するなどして、判断の理由を推測する工夫が登場している。例えば画像認識の場合には、認識結果に画像のどの部分が寄与しているのかをヒートマップ状に表すなどの方法がある。

本文に戻る

図A ディープラーニングの結果は関数
大量の画像を使って学習した結果は関数として表される。画像認識の場合、関数の入力は画像のひとつひとつの画素で数百万次元ものベクトルで表され、出力は画像に何が映っているかを表す確率などになる。この関数のパラメーターが、認識対象の特徴を表現している。高い認識精度を実現できるのは、関数のパラメーター数が膨大で、認識に利用できる特徴の表現力が高いためだ。

パターンを見つけて判断や行動

 かくしてディープラーニングは、データの中に何らかのパターンが潜んでいればそれを鮮やかにあぶり出し、利用することを可能にした。例えば、画像の中から人の顔や動物の特徴を見つけて的確に認識したり、日本語の文章に潜んだ単語列のパターンを英語の単語列パターンに変換したり、勝ちにつながる碁石の配置パターンを学習してから囲碁の対局に臨んだりできるようになった。

 冒頭で紹介したGoogle社のデータセンターの事例は、AIが取りうる操作ごとに、センター全体の消費電力がどう変わるかを学習して、活用している。無数のセンサーで捉えたデータセンターの現状と、それに加える制御の組み合わせに対して、消費電力がどの程度変わるかという、データセンター全体の動作パターンを学習したわけだ。

 恐らく人間のオペレーターも、こうした関係を直感的に学んで冷却設備の制御をしてきたのだろうが、電力の削減結果を見る限りは、AIの方がより優れた直感を持っているといえそうだ。とはいえ、万が一でもAIがおかしな動作を取らないように、Google社はいつでも人間が制御に介入できるほか、動作を2段階でチェックするなど8種類の安全機構をAIに組み込んでいるという。

 前述のPFNが開発した片付けロボで一番難しかった部分は画像認識だったようだ。片付けの対象には、紙のようなつかみにくいもの、タオルのような不定形なもの、ペンやおもちゃなど様々な種類のものがあり、それぞれをちゃんと認識できなければ、そのあとの操作もうまくいかない。逆に言えば、認識さえできれば、それぞれに応じてあらかじめ決めておいた動作を実行すればいいわけだ。PFNは、ロボットが3次元空間の中で様々な方向から見ても物の種類を判別できるように、新たに開発したニューラルネットワークを膨大な画像データで学習させたという。

シミュレーションの置き換えも

 このほかにも、ディープラーニングの研究開発の最前線では製造業での活用が期待できる新技術が次々に生まれている。最近登場してきた面白い応用が、シミュレーターの代わりにディープラーニングを使う方法だ。シミュレーターは、設計段階で実物の挙動を物理法則に基づいてシミュレーションすることで、実際に作る前に製品の動作を確かめるために使う。ただし計算量が半端なく多いため、処理に時間がかかってしまう。そこで、シミュレーターに入力する初期条件とシミュレーターの出力の間の関係を、大量のデータを使ってニューラルネットに学習させて、もっと簡単にシミュレーション結果を得ようという考えだ。実際に富士通研究所は、電子回路の周辺に発生する電磁波のシミュレーターをディープラーニングで置き換える技術を2018年9月に発表した。学習方法を工夫することで、シミュレーターの結果との誤差を±2.9%に収めたという(富士通研究所の発表資料)(図5)。

図5 シミュレーションを高速に実行
富士通研究所は、電子回路の周辺に発生する電磁波のシミュレータを、ディープラーニングで作成したニューラルネットワークで代替する技術を開発した。学習方法を工夫することで、従来のディープラーニングでは誤差が±16%もあったのに対し(左)、誤差を±2.9%まで下げることができた(右)。(図版提供:富士通研究所)

 シミュレーターの代わりにディープラーニングを使えば、シミュレーターと同様な結果を、ずっと短い時間で得られるようになる。これによってシミュレーション結果を設計に反映するサイクルを素早く回せるようになるため、従来よりも短時間で設計の完成度を高められる。

 この手段を積極的に活用しているのが、米国の大手自動車メーカーFord Motor社だ。同社にディープラーニング用スパコンを納入する米NVIDIA社によれば、Ford 社は米国の自動車レース「NASCAR」用のレースカーの車体設計にディープラーニングによるシミュレーションの代替技術を利用している(NVIDIA社による米Forbes誌の記事)。従来の空気力学シミュレーションでは時間がかかりすぎて同じシーズンのレースの間に設計を見直すことが難しかったのが、ディープラーニングを使うことでレースが終わるたびに設計が改善可能になったという。その結果、同社は2018年のシーズンで、ダントツの成績を上げている。

世界の構築から人の模倣まで

  最近登場したディープラーニングの新技術には、「生成モデル」と呼ばれるものもある。画像認識が、例えば猫の写真を見て「猫」という言葉を返す処理だとすると、生成モデルは「猫」という単語を入力すると猫に見える画像を無数に出力できる。前出のベンチャー企業PFNは、この技術を応用して白黒のマンガに着色できる手法を開発。実際にマンガの有料配信に利用されている(PFNの発表資料)(図6)。

図6 生成モデルで画像を作り出す
画像から特定の物体を認識できる「識別モデル」とは逆に、「生成モデル」は言葉で指定したものの画像を生成することができる。例えば「猫」と指定すれば、猫のように見える画像をいくつも作り出せる。代表的な生成モデルには、画像を生成するニューラルネットと、画像が本物か偽物かを区別するニューラルネットを競わせることで性能を高める「敵対的生成ネットワーク(GAN:Generative Adversarial Network)」がある。

 この技術も製造業の現場で大いに使えそうだ。生成モデルの活用に積極的なのが、自動運転車向けのディープラーニング技術を開発するベンチャー企業のアセントロボティクスである。同社は自動車を運転するAIを学習させる仮想環境を、生成モデルを使って作っている。現在、多くの自動車メーカーは自動運転車の試作機を実際の道路で走らせることで、AIの学習を進めている。ところがこの方法では、例えば人身事故など不測の事態を学習させることは事実上できない。そこでアセントロボティクスは、事故の状況などを自在に作り出せる仮想環境を用意することで、この問題に取り組んでいる(同社の発表資料)。

 アセントロボティクスは、よりリアルに見える仮想世界を作るために生成モデルを活用している。同社が用いる生成モデルの代表例は、「敵対的生成ネットワーク(GAN:Generative Adversarial Network)」と呼ばれる方式である。簡単に言えば、写真と見紛う画像を生み出す生成用ニューラルネットワークと、本物の写真か偽物(生成用ネットワークが出力した画像)かを判定する識別用ニューラルネットワークの2つを、互いに競うように学習させる。この結果、前者はより写真に近い画像を生成できるようになり、後者はより高度な判定能力を達成できるというわけだ(図7)。

図7 生成モデルで生み出した運転環境
アセントロボティクスは自動運転車用AIを学習させるための仮想環境を、生成モデルを使って作り出している。(画像提供:アセントロボティクス)

 この手法の面白いところは、画像だけではなく様々な領域で本物そっくりのデータを生み出せることだ。アセントロボティクスが試しているのは、人間の動作をAIにまねさせるのに、この技術を使う方法である。生成用ネットワークが人に近いハンドルさばきやブレーキ/アクセル操作のデータを生成するのに対し、識別用ネットワークは実際に人が自動車のシミュレーターを運転して出てきたデータと生成ネットワークの出力を区別するように学習させる(図8)。

図8 2つのニューラルネットを競わせて学習
敵対的生成ネットワーク(GAN:Generative Adversarial Network)は、データを生成するニューラルネットワークと、本物のデータと生成されたデータを区別するニューラルネットワークを、競わせるように学習させる。大量のデータで繰り返し学習させるうちに、生成ネットワークはより本物らしいデータを作り出せるようになる。

 アセントロボティクスはこうして得た生成ネットワークを、運転用のAIに使おうとしている(関連記事)。ここで大切なポイントは、この方法は人間の動作を丸ごとコピーするわけではないということだ。動作そのものというより、人間の動作の特徴を学習する。この結果、AIは状況に応じて「人ならばこう動くはず」といったふうに、臨機応変な運転を実行できるようになる(図9)。

図9 人の動作をAIに教える
アセントロボティクスはGANを利用して、人の運転動作をAIに教えている。(画像提供:アセントロボティクス)

ロボットやプラントの制御にも

 もっともこの方法では、人に近い運転ができるようになるだけで、人の能力を超えるAIを作ることは難しい。そこで同社をはじめ多くの企業は、追加で別の方法を適用してAIの運転技能をさらに磨こうとしている。それが、強化学習と呼ばれる手法だ。

 強化学習とは、非常に単純化して言ってしまうと試行錯誤を無数に繰り返す中から、最適な動作を見つけ出す技術だ。英DeepMind社が、世界をアッと言わせた「AlphaGo」などに使って一躍有名になった。強化学習自体は古くからあった技術だが、それをディープラーニングと組み合わせて「深層強化学習」と呼ばれる手法に仕立てたところ、研究開発に一挙に火がついた。今では自動運転車はもちろん、各種のロボットやプラントの制御などに強化学習を適用しようとする研究が数多く進んでいる。

 ただし、実際の自動車やロボットに動作を試行錯誤させていたら、すぐに壊れてしまうばかりか、危なくてしかたがない。そこで、まずは人が動作を教えたり、シミュレーション環境で試行錯誤したりして、ある程度動作がうまくなってから、実環境でさらに学習させるというのが多くの企業のやり方だ。

 日本企業でも深層強化学習の応用に乗り出す企業がいくつもある。例えばロボット大手の安川電機はベンチャー企業のクロスコンパスと共同で、バラバラに積まれた部品をカメラで見てピックアップできるロボットの実現に深層強化学習を利用しようとしている。実は、こうした動作は高価な3Dカメラや部品専用のグリッパを使えばできなくはないが、コストが跳ね上がってしまう。安川電機はディープラーニングと強化学習を使うことで、安いカメラと一般的なグリッパで複数の部品に柔軟に対応できる、汎用性の高いロボットを安価に作ろうとしている。安川電機は2018年3月に子会社のエイアイキューブを設立し、製品化に向けた研究開発を一段と加速している(図10)。

図10 ロボットが試行錯誤から動作を学ぶ
安川電機とクロスコンパスは、安価なカメラを搭載したロボットが、バラ積みされた複数種類の部品をピックアップできるようにすることを目指す(左)。パナソニックは箱詰めされた商品を引き出す動作をロボットに学習させている(右)。

 パナソニック-産総研 先進型AI連携研究ラボが取り組むのは、物流の倉庫などで人手を煩わす作業をロボットで置き換える研究である。その一例として、箱にぎゅうぎゅうに詰まった商品を、ロボットが吸着して引き上げられるようにした。人手によるプログラミングではなかなか実現が難しい作業だ。深層強化学習を使ってロボットに試行錯誤させたところ、100回ほどの動作で作業の成功率を7~8割に高めることができた。

 深層強化学習を化学プラントなどの制御に使おうとしている企業もある。千代田化工建設とベンチャー企業のグリッド、横河電機、横河ソリューションサービス、NTTコミュニケーションズの3社が、それぞれ開発に取り組んでいる。プラントは建設当初は最適に動作するように設計されているが、経年変化やプロセスの追加などで次第に特性が変わるため、熟練のオペレーターが経験に基づいて運用する部分が増える。そこをAIで置き換えようというわけだ。両グループとも、2018年度から2019年度にかけて本格的な事業を立ち上げる計画である。

 現在、各社がディープラーニングを使って実現を目指している用途は、人間ができる作業のほんの一部にすぎない。様々な分野にAIやロボットを取り入れるうえでの技術的なハードルは決して低くはないが、ディープラーニングはそれを乗り越える潜在能力を秘める。研究開発の最前線では、連日最新の論文が何本も飛び交い、白熱した議論が続いている。ディープラーニングの大波が届き始めた製造業の世界でも、これまで考えられなかった応用が次々に実現しそうだ。