映像の中にある音を読む眼

カメラで撮影された映像から、音を復元する技術も研究されている。音の波が物体に当たると、その表面には小さな振動が発生する。そこで、音を浴びている物体を撮影し、映像に現れる小さな振動を抽出することで、音を再現する仕組みである。空間に存在するさまざまなものを“スピーカー”に見立て、そこから発される“音”に聞き耳を立てるわけだ。

MITとマイクロソフト、Adobeの研究者チームによって発表された「ビジュアルマイクロフォン」は、CMOSイメージセンサーの特性を生かした画像解析手法である。通常の映像では、画像の解析能力は数十分の1ピクセルの精度が限界なので、数千分の1ピクセル分の微小な変動となる音の振動を取り出すことはできない。そこでビジュアルマイクロフォンは、コーナーカメラのようにローリングシャッターによって得られる1次元画像から、画像全体のわずかな色の変化を音の振動としてデータ化し、再現する(図3)。

(図3)カメラで撮影された映像から音を再現する画像処理システム
[画像のクリックで拡大表示]
(図3)カメラで撮影された映像から音を再現する画像処理システム
音楽を浴びせているポテトチップスの袋の表面の振動から、音を再現している。(Abe Davis Researchのホームページより引用)

ビジュアルマイクロフォンは、データから得られた情報で音を復元するが、物理的に空気を振動させているわけではないので、さまざまな音のサンプルとデータを比較して音を再現している。このため実用化するには大量の音のサンプルを事前に収集して学習させなければならない。

ただ、人間の声など特定の音だけに反応させる仕組みとして考えれば、もう少しハードルは下がるかもしれない。例えば災害救助用ロボット。災害時に騒然としている現場で、がれきの隙間から救助を求める人の声を眼で発見できる機能なら、比較的実現しやすそうだ。

ロボットの眼はものを見るためだけにあるのではない

ロボットに眼を持たせるということは、視界を与える以外にも意味がある。人間は、少しでも生き物らしく感じるものを擬人化する傾向がある。擬人化のポイントは眼だ。口や鼻がなくても眼さえあれば、なんでも生き物に見えてしまう。

アメリカで生まれたコンパニオンロボット「Kuri」は、屋内の障害物をよけながら自律移動したり、家族の顔やペットを見分ける役割をする眼を持っている。しかし、その眼はユーザーに愛され家族の一員として扱ってもらうために感情表現する「目」でもある(写真1)。人間を見上げると微笑みかけるように目を細めたり時々瞬きをするなど、目を使うことでロボットに生き物らしさを与えている。

(写真1)Mayfield Robotics開発したコンパニオンロボットKuri
(写真1)Mayfield Robotics開発したコンパニオンロボットKuri
(Mayfield Roboticsのホームページより引用)

地球上の生物は、約5億年前とされるカンブリア紀に初めて眼を持ち、そこから視覚を発達させることによって繁殖の相手を探したり、捕食したりしやすくなった。今残っている動物のほとんどすべてがこの時期に出現し、多様性が一気に増大した可能性(カンブリア爆発)がある。それほど、生物の進化にとって眼は重要な役割を担ってきた。しかし、ここで紹介した障害物の後ろにあるものを見たり、音を読む能力は、もはや生物の眼の進化を超えている。今、まさに新しい能力を持つ眼の誕生によってロボットが進化する、カンブリア爆発が始まろうとしているのかもしれない。