作品の前に来ると自動的に音声が流れる。お目当ての観光地に行くと、その解説が自動で聞こえてくる。歩行に困難を抱えている視覚障害者や道に不案内な人の補助も――。様々な場面で可能性が広がる音声ARの姿を追った。

音が体験を豊かにするテクノロジーが話題を呼んでいる。「音声AR」と呼ばれる。その名の通り、音声によって現実を拡張する技術である。どのようなことが可能になるのか。まずは実際に音声ARが適用された美術館の例から見てみよう。

音声案内がスマートに、展示物前に立てば自動再生

東京の六本木ヒルズ森タワー・森アーツセンターギャラリー。2019年1月から2月にかけて、展覧会「FINAL FANTASY 30th ANNIVERSARY EXHIBITION ――別れの物語展―」が開催された。人気ゲームシリーズ「ファイナルファンタジー」(スクウェア・エニックス・ホールディングスが開発)の30周年を記念したものである。その目玉の一つが音声ARだった。

バスキュールの中山誠基テクニカルディレクター

来館者は、入り口でスマートフォンとイヤフォンが手渡される。展示物の前に行くと、特にボタンを押すことなく、その展示にちなんだゲームのBGMやシーンを想起させるキャラクターの音声が自動再生される。

「単純なことだが、展示物の前で該当作品の番号ボタンを押さなくても再生されるという体験はスマートなものだ」。広告クリエイティブの企画・制作を手がけるバスキュールの中山誠基テクニカルディレクターはこう語る。同社は電通ライブと共同で本展覧会の音声AR化に協力した。バスキュールと電通ライブは音声AR事業を共同展開しており、以降、複数の音声ARプロジェクトに携わっている。

展示物の周りにガイド表示を設置する必要がなくなることもメリットだ。空間の見栄えがスマートになり、来館者は純粋に展示物に集中できるようになる。音声ガイド端末を使う美術館では多くの場合、展示物の周囲に音声ガイド用の番号が張り出されている。

来館者ごとにパーソナライズした案内音声も流した。来館者は入館時に「遊んだことがあるファイナルファンタジーのタイトル」などのアンケートに答えている。このアンケートの内容に応じて、案内音声の中身を変更。来館者ごとの属性に沿うガイドをすることで、来館者の満足度をより高めようという試みである。

展示会での体験を深くする

ファイナルファンタジーは息の長いゲームシリーズだけあって、熱狂的なファンがいる。展覧会では涙を流しながら展示物の前に長く滞在し、4時間も会場に居続けた来館者も見られたという。

ところで、なぜ4時間も滞在した来館者がいたことが分かったのか。実は音声ARの仕組みを使うことで、来館者の行動履歴が取得できるようになっている。

音声ARの技術要素は大きく2つ。まず位置情報を特定するための技術要素で、GPS(全地球測位システム)、ビーコンなどが挙げられる。2つめは音声コンテンツを利用者に届ける手段で、こちらはスマートフォン、インターネット、Webサイト、アプリなどで構成される。ビーコンとは、低電力型の電波技術であるBLE(Bluetooth Low Energy)を使った位置特定技術およびその装置のことである。

前述のファイナルファンタジー展では、展示会場の各所にビーコンが設置された。来館者が持つスマホの位置をビーコンとの距離感で特定し、展示物に近づくと、スマホ側で展示物に応じたコンテンツを再生する。

スマホのアプリ側ではビーコンとの距離の履歴データ、つまり行動履歴を記録する仕掛けにした。これで、来館者がどの展示物の前にどの程度の時間滞在していたのか、どのような順番で展示物を見たのかを追跡できるようにした。当然、ここから来館者のトータルの滞在時間も推測できる。

一般的な観点で言えば、来館者は自分がプレーしたことがあるタイトルの展示を見る傾向が強そうだ。ただ実際に調べてみると、それに反してまんべんなく回遊した来館者がいるなど、意外なことが分かったという。「音声ARの仕組みをプラットフォーム(基盤)として使うことで、通常の来館者アンケートではなかなか見えてこない側面が明らかになった。顧客動向をつかむ新たな手段として有効だ」(中山氏)。

音声ARの特徴を活かしたイベントも

音声ARはイベントの魅力を高める際にも有効だ。2018年7月13日、映画『ミッション:インポッシブル/フォールアウト』の上映に先立ち、東京・渋谷の中心街を使ったゲームイベント「渋谷フォールアウト」が開催された。音声による指令を聞きながら、町中に設置された約200個の時限装置(実際にはビーコン)を探し出して1時間以内に解除する、というものである。

「渋谷フォールアウト」のワンシーン(写真提供:バスキュール&電通ライブ)

 ゲームの参加者には、スマートフォンの音声を通じて時限装置の位置や妨害者(係員が演じる)の位置を通知する。参加者は、妨害者をよけながら時限装置にタッチできればゲームクリアだ。音声にはミッション:インポッシブルシリーズで主人公イーサン・ハントの相棒であるベンジー・ダン役の声優を起用し、同シリーズのファンがより楽しめる構成にした。

町中を動き回るため、危険性を考慮してイヤフォンは耳穴を塞がないタイプのものを採用。プロモーション効果を狙い、プレーヤーには映画のタイトルが入った黒のベストを着て参加してもらった。ゲームは1日3回開催され、約500人が体験した。

「ミッション:インポッシブルはテーマ音楽が非常に特徴的。しかもベンジーの声は同シリーズの吹き替え版を一度観た人ならなじみのあるもの。指令を耳で聞きながら時限装置を探し出すというゲームは、音声ARならではのコンテンツだ」と中山氏は語る。

視界が遮られない

音声ARはその名の通り、現実空間に音で情報を付加するもの。一方、ARというと、眼鏡型端末を使って現実空間に情報表示を重ね合わせるシーンを思い浮かべる人も多いはずだ。では何が違うのか。

まず、音声ARは視界を邪魔されないことが大きい。情報量が多い場合には視覚で補うほうが有利だが、音声で十分伝えきれる量であれば、音声ARでも問題ない。

現在、視覚情報を付与できる眼鏡型端末は数多くあるが、大抵は、外見の面でも重さの面でもこなれておらず、日常で気軽に装着できるとは言いがたい。これに対して音声ARで使うイヤフォンとスマホは、既に日常的に身につけている人が多い。この点で音声ARはすでに実用上十分な条件を備えている。

加えて中山氏は「音声ARは眼と手が端末から解放されることがポイント」だという。「歩きながら眼と手で端末を操作するという動作は、人間の生活動作として、これまでの人類の歴史で見たらかなり特異なこと」と指摘する。

歩きスマホの危険性は各所で指摘されている。「人間は周囲の情報の7割から8割を視覚で認知しているとも言われている。目の前の現実は主に眼で確認し、必要な付加情報は音声で受け取るという形式のほうが、人間にとっては自然ではないか」(中山氏)。

音声ARは視覚情報に頼らない分、音声ならではの面白さを演出することもできるできる。音声AR関連事業「SARF」を展開するエイベックス・エンタテインメントの佐藤淳氏(レーベル事業本部第1C&Rグループ デジタル戦略ユニット チーフプロデューサー)は、「肝試しの音声ARコンテンツを作って体験してもらったところ、大きな反響があった」という。

例えば同じ「奴が来る」と言う音声を流した場合に、個人によって捉える「奴」は、どう猛なモンスターなのか、それとも人間の幽霊なのかが変わってくる。「人の想像力を喚起できるというのが音声ARならでは面白さ。ここは今後音声ARの適用領域を探る際の重要なポイントになる」(佐藤氏)。

エイベックスで音声AR事業を手がける佐藤淳氏(右)とエイベックス デジタルビジネスデベロップメントグループシニアプロデューサーの渡部宏和氏

課題は位置特定

音声ARの課題の一つは、コンテンツと連動させる場所の位置を検出する方法だ。例えばビーコンの場合、空間内で人が混み合うと、位置特定の誤差が発生するのはもちろんのこと、そもそも端末の位置をうまく特定できなくなることがあるという。つまり、該当の場所にたどり着いても、音声案内が流れない。

また、スマホの機種ごとにBluetooth電波をキャッチする際の独特のクセがあり、ビーコンに対する反応の仕方に差異があるという。先に紹介したファイナルファンタジーの展覧会においては、この差異を埋めるため単一のスマホ機種に専用アプリをインストールして貸し出す形にした。

より精度を高めたい場合には「Quuppa」(フィンランドの企業であるクーパーが開発)という屋内向け位置測位システムを使うという。Quuppaは指向性アンテナや専用タグを併用することで、位置を最小30cmの誤差で特定できるようにする。バスキュールと電通ライブは、ミツカンのプライベート博物館である「MIZKAN MUSEUM(ミツカンミュージアム)」に音声ARコンテンツを適用する際、こちらを採用した。

視覚障害者向けのARシステムではQRコードを適用

さらに高い精度を求めたい場合には、QRコードを使うことも考えられる。プログレス・テクノロジーズは東京地下鉄(東京メトロ)と共同で、視覚障害者向けのナビゲーションシステムを開発した。

こちらのシステムは駅構内の案内に使うもので、QRコードを視覚障害者用の点字ブロックに配置する。スマートフォンのカメラをかざすと、アプリ側で歩行者の位置と向きを特定し、歩行者があらかじめ設定した目標までの方向や距離を音声で案内する。例えば「階段です。16段上り、踊り場があってさらに15段上ります」「もうすぐ改札です」と行った具合である。

QRコードをスマホのカメラをかざす

無線技術ではなくQRコードを使った理由は、歩行者がいる位置と向きを正確に特定するため。電車が往来する駅構内で安全に視覚障害者を案内するという目的から考えた場合、向きはもちろん位置についての大きな誤差は許容できない。「ビーコンなども検討したが、誤差を埋めるための仕掛けが必要で、それを用意する手間やコストを考えると現実的ではない。今の時点では、必要な精度を出せて、向きも特定でき、さらに最も低コストにできる現実解はQRコードだと判断した」(プログレス・テクノロジーズの櫻田仁幸ソフトグループチーフエンジニア)。

実際の利用形態としては、利用者にはスマートフォンを自分の身体の前にまっすぐ保持してもらい、カメラを指で隠さないようにする。このようにカメラでQRコードを捉える工夫が必要となるが、「QRコードの像さえ捉えられれば確実に案内できる」(櫻田氏)。

QRコードは点字ブロックのうち、「警告ブロック」という分岐点や券売機など注意を促すべき場所に配置する。QRコードの大きさは9cm角。既に歩行者用の点字ブロックは視覚障害者を誘導する上で最低限必要な場所に埋め込まれている。なので、「注意ブロックにQRコードを置いてコンテンツを整備する形にすれば、音声によるナビゲーションのシステムを無理なく組み込める」(プログレス・テクノロジーズの小西祐一会長)というわけである。

システムの技術的な部分はほぼ確立した。複数回にわたり東京メトロの研修施設で開発を進めてきており、2018年8月には地下鉄有楽町線・辰巳駅構内で約120人の視覚障害者の協力を得て実証実験を実施した。「アンケートを実施したところ、ほぼ全員から役に立つという感想をいただいた」(プログレス・テクノロジーズの小西氏)。今後は東京メトロ側で具体的な展開方法を検討していくという。

プログレス・テクノロジーズの櫻田仁幸ソフトグループチーフエンジニア、プログレス・テクノロジーズの小西祐一会長、カウニッツ・リサンドロ・ニコラス コロニー第一事業部AIソリューショングループshikAIプロジェクトマネージャー

GPSの電波が届く屋外で、しかもそれほどの位置精度を求めない利用法であれば、ユーザー所有のスマホをそのまま使ってもらい、アプリだけ音声AR専用のものをインストールしてもらう方法もある。

ロックバンドGLAYのファンクラブ向けに企画された音声ARコンテンツ「GLAY NAVIGATION」では、ユーザー保有のスマホをそのまま使ってもらう形態にした。この音声ARコンテンツは、GLAYの出身地である北海道・函館を周遊してもらい、思い出のスポットに行くとメンバーの音声メッセージと楽曲が流れるという2018年8月の限定企画。対象のスポットが屋外であることと、位置の特定にそれほどの精度が求められないことから、位置の特定はGPSで行った。バスキュールと電通ライブが技術提供している。

将来はカメラの動画像で位置を特定

将来は音声ARの位置特定技術として、動画像が適用されるようになるかもしれない。近年、海外の研究機関やテクノロジー企業を中心に、カメラで取得した映像と、空間の3次元情報を対比させることで、ユーザーの位置や向いている方向を特定する技術が発表されている。

「この技術が確立され、かつ空間データを一企業や一般ユーザーが利用できるような流通基盤ができれば、屋内でも屋外でも位置や向きを特定できる方法として極めて有力なものとなるだろう」(プログレス・テクノロジーズの小西氏)。

ただし、そのようなデータ流通基盤の実現には数多くのハードルがある。プログレス・テクノロジーズではその前段として、眼鏡にカメラを装着し、画像をスマホ側のアプリに読み込ませると、目の前にある物体の種類、距離、方向を特定するという技術を開発中だ。先に紹介したQRコードによるナビゲーションシステムと連動させた形で、同社では「shikAI(シカイ)」というプロダクトとして製品化を目指している。

プログレス・テクノロジーズはカメラで目の前にある物体の種類、距離、方向を特定させる技術を開発中だ

 開発中のアプリでは、目の前にある物体と、その距離と方向はどの程度かを音声で知らせてくれる。東京メトロの研修施設で駅構内の画像をAIに学習させる作業を積み重ねた結果、プラットフォームのへりや券売機などの駅構内の主要な構成物、そして人がいるかいないかを認識できるようになったという。階段などの目標物に向かって歩いている際に、目標物に対する距離感や方向感を知らせる機能も備えている。

「共通インフラ」の構築を目指す動きも

美術館、展覧会、イベントにおける体験をより深いものする。観光地などでの案内を改善する。歩行を補助する。音声ARは教養・娯楽から公共・福祉に至るまで幅広い可能性を秘めている。ただ、ビーコンなどのハードウエアを含めたインフラ機能を、何かの企画ごとに用意するのでは、コストも時間も手間もかかる。

エイベックスの音声AR事業では、音声ARに必要なハードウエアやソフトウエア基盤をオープンプラットフォームとして構築し、基盤をシェアする形態を構想中だ。「音声ARを日本の共通基盤として社会実装したいと考えている。その場合、プラットフォーム部分は複数の企業や団体で共有した方が利便性が上がるし、提供価値がより高まる」(エイベックスの佐藤氏)。エイベックスでは既に一部の自治体と、この構想の具体化に向けた検討を始めているという。

またエイベックスでは音声ARコンテンツのCtoC(個人間流通)プラットフォームの構想も練っているという。「コンテンツは企業だけで考えるより、個人にも加わってもらったほうが面白くて役に立つものが生まれる可能性がある。個人が作った音声ARコンテンツをシェアする基盤サービスを用意することで、音声ARの普及を促したい」(エイベックス デジタルビジネスデベロップメントグループシニアプロデューサーの渡部宏和氏)。