TOPマネジメント > ディープフェイクの技術と現状、そして危険性(上)

マネジメント

ディープフェイクの技術と現状、そして危険性(上)

2020/10/05

Martin Heller InfoWorld

 ディープフェイクとは、ディープラーニングの技術を利用して加工されたメディアのことで、その多くは動画だが、音声の場合もある。実際にはなかった出来事や光景、発言が存在しているかのように信じさせることを狙いとして、作成や改変、合成が行われている。

Credit: BrownMantis

 ディープフェイクの最初の例は、Redditユーザーの/u/deepfakeによるもので、ポルノ動画の顔を女優に置き換えた動画だった。言うまでもなく、完全に倫理に反した動画だが、当初は違法ではなかった。そのほか、有名人の発言内容を改変したり、別の言語に置き換えたりといったディープフェイクが登場した。

 ディープフェイクは、何十年も前から映画などで行われてきた映像合成の概念を拡張するものだ。従来の映像合成は、高度な編集スキルや専門的な機材と、多くの時間が必要だったが、ディープフェイクの動画は、そこまで高度なスキルや機材がなくても作成でき、時間も(GPUを利用できれば)あまり長くかからない。ただし現状では、出来上がった動画を注意深く見ると、違和感を覚えることも多い。

ディープフェイクの技術

 ディープフェイクの技術は、教師なし学習の一種でニューラルネットワークを利用するオートエンコーダーを基にした手法から始まった。現在でもその手法は多くの技術の基盤となっている。そのほか、GAN(敵対的生成ネットワーク)を利用した手法による改善や、その他の機械学習の手法やそれ以外の手法との組み合わせも行われており、さまざまな成果をもたらしている。

オートエンコーダー

 大まかに言うと、例えばディープフェイクで顔の差し替えを行う時には、オートエンコーダーは2段階の処理を行う。第1段階では、ニューラルネットワークを使って、対象者の画像から顔の特徴を抽出する。第2段階では、別のニューラルネットワークを使って、特徴を画像に再構成し、向きや大きさを適宜調整して対象者の顔を差し替える。

 こうした顔の差し替えを行う場合、オートエンコーダーの学習のために、差し替え前と差し替え後の人物の顔をさまざまな角度や照明のもとで捉えた画像が数多く必要となる。GPUなしでのトレーニングには週単位の時間がかかる場合もあるが、GPUがあればずっと速い。

↑ページ先頭へ