音声だけで話者の「顔」を復元できるAIが開発される

artificial-intelligence 2019/05/29
Credit:depositphotos

Point

■音声情報から話者の顔を復元できる機能を持つAIが開発される

■この技術はAIに何百万人もの話者の動画をインプットさせ、声と顔の共通性を学習させることで可能となった

■声の波長域に共通する身体的特徴を抜き出して再構築する仕組みなので、厳密な個人の顔ではなく平均的な顔が生成される

アメリカ・カーネギーメロン大学の研究チームが、驚くべき能力を持つAIの開発に成功した。その名も「Speech2Face」。

このAI、なんと音声情報だけから話者の顔をほぼ正確に復元することができるという。

研究の詳細は、5月25日付けで「arXiv」上に発表されている。

Reconstructing faces from voices
https://arxiv.org/pdf/1905.10604.pdf

数百万人の「声」と「顔」のデータを学習

「Speech2Face」の機能は、短いボイスクリップを分析して、そこから話者にマッチする身体的特徴を選び出し再構築するものだ。

「声」と「顔」には強いつながりがあると考えられており、話し方や声のトーンには年齢や性別、民族性、言語のアクセントなどが大きく影響する。この考えをもとに研究チームは、インターネットやYoutube上にアップされている動画から何百万人もの話者の様子をAIに学習させた。

その際、データを「声」と「顔」に分けており、ある声のトーンや話し方に共通する話者の顔を予測できるように訓練した。

Credit:github

顔画像の生成には「GAN(Generative adversarial networks=敵対的生成ネットワーク)」が用いられている。

GANには「Generator(生成器)」と「Discriminator(識別器)」という2種類のネットワークが搭載されており、生成器は識別器に本物と誤認させられるような画像を生成する。対して識別器はそれに騙されないよう偽物を見分けようとする。

こうして互いを敵対させながらより正確な画像へと近づけていくのが「GAN」の機能だ。これはしばしば偽札を作る「犯人」とそれを見分ける「警察」との関係に例えられる。

偽札がバレた犯人はより本物に近いものを偽造し、またそれを警察が識別する。これを繰り返すと、ほとんど本物に近い偽札が出来るまで精度をあげることが可能となる。

ある声の波長域に共通する「平均的な顔」が生成される

その結果、「Speech2Face」は以下のような精度を実現させることができた。ボイスクリップも「github」から確認できる。

Credit:github

一方で研究チームは「AI開発の目的は話者の顔に忠実な画像を生成することではなく、声の情報から身体的な特徴を復元することだ」と話す。

「Speech2Face」は話者個人を再現するのではなく、ある声の波長域に共通する「年齢・性別・髪の色」などを抜き出すことに特化している。そのため生成される画像は、あくまでもある音声領域における平均的な顔という訳なのだ。

そのため、顔と声に大多数の人とは異なるギャップが見られると正確な画像生成ができないという。

もしこの技術が進歩しアプリとしてスマホなどに搭載されれば、電話口の相手の顔がすぐに分かってしまうかもしれない。

 

末恐ろしい技術だが、おそらくクロちゃんは正確に復元されないだろう。

ついにAIが存在しない「全身像」を自動で作り出す

reference: futurismgithub / written & text by くらのすけ

SHARE

TAG

artificial-intelligenceの関連記事

RELATED ARTICLE