モナリザが喋った！どんな顔写真にも好きな音声データを話させるAIを開発！ — モナリザが喋った！どんな顔写真にも好きな音声データを話させるAIを開発！ / Credit: HumanAIGC.GitHub – Institute for Intelligent Computing, Alibaba Group(2024)

artificial-intelligence

モナリザが喋った!?どんな顔写真も音声に併せた口パク動画にできるAIを開発！

2024.03.04 Monday

中国を代表する世界的なテクノロジー企業・アリババグループはこのほど、顔画像と音声データを組み合わせてポートレート動画を生成するAIシステム「EMO（Emote Portrait Alive）」を開発したと報告しました。

EMOを使えば、静止画の中の人物に好きな音声データを違和感なく喋らせることができます。

対象とする画像は写真、絵画、アニメ、AIの生成した顔など何でもOK。音声データも会話と歌の両方に対応しています。

つまりはモナリザにラップを歌わせることだって可能なのです。

研究の詳細は2024年2月27日にプリプリントサーバー『arXiv』に公開されました。

EMO: Emote Portrait Alive – Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions https://humanaigc.github.io/emote-portrait-alive/ AI system can convert voice track to video of a person speaking using a still image https://techxplore.com/news/2024-03-ai-voice-track-video-person.html Alibaba’s new AI system ‘EMO’ creates realistic talking and singing videos from photos https://venturebeat.com/ai/alibabas-new-ai-system-emo-creates-realistic-talking-and-singing-videos-from-photos/

EMO: Emote Portrait Alive — Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions https://doi.org/10.48550/arXiv.2402.17485

youtubeチャンネルナゾロジー

2つのブラックホールが合体すると？ホーキング定理、実証される

2つのブラックホールが合体すると？ホーキング定理、実証される

伝説は隕石落下に伴う大津波だった！トンガ王国を襲った「赤い波」の伝説を科学が証明！

伝説は隕石落下に伴う大津波だった！トンガ王国を襲った「赤い波」の伝説を科学が証明！

NASAが宇宙空間で「鉛筆」を使おうとしなかった理由とは？宇宙で文字が書ける「フィッシャー・スペースペン」の凄さ

NASAが宇宙空間で「鉛筆」を使おうとしなかった理由とは？宇宙で文字が書ける「フィッシャー・スペースペン」の凄さ

世界の終わりに人が「何をするか」分析！人は道徳を失わないのか

世界の終わりに人が「何をするか」分析！人は道徳を失わないのか

目次

自然な表情で完璧な口パクができる！

研究者たちはこれまで、顔の静止画を処理してアニメーションバージョンを作成するAIシステムの開発を進めてきました。

アリババのAI研究チームは今回、ここに音声データを追加することで新たなステージへと突入しています。

チームが開発したEMOは、自分の選んだ好きな顔画像にどんな内容の音声データでも喋らせることのできる画期的なAIシステムです。

しかもただ単純に喋るのではなく、発話のトーンや歌の抑揚に合わせて、首をかしげたり眉根を寄せたり、目を見開いたりと自然な表情を作り出すことができます。

ざっくり言ってしまえば、EMOは顔写真に完璧な口パクをさせるシステムといえるでしょう。

好きな顔画像に音声データを自然な表情で喋らせる — 好きな顔画像に音声データを自然な表情で喋らせる / Credit: HumanAIGC.GitHub – Institute for Intelligent Computing, Alibaba Group(2024)

しかもEMOのシステムに必要なのは、たった一枚の「顔画像」と一つの「音声データ」だけです。

従来のように、顔画像のモーションピクチャーを生成するにあたって、3Dモデルやランドマーク（目や鼻の位置など顔の特徴を抽出する上で目印となるポイント）のような中間段階は要りません。

顔画像と音声データをEMOに投げ込めば、自然なポートレート動画が生成されるように訓練されているのです。

では、それを可能にするEMOのシステムはどのような仕組みになっているのでしょうか？

EMOの仕組み

EMOは2段階のプロセスを経てポートレート動画を生成する仕組みになっています。

1つ目は「フレーム・エンコーディング（Frames Encoding）」と呼ばれる段階です。

チームは映画やテレビ番組、スピーチや歌唱パフォーマンスの映像を延べ250時間以上も収集し、その動画データでAIをトレーニングすることで、人が会話したり歌うときにどんな表情や頭の動きをするのかを学ばせました。

これを元にフレーム・エンコーディングでは、参照する顔の静止画の特徴を分析して、あらゆる表情や頭の動きに対応できるようにします。

2つ目は「拡散プロセス（Diffusion Process）」と呼ばれる段階です。

ここでは対象とする音声データの波形を分析して、声の高さや強さ、抑揚などを理解し、それとシンクロするような口の開き、顔の表情、頭の動きの生成を開始します。

EMOの「フレーム・エンコーディング」と「拡散プロセス」 — EMOの「フレーム・エンコーディング」と「拡散プロセス」 / Credit: HumanAIGC.GitHub – Institute for Intelligent Computing, Alibaba Group(2024)

こうして訓練されたEMOのシステムは、たった一枚の顔画像と音声データを投げ込むだけで、自然なポートレート動画を生成できるようになりました。

これを使えば、写真・映画・絵画・漫画・アニメ・CGなどから切り抜いた好きな人物に、好きな音声内容を喋らせることが可能です。

完成したポートレート動画の長さは、元の音声データの長さによって決まります。

例えば、こちらはレオナルド・ダ・ヴィンチの名画『モナ・リザ』に、シェイクスピアの戯曲『お気に召すまま』の一節を喋らせたもの。

まるでモナリザが生きている人のように自然な表情と動きで喋っています。

この他にもアニメの少女やモノクロ映画の俳優を使ったでも映像が多数紹介されています。

ぜひ、こちらのリンクからご覧ください。

https://humanaigc.github.io/emote-portrait-alive/

これまでにも、好きな音声データをアバターに喋らせるAI技術は存在していましたが、ここまで人間らしい自然な表情と完璧なリップシンクを再現したのはEMOが初めてだという。

EMOは今後、映画やゲーム内での俳優・キャラクター生成のほか、バーチャルアーティストやボーカロイドの品質向上など、エンターテインメント業界での活用が期待できます。

またAIで生成した空想の彼氏や彼女と自然な会話ができるようになるかもしれません。

その一方で、EMOは政治的な悪用や芸能界のゴシップの偽造など、危険な側面も秘めていることは確かです。

EMOのようなAIシステムは使い方次第で、善にも悪にもなるでしょう。

コメントを書くキャンセル

人気記事ランキング

Amazonお買い得品ランキング

日用品

1位

【Amazon.co.jp限定】【大容量】デカラクサイズアタック抗菌EX 洗濯洗剤液体洗ってもぶりかえすゾンビ臭断絶へ! つめかえ用 2800ｇ

【Amazon.co.jp限定】【大容量】デカラクサイズアタック抗菌EX 洗濯洗剤液体洗ってもぶりかえすゾンビ臭断絶へ! つめかえ用 2800ｇ

2位

【大容量】ワイドハイターEXパワー液体衣料用漂白剤見過ごせなくなった汚れやニオイ、洗剤にちょい足しで超絶スッキリ！！詰替用２４０0ml ツンとしないさわやかな花の香り

【大容量】ワイドハイターEXパワー液体衣料用漂白剤見過ごせなくなった汚れやニオイ、洗剤にちょい足しで超絶スッキリ！！詰替用２４０0ml ツンとしないさわやかな花の香り

3位

【Amazon.co.jp限定】【大容量】デカラクサイズアタックZERO ドラム式専用洗濯洗剤液体アタック液体史上最高の清潔力。菌の隠れ家蓄積0へ詰め替え 2200ｇ

【Amazon.co.jp限定】【大容量】デカラクサイズアタックZERO ドラム式専用洗濯洗剤液体アタック液体史上最高の清潔力。菌の隠れ家蓄積0へ詰め替え 2200ｇ

4位

【Amazon.co.jp限定】【大容量】デカラクサイズアタックZERO 洗濯洗剤液体アタック液体史上最高の清潔力。菌の隠れ家蓄積0へつめかえ用2200ｇ清々しいリーフィブリーズの香り(微香)

【Amazon.co.jp限定】【大容量】デカラクサイズアタックZERO 洗濯洗剤液体アタック液体史上最高の清潔力。菌の隠れ家蓄積0へつめかえ用2200ｇ清々しいリーフィブリーズの香り(微香)

5位

IROKA フレアフレグランス液体柔軟剤香水のように上質で透明感あふれる香りネイキッドリリーの香り 1200ml 大容量

IROKA フレアフレグランス液体柔軟剤香水のように上質で透明感あふれる香りネイキッドリリーの香り 1200ml 大容量

スマホ用品

1位

【Amazon.co.jp限定】バッファロー microSD 128GB 100MB/s UHS-1 U1 microSDXC【 Nintendo Switch/ドライブレコーダー対応】V10 A1 IPX7 Full HD RMSD-128U11HA/N

【Amazon.co.jp限定】バッファロー microSD 128GB 100MB/s UHS-1 U1 microSDXC【 Nintendo Switch/ドライブレコーダー対応】V10 A1 IPX7 Full HD RMSD-128U11HA/N

2位

Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 100W 結束バンド付き USB PD対応シリコン素材採用 Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)

Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 100W 結束バンド付き USB PD対応シリコン素材採用 Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)

3位

Apple AirTag

4位

Samsung microSDカード 256GB EVO Plus microSDXC UHS-I U3 Nintendo Switch 動作確認済最大転送速度130MB/秒 MB-MC256KA/EC 国内正規保証品

Samsung microSDカード 256GB EVO Plus microSDXC UHS-I U3 Nintendo Switch 動作確認済最大転送速度130MB/秒 MB-MC256KA/EC 国内正規保証品

5位

Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応テレワークリモート在宅勤務 0.9m ホワイト

Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応テレワークリモート在宅勤務 0.9m ホワイト

ゲーム

1位

スーパーマリオブラザーズワンダー -Switch

スーパーマリオブラザーズワンダー -Switch

2位

桃太郎電鉄ワールド ~地球は希望でまわってる! ~

桃太郎電鉄ワールド ~地球は希望でまわってる! ~

3位

Pikmin 4(ピクミン 4) -Switch

Pikmin 4(ピクミン 4) -Switch

4位

ニンテンドープリペイド番号 9000円|オンラインコード版

ニンテンドープリペイド番号 9000円|オンラインコード版

5位

【Switch用追加コンテンツ】ポケットモンスタースカーレット・バイオレットゼロの秘宝 |オンラインコード版

【Switch用追加コンテンツ】ポケットモンスタースカーレット・バイオレットゼロの秘宝 |オンラインコード版

小説

1位

変な家2 ～11の間取り図～

2位

変な家

3位

十角館の殺人〈新装改訂版〉｢館｣シリーズ (講談社文庫)

十角館の殺人〈新装改訂版〉｢館｣シリーズ (講談社文庫)

4位

近畿地方のある場所について

5位

変な絵

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!