ディズニーの微妙な表情も表現する3D技術で「不気味の谷」を越えられるかもしれない

Devin Coldewey

6年前

現在、顔の3Dレンダリングは映画やゲームの重要な部分を占めている。しかしレンダリングをキャプチャして自然なアニメーションにする作業は非常に難しい。ディズニーグループのDisney Researchではこのプロセスの強化に取り組んでいる。中でもいわゆる「不気味の谷」に転落せず自然な表情を見せる3Dの顔を生成する機械学習ツールの開発は注目だ。

その昔、人工的な表情はこわばっておりディテールも限られていた。もちろんこのテクノロジーはその後、大きく進歩した。高解像度で説得力のある3Dの表情を短時間でアニメーション化できるようになった。しかし人間の表現の微妙さは多様であるだけでなく、わずかの差が大きな違いになりやすい。

たとえば笑顔を考えてみよう。具体的な顔全体の変化には個人差があるが、その人が「本当に」笑ったのか「つくり笑い」をしたのか私たちは判別できる。人工の表情でそのレベルのディテールをどのように表現」したらいいのか？

現在の「線形モデルによるシミュレーションは表情の微妙さを単純し、『うれしさ』や『怒り』を細かく調整できるようにしている。精度を犠牲にして、すべての可能な顔を表現することはできないが、容易に不可能な顔を作り出すことができる。一方、最近研究されているニューラルモデルは、表現の要素を相互接続させてモニターすることで複雑な表情を学習させる。しかし他のモデルと同様、その結果は多義的で制御が難しい。またそうして学習した特定の表情を超えて一般化することができない。映画やゲームのアーティストははるかに高度なレベルで表情を制御したい（人間は表情から微妙なニュアンスを検出するのが非常に得意だ）のでこの方式の有効性も限られる。

これに対してディズニーの研究者チームは、双方の長所を生かした「セマンティック・ディープフェイスモデル」という新しい手法を提案する。テクノロジーの詳細には立ち入らないが、簡単にいえば「部分的表情要素が顔全体にどのように影響するかを学習するニューラルモデル」だ。これは単一の顔を超えて一般化できる。また演繹的に要素を操作するリニアモデルではない。部分が全体と相互作用することにより、極めて高い柔軟性がもたらされる。

このように考えてもいいだろう。リニアモデルを使用して、100種類の3Dの顔に表情（笑顔になる、キスするなど）を生成できるとしよう。しかしその結果には極めて非現実的なものが混じってしまう。ニューラルモデルを使用すると、学習によって100種類のリアルな表情を生成できるが、学習に利用した特定の顔でしか利用できない。これに対してディズニーが開発しているモデルは、どんな3Dの顔に対しても100種類の自然なニュアンスを生成できる。これは単純化しすぎだが、おおよそそういうこととなる。

画像クレジット：Disney Research

結果は非常に強力だ。さまざまな顔つき、肌色の顔を1000種類作り、そのすべてに簡単に同じ表情のアニメーションを作ることができる。つまり何回かクリックするだけで「いっせいに驚く」群集をCGで作れるわけだ。また個別に手作りすることなく、アルゴリズムによってゲームのキャラクターにリアルな表情をさせることもできるだろう。

この手法は万能ではなが、リアルな表情を生成するためにアーティストやエンジニアが行っている膨大な努力の一部をなすだろう。TechchCrunchでもディズニーの「デジタル顔交換テクノロジー」を紹介している。また人物が顔に丸印などマーカーを貼っていないビデオからの表情の取得や、皮膚や目の動きのさらなるリアル化なども重要な部分だ。

Disney Researchから発表された論文は、3D視覚についての国際会議で発表された。興味があれがこちら（PDF）で全文を読める。

カテゴリー：人工知能・AI

タグ：Disney、機械学習

画像クレジット：Disney Research

［原文へ］

（翻訳：滑川海彦@Facebook）