アインシュタインのチャットボットに「声」を与えるAflorithmicのAI音声クローン技術

Natasha Lomas,Hirokazu Kusakabe

5年前

合成メディアの奇妙な世界から生まれたディープフェイクの一端に、耳を傾けてみてほしい。これはAlbert Einstein（アルバート・アインシュタイン）のデジタル版。有名な科学者の実際の声を録音した音声記録を元に、AIのボイスクローン技術を使って合成された声である。

この「不気味の谷」にいるアインシュタインの音声ディープフェイクを開発したのは、Aflorithmic（アフロリズミック）というスタートアップ企業だ（同社のシードラウンドについては2月に紹介した）。

動画に登場するアインシュタインの「デジタルヒューマン」を生み出したビデオエンジンは、もう1つの合成メディア企業であるUneeQ（ユニーク）が開発したもので、同社はウェブサイトでインタラクティブなチャットボット版を公開している。

Alforithmicによると、この「デジタル・アインシュタイン」は、会話型のソーシャルコマースが間もなく実現することを示すために作られたものだという。つまり、業界関係者が予見的に警告しているように、歴史上の人物を模したディープフェイクが、近いうちにあなたにピザを売ろうとするだろうと、手の込んだかたちで伝えているのだ。

また、このスタートアップは、ずっと前に亡くなった有名な人物にインタラクティブな「生命」を吹き込むことで、教育に役立てる可能性も見出しているという。

この「生命」とは人工的なそれに近いものという意味であり、完全に仮想上のもので、デジタル・アインシュタインの声は純粋な技術によるクローンではない。Alforithmicはチャットボットのボイスモデリングを行うために、俳優の協力を仰いだという（なぜなら、デジタル・アインシュタインが、例えば「ブロックチェーン」のような、生前の本人が夢にも思わなかったような言葉を言うとしたら、どんなふうに言うかを検討するためだ）。それによって、AIによる人工物を超えた存在ができあがる。

「これは、会話型ソーシャルコマースを実現する技術を紹介するための新たなマイルストーンです」と、AlforithmicのCOO（最高執行責任者）であるMatt Lehmann（マット・レーマン）氏は我々に語った。「克服しなければならない技術的な課題だけでなく、解消しなければならない欠陥もまだありますが、全体としては、この技術がどこに向かっているのかを示す良い方法ではないかと、私たちは考えています」。

Alforithmicは、アインシュタインの声をどのように再現したかを説明したブログ記事の中で、チャットボット版の生成に関わる困難な要素の1つに進展があったと書いている。それは、計算知識エンジンから入力されたテキストに対し、APIが応答音声を生成できるようになるまでの応答時間が、当初の12秒から3秒以下に短縮できたというものだ（これを同社では「ニア・リアルタイム」と呼んでいる）。しかし、これでもまだタイムラグがあり、ボットが退屈な存在から免れることはできていない。

一方、人々のデータやイメージを保護する法律は、生きている人間の「デジタルクローン」を作ることに法的および / または倫理的な問題を提示している。少なくとも、先に許可を得て（そしてほとんどの場合、お金を払って）からでなければできない。

もちろん、歴史上の人物は、自分の肖像が物を売るために流用されることの倫理性について厄介な質問をすることはない（今後、意思を持つ本物のクローン人間が誕生すれば話は別だが）。しかし、ライセンス権は適用される可能性があるし、現にアインシュタインの場合は適用されている。

「アインシュタインの権利は、このプロジェクトのパートナーであるHebrew University of Jerusalem（エルサレム・ヘブライ大学）にあります」とレーマン氏は言い、アインシュタインの「声のクローン」のパフォーマンスに、アーティストライセンスの要素が絡んでいることを告白した。「実際には、私たちはアインシュタインの声のクローンを作ったわけではなく、オリジナルの録音や映画から着想を得ています。アインシュタインの声のモデリングに協力してくれた声優は、彼自身がアインシュタインの崇拝者であり、彼の演技はアインシュタインというキャラクターを非常によく表現していると思いました」と、同氏は述べている。

ハイテクの「嘘」の真実は、それ自体が何層も重ねられたケーキのようなものであることがわかる。しかし、ディープフェイクで重要なのは、技術の巧拙ではなく、コンテンツが与える影響であり、それは常に文脈に依存する。どんなに精巧に（あるいは稚拙に）フェイクが作られていたとしても、そこから人々が見聞きしたことにどう反応するかによって、ポジティブなストーリー（創造的・教育的な合成メディア）から、深くネガティブなもの（憂慮すべき、誤解を招くようなディープフェイク）へと、全体的に話が変わってしまう。

「デジタル・アインシュタイン」を担当する2つの団体が拠点を置く欧州では、技術がさらに洗練されるにつれてディープフェイクが情報操作のツールになる可能性への懸念も高まっており、それがAIを規制する動きを後押ししている。

今週初めに草案がリークされた、人工知能の「高リスク」利用法を規制する汎EUの次期立法案には、ディープフェイクを特に対象とした項目が含まれていた。

この計画では、人間との対話を目的としたAIシステムや、画像・音声・映像コンテンツの生成・操作に使用されるAIシステムについて、「調和のとれた透明性ルール」を提案する見通しだ。

つまり、将来的にデジタル・アインシュタインのチャットボット（またはセールストーク）は、偽装を始める前に、自らが人工物であることを明確に宣言する必要がありそうだ。そうすれば、インターネットユーザーが、フェイクと本物を見分けるために、仮想的なフォークト・カンプフ検査を行う必要はなくなる。

しかし、今のところ、この博学な響きを持つデジタル・アインシュタインの対話型チャットボットには、馬脚を現すのに十分なラグがある。製作者も自分たちの作品を、AIを活用したソーシャルコマースのビジョンを他の企業に売り込むためのものであると明示している。

タグ：Aflorithmic、不気味の谷、ディープフェイク、チャットボット

画像クレジット：UneeQ

［原文へ］

（文：Natasha Lomas、翻訳：Hirokazu Kusakabe）

カテゴリー：人工知能・AI

タグ：Aflorithmic、不気味の谷、ディープフェイク、チャットボット