合成音声に人間の深い感情を吹き込むSonantic、本当に人が泣いているかのような表現も可能に

Anthony Ha

6年前

Amazon（アマゾン）のAlexa（アレクサ）やApple（アップル）のSiriなどの音声アシスタントには「情緒」とか「表現力」といった言葉は無縁に思える。声のトーンは平坦で慇懃で、感情は一切表に出さない。アシスタントならそれでもいいが、合成音声をゲームや映画、その他の物語性の高いメディアには使いづらい。

そこで、Sonantic（ソナンティック）というスタートアップは、真に迫った泣き方をする「人間の深い感情」を表現できるAIの開発に取り組んでいる。英国を拠点とするこのスタートアップは、先月、EQT Ventures主導による230万ユーロ（約2億7000万円）の投資を獲得したと発表したが、5月12日にその技術がどれほどのものかを示す動画が公開した。

動画を見れば、読者もその結果を評価できるだろう。Sonanticによれば、すべての声は技術的に作り出されたものだそうだ。私個人の感想としては、優れた声優に置き換えられるほどではないといった感じだ。しかし、これまで聞いたどの合成音声よりも確かに感情がこもっている。

Sonanticの実際の製品は音声エディターだ。すでにゲームメーカーでテストが進められている。共同創設者でCEOのZeena Qureshi（ジーナ・クレシ）氏によると、このエディターにはさまざまな音声モデルが含まれており、それらは実際の声優とともに開発したものだという。そして、声優には売り上げの一部が還元される。

「私たちは、声のディテールと息遣いのニュアンスにこだわりました」とクレシ氏。「声そのもので物語が表現されなければなりません」。

共同創設者でCTOのJohn Flynn（ジョン・フリン）氏は、わかりやすい出発点としてゲームスタジオがあると話す。ゲームでは、何千何万という会話を録音しなければならないからだ。「これがあれば、時間をかけることなく、状況に応じて同じセリフにさまざまな表情を付けることができる」と同氏は説明する。例えば、走っているキャラクターが息を弾ませながら話すといったシチュエーションだ。また、キャラクターが泣いたり叫んだりしても、声優の喉に負担をかける心配もない。

フリン氏は映画の映像処理の世界で働いていた経験があり、Sonanticの技術はゲーム以外にも数々の業界で応用できると考えている。声優に置き換わることが狙いではなく、目指すのはむしろ「語り」の新しい活躍の場の発掘だ。

「実写映像の処理にどれほどCGが使われているかを考えてみてください」と彼は言う。「どちらかを選ぶという性質のものではありません。新しいテクノロジーとは、夢のような方法で新しい物語を聞かせてくれものなのです」。

Sonanticは、初期の音声モデル開発に協力した女優のArabella Day（アラベラ・デイ）氏を私に紹介してくれた。デイ氏は、何時間もかけてたくさんのセリフを録音したという。そしてついにフリン氏から電話があり、彼女の声の合成音声版を聞かされた。「私はフリンにこう言ったんです。それが私？私が録音した声？って」と彼女は振り返っていた。

Sonanticでの仕事は「本物のパートナーシップ」だったと彼女は話していた。彼女が新しい音源を提出すると、それを基にボイスモデルがどんどん改良されていく。最近では、彼女の音声が米国人のアクセントになっていたものもあるらしい。デイ氏によれば、彼女の声の使い方について、本人が心配しないよう会社は気を使ってくれたという。ブラックリストに載せたい会社はないか、いつも聞かれていたとのこと。

「女優として演劇の未来はAIだなどとは、まったく思っていません」とデイ氏。「これが私の仕事の道具のひとつになればいいと願っています。頼りになる私の特別な強みにね」。

同時に彼女は、多くの業種でAIが人間の労働者に置き換えられることへの「合理的」な懸念も抱いてもいる。「それがエンターテインメントの未来だとしても、私もその一員でいたい」と彼女は言う。「でも、その一員として、一緒に働きたいんです」。

画像クレジット：Sonantic

［原文へ］

（翻訳：金井哲夫）

Original:https://jp.techcrunch.com/2020/05/13/2020-05-12-sonantic-faith-demo/
Source:TechCrunch Japan
Author:Anthony Ha