WellSaid Labs、合成音声を数秒間のクリップから数時間のクリップへと進化

Devin Coldewey

5年前

今や何百万世帯もの家庭で音声対応のデバイスが利用されているが、数秒以上続く長い合成音声を普段耳にすることはまずないだろう。WellSaid Labs（ウェルセッドラブズ）は、音声エンジン分野の開発を押し進め、我々が日々Siri（シリ）やAlexa（アレクサ）で聞いている短文と同等、またはそれ以上のクオリティを持つ、数時間にもわたる音声コンテンツを素早く簡単に生成することに成功した。

昨年世に出て以来、WellSaid Labsは同社が持つ技術をデモ製品から商用製品へと進化させるため着実に取り組んできた。その過程で同社は利益になり得るニッチな分野を発見する。

CTOのMichael Petrochuk（マイケル・ペトロチャック）氏は、初期の段階で同社の技術は、人工音声におけるリアリズムの新しい基準を確立したGoogle（グーグル）のタコトロンプロジェクトという研究をベースにしていたと説明する。

「2年前にリリースされたにもかかわらず、タコトロン2は今でも芸術的と言えます。ただしいくつか問題はあります。1つ目は高速ではないと言う点。1秒のオーディオを生成するのに3分かかります。また、これは15秒のオーディオをモデル化するために作られているため、10分間のコンテンツを生成するワークフローなどとても考えられません。我々が目指すものとはかけ離れています」とペトロチャック氏。

そこでWellSaid Labsは速度、品質、長さに焦点を当てて自社モデルを完全に再構築した。すべて一度に焦点を当てているかのようでもあるが、最適化のために焦点を当てるべき箇所は常に山ほどある。その結果、15種の音声と複数の言語を用いた非常に高品質な音声をほぼリアルタイムで生成することができるモデルを作り上げた。つまり、1分間のクリップは、数時間を費やして作るのではなく、36秒で完成できるということだ。

この一見ベーシックな技術には数多くの利点がある。高速なだけでなく、できあがった音声をよりシンプルで簡単に処理することも可能だ。オーディオコンテンツのプロデューサーの場合、数百文字のスクリプトを入力してその音声を聞き、発音や抑揚を数回のキー操作で微調整すれば完成だ。タコトロンは合成音声の世界を一変したが、実際に製品になったことはない。WellSaid Labsは、タコロトンの技術と独自の技術を組み合わせて、使い勝手の良いソフトウェアと卓越した音声システムを生み出すことに成功した。

WellSaid Labによるテストにて、タコロトンやその他の製品と比較できるよう15秒のクリップを生成したところ、同社のモデルは人間による音声と同等の評価を得ると言うマイルストーンを達成した。この手の技術を客観的に測るための手段は存在しないが、実際に多くの人々にどれだけ人間らしく聞こえるかを聞いてもらい検証するのは正しい方法と言えるだろう。

このような条件下で「人間のような」音声を達成するため、同社は多数のオーディオクリップも公開し、より難しいコンテンツも生成できるという事を証明した。

スペイン語、フランス語、ドイツ語でももっともらしい音声を発し（著者はこれらの言葉を話せないためそれ以上のことは言えないが）、「Stoichiometry（化学量論）」や「Halogenation（ハロゲン化）」のような複雑で言語学的に難しい単語や「Buffet（ビュッフェ）」や「Desert（砂漠）」のように文脈によって異なる単語なども上手く発音しその技術を軽々と披露した。Mary Shelley（メアリー・シェリー）著書の「フランケンシュタイン」を8時間かけて読み通したのは称賛に値する。

しかし、さらなる進歩のためにWellSaid Labsが向き合っているのはオーディオブック業界ではない。それは企業研修というとてつもなく退屈だが必要不可欠な分野である。企業方針を説明したり、社内ツールの使い方、営業や管理、開発ツールなどのベストプラクティスを説明したりするような、あれである。

企業研修の内容は通常、その企業独自のものであり、何時間分ものオーディオになる。何十年も前に作られたようなDVDを研修会場で見せられたり、莫大な資料を渡されたりするような慣習の代替となるだろう。このようなパワフルな技術を実用化する場としては決してエキサイティングな場所とは言えないが、技術がどれだけ変革的であっても、実際にお金を稼げなければ沈没してしまうというスタートアップの現実がここにある。

Image Credits: WellSaid Labs

「我々は企業研修の分野で利点を見つけましたが、製品開発においてはこれによってより大きな分野に向けての基礎となる要素を構築することができました。音声はどこにでも存在します。今は誰のために構築するのかを現実的に考えなければなりませんが、最終的にはどんな音声でも作成して配信できるインフラを提供する予定です」と成長部門長のMartín Ramírez（マルティン・ラミレス）氏は語る。

一見企業向けサービスの拡大速度が遅すぎるようにも感じられるかもしれない。同社のシステムは英語に特化しているわけではなく、多言語での研修にも同様に活用できるだろう。しかし、ポッドキャストやゲーム、ラジオ番組、広告、ガバナンスなど他の業界でも、この向上した音声機能を大いに活用することができるはずだ。

同社のアプローチにおける大きな制限の一つとして、このシステムは人が操作し、仮想声優の録音に使用されることを想定していると言う点がある。つまりこれでは、声帯に障害のある人々や音声インターフェースを一日中使っている目の不自由な人々、また海外旅行中にリアルタイムで翻訳ツールを使用する人々など、実際により優れた合成音声を必要としている人々には役立たない。

「近い将来、弊社がそういったサービスを提供している可能性もあるでしょう」とラミレス氏は言うが、同氏もその他のメンバーも慎重な言葉選びだ。「しかし、現時点で構築された方法では、人間がエンジンと対話した上で自然な人間らしさを作り上げるべきだと考えています。ダイナミックレンダリングのシナリオがかなりのスピードで近づいてきているので、それに備えて準備をしておきたいところですが、今の時点ではまだ準備ができていません」。

同社は「ランウェイも顧客も豊富」とのことで、急成長中でもあるため今すぐに資金を調達する必要はないだろう。ベンチャーキャピタルファームの諸君にそう言っておきたい。

関連記事：WellSaidは人間の代役が務まるほど自然な合成音声を公開

カテゴリー：IoT

タグ：WellSaid Labs　合成音声

[原文へ]

（翻訳：Dragonfly）