AI駆動でテキストを美しい合成音声として出力するAflorithmicが約1.4億円調達

Natasha Lomas,Dragonfly

5年前

ロンドンとバルセロナを拠点とするAudio-as-a-Service SaaSスタートアップAflorithmic（アフロリズミック）が、シードラウンドでCrowd Media Holdings（インフルエンサーベースの「ソーシャルコマース」とマーケティングに注力したオーストラリア拠点の企業）から130万ドル（約1億3605万円）の資金を調達した。

プレスリリースによると、クラウドメディアホールディングスはAflorithmicの10%の株式を取得することになり、この戦略的投資の目的は「クラス最高の音声クローン技術」によって有名人とFaceTimeで会話できるようにすることだという。

Aflorithmic（アフロリズミック）という社名は発音しにくいかもしれないが、この創業2年のスタートアップが提供するのは会話と音声そのものだ。同社はAI駆動型の合成メディア、「エシカル（倫理的）な」音声クローニング、オーディオマスタリングを使用して、完全に自動化されたスケーラブルな音声制作プラットフォームを構築した。開発者はAflorithmicのAPIを使用して、ウェブサイト、モバイルアプリ、スマートスピーカーなどのチャネルを介してユーザーに音声を届けることができる。

「テキストを美しい音声として出力」というのがAflorithmicの謳い文句だ。同社は今回のシードラウンド以前に、88万7000ドル（約9275万円）以上の外部資本を調達した。具体的には、創業後10カ月間を自己資金で運営した後、プレシード / FFF / エンジェルの各ラウンドで上限を超過する応募申し込みがあった。

Aflorithmicのウェブサイト上サンプルクリップでは、合成音声（ロボット音声）のボイスオーバーがお客様にあいさつした後、設定済みコンテンツの詳細を説明するパーソナライゼーション要素が紹介されている。

Aflorithmicの現顧客（概念実証 / パイロット版）は同社のツールを使用して、子ども向けオーディオブック、健康 / 栄養プログラムのパーソナライズされたナレーション、ホテルの宿泊客用コンシェルジュサービスなどを作成している。同社ビジネスの前提に、スタジオ製作での肉声によるボイスオーバーでは、音声コンテンツに対する現在の多様なニーズに到底対応できないという考え方がある。

そこで、その需給ギャップを埋めるために合成メディアが必要になるというわけだ。合成メディアを使えば、ブランドや企業の特定の顧客向けにパーソナライズされた多種多様な音声トラックを提供できる。現時点ではEdTech、MarTech、ヘルス / フィットネスといった業界を中心として、初期のベータ顧客向けに10ほどのプロジェクトが進行している。

同時に、ポッドキャストや生音声のストリーミングの人気も衰えを知らず、動画偏重時代でも音声が生き残れることを示している。

Aflorithmicの新しい投資家であるクラウドメディアホールディングスは、Aflorithmicのツールで実現できることについてかなり野心的なアイデアを持っており、それは「消費者によるeコマースの利用形態を根本から変える」ものになるという。

同社がAflorithmic（AFLR）に対する投資を決断したのは、合成音声を動画と組み合わせて、お気に入りの有名人とのビデオチャットを再現し、ファンが体験できるようにするという計画があったからだ。

Aflorithmicに出資してこのプロジェクトで提携することにより、この計画にともなうリスクを軽減することができるという。

「AFLRの音声技術を利用すると、有名人のアクセント、トーン、癖などを再現できるので、まるでその有名人が電話の向こうにいるような感覚を味わうことができる」とクラウドメディアは説明する。この未来のクローン有名人が優しくささやく「実際のコンテンツ」は、同社のAI駆動型チャットボットテクノロジーによって実現されるという。このチャットボットは、ユーザーが投稿した1億8000万件を超える質問に対する回答（テキストのみのメディア）から構築されたナレッジベースに基づいて動作する。

こうしたテキストを、聞き手を癒やす合成音声に変えてくれるのがAflorithmicのテクノロジーだ。クローン有名人の動画では3D画像が使用されることになるが、そのためのテクノロジーは合成メディア企業3社（英国拠点のForever Holdings、デジタルヒューマン製作企業のZoe01とUneeq）によって提供される。

クラウドメディアは、Aflorithmicのテクノロジーをより広範囲に活用し、AI駆動型のチャットボット（CM8）といった同社のその他ソーシャルコマースアプリに統合していくという。これは、マーケティング、教育、ヘルスケアなど、業界を越えたカスタマーサービスでの利用を狙ったものだ。

一方、Aflorithmicは今回調達した資金をAPI音声制作エンジンの研究開発、音声クローニング、人材獲得に使用する計画だという。

同社は、APIベースのAudio-as-a-Serviceを幅広い顧客に提供している。その使用事例には、高度にパーソナライズされたニュースレターとポッドキャストやマーケティングアプリケーション用の音声クローニングなどがある。

また、膨大な音声ライブラリーが用意されていて顧客がロボットスピーカーを選択できるのも同社の売りだ。それだけでなく、ユーザーは自身の音声スニペットを録音しておき、音声クローニングAIを使用して、パーソナライズされた音声コンテンツを制作できる。

ユーザーは、音楽や複雑なオーディオエンジニアリングを含む、プロレベルのコンテンツを制作し、最終製品をウェブサイト、モバイルアプリ、スマートスピーカーといったあらゆるデバイスやプラットフォームに配信できる。製作経験は一切不要だという。

Aflorithmicの共同創業者でCEOのTimo Kunz（ティモ・クンツ）氏は次のように語った。「会社を大量消費市場に進出させる上でクラウドメディアの経験から学べることを楽しみにしている。また、ソーシャルコマースの未来をかたち作る同社の試みに参加することができてうれしく思う。音声制作は今後、自動化されたスケーラブルでダイナミックな体験へと変わっていくと確信している。当社はまさにそれを先導している」。

「合成音声の制作には、ほぼ無限と思える可能性がある。マーケティングアプリケーションだけをとってみてもその可能性は驚くほどだ」と同氏はつけ加えた。「Kim Kardashian（キム・カーダシアン）が2億人もいる彼女のフォロワーのパーソナルショッパーになり、Pirelli（ピレリ）のP Zero ROSSOの新しいタイヤが必要な理由をLewis Hamilton（ルイス・ハミルトン）が個人的に説明してくれる、そんな未来を想像してみてほしい。当社のテクノロジーを使えばそうした未来がまもなく現実となる」。

また、ビジネスモデルに関して同氏は次のように語った。「当社は、TwilioやMessagebirdと同じようなSaaSを使用している。基本は使用量、つまり再生された音声トラック数に応じた月額サブスクリプションだ。ただし、無料の試用期間も用意している。研究開発の側面が多い大規模なコラボレーションの場合は、カスタム価格の交渉にも応じる」。

Aflorithmicの他の2人の共同創業者はPeadar Coyle（ピーダー・コイル）氏とBjörn Ühss（ビョルン・アス）氏である。

Aflorithmicが音声クローニングを形容するのに使っている「エシカルな」という言葉は、合成メディア制作を支援する商用ツールの開発に取り組んでいるすべての企業にとって避けて通れない課題を示している。

有名人のクローンはおもしろそうだが、個人の音声クローニングは、フィッシング詐欺、個人情報の盗難、感情操作、脅迫など、悪用または乱用される可能性が非常に高い。著作権も考慮する必要がある。

Aflorithmicのウェブサイトにある倫理セクションには、パーソナライズされた音声をスケーラブルにすることにともなうリスクを認める記述がある。そこには「優れたイノベーションには大きな責任がともなう」と書かれており、「当社は、英国とEUの『Ethics Guidelines for Trustworthy Artificial Intelligence（信頼できるAI開発のための倫理ガイドライン）』に従って、エシカルかつ公正で、透明性の高いAIを提供することに全力で取り組んでいる。当社のコンテンツ、音声モデル、およびアルゴリズムのトレーニングは、規制に完全に準拠し、個々のデータ所有者の承認を得たものである」とある。

音声クローン技術の悪用を防ぐ方法について、クンツ氏は次のように語った。「これは大きな問題だ。当社は合成音声の使用に関する倫理的側面について早い段階から考えると同時に、セキュリティについても非常に真剣に検討している。セキュリティは潜在的顧客との早期の話し合いにおいて重要な鍵を握っている。当社は音声データを機密性の高い個人情報と見なし、そうした情報と同様に慎重に扱っている。当社のテクノロジーで音声をクローニングするすべてのお客様は、音声提供者の同意があることを書面で当社に提出する必要があり、当社は特に初期段階において、その音声の使われ方を詳細に確認する」。

「また、当社のAPIインフラストラクチャは、当社のチームによってオンボーディングおよび精査された有料ユーザーのみにアクセスを許可するよう安全に設計されている」。

「当社は最近のディープフェイクの流行には乗らないよう意識的に注意を払っている。ディープフェイクは否定的な響きがあるだけでなく、当社のテクノロジーの有意義な使い方ではない」と同氏はつけ加えた。

Aflorithmicは競合他社としてDescript（ディスクリプト）を挙げる。ディスクリプトは2021年1月に3000万ドル（約31億3900万円）を調達し、別の音声クローニングスタートアップであるLyrebird（ライアーバード）を2019年に買収した。Descriptのツールは動画と音声の両方に対応しているのに対し、Aflorithmicは音声制作プロセス全体の自動化に重点を置いている。

「Descriptはどちらかというと制作者向けツールという位置づけだ。すばらしいツールであり、優れた機能を備えている。しかし、テキストから音声への変換、音楽と音声の編集、後工程に至るまでの制作プロセス全体をカバーしているわけではない。こうしたプロセスの自動化は重要な点だ。音声制作をクラウドに移行することで、規模のメリットが得られ、あらゆるリスナー向けに異なる音声トラックを作成できるようになる」とクンツ氏はいう。

「Descriptは、編集を容易にするための音声版Photoshopのようなスタジオ機能に重点を置いているが、当社は自社製品をどちらかというと音声版Stripeのように考えており、企業が単なる編集ではなく当社のAPIを使用して自社製品にAudio-as-a-Serviceを簡単に組み込むことができるようにしている」。

「Peloton（ペロトン）のようなヘルスケアアプリを例に説明すると、当社の方式では、高度にパーソナライズされたワークアウトをとても簡単に作成できる。高度にパーソナライズされたAIコーチをワークアウトに取り入れ、運動を続けるモチベーションを保つようユーザーをサポートする。これでユーザーは、ワークアウトデータの履歴やパーソナルベストに基づいてモチベーションを与えてくれるパーソナルトレーナーが自分の隣にいるような感覚を味わえる」。

「動画に関しては、慎重な選択だった」という。「音声は極めて個人的で、適切なニュアンスを出すのは複雑で難しい。当社は複数のAI動画プラットフォームと提携しており、こうした企業に音声を提供している。動画制作企業は合成音声がどれほど難しいかわかっているからだ」。

カテゴリー：ネットサービス

タグ：Aflorithmicｍ、合成音声、資金調達

画像クレジット：画像クレジット：Rick Stufflebean

［原文へ］

（文：Natasha Lomas、翻訳：Dragonfly）