自然な会話に特化した書き起こし精度。低コストで自社サービスに組み込める音声認識AI「Olaris」

樋口千穂

3年前

技術の発展に伴い、音声認識AIを使ったサービスが増える一方、いざ自社サービスに音声認識技術を組み込むとなると多くの課題が見えてきます。

「Olaris（オラリス）」は、アーニーMLG株式会社が研究開発型のスタートアップとして運用しているパーソナライズド音声認識AI。「他社の音声認識を使ってみたけどクライアントに提供できる精度ではなかった…」「競合サービスに対して音声認識で差別化したい」といったニーズに対応できるといいます。

音声認識AIを自社サービスに導入する際の課題

近年では、ディープラーニングの技術が驚異的な進化を遂げ、音声認識技術の精度は飛躍的に向上。一定品質の音声であれば認識率95％を超えるまでに進歩し、現場での実利用が進んでいます。

しかし、音声認識技術を自社サービスに組み込むとなると、求めている仕様や機能が得られなかったり、費用を含めた導入ハードルが高かったりと、課題が多くあげられているのも事実です。

今回、株式会社ZENKIGEN（以下、ZENKIGEN）は、自社サービス「面接官 BI」に「Olaris」を導入。ZENKIGENでは、自社のサービスが求める仕様や機能を満たす音声認識AIを探すことに苦労していたところ、「Olaris」の仕様・性能・コスト面に魅力を感じ、導入に至ったといいます。

「Olaris」は、企業が自社サービスに組み込める精度の高さにこだわった音声認識AI。自然な会話を自動的に文章に起こすことができ、録音された音声データのテキスト化はもちろん、マイクや電話からのリアルタイム変換も可能です。

ビジネス会話に特化した音声認識モデルで、電話などの低音質な音源でも高い精度を維持できることや、カフェなど雑音の多い環境でも影響を受けにくいことが特徴。リアルな運用に耐える音声認識機能を有しています。

また「Olaris」は、話者分離・感情数値・抑揚など音声から得られる周辺情報も同時に提供可能です。導入企業のサービスの顧客属性に合わせた専用モデルを作成することで精度がさらに向上します。

住所モデル・数字モデル・医療モデルなど、よく使われる専用モデルはあらかじめ用意。これらはいつでも瞬間的に切り替えることが可能で、平均1秒で複数のモデルを切り替えることができるため、シーンに合わせて最適なモデルを利用できます。

また、毎月モデルがアップデートされることも特徴。実際の録音音声や書き起こされた正解文章などを使った学習作業を一定量継続することで、モデルが成長を続けます。

さらに、音声認識の処理と同時に音声認識サーバーから音源データを自動削除。希望の場合にはクライアントサーバー内への閉域網設置など、セキュリティ面にも配慮した設計です。

「Olaris」公式サイト：https://olaris.jp/

（文・Higuchi）