LINEは11月25日、韓国NAVERと共同で、日本語に特化した超巨大言語モデル開発と、その処理に必要なインフラ構築についての取り組みを発表した。超巨大言語モデル(膨大なデータから生成された汎用言語モデル)は、AIによる、より自然な言語処理・言語表現を可能にするもので、日本語に特化した超巨大言語モデル開発は、世界でも初めての試みとしている。
従来の特化型言語モデルは、Q&A、対話など各ユースケースに対して、自然言語処理エンジンが個別に学習する必要がある。一方、OpenAI開発の「GPT」(Generative Pre-trained Transformer)や、Googleの「T5」(Text-to-Text Transfer Transformer)に代表される汎用言語モデルでは、新聞記事や百科事典、小説、コーディングなど膨大な言語データを学習させた言語モデルを構築し、その上でコンテキスト設定を行うための「Few-Shot Learning」(FSL)を実行するだけで、対話・翻訳・入力補完・文書生成・プログラミングコードなど様々な言語処理が可能。これにより、個々のユースケースを簡単に実現できることが期待される。
FSLとは、ブログの書き出しや、プログラミングコードの一部など少ない情報を新たに与えると、事前に構築した情報を基に、最もそれらしいと判断した文字列を生成すること。事前に学習させた上で、新しい言葉(「おはよう」)を与えると、最もそれらしいと判断した文字列(「おはようございます」など)を返すなどが例として挙げられる。
今回のLINEおよびNAVERによる取り組みでは、日本語に特化した汎用言語モデルを開発するにあたり、1750億以上のパラメーターと、100億ページ以上の日本語データを学習データとして利用予定。これは現在世界に存在する日本語をベースにした言語モデルのパラメーター量と学習量を大きく超えるものとなる。パラメーター量と学習量については、今後も拡大していくという。今回の取り組みにより、日本語におけるAIの水準が格段に向上し、日本語AIの可能性が大きく広がることが予想されるとしている。
また現在、超巨大言語モデルは世界でも英語のみが存在・商用化しており(OpenAIが開発し、Microsoftがライセンスを保有する「GPT-3」)、他言語の開発についても、ごく少数の取り組みが発表されているのみとなっている。
これは、超巨大言語モデルの処理には数百GBものメモリーが必要と考えられているためで、世界でも指折りの性能を持つスーパーコンピューターなど、高度なインフラ環境が必要となる。
今回LINEはNAVERと共同で、同モデルを迅速・安全に処理できる700PFLOPS(ペタフロップス)以上の性能を備えた世界でも有数のスーパーコンピューターを活用し、超巨大言語モデルの土台となるインフラの整備を年内に実現予定。
LINEは、英語において実現している精度に匹敵またはそれ以上の、日本語の超巨大言語モデルを創出。開発された超巨大言語モデルは、新しい対話AIの開発や検索サービスの品質向上など、AIテクノロジーブランド「LINE CLOVA」をはじめとするLINEのサービスへの活用のほか、第三者との共同開発や、APIの外部提供についても検討予定。
GPTは、OpenAIが2019年2月に発表した、文章生成に強い能力を持つ汎用型言語モデルに関する論文。2019年11月に15億のパラメーターをもつ汎用型言語モデル「GPT-2」がリリースされた。2020年5月に1750億のパラメーターを持つ「GPT-3」の構想が発表され、 翌月にベータ版を公開、8月には商用化。「GPT-3」は「GPT-2」と比較して圧倒的なデータ量を持つことにより、長文の文章生成能力が飛躍的に向上し、世界的に注目されている。
GoogleのT5は、GPTと同じくトランスフォーマー(Transformer)と呼ばれる自然言語処理技術を用いるが、文章生成よりも翻訳・質疑応答・分類・要約などの文書変換処理を目的とした構成を採用。入力(タスク)と出力(回答)の両方をテキストのフォーマットに統一して、転移学習を行うことで、すべてのタスクを同じモデルで解く。学習データを変更することで、同じモデルで様々なタスクが解けるとされる。
関連記事
・LINEがブロックチェーンサービス開発プラットフォーム「LINE Blockchain Developers」提供開始
・LINE Fukuokaが自治体向けにLINE公式アカウント機能のソースコードを無償提供、福岡市アカウントがモデル
・OpenAIがテキストベースのAI機能利用が簡単になる汎用APIを開発
・マイクロソフトはOpenAIと協力してAzure上に世界第5位となるスーパーコンピューターを構築
・世界で戦えるAIテックカンパニーを目指す、ヤフーとLINE経営統合の理由
・Microsoftがイーロン・マスクらのOpenAIに1000億円超を投資、Azueクラウドの人工知能化を目指す
・LINEがAI基盤「Clova」を発表、今夏にはスマートスピーカーも発売——さらに「Gatebox」も子会社化
カテゴリー:人工知能・AI
タグ:Elon Musk / イーロン・マスク(人物)、OpenAI、Microsoft / マイクロソフト(企業)、LINE(企業・サービス)
- Original:https://jp.techcrunch.com/2020/11/25/line-naver/
- Source:TechCrunch Japan
- Author:Takashi Higa