昨今、日本では、複数の企業が独自に日本語のLLM(大規模言語モデル)の開発に取り組んでいます。
しかし、2兆トークンものテキストで学習されたMeta Platforms, Inc.(以下、Meta)のLLM「Llama 2」などと比較すると、まだまだ小規模なものに留まっているのが現状です。
その背景には、計算リソースの不足や、日本語で利用できるテキストデータの少なさなどがあります。また、一からLLMの事前学習を行うには膨大なコストがかかるため、研究を行えているのは一部の大企業や研究機関のみとなっています。
そんななか東京大学松尾研究室発・AIスタートアップの株式会社ELYZA(以下、ELYZA)は、「Llama 2」に対し日本語による追加事前学習を行い、商用利用可能な70億パラメータの日本語LLM「ELYZA-japanese-Llama-2-7b」を開発し、一般公開しました。
英語ベースの大規模言語モデル「Llama 2」
「Llama 2」は、2023年7月18日にMetaが公開した英語ベースの大規模言語モデル。先に公開された「LLaMA」が研究用途に限定されていたのに対し、「Llama 2」は商用利用が可能です。
公開されているモデルとしては非常に性能が高いことから、OpenAIの「GPT-4」やGoogleの「PaLM」などのクローズドなLLMと競合する形で、英語圏ではすでにオープンモデルのデファクトスタンダードとなりつつあります。
サイズは70億、130億、700億の3種類。いずれのモデルも教師ありファインチューニング(Supervised Fine-Tuning、SFT)および、人間からのフィードバックに基づいた強化学習(Reinforcement Learning from Human Feedback、RLHF)を施したchatモデルを同時に公開しています。
商用利用可能な70億パラメータの日本語LLM
ELYZA独自の事後学習を施した「ELYZA-japanese-Llama-2-7b-instruct」や、日本語の語彙追加により高速化を行った「ELYZA-japanese-Llama-2-7b-fast-instruct」など、複数のバリエーションを用意しています。
同モデルは学習にOSCARやWikipediaなどに含まれる日本語テキストデータを活用。LLAMA 2 Community Licenseというライセンスに準拠しており、Acceptable Use Policyに従う限りは、研究および商業目的での利用が可能です。
実際にデモを使用してみた
今回の「ELYZA-japanese-Llama-2-7b」は「Llama 2」の最も小さいサイズである70億パラメータのモデルをベースに開発したものですが、ELYZAはすでに130億、700億パラメータのモデルの開発にも着手しているとのことです。今後、よりパワーアップしたモデルの公開に期待したいところです。
参考元:https://prtimes.jp/main/html/rd/p/000000034.000047565.html
「ELYZA-japanese-Llama-2-7b-instruct」デモ:https://huggingface.co/spaces/elyza/ELYZA-japanese-Llama-2-7b-instruct-demo
「ELYZA-japanese-Llama-2-7b-fast-instruct」デモ:https://huggingface.co/spaces/elyza/ELYZA-japanese-Llama-2-7b-fast-instruct-demo
(文・Haruka Isobe)
- Original:https://techable.jp/archives/218583
- Source:Techable(テッカブル) -海外・国内のネットベンチャー系ニュースサイト
- Author:はるか礒部