Stability AI Japan は日本語向け大規模言語モデル「Japanese Stable LM 3B-4E1T」及び「Japanese Stable LM Gamma 7B」を公開しました。前者は約30億パラメータ、後者は約70億パラメータのモデルであり、日本語タスクを用いた性能評価において、同等サイズのモデルで最高水準の性能を発揮しています。モデルはすべて商用利用可能な Apache 2.0 ライセンスにて公開しています。

今回公開したモデルは以下の通りです。

30億パラメータの汎用言語モデル: Japanese Stable LM 3B-4E1T Base
30億パラメータの指示応答言語モデル: Japanese Stable LM 3B-4E1T Instruct
70億パラメータの汎用言語モデル Japanese Stable LM Base Gamma 7B
70億パラメータの指示応答言語モデル Japanese Stable LM Instruct Gamma 7B

継続事前学習による日本語大規模言語モデルの構築

2023年8月に公開した「Japanese Stable LM Alpha」シリーズとは異なり、今回のモデルは英語モデルとして制作・公開された大規模言語モデル「Stable LM 3B-4E1T」「Mistral-7B-v0.1」を元にしています。

これらのモデルは、事前学習において英語のデータが主に用いられているため、英語の能力が非常に高く、また様々な知識をすでに獲得していましたが学習データに日本語のデータがほとんど含まれていないため、日本語の能力は低い状態でした。そこで、これらのモデルに対し、日本語を主としたデータを用いて更に事前学習を行うことで、日本語の能力を追加しています。これは継続事前学習 (Continued Pretraining) と呼ばれるアプローチです。

継続事前学習は Wikipedia, mC4, CC-100, OSCAR, SlimPajama（Books3を除く）等の日本語と英語データを利用し、のべ約1000億トークンで行われました。

Japanese Stable LM 3B-4E1T

「Stable LM 3B-4E1T」は Stability AI が2023年10月に公開した英語の言語モデルです。30億パラメータの比較的小規模な言語モデルですが、のべ4兆トークンというとても多い量のデータで学習が行われていることが特徴で、70億パラメータ級のモデルに匹敵する高い性能を持つことで話題となりました。

「Japanese Stable LM 3B-4E1T Base」はこのStable LM 3B-4E1Tに継続事前学習を行い、日本語の能力を追加した汎用言語モデルです。後述の通り、30億パラメータしか持たない比較的小規模なモデルであるにも関わらず、日本語タスクを用いた性能評価において高い性能を発揮しています。例えば、2023年8月に公開した70億パラメータの「Japanese Stable LM Alpha」を上回る性能を発揮しています。

「Japanese Stable LM 3B-4E1T Instruct」は、その Base モデルに Supervised Fine-Tuning (SFT) を施し、ユーザーの指示に受け答えできるようにした指示応答言語モデルです。SFT には Databricks Dolly-15k, Anthropic HH などの公開データセットを利用しました。

Japanese Stable LM Gamma 7B

「Mistral-7B-v0.1」は Mistral AI が2023年9月に公開した英語の言語モデルです。70億パラメータの言語モデルですが、Sliding Window Attention 等の先進的な機構を利用しており、英語において驚異的な性能を発揮しています。例えば、英語タスクでの性能評価において、130億パラメータを持つLlama-2 13Bを全項目で上回り、注目を集めました。

「Japanese Stable LM Base Gamma 7B」はこの Mistral-7B-v0.1 に継続事前学習を施した日本語の汎用言語モデルです。Stable LM 3B-4E1T の場合と同じように、元のモデルの高い能力を日本語に転移することに成功しています。また、「Japanese Stable LM Instruct Gamma 7B」は、Japanese Stable LM 3B-4E1T Instruct と同じように、Base モデルに SFT を適用し、よりユーザーの指示に受け答えできるようにした指示応答言語モデルです。

性能評価

モデルの性能の評価には、2023年8月に「Japanese Stable LM Alpha」をリリースした際と全く同じ方法を用いました。日本語言語理解ベンチマーク(JGLUE)のタスクを中心として、文章分類、文ペア分類、質問応答、文章要約などの合計8タスクで評価を行いました。

以下は汎用言語モデルの比較です。Japanese Stable LM 3B-4E1T は、30億パラメータしか持たないにも関わらず、70億パラメータ持つ Japanese Stable LM Base Alpha 7B を上回る性能を発揮しています。そして、Japanese Stable LM Gamma 7B は更に高いスコアを達成しています。

また、以下は指示応答言語モデルの比較です。SFT により更に性能が引き出されていることが確認できます。

評価方法の改善についても現在取り組んでおり、より優れた方法を用いた評価の結果を近々公開する予定です。

使用方法

モデルは Hugging Face Hub において Hugging Face Transformers に準拠する形式で公開しています。Hugging Face Transformers の他のモデルと同様に推論や追加学習をお試しいただけます。詳しくは、Hugging Face Hub のページをご覧ください。

すべて商用利用可能な Apache License 2.0 での公開となります。また、今後は様々なAPIやクラウドサービスへの搭載も計画しています。

Stability AI Japan 公式 X では随時最新情報を公開しています。ぜひフォローしてみてください。また、言語モデルだけでなく、画像や音楽生成モデルを使った開発にご興味のある方はぜひDiscord コミュニティにもご参加ください。

日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました

継続事前学習による日本語大規模言語モデルの構築

Stability AI が英国政府のAI 安全サミットに参加します

Stable Audio が TIME の Best Inventions of 2023 に選出されました