日本語言語モデル「Japanese StableLM Alpha」をリリースしました

Stability AI Japan は70億パラメータの日本語向け汎用言語モデル「Japanese StableLM Base Alpha 7B」及び、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を一般公開しました(略して「JSLM」)。これらのモデル はベンチマークスイート「lm-evaluation-harness」による複数の日本語タスクを用いた性能評価において、一般公開されている日本語向けモデルで最高の性能を発揮しています。

汎用言語モデル「Japanese StableLM Base Alpha 7B」

Japanese StableLM Base Alpha 7B」はウェブを中心とした大規模なデータを用いてテキスト生成を学習したモデルです。学習データは主に日本語と英語で、それに加えソースコードが約2%含まれています。学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。

学習には EleutherAI の GPT-NeoX を発展させたソフトウェアを利用しています。例えば、モデルのアーキテクチャには、SwiGLUxpos 等の新しい技術が取り込まれています。学習はのべ7500億トークンで行われました。

指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」

Japanese StableLM Instruct Alpha 7B」は上で説明した汎用言語モデルに対し追加学習を行い、ユーザーの指示に受け答えできるようにしたモデルです。追加学習には Supervised Fine-tuning (SFT) を採用しており、複数のオープンデータセットを利用しました。後ほど説明しますが、SFTにより、lm-evaluation-harness による性能評価のスコアも大きく向上しています。

性能評価

モデルの性能の評価には、EleutherAIlm-evaluation-harness に Stability AI Japan が中心となり日本語のタスクを追加したものを利用しました。日本語言語理解ベンチマーク(JGLUE)のタスクを中心として、文章分類、文ペア分類、質問応答、文章要約などの合計8タスクで評価を行いました。

Open LLM Leaderboard 等での慣習に基づき、8タスクでのスコアの平均値を各モデルの総合評価として計算しています。Japanese StableLM Instruct Alpha 7B のスコアは54.71であり、他のモデルを大きく引き離しています。また、Japanese StableLM Base Alpha 7B に関しても、 SFT や RLHF がまだ適用されていない汎用モデルの段階であるにも関わらず、すでにかなり良いスコアを達成していることが分かります。各タスクでのスコアなど、詳細情報はこちらをご覧ください。

一方で、このようなベンチマークスイートでの評価は、LLM のごく一部の能力を測っているに過ぎません。Stability AI Japan では、より現実的な場面を想定した評価も進行しています。



使用方法

モデルは Hugging Face Hub において Hugging Face Transformers に準拠する形式で公開しています。Hugging Face Transformers の他のモデルと同様に推論や追加学習をお試しいただけます。詳しくは、Hugging Face Hub のページをご覧ください。

Japanese StableLM Base Alpha 7Bは商用利用可能なApache License 2.0での公開となります。Japanese StableLM Instruct Alpha 7Bは研究目的で作成されたモデルであり、研究目的での利用に限定した公開となります。詳細は Hugging Face Hub のページをご確認ください。

展望

Japanese StableLM Alpha シリーズは、Stability AI Japan が発表する最初の生成基盤モデルです。Stability AI Japan では、今後もこのような日本向けの生成基盤モデルを構築し公開していく予定です。


Stability AI Japan 株式会社について

Stability AI は、オープンな生成AIの企業であり、公共および民間のパートナーと協力して、次世代のインフラストラクチャを世界中の人々に提供しています。ロンドンに本社を置き、世界中に開発者を擁する Stability AI のオープン理念は、イメージング、言語、コード、オーディオ、ビデオ、3Dコンテンツ、デザイン、バイオテクノロジー、その他の科学研究における最先端の研究に新しい道を提供します。詳細については、https://ja.stability.ai をご参照ください。



Previous
Previous

日本語画像言語モデル「Japanese InstructBLIP Alpha」をリリースしました

Next
Next

SDXL 1.0 をリリースしました