Stability AI は商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました。

Japanese Stable VLM

「Japanese Stable VLM」は、「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデル（Vision-Language Model、略してVLM)です。入力した画像に対して文字で説明を生成できる画像キャプショニング機能に加え、画像についてのユーザーの質問に回答することもできます。

研究目的に作られた最初のバージョン「Japanese InstructBLIP Alpha」とは、主に以下の2点の違いがあります。

商用利用可能* ライセンス
最新手法 LLaVA-1.5 のモデル構造・学習手法を適用
ベースとする言語モデルを「Japanese Stable LM Instruct Gamma 7B」にした、商用利用可能* ライセンス
新たに我々が独自開発した、出力キャプションで使ってほしい単語を入力することが可能な「タグ条件付きキャプショニング」機能に対応

*注：商用利用にあたって、一部の場合は、条件が適用されます。詳しくはライセンス（Hugging Face アカウントへのログインが必要です）をご参照ください

また、社内での評価では、最初のバージョン「Japanese InstructBLIP Alpha」と比べ、同等レベルの性能を達成しております。そして、非商用利用に限定されていた「Japanese InstructBLIP Alpha」と異なり、「Japanese Stable VLM」は商用利用可能なライセンスでの公開となります。

「Japanese Stable VLM」を用いることで、例えば、以下の例のように、チャット形式で画像について応答できるほか、動画のフレームを抜き取ることで、動画キャプショニングやリアルタイム動画の質問応答が可能です。

以下より、「Japanese Stable VLM」をお試しいただけます。

https://colab.research.google.com/github/Stability-AI/model-demo-notebooks/blob/main/japanese_stable_vlm.ipynb

学習データの取り扱いについて

Stability AI は、クリエイターが一般に公開されているコンテンツの取り扱いのコントロールの向上に努めています。

「Japanese Stable VLM」の学習データは、以下に該当するデータを除いたものを用いています。

クリエイターから要求があったオプトアウト
robot.txt や利用規約に基づく禁止データ

展望

Stability AI では、商用利用可能なモデルを積極的に研究開発・公開することで、日本のAIコミュニティのさらなる活性化に貢献してまいります。

Stability AI Japan株式会社について

Stability AI は、オープンな生成AIの企業であり、公共および民間のパートナーと協力して、次世代のインフラストラクチャを世界中の人々に提供しています。ロンドンに本社を置き、世界中に開発者を擁する Stability AI のオープン理念は、イメージング、言語、コード、オーディオ、ビデオ、3Dコンテンツ、デザイン、その他の科学研究における最先端の研究に新しい道を提供します。詳細については、https://ja.stability.ai をご参照ください。

そのほか最新情報は Stability AI Japan 公式 X (Twitter) をチェックしてみてください。また公式 Discord では開発者の皆様のご参加をお待ちしています。

商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました

最高性能の、日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースしました

公開より1週間(10月25日-10月31日)で13,000個以上の「夢の設計図」を生成！～「JAPAN MOBILITY SHOW 2023」でのStable Image API の活用～