Stability AI は商用利用可能な日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースしました。モデル単体では、ゼロショット画像分類（事前にクラス情報を学習せずに画像分類）や任意のテキストから画像を検索する画像検索などに用いることができます。また、他のモデルと組み合わせることで、text-to-image や image-to-text といった生成タスクに拡張することが可能です。

Japanese Stable CLIP

「Japanese Stable CLIP」は、日本らしい画像や日本語に特化した画像言語特徴抽出モデルです。学習には、最新手法である SigLIP の手法を用いており、オープンソースになっている日本語対応CLIPモデルの中で、最も高いスコアを達成しています。

Model	ImageNet top-1 accuracy
(Ours) Japanese Stable CLIP ViT-L/16	62.06
--------------------------------------------------------------	------------------------:
rinna/japanese-cloob-vit-b-16	54.64
--------------------------------------------------------------	------------------------:
laion/CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s138b-b90k	53
--------------------------------------------------------------	------------------------:
rinna/japanese-clip-vit-b-16	50.69

*注：評価には、https://github.com/rinnakk/japanese-clip を使用

「Japanese Stable CLIP」を用いることで、任意の日本語テキストから画像を検索する画像検索やその逆であるテキスト検索が可能です。また、「Japanese Stable CLIP」をモデルの一部として利用することで、日本語テキストと画像を考慮した日本語に特化したマルチモーダルタスクへの拡張が可能となります。

以下より、「Japanese Stable CLIP」を用いた一例として、入力画像から職業を判断するテキスト分類をお試しいただけます。

https://colab.research.google.com/github/Stability-AI/model-demo-notebooks/blob/main/japanese_stable_clip.ipynb

学習データの取り扱いについて

Stability AI は、公開されているコンテンツの取り扱いに対するクリエイターのコントロールの向上に努めています。

「Japanese Stable CLIP」の学習データは、以下に該当するデータを除いたものを用いています。

クリエイターから要求があったオプトアウト
robots.txt や利用規約に基づいて禁止されたデータ

展望

Stability AI では、複数モダリティのモデルを積極的に研究開発・公開することで、日本の AI コミュニティのさらなる活性化に貢献していく予定です。

Stability AI Japan株式会社について

Stability AI は、オープンな生成AIの企業であり、公共および民間のパートナーと協力して、次世代のインフラストラクチャを世界中の人々に提供しています。ロンドンに本社を置き、世界中に開発者を擁する Stability AI のオープン理念は、イメージング、言語、コード、オーディオ、ビデオ、3Dコンテンツ、デザイン、その他の科学研究における最先端の研究に新しい道を提供します。詳細については、https://ja.stability.ai をご参照ください。

最高性能の、日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースしました

日本特化の商用利用可能 text-to-image モデル「Japanese Stable Diffusion XL」をリリースしました

商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました