日本特化の商用利用可能 text-to-image モデル「Japanese Stable Diffusion XL」をリリースしました

Stability AI は日本に特化した text-to-image モデル「Japanese Stable Diffusion XL(JSDXL)」をリリースしました。商用利用可能な「JSDXL」は、日本語入力の対応に加え、日本スタイルや日本を題材とした画像を生成することができます。

Japanese Stable Diffusion XL

Japanese Stable Diffusion XL(JSDXL)」は、最新の英語版 text-to-image モデルSDXLに対して、日本語入力はもちろん、日本の文化やものが理解・反映された画像生成に特化させた日本向け text-to-image モデルです。

昨今、SDXL を含む強力な text-to-image モデルが公開されております。これらと翻訳ツールを組み合わせることで日本語入力は可能ですが、日本特有の表現の認識が難しい点や開発コストがかかる点、モデルが認識できるテキスト最大文字数の制限などの課題があります。また、英語プロンプトをそのまま「呪文」として扱い画像生成することも可能ですが、大規模に学習されたモデルは西洋系の画像生成が得意であり日本スタイルの画像生成がまだまだ物足りないのが現実です。

「JSDXL」は、Stable Diffusion の中で最高性能である SDXL の汎用性と高解像度の画像生成能力をできる限り維持したまま、以下の点を可能にした日本特化モデルです。

  • 日本語をモデルが直接扱うことができ、日本語特有の表現を認識可能

  • 日本の広範囲な文化やアート、伝統的なものから現代的なものまで含め、それらを反映した高解像度で質の高い画像を作成することが可能

また、SDXL にはテキストエンコーダーが2つありますが、「JSDXL」には1つのみであるため、SDXL と比べ、より効率的な推論が可能になります。

“男子高校生のプロフィール写真”(左: DALLE-3, 中央: 翻訳+SDXL, 右: JSDXL)

“海岸沿いを走るライダー”(左: DALLE-3, 中央: 翻訳+SDXL, 右: JSDXL)

「JSDXL」の使用例としては、日本市場向けのプロダクトデザイン、建築・インテリアデザイン、プロモーション資料・広告の制作、ゲーム・メタバース・映画制作においてのアイデア出しなどが考えられます。 また、「JSDXL」をさらに任意のドメインの画像にチューニングすることで、よりユーザーのニーズに即した画像生成が可能になります。

以下より、JSDXL をお試しいただけます。

学習データの取り扱いについて

Stability AI は、公開されているコンテンツの取り扱いに対するクリエイターのコントロールの向上に努めています。

「JSDXL」の学習データは、以下に該当するデータを除いたものを用いています。

  • クリエイターから要求があったオプトアウト

  • robots.txt や利用規約に基づいて禁止されたデータ

展望

Stability AI では、複数モダリティのモデルを積極的に研究開発・公開することで、日本の AI コミュニティのさらなる活性化に貢献していく予定です。

Stability AI Japan株式会社について


Stability AI は、オープンな生成AIの企業であり、公共および民間のパートナーと協力して、次世代のインフラストラクチャを世界中の人々に提供しています。ロンドンに本社を置き、世界中に開発者を擁する Stability AI のオープン理念は、画像、言語、コード、オーディオ、ビデオ、3Dコンテンツ、デザイン、バイオテクノロジー、その他の科学研究における最先端の研究に新しい道を提供します。詳細については、https://ja.stability.ai をご参照ください。

Previous
Previous

Stable Video Diffusion のご紹介

Next
Next

最高性能の、日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースしました