Stable Cascade のご紹介
ポイント
Stable Cascadeは、Würstchen アーキテクチャをベースにした新しいテキスト画像変換モデルです。このモデルは、非商用利用のみを許可する非商用ライセンスの下でリリースされます。
Stable Cascadeは、3段階のアプローチにより、一般消費者向けハードウェアでのトレーニングと微調整が簡単にできます。
チェックポイントと推論スクリプトを提供するだけでなく、皆さんがこの新しいアーキテクチャをさらに試せるように、微調整、ControlNet、LoRAトレーニング用のスクリプトを Stability AI の GitHub で公開しています。
はじめに
Stable Cascade の研究プレビューが公開されました。この革新的なテキストから画像へのモデルは、品質、柔軟性、微調整、および効率性のための新しいベンチマークを設定し、ハードウェアのバリアをさらに排除することに重点を置いた、興味深い3段階のアプローチを導入しています。Stability AI のGitHubページにあるトレーニングコードと推論コードを公開します。さらにモデルは、diffusers ライブラリ で推論が可能です。
技術的詳細
Stable Cascade は、3つの異なるモデル (Stage A、B、C)からなるパイプラインで構築されているため、Stable Diffusion モデルのラインナップと比べて特徴的です。このアーキテクチャにより、画像の階層的な圧縮が可能になり、高度に圧縮された潜在空間を利用しながら、優れた結果を得ることができます。各ステージがどのように組み合わされているかを理解するために、それぞれのステージを見てみましょう。
レイテントジェネレーターフェーズ(ステージC)は、ユーザー入力を24x24のコンパクトな潜在空間に変換します。これは、Stable DiffusionにおけるVAEの仕事と同様、画像の圧縮に使用されるレイテントデコーダーフェーズ(ステージAおよびB)に渡されますが、はるかに高い圧縮率を達成します。
テキスト条件生成(ステージC)を高解像度ピクセル空間(ステージA&B)へのデコードから切り離すことで、ControlNets や LoRA を含む追加学習や微調整をステージCだけで完結させることができます。ステージAとステージBは、オプションで追加制御のための微調整が可能ですが、これは Stable Diffusion モデルの VAE を微調整することに匹敵します。ほとんどの用途では、これは最小限の追加利益しかもたらさないので、単にステージCをトレーニングし、ステージAとBを元の状態で使用することをおすすめします。
ステージCとBは、2つの異なるモデルでリリースされます。 ステージCには1Bと3.6Bのパラメータ、ステージBには700Mと1.5Bのパラメータを使用します。しかし、ハードウェアの必要性を最小限に抑えたい場合は、1Bパラメーター・バージョンを使用することもできます。Stage B では、どちらも素晴らしい結果が得られますが、15億の方が細かいディテールの再構築に優れています。Stable Cascade のモジュラーアプローチのおかげで、推論に必要な予想VRAM容量は約20GBに抑えることができますが、より小さなバリエーションを使用することでさらに少なくすることができます(前述のように、これは最終的な出力品質を低下させる可能性があります)。
比較
私たちの評価では、Stable Cascade がプロンプトのアライメントと美的品質の両方において、ほぼすべてのモデル比較で最も優れていることがわかりました。図は、parti-prompts と esthetic prompts をミックスしたものを使用した人間による評価の結果です。
追加機能
Stable Cascade は、標準的なテキストから画像への生成に加え、画像バリエーションや画像から画像への生成を行うことができます。
画像バリエーションは、CLIP を使用して与えられた画像から画像埋め込みを抽出し、これをモデルに戻すことで機能します。以下に出力例を示します。左の画像はオリジナルで、その右の4つは生成されたバリエーションです。
Image-to-imageは、与えられた画像にノイズを加え、これを生成の出発点として使用することで動作します。以下は左の画像にノイズを加え、そこから生成を行う例です。
トレーニング、微調整、ControlNet、LoRAのコード
Stable Cascade のリリースに伴い、トレーニング、ファインチューニング、ControlNet、LoRA のすべてのコードを公開します。
以下は、私たちがモデルとともにリリースする予定のControlNetの一部です。
インペインティング/アウトペインティング: テキストプロンプトに付随するマスクと対になった画像を入力します。このモデルは、提供されたテキストプロンプトに従って、画像のマスクされた部分を塗りつぶします。
キャニーエッジ:モデルに入力された既存の画像のエッジをたどって新しい画像を生成します。このテストでは、スケッチを元に展開することもできます。
2倍超解像: ステージCで生成された潜在空間にも使用できます。
これらの詳細は、学習と推論コードを含むStability AI の GitHubページでご覧いただけます。
このモデルは現在商用利用はできませんが、他の画像モデルを商用利用したい場合は、Stability AIメンバーシップページをご覧ください。