リアルタイムテキスト画像生成モデル、SDXL Turboのご紹介
ポイント
SDXL Turboは、新しい蒸留技術によって最先端の性能を達成し、これまでにない品質のシングルステップ画像生成を可能にし、必要なステップ数を50から1に削減
非商用研究ライセンスでのリリース(Hugging Faceのモデルウェイトとコードをダウンロードしてください。)
Clipdrop にてベータ版を公開中
新しいテキスト画像合成モードである SDXL Turbo をご紹介します。SDXL Turbo は、敵対的拡散蒸留(Adversarial Diffusion Distillation:ADD)と呼ばれる新しい蒸留技術に基づいています。この技術により、SDXL Turbo は1つのステップで画像出力を合成し、高いサンプリング忠実度を維持しながらリアルタイムでテキストから画像への出力を生成することができます。技術的な詳細に興味のある研究者や愛好家のために、研究論文はこちらでご覧いただけます。SDXL Turboはまだ商用利用を目的としていないことにご留意ください。
敵対的拡散蒸留(Adversarial Diffusion Distillation:ADD)
SDXL Turbo は、SDXL 1.0 の基盤の上に、テキストから画像へのモデルのための新しい蒸留技術を実装しています: 敵対的拡散蒸留(Adversarial Diffusion Distillation)。ADD を組み込むことで、SDXL Turbo は GAN(Generative Adversarial Networks)に共通する多くの利点(シングルステップの画像出力など)を得ると同時に、他の蒸留手法でよく見られるアーチファクトやぼやけを回避することができます。SDXL Turbo の新しい蒸留技術の詳細については、こちらの研究論文をご覧ください。
他の拡散モデルと比較したパフォーマンス上の利点
SDXL Turbo のリリースまでには、複数の異なるモデル(StyleGAN-T++、OpenMUSE、IF-XL、SDXL、LCM-XL)を同じプロンプトで出力を生成して比較しました。続いて、人間の評価者はランダムに 2 つの出力を表示され、プロンプトの指示に最も近い出力を選ぶというタスクを与えられました。次に、画質についても同じ方法でテストを行いました。これらのブラインドテストでは、SDXL Turbo は LCM-XL の4ステップ構成に1ステップで勝り、SDXL の50ステップ構成にもわずか4ステップで上回ることができました。これらの結果から、SDXL Turbo は、画質を犠牲にすることなく、計算量を大幅に削減した最先端のマルチステップモデルを凌駕していることがわかります。
さらに、SDXL Turbo では推論速度が大幅に向上しています。A100 の場合、SDXL Turbo は512x512の画像を207ms で生成します(プロンプトエンコーディング+1回のノイズ除去ステップ+デコーディング、fp16)。
ClipdropでSDXL Turboを体験
この新モデルの機能を試すには、Stability AI の画像編集プラットフォーム、Clipdrop で SDXL Turbo のリアルタイム画像生成のベータデモをご覧ください。ほとんどのブラウザと互換性があり、現在無料でお試しいただけます。
商用利用について
このモデルを商用利用で使用したい場合は、こちらからお問い合わせください。