Stability AI は、同社のマルチモーダルAI リサーチラボ DeepFloyd と共に、強力なテキストから画像へのカスケード型ピクセルdiffusion モデルである DeepFloyd IF のリサーチリリースを発表しました。

DeepFloyd IFは、非商用で研究が許されるライセンスでリリースされた最先端のテキスト画像生成モデルであり、研究室が高度なテキスト画像生成アプローチを検討・実験する機会を提供します。他のStability AI モデルと同様に、Stability AI は、将来的に DeepFloyd IF モデルを完全にオープンソースでリリースする予定です。

概要と特徴

テキストプロンプトの深い理解:
生成パイプラインでは、大規模な言語モデル T5-XXL-1.1をテキストエンコーダーとして使用します。また、テキストと画像のクロスアテンションレイヤーを大幅に増やすことで、プロンプトと画像の連携が向上しています。
テキスト説明を画像に適用:
T5モデルのインテリジェンスを取り入れたDeepFloyd IFは、様々な空間関係に現れる異なる性質のオブジェクトと共に、首尾一貫した明確なテキストを生成します。これまで、これらのユースケースは、ほとんどのテキストから画像へのモデルにとって困難なものでした。
高度なフォトリアリズムを実現:
この特性は COCOデータセットにおける、ゼロショットFIDスコア6.66という印象的な数値に表れています。(FIDはテキストから画像への変換モデルの性能を評価するための主要な指標で、スコアが低いほど優れている）
アスペクト比の変更:
標準的な正方形のアスペクトだけでなく、縦や横などの非標準的なアスペクト比の画像を生成する機能もあります。
ゼロショットでの画像変換:
画像の修正は、（1）オリジナル画像を64ピクセルにリサイズ、（2）forward diffusion を通してノイズを追加、（3）新しいプロンプトで backward diffusionを使用して画像をノイズ除去する（インペインティングモードでは、この処理は画像のローカルゾーンで起こる）ことにより行われます。超解像モジュールでは、プロンプトのテキスト記述により、スタイルをさらに変更することができます。このアプローチでは、ソース画像の基本的な形を維持しながら、出力のスタイル、パターン、ディテールを変更する機会を提供し、微調整を必要としません。

プロンプト例

DeepFloyd IFは、テキスト、スタイル、空間関係をユーザーのニーズに合わせてアレンジするプロンプトを使用して、さまざまな融合コンセプトを作成できます。

定義とプロセス

DeepFloyd IFは、モジュール化、カスケード化された、ピクセルdiffusion モデルです。ここでは、それぞれの記述子の定義を分解して説明します。

Modular:
DeepFloyd IFは、複数のニューラルモジュール（テキストプロンプトからの画像生成やアップスケーリングなど、独立したタスクを解決できるニューラルネットワーク）で構成されており、1つのアーキテクチャでの相互作用により相乗効果が生まれます。
Cascaded:
DeepFloyd IFは、異なる解像度で個別にトレーニングされた一連のモデルを使用して、カスケード方式で高解像度データをモデル化しています。このプロセスは、ユニークな低解像度サンプル（「プレーヤー」）を生成するベースモデルから始まり、連続する超解像度モデル（「アンプリファイア」）によってアップサンプリングされて、高解像度画像が生成されます。
Diffusion:
DeepFloyd IFの基本モデルと超解像モデルは、。マルコフ連鎖を利用してデータにランダムなノイズを注入した後、プロセスを逆にしてノイズから新しいデータサンプルを生成するモデルです。
Pixel:
DeepFloyd IFは、ピクセル空間で動作する。diffusion はピクセルレベルで実装される。潜在的な表現が使われるdiffusion モデル（Stable Diffusion のような）とは異なります。

この世代フローチャートは、3段階の演出を表現しています。

テキストプロンプトは、凍結されたT5-XXL言語モデルを通過して、意味的なテキスト表現に変換されます。
**Stage 1:** ベースとなるdiffusion モデルが、質的なテキストを 64x64 の画像に変換する。このプロセスは、レコードの溝が音楽に変わるのを目撃するような魔法のようなものです。DeepFloydチームは、ベースモデルの3つのバージョンを、それぞれ異なるパラメータでトレーニングしました：IF-I 400M、IF-I 900M、IF-I 4.3Bです。
**Stage 2:** 画像を「増幅」するために、2つのテキスト条件付き超解像モデル（Efficient U-Net）をベースモデルの出力に適用します。そのうちの1つは、64x64の画像を256x256の画像にアップスケーリングするものです。ここでも、このモデルにはいくつかのバージョンが用意されている：IF-II 400M と IF-II 1.2B です。
**Stage 3:** 2番目の超解像diffusion モデルが適用され、鮮やかな1024x1024画像が生成されます。最終的な第3ステージのモデルIF-IIIは700Mのパラメータを持っています。注：この第3ステージのモデルはまだリリースしていません。しかし、IFモデルのモジュラー特性により、他のアップスケールモデル（例えば、「IF-III」）を使用することができます。 Stable Diffusion x4 アップスケーラー- を第3ステージで行います。

データセットトレーニング

DeepFloyd IFは、1B（画像、テキスト）ペアを含むカスタム高品質LAION-Aデータセットで学習されました。LAION-Aは、英語部分の審美的なサブセットで、 LAION-5B データセットで、類似ハッシュに基づく重複排除、余分なクリーニング、および元のデータセットに対するその他の修正後に得られたものです。DeepFloydのカスタムフィルターを使用して、透かし、NSFW、その他の不適切なコンテンツを除去しました。

ライセンス

新しいモデルとして、DeepFloyd IFを最初は研究用ライセンスでリリースしています。フィードバックを取り入れ、寛容なライセンスリリースに移行する予定です。フィードバックは deepfloyd@stability.ai. までお送りください。DeepFloyd IFの研究は、アート、デザイン、ストーリーテリング、バーチャルリアリティ、アクセシビリティなど、様々な領域で新しいアプリケーションの開発につながると考えています。この最先端のテキストから画像へのモデルの可能性を最大限に引き出すことで、研究者は幅広いユーザーや業界に利益をもたらす革新的なソリューションを生み出すことができるのです。

研究のインスピレーションとして、技術的、学術的、倫理的な3つのグループに分けて、いくつかの質問を提示しています。

1. 技術的なリサーチクエスチョン:

a) IFモデルの性能、拡張性、効率を高めることができる潜在的な改善点を特定することによって、ユーザーはどのようにIFモデルを最適化できますか？

b) サンプリングやガイドの改善、あるいはDeepFloyd IFモードの微調整によって、どのように出力品質を向上させることができますか？

c) DreamBooth、ControlNet、LoRAなど、Stable Diffusion の出力を変更するために使用される特定の技術を、ユーザーは DeepFloyd IF でどのように適用できますか？

2. 学術的なリサーチクエスチョン:

a) 転移学習における事前学習の役割を探る：DeepFloyd IFは、ファインチューニング（またはControlNet）を用いることで、生成的なタスク以外のタスク（例えば、セマンティックセグメンテーション）を解決できますか？

b) 画像生成に関するモデルの制御を強化する：研究者は、生成された画像に対してより大きな制御を提供する方法を模索できますか？このような変数には、カスタマイズされた画像スタイル、テーラード画像合成、その他のユーザーの好みなど、特定の視覚属性が含まれます。

c) テキストから画像への合成にとどまらず、モデルの能力を拡張するためのマルチモダルの統合を探求する：音声や映像などの複数のモダリティをDeepFloyd IFと統合し、よりダイナミックで文脈を考慮した視覚表現を生成するには、どのような方法がありますか？

d) モデルの解釈可能性を評価する：DeepFloyd IFの内部プロセスをより明確に理解するために、研究者は、生成された画像の視覚的特徴をより深く理解できるようにするなど、モデルの解釈可能性を向上させる技術を開発することができます。

3. 倫理的なリサーチクエスチョン:

a) DeepFloyd IF のバイアスとは何か、そしてその影響を軽減する方法は？他のAI モデルと同様に、DeepFloyd IF には、そのトレーニングデータに起因するバイアスが含まれている可能性があります。研究者は、生成された画像に潜在するバイアスを探り、その影響を軽減する方法を開発し、AI-生成されたコンテンツの公正さと公平性を確保することができます。

b) このモデルがソーシャルメディアやコンテンツ生成に与える影響とは？DeepFloyd IFはテキストから高品質の画像を生成できるため、ソーシャルメディアのコンテンツ作成への影響を理解することが極めて重要です。研究者は、生成された画像が、ユーザーエンゲージメント、誤報、ソーシャルメディアプラットフォーム上のコンテンツ全体の品質にどのような影響を与えるかを研究することができます

c) 研究者は、我々のモデルを活用した効果的な偽画像検出器をどのように開発できるでしょうか？研究者は、誤報やフェイクニュースを広めることを意図したAI-生成されたコンテンツを識別するために、DeepFloyd iF-backed detection systemを設計することができますか？

ウェイトへのアクセスは、Deep FloydのHugging Faceスペースにて、モデルのカードに記載されたライセンスを受諾することで可能となります: https://huggingface.co/DeepFloyd.

もっと知りたい方は、モデルのホームページをご覧ください: https://deepfloyd.ai/deepfloyd-if.

モデルカードとコードはこちらで公開しています: https://github.com/deep-floyd/IF.

グラディオのデモはどなたでも体験できます: https://huggingface.co/spaces/DeepFloyd/IF.

Jパブリックディスカッションに参加してみませんか: https://linktr.ee/deepfloyd

皆様のご意見をお待ちしております！DeepFloyd IFに関するご意見・ご感想は、下記までお寄せくださいdeepfloyd@stability.ai

Stability AI、画像にテキストを組み込める強力なテキストトゥイメージモデル「DeepFloyd IF」をリリース

Stability AI、初のオープンソースRLHF LLMチャットボット、StableVicuna をリリース

Stability AI、画像アップスケーリングAPIをリリース