Stability AI、SDXL 0.9 をリリース:画像生成AI技術の飛躍的進歩
Stability AIはSDXL 0.9を発表します。SDXL 0.9は、これまでの(テキストから画像を生成するモデル)Stable Diffusionの中で最も高性能なものです。4月にリリースされ好評を博したStable Diffusion XLベータ版に続き、SDXL 0.9では画像と構図のディテールが大幅に改善されました。
このモデルはClipDropからアクセスでき、APIは近日公開予定です。7月中旬には1.0へのオープンリリースが予定されています。
SDXL 0.9は、標準的な家庭用コンピュータで実行できるにもかかわらず、生成AIの創造的な使用例を飛躍的に向上させます。映画、テレビ、音楽、教育ビデオ用の非常にリアルな作品を生成できるだけでなく、デザインや産業用途でも進化を遂げ、SDXLは生成AIにおいて最前線に位置しています。
例
SDXLベータ版(左)と0.9の両方でテストされたプロンプトの例は、このモデルがわずか2ヶ月でどれほど進歩したかを表しています。
プロンプト: A wolf in Yosemite National Park, chilly nature documentary film photography.
ネガティブプロンプト: 3d render, smooth, plastic, blurry, grainy, low-resolution, anime, deep-fried, oversaturated.
左 - SDXL Beta, 右 - SDXL 0.9
プロンプト: *~aesthetic~*~ manicured hand holding up a take-out coffee, pastel chilly dawn beach instagram film photography
ネガティブプロンプト: 3d render, smooth, plastic, blurry, grainy, low-resolution, anime
左 - SDXL Beta, 右 - SDXL 0.9
SDXLシリーズには、基本的なテキストプロンプトにとどまらないさまざまな機能があります。イメージ・トゥ・イメージ・プロンプト(1つのイメージを入力すると、そのイメージのバリエーションが表示)、インペインティング(イメージの欠けている部分を再構成)、アウトペインティング(既存のイメージをシームレスに拡張)などです。
詳細情報
SDXL 0.9のコンポジションが向上した主な要因は、ベータバージョンと比較して、パラメータ数(モデルがトレーニングされたニューラルネットワークのすべての重みとバイアスの合計)が大幅に増加したことにあります。
SDXL 0.9 は、3.5B のパラメータを持つ単一モデルと、5.8B のパラメータを持つ複数モデルによるアンサンブルパイプライン(出力は、2つのモデルの結果をアンサンブルすることで決まる)からなり、オープンソースモデルの中でも最大級のパラメータ数を持っています。パイプラインの第2ステージモデルは、第1ステージで生成された出力に、より細かいディテールを追加するために使用されます。
比較するために、上の画像結果ではベータ版は2.4Bのパラメータで動作し、第1ステージのモデルだけを使用しています。
SDXL 0.9は、これまで使用していた最大級のCLIPモデルの一つCLIP ViT-g/14を含む2つのCLIPモデルを用いることで、処理能力に加え、より奥行きのある・1024x1024の高解像度のリアルな画像を生成することが可能になっております。
このモデルの仕様とテストについてのより詳細なリサーチブログは、近日中にSDXLチームによって公開される予定です。
プロンプト: beautiful scenery nature glass bottle landscape, purple galaxy bottle (SDXL 0.9 - 1024x1024)
動作環境
SDXL 0.9は、強力な出力と高度なモデルアーキテクチャにもかかわらず、Windows 10または11、あるいはLinuxオペレーティングシステム、16GBのRAM、最低8GBのVRAMを搭載したNvidia GeForce RTX 20グラフィックカード(同等以上の規格)だけで、ごく標準的なPCで実行できます。Linuxユーザーは、16GBのVRAMを搭載した互換性のあるAMDカードを使用することもできます。
ベータ版ローンチ統計
4月13日にSDXLのベータ版をリリースして以来、7,000人近くのユーザーからなるDiscordコミュニティから大きな反響をいただいています。これらのユーザーが作成した画像は70万枚を超え、1日平均20,000枚以上です。54,000枚以上の画像がDiscordコミュニティのShowdownsにエントリーされ、3,521枚のSDXL画像が優勝候補にノミネートされました。
SDXL 0.9はClipdrop by Stability AIで利用可能です。Stability AI API をご利用のお客様向けには間もなく提供される予定です、また、Stability AIのプレミアム画像処理アプリケーションDreamStudioや、NightCafeのような他の主要な画像生成ツールにも搭載される予定です。
SDXL 0.9は、一般的なオープンソースリリースに先立ち、フィードバックを収集し、モデルを改良するために、限られた期間に研究目的で選ばれた研究者の皆様に提供されます。SDXLを実行するコードはgithubで公開されます。
こちらのモデルをご希望の研究者の方は、以下のリンクからお申し込みください: SDXL-0.9-Base model、SDXL-0.9-Refiner
HuggingFaceアカウントにログインしてください。現在、SDXL 0.9は研究目的にのみ使用されています。
今後の予定
SDXL 0.9のリリースに続き、SDXL 1.0のオープンソースリリースは7月中旬を予定しています(時期は未定)。
ライセンス
SDXL0.9は非商用、研究専用ライセンスでリリースされており、その使用条件に従うものとします。
お問い合わせ
SDXL 0.9に関する詳細やフィードバックについては、research@stability.ai へお願いします。
Stability AI Japan公式Twitterではその他、最新情報を配信中です。よろしければフォローをお願いします。