Stable Zero123 のご紹介: 単一画像からの高品質3Dオブジェクト生成

ポイント

  • Stable Zero123は、トレーニングデータセットと立面コンディショニングの改善により、Zero1-to-3やZero123-XLよりも著しく品質が向上し、様々な角度から物体の外観を3Dで理解し、物体の新しいビューを生成します。

  • このモデルは、Stable Diffusion 1.5に基づいており、1つのノベルビューを生成するためにSD1.5と同じ量のVRAMを消費します。3Dオブジェクトを生成するためにStable Zero123を使用するには、より多くの時間とメモリが必要です(24GBのVRAMを推奨)。

  • このモデルは非商用および研究用に公開されており、ウェイトはこちらからダウンロードできます。

Stable Diffusion のような画像生成AIモデルは、表現力豊かでクリエイティブな作品を創作するための、より身近な方法を提供することで、2D コンテンツ制作に革命をもたらしました。これらのモデルは、性能と精度の両方において急速なペースで改善され続け、現在では 3D オブジェクトの作成における急速な進歩をますます可能にしています。代表的な例は、Stable Diffusion 1.5 を使用して、3Dオブジェクトのさまざまな角度を予測する能力を初めて実証したZero1-to-3が達成したブレークスルーです。Zero123-XLのような新しいモデルは、およそ1,000万個のオブジェクトのトレーニングにより、より質の高い予測を行うことができるようになりました。しかし、このモデルはまだアーチファクト(時々変形したり非現実的な予測)に悩まされています。

Stable Zero123 は、ビューコンディション画像生成のための社内学習済みモデルです。こちらは、従来の最先端である Zero123-XL と比較して、より改善された結果を生み出します。これは、3つの重要な革新によって達成されました:

  1. 高品質の3Dオブジェクトのみを保存するために、Objaverse から厳重にフィルタリングされた改善されたトレーニングデータセット。

  2. 学習と推論の間、モデルは推定されたカメラアングルを提供します。この仰角の調整により、より情報に基づいた質の高い予測が可能になります。

  3. 事前に計算されたデータセット(事前に計算された潜在能力)と、より大きなバッチサイズをサポートする改良されたデータローダー、1つ目のイノベーションと組み合わせることで、Zero123-XLと比較して学習効率が40倍高速化しました。

このモデルは現在、研究者や非商用ユーザーがダウンロードして実験できるように、Hugging Face で公開されています。3Dソリューションを商用製品や用途に使用したい場合は、こちらからお問い合わせください。

異なるカメラアングルから。右上のサンプル入力画像から、Stable Zero123 (Stability AI)とZero123-XLの予測を異なるビューで比較。

Stable Zero123 を使った3Dオブジェクトの作成

3Dオブジェクト生成のオープンな研究を可能にするため、threestudio のオープンソースコードを改良し、Zero123とStable Zero123をサポートしました。これは、現在プライベートプレビュー中のStable 3Dプロセスの簡易版です。技術的な用語では、これはスコア蒸留サンプリング(SDS)を使用して、Stable Zero123モデルを使用してNeRFを最適化します。このプロセスは、最初にSDXLを使用して1つのイメージを生成し、次にStable Zero123を使用して3Dオブジェクトを生成することで、テキストから3Dへの生成に適応できます。

非商用利用

このモデルは、研究目的にのみリリースされ、商業的な使用を意図したものではありません。

3Dソリューションを商用製品や用途に使用したい場合は、こちらからお問い合わせください。

Previous
Previous

Stability AI メンバーシップのご紹介

Next
Next

ビハインド・ザ・コンピュート: 新しい AI スーパーコンピューターの構築