Stable Video 4D : ダイナミックなマルチアングル映像生成のための最新AIモデル
ポイント
Stable Video 4Dは、1つのオブジェクトビデオを、8つの異なるアングル/ビュー の複数のノベルビュービデオに変換します。
Stable Video 4Dは、1回の推論で、8つのビューにわたる5フレームを約40秒で生成します。
ユーザーはカメラアングルを指定でき、特定のクリエイティブなニーズに合わせて出力を調整することができます。
このモデルは現在研究段階にあり、将来的にはゲーム開発、ビデオ編集、バーチャルリアリティに応用され、継続的な改良が期待されています。現在、 Hugging Face で利用可能です。
Stable Video 4Dは、1つのビデオをアップロードするだけで、8つの新しいアングル/ビューのダイナミックなノベルビュービデオを受け取ることができる革新的なモデルで、新たなレベルの多様性と創造性を提供します。
画像を動画に変換する Stable Video Diffusion モデルを基盤として、Stable Video 4D モデルは動画を入力として受け取り、異なる視点から複数の新しい視点の動画を生成します。この進歩は、画像ベースの動画生成から完全な3Dダイナミック動画合成へと移行する、私たちの能力における飛躍的な進歩を表しています。
仕組み
ユーザーはまず1つの動画をアップロードし、希望する3Dカメラのポーズを指定します。その後、Stable Video 4Dは指定されたカメラの視点に従って8つの新しい視点の動画を生成し、被写体の包括的な多角的視点を提供します。生成された動画は、その後、動画内の被写体のダイナミックな3D表現を効率的に最適化するために使用することができます。
現在、Stable Video 4D は8つの視点にわたって5フレームの動画を約40秒で生成することができ、全体の4D最適化には約20〜25分かかります。私たちのチームは、ゲーム開発、ビデオ編集、バーチャルリアリティなどの分野での将来の応用を想定しています。これらの分野の専門家は、複数の視点からオブジェクトを視覚化する能力から大きな恩恵を受け、製品のリアリティと没入感を高めることができます。
最先端の性能
画像拡散モデル、動画拡散モデル、マルチビュー拡散モデルの組み合わせから、サンプリングを必要とする以前のアプローチとは異なり、SV4Dは複数の新しい視点の動画を同時に生成することができます。これにより空間軸と時間軸での一貫性が大幅に向上します。この機能は、複数の視点とタイムスタンプにわたってオブジェクトの外観の一貫性を確保するだけでなく、複数の拡散モデルを使用する煩雑なスコア蒸留サンプリング(SDS)なしで、よりシンプルな4D最適化フレームワークを可能にします。
Stable Video 4Dは、既存のものと比較して、より詳細で、入力映像に忠実で、フレームやビュー間で一貫性のある新しいビュー映像を生成することができます。
研究開発
Stable Video 4Dは Hugging Face で利用可能で、Stability AIにとって初めての動画から動画への生成モデルとなります。これは、Stability AIにとってエキサイティングなマイルストーンとなります。私たちは現在、モデルの改良に積極的に取り組んでおり、現在学習に使用されている合成データセットを超えて、より幅広い実世界の動画を扱えるよう最適化を進めています。
Stability AIチームは、このテクノロジーやその他のテクノロジーの実世界での使用事例について、継続的な革新と探求に専念しており、企業の皆さまが私たちのモデルを採用し、それぞれの独自の要件に合わせてさらに微調整を行っていただきたいと思っています。リアルな多角的動画を作成するこの技術の可能性は膨大であり、継続的な研究開発によってどのように進化していくかを見るのが楽しみです。
技術レポート
この発表に合わせて、このモデルの開発中に達成された方法論、課題、ブレークスルーを詳述した包括的な技術レポートを発表します。