本日、私たちは Stable Video Diffusion を公開しました。これは、画像モデル Stable Diffusion に基づく最初の基盤モデルで、動画生成用です。

現在、研究プレビューとして公開されているこの最先端のAI動画生成モデルは、あらゆるタイプの人々のためのモデルを作成するための私たちの旅の重要な一歩を表しています。

この研究リリースでは、Stable Video Diffusion のコードを GitHub リポジトリで公開し、ローカルでモデルを実行するために必要なウェイトは Hugging Face のページで見ご確認いただけます。モデルの技術的能力に関するさらなる詳細は、私たちの研究論文で確認できます。

様々なビデオアプリケーションに適応

このビデオモデルは、単一画像からのマルチビュー合成など、様々なタスクに簡単に適応させることができます。私たちは、Stable Diffusion をベースにして構築し、拡張する多様なモデルを計画しています。

ファインチューニングされたビデオモデルからのマルチビュー生成サンプル

さらに、本日より、新しいウェブ体験へのアクセス待ちリストに登録することができます。このツールは、広告、教育、エンターテイメントなど、多数のセクターでの Stable Video Diffusion の実用的な応用を示しています。

性能評価

Stable Video Diffusion は、14フレームおよび25フレームを生成できる2種類の画像からビデオへのモデルとしてリリースされており、3～30フレーム/秒のカスタマイズ可能なフレームレートで生成が可能です。基礎的な形でリリースされた時点での外部評価を通じて、これらのモデルがユーザーの好みの研究で先行するクローズドモデルを上回っていることがわかりました。

研究専用

最新の進歩に基づいてモデルを更新し、皆さんのフィードバックを取り入れるていますが、この段階では実世界や商用アプリケーションでの使用を意図していません。安全性と品質に関する皆さんの洞察とフィードバックは、最終的なリリースのためのこのモデルの精緻化に重要です。

これは、新しいモダリティでのこれまでのリリースに沿ったものであり、完全なリリースを皆さんと共有することを楽しみにしています。

さらに広がるAIモデル

Stable Video Diffusionを、私たちの多様なモデルに加えられたことを嬉しく思います。画像、言語、音声、3D、コードなどのモダリティにまたがるStability AI のポートフォリオは、人間の想像力を最大化させるという Stability AI のミッションの証です。

ぜひ、日本公式TwitterやDiscordコミュニティをフォローして最新情報をお受け取りください。

Stable Video Diffusion のご紹介

Stability AI Japan、スタートアップ企業をサポートする新プログラムを発表

日本特化の商用利用可能 text-to-image モデル「Japanese Stable Diffusion XL」をリリースしました