Stable Audio Open: 研究論文

ポイント

  • Stable Audio Open の研究論文ではクリエイティブ・コモンズのデータで訓練されたStability AI の新しいオープンウェイト・テキスト音声モデルのアーキテクチャと訓練プロセスについて説明しています。

  • Stable Audio Open は Hugging Face から利用可能です。このモデルは Stability AI の Community License のもとでリリースされており、非商用利用および個人または年間収益100万ドル までの組織に対する商用利用が許可されています。エンタープライズライセンスについてはお問い合わせください。

  • このモデルは、テキストプロンプトから44.1kHzの高品質ステレオ音声を生成することができ、リアルなサウンドやフィールドレコーディングの合成に使用することができます。

  • Stable Audio Open は一般消費者向けのGPUで動作するため、学術的、芸術的な目的にも利用できます。

Stable Audio Openのオープンソースリリースに続き、モデルの背景にある技術詳細を概説した研究論文をご紹介します。論文は arXivから、モデルはHugging Faceからアクセスできます。

アーキテクチャ

Stable Audio Openは、テキストからオーディオを生成するモデルで、以下の3つの主要コンポーネントを有しています。

  • オートエンコーダー:波形を圧縮して管理可能なシーケンス長に変換します。

  • A T5-based text embedding :テキスト条件付けに使用します。

  • トランスフォーマーベースの拡散モデル(DiT):オートエンコーダーの潜在空間で動作します。

このモデルは、最大47秒間の可変長ステレオオーディオを44.1kHzで生成します。Stable Audio Open は、Stable Audio 2.0 の派生版で、異なるデータセット(Creative Commonsデータ)で訓練されています。このアーキテクチャは、CLAPの代わりにT5テキスト条件付けを使用しています。


トレーニングデータ

Stable Audio Openは、CC-0、CC-BY、CC-Sampling+のライセンスを受けた約500,000の録音データで訓練されました。データセットは、Freesoundからの472,618の録音とFree Music Archive(FMA)からの13,874の録音で構成されています。

著作権のある素材が含まれないよう、 PANNs オーディオタガーを使用してFreesound内の音楽サンプルを特定し、 Audible Magic のコンテンツ検出会社に送信して、データセットから潜在的な著作権音楽を除去しました。

活用事例

Stable Audio Openは、生成コンテンツの長さを調整したり、さまざまな業界やクリエイティブプロジェクトの正確なニーズに対応するためにカスタマイズ可能です。ご利用される皆さまは NVIDIA RTX A6000 GPUでモデルをローカルでトレーニングできます。プロンプトについては、 Stable Audio 2.0 のヒントを参考になさってください。

以下は、モデルの使用例とワークフローへの統合の例です。


サウンドデザイン

  • サウンドエフェクトとフォーリー効果: 映画、テレビ、ビデオゲームの足音、ドアのきしみ、環境音などを生成します。

  • アンビエントサウンド: シーンの雰囲気に合ったサウンドスケープや背景テクスチャを作成します。

  • サンプル作成: 音楽トラックの制作に使用するドラムループや音楽サンプルを生成します。

商用およびマーケティング用途

  • オーディオブランディング: 広告用のサウンドエフェクトやオーディオロゴを作成し、ブランドの認知度とアイデンティティを強化します。

教育・研究

  • 学術プロジェクト: 音声合成、機械学習、音楽学の研究にモデルを使用し、生成された音声を実験および分析します。

こちらのデモ では Stable Audio Open の性能と他のモデルを比較を確認できます。 


最後に

Stable Audio Openのリリースは、オープンソースの音声AIにおける重要なマイルストーンです。44.1kHzで高品質なステレオサウンドを生成し、消費者グレードのGPUで実行できるこのモデルは、データの透明性に重点を置いています。スピーチや音楽生成における制限を認めつつも、モデルのアクセシビリティと性能は研究者やアーティストにとって貴重なツールとなり、オープンな音声AIの可能性を広げます。

Stable Audio Open モデルは Hugging Face で入手可能です。サウンドデザイナー、ミュージシャン、開発者、オーディオ愛好家は、モデルをダウンロードし、その能力を探求し、使用例を共有していただけたら嬉しいです。

Stability AI の最新情報は公式 X Instagram でも発信中です。ぜひチェックしてみてください。

Previous
Previous

Stable Video 4D : ダイナミックなマルチアングル映像生成のための最新AIモデル

Next
Next

Stability AI、インターネットを子どもたちにとってより安全な空間にするIWFのミッションに参加