ポイント

Stable Audio 2.0は、AIが生成するオーディオの新たなスタンダードとなるもので、44.1KHzステレオで3分までの一貫した音楽構造を持つ高品質なフルトラックを生成します。
このモデルは、ユーザーが自然言語のプロンプトを使用してサンプルをアップロードし、変換できるようにすることで、オーディオからオーディオへの生成を導入しています。
table Audio 2.0は、AudioSparx 音楽ライブラリからライセンスされたデータセットのみでトレーニングされ、オプトアウトのリクエストに対応し、クリエイターへの公正な報酬を保証します。
Stable Audio のウェブサイトをチェックして制作を始めてみてください。

Stable Audio 2.0をご紹介します。このモデルは、1つの自然言語プロンプトから、44.1KHzステレオで、最長3分までの一貫した構造を持つ高品質のフルトラックを可能にします。

このモデルは、テキストからオーディオへの変換のみならず、オーディオからオーディオへの変換機能も備えています。ユーザーはオーディオサンプルをアップロードし、自然言語によるプロンプトを通じて、サンプルをさまざまなサウンドに変換できるようになりました。

このアップデートでは、サウンドエフェクトの生成とスタイルの転送も拡張され、アーティストやミュージシャンに柔軟性とコントロール性を提供し、クリエイティブなプロセスを向上させます。

Stable Audio 2.0は、Stable Audio 1.0をベースに構築されています。Stable Audio 1.0は、潜在拡散技術を活用し、高品質な44.1kHzの音楽を生成できる初の商用可能なオーディオ生成AIとして2023年8月に発表されました。以来、TIME誌の「Best Inventions of 2023」のひとつに選ばれています。

この新しいモデルは、Stable Audioのサイトで無料で使用することができ、将来的には Stable Audio API でも使用できるようになります。

新機能

私たちの最も先進的なオーディオモデルは、新機能によってアーティストやミュージシャンのクリエイティブツールキットを拡張します。テキストからオーディオへ、オーディオからオーディオへのプロンプトにより、メロディー、バッキングトラック、ステム、サウンドエフェクトを作成することができ、クリエイティブなプロセスを向上させます。

フルレングスのトラック

Stable Audio 2.0は、イントロ、展開、アウトロ、ステレオサウンドエフェクトを含む,構造化されたコンポジションを含む、長さ3分までの楽曲を生成できるため,他の最新モデルとは一線を画しています。

オーディオからオーディオへの生成

Stable Audio 2.0は、オーディオファイルのアップロードをサポートし、アイデアをフルにプロデュースされたサンプルに変換します。当社の利用規約では、著作権で保護された素材をアップロードすることが義務付けられており、コンプライアンスを維持し、侵害を防ぐために高度なコンテンツ認識を使用しています。

バリエーションとサウンドエフェクトの作成

このモデルは、キーボードを叩く音から群衆の歓声や街のざわめきまで、サウンドとオーディオ・エフェクトの制作を増幅し、オーディオ・プロジェクトに新しい方法を提供します。

スタイル転送

この新機能は、新たに生成またはアップロードされたオーディオを、生成プロセス内でシームレスに変更します。この機能により、プロジェクトの特定のスタイルやトーンに合わせて、出力のテーマをカスタマイズできます。

研究

Stable Audio 2.0の潜在拡散モデルのアーキテクチャは、首尾一貫した構造を持つフルトラックの生成を可能にするために特別に設計されています。これを実現するために、システムのすべてのコンポーネントを、長い時間スケールでの性能向上のために適合させました。

新しい、高度に圧縮されたオートエンコーダは、生のオーディオ波形をより短い表現に圧縮します。拡散モデルには従来のU-Netの代わりに、長いシーケンスにわたるデータの操作により適している、Stable Diffusion 3 で使用されているような Diffusion transformer (DiT) を採用しました。この2つの要素を組み合わせることで、高品質な楽曲に不可欠な大規模構造を認識、再現できるモデルを実現しました。

オートエンコーダーはオーディオを凝縮し、元の状態に再構成します。これは、より首尾一貫した生成のために重要でない詳細をフィルタリングしながら、本質的な特徴をキャプチャし、再現します。

diffusion transformer (DiT)は、ランダムなノイズを段階的に構造化されたデータに改良し、複雑なパターンと関係を特定します。オートエンコーダと組み合わせることで、より長いシーケンスを処理する能力を獲得し、入力からより深く正確な解釈を生み出します。

セーフガード

1.0 モデルと同様、2.0 は、音楽、サウンドエフェクト、単一インストゥルメントのステムを含む 800,000 以上のオーディオファイルと、対応するテキストメタデータから構成される AudioSparx のデータを使用してトレーニングされています。AudioSparxのすべてのアーティストには、Stable Audioモデルのトレーニングを「オプトアウト」するオプションが与えられています。

クリエイターの著作権を保護するため、オーディオのアップロードに関しては、Audible Magicと提携し、同社のコンテンツ認識（ACR）技術を利用して、著作権侵害を防ぐためのリアルタイムのコンテンツマッチングを行っています。

Stable Radioは、24時間365日、Stable Audio によってのみ生成されたトラックをフィーチャーするライブストリームで、現在 Stable Audio YouTubeチャンネルでストリーミングされています。

ぜひぜひ Stable Audio のサイトをチェックしてみてください。

Stable Audio 2.0 のご紹介

Stable Diffusion 3 API のご紹介

滝澤琢人がStability AI Japan にHead of Japan Sales & Partnershipsとして参加