TripoSRのご紹介:単一画像からの高速3Dオブジェクト生成

ポイント

  • TripoSR は Tripo AI と提携し、1秒以内に1枚の画像から高品質な3Dモデルを生成します。

  • TripoSRは低い推論バジェットで動作するため(GPUなしでも)、幅広いユーザーとアプリケーションにとって利用しやすく実用的です。

  • モデルウェイトとソースコードは、MITライセンスの下でこちらからダウンロード可能です。

Tripo AI と提携し、LRM: Large Reconstruction Model For Single Image to 3D にインスパイアされた高速3Dオブジェクト再構築モデル TripoSR を開発しました。この新しい画像から3Dへのモデルは、詳細な3Dオブジェクトを視覚化するための応答性の高い出力で、エンターテインメント、ゲーム、工業デザイン、建築の専門家の高まる需要に応えるように設計されています。

サンプルの入力画像と対応する3Dモデルは、TripoSRモデルを用いて再構成

性能

TripoSR は、その他のモデルの数分の一の時間で詳細な 3D モデルを作成することができます。Nvidia A100 でテストしたところ、ドラフト品質の 3D 出力(テクスチャーメッシュ)を約0.5秒で生成し、OpenLRM のような他のオープンなimage-to-3D モデルを凌駕しました。スピードだけでなく、このモデルは、GPU の有無にかかわらず、ユーザがアクセス可能です。

プロットはFスコア(高いほど良い)対推論時間(低いほど良い)で3D性能を示しています。

技術詳細

トレーニングデータ準備には、現実世界で見られる画像の分布をより忠実に再現する多様なデータレンダリング技術を取り入れ、モデルの汎化能力を大幅に向上させました。トレーニングデータには、Objaverse データセットの高品質なサブセットである CC-BY を慎重にキュレーションしました。モデル側では、チャンネル数の最適化、マスク制約の追加、より効率的なクロップレンダリング戦略など、基本的な LRM モデルに対するいくつかの技術的改良も導入しました。詳細はテクニカル・レポートをご覧ください。

開発者、デザイナー、クリエイターの皆様には、TripoSRの機能を探求し、仕事や業界を変革する可能性を発見していただきたいと思います。

TripoSR モデルのコードは Tripo AI の GitHub で、モデルのウエイトは Hugging Face で公開されています。TripoSR モデルの詳細については、テクニカルレポートをご参照ください。

Previous
Previous

ビハインド・ザ・コンピュート: コンピュート・ソリューションのベンチマーク

Next
Next

ビハインド・ザ・コンピュート: 新しいAIスーパーコンピューターの活用