ビハインド・ザ・コンピュート: コンピュート・ソリューションのベンチマーク

「ビハインド・ザ・コンピュート」は、生成AIのパワーを活用するための洞察を提供する、私たちのビジネスの要素を記録したブログ記事のシリーズです。

前回は、最新鋭のAIスーパーコンピューターをどのように活用していくのかについてご紹介しました。

今回は、さまざまなコンピュート・ソリューションのパフォーマンス・ベンチマークとメリットについて詳しく説明します。

複数のモダリティで最先端のオープンモデルを開発するという私たちのコミットメントには、多様なタスクを効率的に処理できる計算ソリューションが必要です。この目的のために、私たちは性能分析を行い、Stable Diffusion 3 を含む私たちの2つのモデルをトレーニングしました。

Intel Gaudi 2アクセラレータとNvidiaのA100およびH100のトレーニング速度を比較した私たちの分析をご紹介します。

Model 1:

Stable Diffusion 3 は私たちの最新で最も高性能な画像モデルです。

将来の Stable Diffusion 3 の一般公開時には、800Mから8Bパラメータまでのサイズが利用可能になる予定です。私たちの分析では、2Bパラメータバージョンを使用し、嬉しい結果を示しました。

私たちは、2B Multimodal Diffusion Transformer (MMDiT) アーキテクチャのモデルで、d=24、BFloat16mixed 精度、最適化されたアテンション(A100ではxFormers、Intel GaudiではFusedSDPA)のトレーニングスループットを測定しました。このモデルは MMDiT-ps2-d24 と呼ばれています。

まず、2ノード、合計16アクセラレータ(Gaudi/GPU)のトレーニングベンチマークの結果を見てみましょう。以下は生データの抜粋です。

バッチサイズをアクセラレータあたり16で一定に保つことで、このGaudi 2システムは、H100-80GBの1.5倍である927枚/秒のトレーニング画像を処理しました。さらに優れたことに、Gaudi 2の96GBの高帯域幅メモリ(HBM2E)に、アクセラレータあたり32のバッチサイズを適合させることができ、トレーニング速度を1,254画像/秒までさらに向上させることができました。

分散トレーニングを32台のGaudi 2ノード(合計256台のアクセラレータ)にスケールアップしても、非常に競争力のあるパフォーマンスを測定し続けました。

この構成では、Gaudi 2 クラスタは、A100-80GB GPU と比較して、1秒あたり3倍以上の画像を処理しました。A100 のソフトウェアスタックが最適化されていることを考慮すると、これはとても印象的です。

Stable Diffusion 3 8Bパラメータモデルにおける推論テストでは、Gaudi 2 チップは PyTorch を使用して Nvidia A100 チップと同様の推論速度を提供しています。しかし、TensorRT の最適化を施すと、A100 チップは Gaudi 2 よりも40%速く画像を生成します。さらなる最適化により、Gaudi 2 がこのモデルで A100を近い将来には上回ると予想しています。以前のテストでは、SDXL モデルにおいて PyTorch で Gaudi 2 は1024x1024の画像を30ステップで3.2秒で生成し、A100でのPyTorchでは3.6秒、A100での TensorRT を用いた生成では2.7秒でした。

Gaudi 2の高いメモリ容量と高速インターコネクト、さらにその他の設計上の配慮により、この次世代メディアモデルを支えるディフュージョン・トランスフォーマー・アーキテクチャを実行するのに十分な競争力を備えています。

Model 2:

Stable Beluga 2.5 70B はLLaMA 2 70Bの微調整バージョンで、一部のベンチマークで GPT 3.5 を上回った最初のオープンモデルである Stable Beluga 2モデルをベースにしています。このトレーニングベンチマークを256台の Gaudi 2 アクセラレータで実行しました。PyTorch コードを最適化なしでそのまま実行したところ、116,777トークン/秒という素晴らしい平均スループットを計測しました。具体的には、FP16データ型、1024のグローバルバッチサイズ、2の勾配累積ステップ、2のマイクロバッチサイズを使用しています。

Gaudi 2上での70B言語モデルの推論では、入力トークン・サイズ128、出力トークン・サイズ=2048を使用して、アクセラレータあたり673トークン/秒を生成しました。TensorRT-LLM と比較すると、Gaudi 2 は A100 の 525 トークン/秒よりも 28%高速です。また、FP8 ではさらなる速度向上が期待されます。

私たちのような企業は、より強力で効率的なコンピューティング・ソリューションに対する需要の高まりに直面しています。この調査結果は、Gaudi 2 のような選択肢の必要性を表しています。Gaudi 2 は、他の7nmチップよりも優れた性能を提供するだけでなく、手頃な価格、リードタイムの短縮、優れた価格対性能比といった重要な市場ニーズにも対応しています。つまり、多様なコンピューティング基盤を選べることで、参入を容易にし、イノベーションの幅を広げ、高度なAI技術をより身近なものにしているのです。

次回の「ビハインド・ザ・コンピュート」では、さらなる洞察をお届けします。

Previous
Previous

Stability AI Japan x NVIDIA #GTC24 開催記念。NVIDIA GeForce RTX 4090 GPUプレゼントキャンペーンを行っています

Next
Next

TripoSRのご紹介:単一画像からの高速3Dオブジェクト生成