家前向きの考え方 GoogleクラウドTPSはAI固有のプロセッサへのトレンドの一部です

GoogleクラウドTPSはAI固有のプロセッサへのトレンドの一部です

2024

ビデオ: Intro to Google Cloud | For Student Developers (十一月 2024)

ここ数週間、Googleの新しい「クラウドTPU」やNvidiaの新しいVoltaデザインなど、機械学習用のディープニューラルネットワークでの作業用に特別に設計された新しいコンピューティングプラットフォームの重要な紹介が数多くありました。

私にとって、これはコンピューターアーキテクチャで最も興味深いトレンドです。AMDよりもさらに多く、現在Intelは16コアおよび18コアCPUを導入しています。もちろん、他のアプローチもありますが、NvidiaとGoogleは独自のアプローチで多くの注目を集めています。

Google I / Oで、「クラウドTPU」（GoogleのTensorFlow機械学習フレームワーク用に最適化されていることを示すTensor Processing Unit用）を紹介しました。昨年のショーで紹介された前世代のTPUは、主に推論（機械学習操作の実行）向けに設計されたASICですが、新しいバージョンはこのようなアルゴリズムの推論とトレーニング用に設計されています。

Googleは最近の論文で、元のTPUの詳細を説明しました。これには、256テラバイト（256 536単位）の行列（合計65, 536）のマトリックスが含まれ、ピークパフォーマンスが92テラオップ（1兆操作あたり2番目）。 PCIe Gen 3バスを介してホストCPUから命令を取得します。 Googleは、これがIntel Haswell Xeon 22nmプロセッサーの半分以下のサイズの28nmダイであり、そのプロセッサーとNvidiaの28nm K80プロセッサーよりも優れていると述べました。

TPU 2.0またはクラウドTPUと呼ばれる新しいバージョン（上記参照）には、実際にボード上に4つのプロセッサーが含まれており、Googleは各ボードが180テラフロップス（毎秒180兆の浮動小数点演算）に達することができると述べています。同様に重要なこととして、ボードはカスタム高速ネットワークを使用して連携するように設計されているため、Googleが「TPUポッド」と呼ぶスーパーコンピューティングを学習する単一の機械として機能します。

このTPUポッドには64の第2世代TPUが含まれ、最大11.5ペタフロップスを提供して、単一の大型機械学習モデルのトレーニングを加速します。会議で、GoogleのAIリサーチを率いるFei Fei Li氏は、同社の翻訳用の大規模な学習モデルの1つは32の市販の最高のGPUでトレーニングするのに1日かかるが、現在ではTPUポッドの8分の1を使用した午後の同じ精度。それは大きなジャンプです。

これらは小さなシステムではないことを理解してください。ポッドは、通常の4つのコンピューティングラックとほぼ同じサイズに見えます。

また、個々のプロセッサにはそれぞれ非常に大きなヒートシンクがあるように見えます。つまり、ボードをしっかりと積み重ねることはできません。 Googleは、このバージョンのプロセッサまたはインターコネクトで何が変更されたかについて、まだ詳細を明らかにしていませんが、これも8ビットMACに基づいている可能性があります。

前週、Nvidiaはこのカテゴリに最新のエントリを導入しました。これは、Telsa V100 Voltaと呼ばれる巨大なチップで、ハイエンドGPU用に設計されたこの新しいVoltaアーキテクチャを備えた最初のCPUとして説明されました。

Nvidiaによると、この新しいチップは120のTensorFlowテラフロップス（または15の32ビットTFLOPSまたは7.5の64ビットのもの）に対応しています。これは、それぞれ8つの新しい「Tensorコア」を含む80クロックごとに64 FMA（Fused Multiply-Add）操作を実行できる4x4x4アレイです。 Nvidiaは、以前のP100アーキテクチャを使用していた以前のDGX-1に続き、第3四半期にDGX-1Vワークステーションに8つのV100ボードを搭載したチップを提供すると発表しました。

同社は、この149, 000ドルの箱が3200ワットを使用して960テラフロップスのトレーニングパフォーマンスを提供するはずだと述べました。後に、最初の話では、4台のV100を搭載したPersonal DGX Stationを出荷し、第4四半期には、大手サーバーベンダーがV100サーバーを出荷すると発表しました。

このチップは、TSMCの12nmプロセッサを使用する最初の発表であり、815平方ミリメートルのダイに211億個のトランジスタを搭載した巨大なチップになります。 Nvidiaは、チップの初期の顧客としてMicrosoftとAmazonの両方を挙げました。

これらのアプローチには大きな違いがあることに注意してください。 Google TPUは実際にはTensorFlowアプリケーション用に設計されたカスタムチップですが、Nvidia V100はやや一般的なチップであり、他のアプリケーションでさまざまな種類の計算が可能です。

一方、他の大手クラウドプロバイダーは代替案を検討しており、MicrosoftはトレーニングにGPUを使用し、推論にフィールドプログラマブルゲートアレイ（FPGA）を使用して、両方を顧客に提供しています。 Amazon Web Servicesにより、開発者はGPUインスタンスとFPGAインスタンスの両方を利用できるようになりました。また、IntelはFPGAや他の多くの技術を推進しています。一方、多くの新しい新興企業が代替アプローチに取り組んでいます。

いくつかの点で、これは少なくとも数年前に開発者が最初に「GPUコンピューティング」の使用を開始して以来、ワークステーションおよびサーバープロセッサで最も劇的な変化です。これがどのように発展するかを見るのは魅力的です。