ビデオ: Intro to Google Cloud | For Student Developers (十一月 2024)
ここ数週間、Googleの新しい「クラウドTPU」やNvidiaの新しいVoltaデザインなど、機械学習用のディープニューラルネットワークでの作業用に特別に設計された新しいコンピューティングプラットフォームの重要な紹介が数多くありました。
私にとって、これはコンピューターアーキテクチャで最も興味深いトレンドです。AMDよりもさらに多く、現在Intelは16コアおよび18コアCPUを導入しています。 もちろん、他のアプローチもありますが、NvidiaとGoogleは独自のアプローチで多くの注目を集めています。
Google I / Oで、「クラウドTPU」(GoogleのTensorFlow機械学習フレームワーク用に最適化されていることを示すTensor Processing Unit用)を紹介しました。 昨年のショーで紹介された前世代のTPUは、主に推論(機械学習操作の実行)向けに設計されたASICですが、新しいバージョンはこのようなアルゴリズムの推論とトレーニング用に設計されています。
Googleは最近の論文で、元のTPUの詳細を説明しました。これには、256テラバイト(256 536単位)の行列(合計65, 536)のマトリックスが含まれ、ピークパフォーマンスが92テラオップ(1兆操作あたり2番目)。 PCIe Gen 3バスを介してホストCPUから命令を取得します。 Googleは、これがIntel Haswell Xeon 22nmプロセッサーの半分以下のサイズの28nmダイであり、そのプロセッサーとNvidiaの28nm K80プロセッサーよりも優れていると述べました。
TPU 2.0またはクラウドTPUと呼ばれる新しいバージョン(上記参照)には、実際にボード上に4つのプロセッサーが含まれており、Googleは各ボードが180テラフロップス(毎秒180兆の浮動小数点演算)に達することができると述べています。 同様に重要なこととして、ボードはカスタム高速ネットワークを使用して連携するように設計されているため、Googleが「TPUポッド」と呼ぶスーパーコンピューティングを学習する単一の機械として機能します。
このTPUポッドには64の第2世代TPUが含まれ、最大11.5ペタフロップスを提供して、単一の大型機械学習モデルのトレーニングを加速します。 会議で、GoogleのAIリサーチを率いるFei Fei Li氏は、同社の翻訳用の大規模な学習モデルの1つは32の市販の最高のGPUでトレーニングするのに1日かかるが、現在ではTPUポッドの8分の1を使用した午後の同じ精度。 それは大きなジャンプです。
これらは小さなシステムではないことを理解してください。ポッドは、通常の4つのコンピューティングラックとほぼ同じサイズに見えます。
また、個々のプロセッサにはそれぞれ非常に大きなヒートシンクがあるように見えます。つまり、ボードをしっかりと積み重ねることはできません。 Googleは、このバージョンのプロセッサまたはインターコネクトで何が変更されたかについて、まだ詳細を明らかにしていませんが、これも8ビットMACに基づいている可能性があります。
前週、Nvidiaはこのカテゴリに最新のエントリを導入しました。これは、Telsa V100 Voltaと呼ばれる巨大なチップで、ハイエンドGPU用に設計されたこの新しいVoltaアーキテクチャを備えた最初のCPUとして説明されました。
Nvidiaによると、この新しいチップは120のTensorFlowテラフロップス(または15の32ビットTFLOPSまたは7.5の64ビットのもの)に対応しています。これは、それぞれ8つの新しい「Tensorコア」を含む80クロックごとに64 FMA(Fused Multiply-Add)操作を実行できる4x4x4アレイです。 Nvidiaは、以前のP100アーキテクチャを使用していた以前のDGX-1に続き、第3四半期にDGX-1Vワークステーションに8つのV100ボードを搭載したチップを提供すると発表しました。
同社は、この149, 000ドルの箱が3200ワットを使用して960テラフロップスのトレーニングパフォーマンスを提供するはずだと述べました。 後に、最初の話では、4台のV100を搭載したPersonal DGX Stationを出荷し、第4四半期には、大手サーバーベンダーがV100サーバーを出荷すると発表しました。
このチップは、TSMCの12nmプロセッサを使用する最初の発表であり、815平方ミリメートルのダイに211億個のトランジスタを搭載した巨大なチップになります。 Nvidiaは、チップの初期の顧客としてMicrosoftとAmazonの両方を挙げました。
これらのアプローチには大きな違いがあることに注意してください。 Google TPUは実際にはTensorFlowアプリケーション用に設計されたカスタムチップですが、Nvidia V100はやや一般的なチップであり、他のアプリケーションでさまざまな種類の計算が可能です。
一方、他の大手クラウドプロバイダーは代替案を検討しており、MicrosoftはトレーニングにGPUを使用し、推論にフィールドプログラマブルゲートアレイ(FPGA)を使用して、両方を顧客に提供しています。 Amazon Web Servicesにより、開発者はGPUインスタンスとFPGAインスタンスの両方を利用できるようになりました。 また、IntelはFPGAや他の多くの技術を推進しています。 一方、多くの新しい新興企業が代替アプローチに取り組んでいます。
いくつかの点で、これは少なくとも数年前に開発者が最初に「GPUコンピューティング」の使用を開始して以来、ワークステーションおよびサーバープロセッサで最も劇的な変化です。 これがどのように発展するかを見るのは魅力的です。