家前向きの考え方スーパーコンピューターの大きな変化がついに到来します

スーパーコンピューターの大きな変化がついに到来します

2024

ビデオ: Rihanna - Take A Bow (Official Music Video) (十一月 2024)

今週のISC 17スーパーコンピューティング会議を振り返ると、スーパーコンピューティングの世界では今後数年間で大きなアップグレードが行われるように見えますが、世界最速のスーパーコンピューターの年2回のトップ500リストへの更新はそれほど大きくはありませんでした前のバージョン。

世界で最速のコンピューターは、数年にわたってリストのトップに立つ2台の巨大な中国製マシンです：93ペタフロップス（93万兆浮動小数点）の持続的なLinpackパフォーマンスを備えた無錫の中国国立スーパーコンピューティングセンターのSunway TaihuLightコンピューター1秒あたりの操作）; 広州にある中国の国立スーパーコンピューターセンターのTianhe-2コンピューターは、33.8ペタフロップス以上のパフォーマンスを維持しています。これらは、依然として最速のマシンです。

新しい3番目は、Intelを使用するCrayシステムであるスイス国立スーパーコンピューティングセンターのPiz Daintシステムです。 Xeons Nvidia Tesla P100sは、Linpackが19.6ペタフロップスという以前の合計の2倍のパフォーマンスを維持するために最近アップグレードされました。これにより、リストの8番から上に移動しました。

これにより、米国のトップシステム（オークリッジ国立研究所のタイタンシステム）が4位になり、20年ぶりにトップ3に米国システムが存在しなくなりました。リストの残りの部分は変更されず、全体でトップ10のうち5つを米国が占め、2つを日本が占めています。

最速のコンピューターリストはそれほど変わっていませんが、他の場所では大きな変更があります。最も電力効率の高いシステムのGreen 500リストでは、トップ10のうち9つが変更されました。最上位にあるのは、Xeon E5-2680v4 14コア、Omni-Pathインターコネクト、およびワットあたり14.1ギガフロップを可能にするNvidiaのTesla P100に基づいた東京工業大学の改良型HPE ICE XAシステムであるTsubame 3.0システムです。これは、同社のDGX-1プラットフォームとP100チップに基づいたNvidiaのDGX Saturn Vからの大きなジャンプであり、11月のリストでは1位でしたが、今回は9.5ギガフロップス/ワットで10位でした。 P100は、Green500システムのトップ10のうち9つに含まれています。

10ギガフロップス/ワットを超えることは、今日のテクノロジーを使用して構築された仮想のエクサフロップスシステムが100メガワット（MW）未満を消費することを意味するため、大したことです。それはまだ大きすぎます。目標はエクサフロップスシステムの20〜30 MWであり、研究者は今後5年程度で見られることを期待していますが、大きな前進です。

トップ500リストのように、マシンが理論上のピークパフォーマンスの1〜10パーセントしか見ない傾向がある高パフォーマンス共役勾配（HPCG）ベンチマークなど、さまざまなベンチマークを持つ類似リストにわずかな変更のみがありました。システム（この場合、Riken Kマシン）は、まだ1ペタフロップス未満を配信します。 TaihuLightシステムとPiz Daintシステムの両方がこのリストに載りました。研究者がエクサフロップスマシンについて話すとき、彼らはLinpackベンチマークを意味する傾向がありますが、HPCGは実世界のパフォーマンスに関してより現実的かもしれません。

アクセラレータとしてのGPUコンピューティングの出現（ほとんど常にP100などのNvidia GPUプロセッサを使用）は、近年これらのリストで最も目立つ変化であり、Intel独自のアクセラレータであるメニーコアXeon Phi（最新のKnights Landingバージョン）。現在のトップ500リストには、Nvidia GPUを搭載した74台とXeon Phiを搭載した17台（両方を使用する別の3台）を含む、アクセラレーターまたはコプロセッサーを使用する91台のシステムが含まれます。 1つはアクセラレータとしてAMD Radeon GPUを搭載し、2つは日本のサプライヤであるPEZY Computingのメニーコアプロセッサを使用しています。追加の13システムでは、メイン処理ユニットとしてXeon Phi（Knights Landing）を使用しています。

しかし、これらの概念を念頭に置いて設計されたより大規模なシステムが見られるようになったため、スーパーコンピューターに対する大きな変更の多くはまだ視野に入れられています。一例として、バルセロナスーパーコンピューティングセンターにある新しいMareNostrum 4があります。これは、13位でトップ500リストに入りました。これまでにインストールされた、これは、Xeon -コアプロセッサ）。ここで興味深いのは、今後数年間に予定されている「新興技術」の3つの新しいクラスターです。これには、1.5ペタフロップス以上のピーク処理能力を持つように設計されたIBM Power 9プロセッサーとNvidia GPUを含む1つのクラスターが含まれます; ナイツヒルバージョンのXeon Phiに基づく2番目。富士通が設計した64ビットARMv8プロセッサに基づく3番目。

これらの概念は、他のいくつかの主要なスーパーコンピューティングプロジェクトで使用されています。特に、オークリッジ、アルゴンヌ、ローレンスリバモア国立研究所でのCORALコラボレーションの一環として、米国エネルギー省が後援するいくつかのプロジェクトです。まずは、IBM Power 9プロセッサとNvidia Volta GPUを使用するオークリッジのサミットで、150〜300を超えるピークペタフロップスを配信する予定です。ローレンスリバモアのシエラが続き、100以上のピークペタフロップスを配信する予定です。

その後、Argonne National LaboratoryにあるAuroraスーパーコンピューターを見る必要があります。これは、Xeon PhiのKnights Hillバージョンに基づいており、Crayによって構築され、180ペタフロップスの配信が予定されています。 CORALシステムが稼働し、ランニング来年。

一方、中国と日本のグループもアップグレードを計画しており、ほとんどが独自のアーキテクチャを使用しています。見るのは面白いはずです。

さらに大きなシフトは、少し離れているようです。通常、プロセッサ自体内の超並列処理ユニットでの機械学習へのシフトです。 Linpackの数値は64ビットまたは倍精度のパフォーマンスを指しますが、単精度または半精度の計算でより適切に機能するアプリケーションのクラス（多くのディープニューラルネットワークベースのアプリケーションを含む）があります。 Nvidiaの最近のVolta V100の発表や、近日中に発売されるXeon PhiのKnights Millバージョンなど、新しいプロセッサがこれを活用しています。 Intelはショーで、第4四半期に生産される予定のバージョンは、Quad Fused Multiply Add（QFMA）およびQuad Virtual Neural Network Instruction（QVNNI）と呼ばれる「低精度コンピューティング」の新しい命令セットを持つと述べました。

これらの概念は、GoogleのTPUやIntelのFPGAやNervanaチップなどの他のアーキテクチャにも適用できると思います。

今年大きな変化が見られなくても、来年はさらに多くの変化が見られるはずです。エクサスケール（1000テラフロップス）マシンの概念はまだ見えていますが、さらに多くの大きな変更が必要になる可能性があります。