目次:
ビデオ: 莊心妍 å† è¦‹å ªæ˜¯é™Œç”Ÿäººã€Žä¹Ÿè¨±æˆ‘éŒ¯é Žå¹¸ç¦ çš„æ™‚åˆ† 〠〠動æ…HQ (十一月 2024)
今月のSC16スーパーコンピューティング会議では、2つの傾向が際立っていました。 1つ目は、Intelの最新のXeon Phi(Knights Landing)とNvidiaの最新のTesla(PascalベースのP100)が、世界で最も速いコンピューターのTop500リストに登場したことです。 2つ目は、チップメーカーとシステムメーカーが最新の機械学習システムの概念をスーパーコンピューターに適用する方法に大きな重点を置いています。
毎年2回更新されるTop500リストの現在の改訂版では、チャートのトップは、中国の無錫にある国立スーパーコンピューティングセンターのSunway TaihuLightコンピューターと、中国の国立スーパーコンピューターのTianhe-2コンピューターの手元にあります。 6月のISC16ショー以来、広州のセンター。 3番目と4番目にランク付けされたシステム(まだオークリッジのTitanスーパーコンピューターとローレンスリバモアのSequoiaシステム)は、どちらもTianhe-2の約半分のパフォーマンスを発揮します。
これらの最初のものは、64ビットRISCコアを使用する、中国独自のプロセッサである1.45GHz SW26010に基づいています。 これは、15.4メガワットの電力を使用して、Linpackベンチマークで理論上のピークスループットの125.4ペタフロップスと最大測定パフォーマンスの93ペタフロップスを提供する、比類のない10, 649, 600コアを備えています。 このマシンはLinpackのパフォーマンスでチャートのトップを大幅に上回っていますが、他のテストではそれほどうまくいきません。 高性能共役勾配(HPCG)ベンチマークなど、他のベンチマークがあります。このベンチマークでは、マシンは理論上のピークパフォーマンスの1〜10%のみを表示する傾向があり、トップシステム(この場合はRiken Kマシン)の配信量は依然として少なくなります1ペタフロップス以上。
しかし、Linpackテストは、高性能コンピューティング(HPC)およびTop500リストの作成に使用されるものについて話すための標準です。 Linpackテストを使用すると、2番目のマシンであるTianhe-2は過去数年間チャートで1位であり、Xeon E5および古いXeon Phi(Knights Corner)アクセラレータを使用しています。 これにより、理論上のピークパフォーマンスが54.9ペタフロップス、Linpackで33.8ペタフロップスのベンチマークが提供されます。 多くのオブザーバーは、新しいバージョンのXeon Phi(Knights Landing)の輸出が禁止されたことで、中国人が独自のスーパーコンピュータープロセッサを作成したと考えています。
ナイツランディング(正式にはXeon Phi 7250)は、リストの新しいシステムで大きな役割を果たしました。まず、ローレンスバークレー国立研究所のCoriスーパーコンピューターが5位になり、27.8ペタフロップスのピークパフォーマンスと14ペタフロップスの測定パフォーマンスを達成しました。 。 これは、Ariesインターコネクトを使用したCray XC40システムです。 Knights Landingはメインプロセッサとして機能し、プロセッサあたり68コアが3テラフロップスを提供することに注意してください。 (Intelは、価格表に3.46テラフロップスの理論上の倍精度のピークで72コアのチップの別のバージョンをリストしていますが、リストのどのマシンもこのバージョンを使用していません。
以前のXeon Phisは、従来のXeonプロセッサで制御されていたシステムのアクセラレータとしてのみ実行できました。 6位は、日本の高度高性能コンピューター合同センターのOakforest-PACSシステムで、24.9ピークペタフロップスを記録しました。 これは、Knights LandingとIntelのOmni-Pathインターコネクトを使用して、富士通によって構築されます。 Knights Landingは、No。12システム(Lenovoが構築し、Omni-Pathを使用するイタリアのCINECAのMarconiコンピューター)およびNo. 33システム(Crayが構築し、牡羊座を使用する日本の京都大学のCamphor 2)でも使用されます。相互接続)。
Nvidiaも新しいリストに参加しました。 スイス国立スーパーコンピューティングセンターの8位のシステムであるPiz Daintは、XeonsとNvidia Tesla P100を搭載したCray XC50にアップグレードされ、現在、わずか16ペタフロップスの理論上のピークパフォーマンスと9.8ペタフロップスのLinpackパフォーマンスを提供しています。 Nvidia K20xアクセラレータを搭載したCray XC30に基づく初期の反復で、7.8ペタフロップスのピークパフォーマンスと6.3ペタフロップスのLinpackパフォーマンスからアップグレードします。
リストにある他のP100ベースのシステムは、Nvidia独自のDGX Saturn Vで、同社独自のDGX-1システムとInfinibandインターコネクトをベースにしており、リストの28位になりました。 Nvidiaは現在、プロセッサと、ソフトウェアと8つのTesla P100を含むDGX-1アプライアンスの両方を販売していることに注意してください。 Nvidiaが内部AIの研究に使用するDGX Saturn Vシステムは、約4.9ペタフロップスのピークとLinpackペタフロップスのスコアをほぼ獲得しています。 しかし、Nvidiaが指摘しているのは、350キロワットの電力しか使用しないため、エネルギー効率が大幅に向上するということです。 その結果、このシステムは最もエネルギー効率の高いシステムのGreen500リストのトップになります。 Nvidiaは、これはXeon PhiベースのCamphor 2システムよりもかなり少ないことを指摘しています。これは同様のパフォーマンスを持っています(ピークで5.5ペタフロップス、リンパックで3.1ペタフロップス)。
NvidiaはGPUのエネルギー効率を向上させ、Intelはより馴染みのあるプログラミングモデルを採用しています。 異なるアーキテクチャが競合して、どれが「エクサスケールコンピューティング」に最初に到達するのか、あるいは中国独自のアプローチが代わりになるのかを競うため、今後数年でさらに競争が見られると確信しています。 現在、米国エネルギー省のエクサスケールコンピューティングプロジェクトでは、2022年に最初のエクサスケールマシンが設置され、翌年に稼働する予定です。
Nvidia TeslaやIntel Xeon Phiソリューションなどのメニーコアアクセラレータに重点を置いているにもかかわらず、そのようなアクセラレータを使用するのは96システムだけです(Xeon Phiのみを使用するものを含む)。 1年前の104システムとは対照的です。 Intelは引き続き最大のチッププロバイダーであり、上位500システムの462にチップを搭載し、22にIBM Powerプロセッサーが続きます。Hewlett-PackardEnterpriseは140システム(HPEが買収したSilicon Graphicsが構築したものを含む)、Lenovoが構築しました92、およびクレイ56。
機械学習コンテスト
ショーやその周辺で多くの発表があり、そのほとんどは何らかの形の人工知能や機械学習を扱っていました。 Nvidiaは、NvidiaのNVLinkインターコネクトを使用してIBM Powerサーバーを実行するIBM PowerAIと呼ばれる新しい深層学習ソフトウェアツールキットに関するIBMとのパートナーシップを発表しました。
AMDは、HPCと機械学習環境の両方で後から考えられてきましたが、それを変えようと取り組んでいます。 この分野では、同社は独自のRadeon GPUに焦点を当て、FirePro S9300 x2サーバーGPUをプッシュし、クラウド上で使用できるようにするためにGoogle Cloud Platformとのパートナーシップを発表しました。 しかし、AMDはGPUのプログラミング用のソフトウェアにはそれほど投資していません。Nvidiaの独自のアプローチよりもOpenCLを重視しているからです。 AMDはショーで、Radeon Open Compute Platform(ROCm)の新しいバージョンを導入し、複数のCPUを備えた異種コンピューティングシナリオでGPUをサポートする計画を宣伝しました。これには、次期「Zen」x86 CPU、CaviumのThunderXおよびIBM Power 8 CPU。
ショーで、Intelは、浮動小数点ワークロード向けに調整された現在のXeon E5v4(Broadwell)チップの新しいバージョンと、Skylakeプラットフォームに基づいた次のバージョンの来年の発売について話しました。 しかし、その週の後半のイベントで、Intelはチップを人工知能または機械学習スペースに配置するように設計された一連の発表を行いました。 (ExtremeTechの見解をご紹介します。)これの多くは、高性能コンピューティングに影響を及ぼしますが、ほとんどが分離しています。 まず、標準のXeonプロセッサに加えて、同社はニューラルネットワークで多くの推論を行うためのFPGAを推進しています。 これがアルテラが最近アルテラを購入した大きな理由の1つであり、そのようなFPGAは現在マイクロソフトなどの企業で使用されています。
しかし、先週AIに焦点を当てたのは、いくつかの新しいチップです。 まず、Xeon Phiがあります。Intelは、「Keeps Landing」の現在のバージョンに、「ディープラーニング」市場向けのKnights Millという新しいバージョンを来年追加することを示しています。 IDFで発表されたこれは別の14nmバージョンですが、ニューラルネットワークのトレーニングで頻繁に使用される半精度計算をサポートしています。 実際、ディープラーニングにおける現在のNvidiaチップの大きな利点の1つは、Nvidiaがしばしばディープラーニング「テラオプス」と呼ぶ半精度計算と8ビット整数演算のサポートです。 インテルは、ナイツミルがディープラーニング向けにナイツランディングの最大4倍のパフォーマンスを提供すると述べています。 (このチップの後には、Knights Hillと呼ばれる10nmバージョンが引き続き予定されており、おそらく従来の高性能コンピューティング市場を対象としています。)
来年で最も興味深いのは、Intelが最近買収したNervanaのデザインです。このデザインでは、高帯域幅メモリ(HBM)に接続された簡単な数学演算を行うように設計された処理クラスターの配列を使用します。 このファミリで最初に登場するのは、Intelが会社を買収し、28nm TSMCプロセスで製造する前に設計されたLake Crestです。 Intelは来年上半期にテスト版をリリースする予定で、GPUよりも多くの生の計算パフォーマンスを提供すると述べています。 最終的にはナイツクレストが続きます。ナイツクレストは、Xeonとともにネルバナのテクノロジーを実装しますが、詳細は未発表です。
「ネルバナのテクノロジーは、今後3年間でパフォーマンスを飛躍的に100倍向上させ、複雑なニューラルネットワークをトレーニングし、データサイエンティストがAIの最大の課題をより迅速に解決できるようになると期待しています」と、Intel CEOのブライアンクルザニッチは述べています。
インテルは最近、DSPベースのチップをコンピュータービジョンの推論に特に適したMovidiusの買収計画も発表しました。これも、以前にトレーニングしたモデルに基づいて判断を下すものです。
それは複雑で進化する物語です。確かに、NVIDIAがあらゆる場所でGPUをプッシュするほど簡単ではありません。 しかし、明らかになったのは、機械学習がどれほど迅速に始まっているか、そして企業がNvidiaやAMDなどのGPUからXeon Phiなどの多くのコアx86プロセッサ、FPGAまで、問題に対処するために計画しているさまざまな方法です、NervanaやIBMのTrueNorthなどのトレーニング用の特殊製品、GoogleのTensor Processing UnitsなどのカスタムDSPのような推論エンジン。 市場にこれらすべてのアプローチの余地があるかどうかを見るのは非常に興味深いでしょう。