家前向きの考え方 Oracle、NVIDIA、Armがホットチップにスポットライトを当てる

Oracle、NVIDIA、Armがホットチップにスポットライトを当てる

2024

ビデオ: Jaha Tum Rahoge | Maheruh | Amit Dolawat & Drisha More | Altamash Faridi | Kalyan Bhardhan (十一月 2024)

先週のチップの興奮の多くはIntelのBroadwellの発表によるものでしたが、毎年開催されるHot Chipsカンファレンスで詳細に議論された他のチップが多数ありました。

このショーはハイエンドチップで知られ、Intel、Oracle、IBMが最新のエントリについて議論していますが、本当に新しいのはSparc M7だけです。その代わり、NvidiaのTegra K1プロセッサの64ビット「デンバー」バージョンの最初の詳細を含め、ショーの多くは最終的にARMベースの製品に焦点を合わせました。

Oracle、Intel、およびIBMは、サーバーチップを搭載した高い目標を掲げています

ハイエンドチップの中で、最も印象的なニュースはOracleからのもので、M7として知られる次世代のSPARCプロセッサについて議論しました。このチップには、32個のS4 SPARCコア（それぞれ最大8個のダイナミックスレッド）、64MBのL3キャッシュ、8個のDDR4メモリコントローラー（プロセッサあたり最大2TB、DDR4-2133で160GBpsのメモリ帯域幅）および8個のデータ分析アクセラレータが接続されますオンチップネットワーク。

チップは、それぞれが共有L2キャッシュを備えた4つのコアと、コアクラスターとそのローカルL3キャッシュ間に192GBpsを超える帯域幅を備えたパーティション化された8MBのL3キャッシュを備えた8つのクラスターに編成されます M6（12個の3.6GHz SPARC S3コアを搭載した28nmチップ）と比較して、M7はメモリ帯域幅、整数スループット、OLTP、Java、ERPシステム、および浮動小数点スループットで3〜3.5倍のパフォーマンスを提供します。 OracleのSPARCアーキテクチャ担当シニアディレクターであるStephen Phillips氏は、目標は段階的な向上ではなく、段階的なパフォーマンスの向上であると述べました。

M7は8ソケットグルーレス（最大256コア、2, 000スレッド、16 TBのメモリ）に拡張でき、ASICスイッチを使用してSMP構成で最大32プロセッサのトラフィックを管理できるため、最終的には1, 024コア、8, 192スレッド、および最大64TBのメモリを備えたシステムで。かなり印象的です。オラクルは、昨年のSPARC M6と比較して、さまざまなテストで3〜3.5倍優れたパフォーマンスを提供すると述べました。同社によれば、これは20nmプロセスで製造されたオラクル独自のソフトウェアスタック向けに最適化され、来年中にシステムで利用可能になるという。

IBMはまた、昨年のショーで発表したPower8ラインの詳細を発表しました。このバージョンのチップには12コアがあり、各コアには512 KBのSRAMレベル2キャッシュをコアごとに最大8スレッド（合計6 MBのL2）と、レベル3キャッシュとして96 MBの共有組み込みDRAMがありました。 IBMによると、42億個のトランジスタを搭載した650平方ミリメートルのこの巨大なチップは、IBMの22nm SOIプロセスで製造され、6月に出荷を開始しました。

数か月前、IBMは362 mm ^2の 6コアのバージョンを発表しました。今年の講演は、IBMが6コアバージョンの2つを48レーンのPCIe Gen 3の単一パッケージに結合する方法についてでした。IBMは、合計24コアと192スレッドの2ソケットバージョンが2プロセッサよりも優れていると述べました。 24コア（48スレッド）のXeon Ivy Bridgeサーバー。 IBMは、主に高性能で専門的な市場でPowerを販売しているため、ほとんどの人はこの2つを比較しませんが、興味深いものです。 IBMは昨年、Powerアーキテクチャの主流化を目指して、Open Power Consortiumを発表しました。今年、同社はプラットフォーム用の完全なオープンソースソフトウェアスタックを保有していると述べました。しかし、これまでのところ、IBM以外の誰も、このプラットフォームに基づくサーバーを発表していません。

Intelは、1年前に導入されたXeon E5のバージョンと2月に導入されたXeon E7のバージョンを含む、Ivy Bridgeのサーバーバージョンである「Ivytown」について話しました。今年の講演では、Intelが基本的に両方の市場をカバーできる1つのアーキテクチャを持ち、最大15コア、2つのDDR3メモリコントローラー、3つのQPIリンク、40のPCI Gen 3レーンをモジュラーフロアに配置できるチップに焦点を当てています。それぞれ異なるソケット用に設計された3つの異なるダイに変換できるプランで、合計75種類以上のバリエーションがあります。これは、特別な相互接続なしで、2ソケット、4ソケット、および8ソケットサーバーで使用できます。

Intelはサーバーユニットの大半を占めているため、これらのチップはもちろん、最近のサーバー購入の大部分を占めています。しかし、多くの情報は以前にISSCCで取り上げられていました。Intelは、E5ファミリの次のバージョン（E5-1600v3およびE5-2600 v3）をすぐに導入することが広く期待されています。 Haswell-EPと呼ばれるHaswellアーキテクチャ。（先週、デルはこれらの新しいチップに基づいた新しいワークステーションを発表しました。）

Intelはまた、Avotonとして知られるAtom C2000についても議論し、2013年後半に生産を開始しました。このチップとIvy BridgeおよびHaswellチップはすべてIntelの22nmプロセスに基づいています。

AMDのNvidiaは、ARMの新しい市場にマイクロを向けました

ショーの最大の驚きは、おそらくARMスピーカーからの基調講演や、近日公開予定の「デンバー」バージョンのTegra K1プロセッサに関するNvidiaの詳細など、ARMベースのテクノロジーに焦点が当てられたことです。

基調講演では、ARM CTOのMike Mullerがセンサーからサーバーに至るまでのすべての電力制約について議論し、ARMが企業にどのように拡大しようとしているかに焦点を当てました。 Mullerは、モノのインターネットにARMセンサーチップを使用するというコンセプトも推進しました。これは、クアルコムのRob Chandhokの基調講演でも取り上げられました。しかし、どちらの会社も新しいコアやプロセッサーを発表していません。

代わりに、その前線の大きなニュースはNvidiaから来ました。Nvidiaは、K1プロセッサの新しいバージョンの詳細を提供しました。同社のデンバープロジェクトが最初に発表されたとき、このチップは高性能コンピューティング市場を狙っていると思われましたが、現在ではタブレットや自動車市場などに重点を置いているようです。 Tegra K1には2つのバージョンがあります。今年初めに発表され、現在同社のシールドタブレットで出荷されている最初のものは、4つの32ビットARM Cortex-A15コアと、Nvidiaがプッシュしている4 + 1構成の低電力「コンパニオンコア」を備えています。数年間そのTegraライン。

デンバーバージョンは、Nvidiaによって設計された2つの新しい独自の64ビットコアとは大きく異なり、同社は得られるパフォーマンスの向上を大いに宣伝しています。コアは7ウェイスーパースカラー（最大7つのマイクロオペレーションを同時に実行できることを意味します）で、128 KBの4ウェイL1命令キャッシュと64 KBの4ウェイL1データキャッシュを備えています。チップは、これらのコアのうち2つと、32ビットK1と共有する192個の「CUDAコア」（グラフィックコア）として、両方のコアにサービスを提供する2MBレベル2キャッシュを組み合わせます。そのため、4 + 1アーキテクチャからの大きな逸脱を表しています。

1つの大きな変更には、Nvidiaが「動的コード最適化」と呼ぶものが含まれます。これは、頻繁に使用されるARMコードを取得し、それをプロセッサ用に特別に最適化されたマイクロコードに変換します。これは、128 MBのキャッシュメモリに格納されます（従来のシステムメインメモリから切り分けられます）。目標は、その手法が通常使用するほど多くの電力を必要とせずに、アウトオブオーダー実行のパフォーマンスを提供することです。コンセプトは新しいものではありません– TransmetaはCrusoeチップを使って何年も前に試しましたが、Nvidiaはこれが今では著しく良くなっていると言います。

Nvidiaはいくつかのベンチマークを示し、新しいチップは既存の4コアまたは8コアのモバイルCPUよりも大幅に高いパフォーマンスを達成できると主張しました。具体的には、iPhoneで使用されているApple A7（Cycloneと呼ばれる） 5s-そしていくつかの主流のPCプロセッサさえ。 Nvidiaは、Atom（Bay Trail）プロセッサよりも優れており、Intelの1.4GHzデュアルコアCeleron（Haswell）プロセッサに似ていると述べました。もちろん、私はベンダーのパフォーマンスの数値を一目瞭然とする傾向があります。ベンダーがベンチマークを選択するだけでなく、同じクロック速度または同じ消費電力について話しているかどうかはまったく明確ではありません。

一方、サーバー向けのチップでは、AMDは「Seattle」として知られるOpteron A1100について詳しく語り、同社は現在サンプリング中であり、今年の終わりごろにサーバーで利用できるようになると述べています。このチップには、8つの64ビットCortex A57 CPUコアがあります。 4MBのL2キャッシュと8MBのL3キャッシュ。エラー訂正機能を備えた最大128GBのDDR3またはDDR4メモリ用の2つのメモリチャネル。多数の統合I / O（PCIe Gen3および6Gbps SATAの各8レーンと2つの10Gbpsイーサネットポート）; セキュアブート用のCortex A5「システムコントロールプロセッサ」。暗号化と復号化を高速化するアクセラレータ。 GlobalFoundriesの28nmプロセスで製造されています。 AMDは、チップの周波数、電力、または性能に関する詳細をまだ明らかにしていませんが、チップの基本的な図を示しました。（上記）

Applied Microは、8個の2.4GHZ専用ARMv8コア、4個のDDR3メモリコントローラー、PCIe Gen3および6Gbps SATA、および10Gbpsイーサネットを含むX-Gene 1（Stormとして知られています）。これは現在、TSMCの40nmプロセスで生産されていると同社は述べています。

ホットチップスでは、Applied MicroがX-Gene 2（Shadowcat）デザインをプッシュしました。これは、2.4〜2.8GHzの速度で動作する8個または16個の「拡張」コアで利用でき、RoCE（RDMA over Converged Ethernet）ホストを追加しますマイクロサーバーのクラスター間で低遅延接続を可能にするように設計された相互接続としてのチャネルアダプター。これはクラスターで使用するように設計されており、単一のサーバーラックが最大6, 480スレッドと50 TBのメモリをサポートし、すべてが単一のストレージプールを共有します。同社によれば、X-Gene 2は整数パフォーマンスが約60％向上し、Memcacheのパフォーマンスが2倍、Apache Webサービスが約25％向上します。 28nmプロセスで製造され、現在サンプリング中です。

Applied Microは、X-Gene 2は競合するマイクロサーバー（Cavium ThunderX、Intel Atom C2000「Avoton」、AMD Opteron A1100「Seattle」）とフルサイズのXeonサーバーのギャップを埋めると言います。来年のサンプリング開始が予定されている次世代のX-Gene 3（Skylark）の詳細を説明しました。このチップには、最大3 GHzで動作する16個のARMv8コアが搭載され、16nm FinFetテクノロジーを使用して製造されます。