家前向きの考え方 Ivytown、Steamroller、14および16nmプロセスハイライトisscc

Ivytown、Steamroller、14および16nmプロセスハイライトisscc

2024

ビデオ: ISSCC 2017 New Vision Chip Demo (十一月 2024)

チップベンダーは通常、毎年恒例の国際固体半導体回路会議（ISSCC）で新しいチップを発表しませんが、多くの場合、すでに発表されている製品の内部動作に関する詳細を提供します。今週のショーでおもしろいと思ったことがいくつかあります。

インテルのIvytownサーバーアーキテクチャ

Intelは、Ivytownとして知られる、最大15コアと30スレッドのチップであるXeon E7プロセッサファミリの最新バージョンについて議論しました。 Xeon E5 2600 V2で使用されているIvy Bridge EPアーキテクチャに基づいています。プロセッサは、IntelのTri-Gateトランジスタ（フィンの高さは34nm、幅は8nm）を備えた22nmプロセステクノロジーを使用して構築され、現在のWestmere EXベースのXeon E7に置き換わります。それに比べて、32nmプレーナHKMGプロセッサで生産される現在のXeon E7は、10コアと20スレッドを持ち、Ivytownバージョンの37.5MBと比較して30MBのL3キャッシュを持っています。

この新しいプロセッサファミリのさらに興味深い機能の1つは、モジュールアーキテクチャです。フロアプランは5つのコアの3つの列で構成され、各列にはL3キャッシュの独自のスライス、埋め込みリングバス、列の上部と下部に専用IOがあります（上部にQPIリンク、下部にメモリコントローラー）。 Intelは、右側の列を削除して10コアバージョンを作成する予定です。さらに2行を削除して6コアバージョンを作成します。

15コアバージョンには43億1千万個のトランジスタがあり、Intelはマイクロプロセッサにとって最も適していると言い、541平方ミリメートルです。 10コアバージョンには28.9億個のトランジスタがあり、寸法は341平方ミリメートルです。 6コアのバリアントには、18億6, 000万個のトランジスタがあり、サイズは257平方ミリメートルです。動作周波数は1.4GHz〜3.8GHzで、TDPは40W〜150Wです。

Ivytownのもう1つの興味深い側面は、メモリバッファアーキテクチャです。同じダイは、最大1867MT / sで実行される標準の4チャネルDDR3メモリと、2667 MT / sで実行されるメモリ拡張バッファへの新しい4チャネル電圧モードシングルエンド（VMSE）インターフェイスをサポートします。合計で8ソケットサーバーで最大12TBのメモリをサポートできます。これはWestmere EXの3倍のメモリ容量です。 15コアバージョンは、既存のRomleyプラットフォーム（Socket-R）と互換性があり、簡単にアップグレードできるものと、メモリバッファーを使用して新しいプラットフォームを有効にするものの2つの異なるパッケージで利用できます。

Haswellの詳細

Intelはまた、現在のCoreファミリで使用されているHaswellアーキテクチャに関する多くの詳細を提供しました。これも22nmトライゲートトランジスタを使用しています。 Intelは、Haswellが完全に統合された電圧レギュレーターまたはFIVR（5つの電圧レギュレーターから1つまでプラットフォームを統合する）、グラフィックス性能を改善するDRAMキャッシュ、低電力状態、最適化されたIO、AVX2命令、およびより広いSIMD整数単位。

Haswellには3つの基本的なバリエーションがあります。1つ目は、高速グラフィックス（2〜4コア）を備えた個別のPCH（プラットフォームコントローラーハブ）と通信するクアッドコアです。次に、デュアルコアHaswellとPCHを単一のマルチチップパッケージで組み合わせたウルトラブックプラットフォームがあります。プロセッサは低電力状態をサポートし、PCHは低電力用に変更され、2つは低電力バスを介して通信します。これらはすべて、スタンバイ電力を95％削減します。最後に、同じパッケージにIris Proグラフィックスと128MB eDRAMキャッシュを備えたバージョンがあります。マルチチップパッケージは、CPUとPCHおよびeDRAM間の低電力で高帯域幅を提供するオンパッケージIOを使用します。

CPUコアの数とグラフィックス（GT2またはGT3）に応じて、Haswellには9億6000万から17億個のトランジスタがあり、ダイのサイズは130から260平方ミリメートルです。 1.1〜3.8 GHzの広い周波数範囲で0.7〜1.1ボルトで動作するように設計されています。

128GB eDRAMダイのサイズは77平方ミリメートルで、102GBpsのピーク帯域幅を提供します。 Intelは、eDRAMのない同じシステムと比較して、追加のキャッシュは最大75％のパフォーマンス向上を提供しますが、全体的なパフォーマンスは30〜40％増加すると述べました。

AMDのSteamrollerがKaveriを強化

AMDは、同社の新しいKaveriシリーズのプロセッサで使用されているSteamrollerと呼ばれる新しいCPUコアに焦点を当てた、加速処理ユニット（APU、またはCPUとグラフィックスを組み合わせたプロセッサ）と呼ばれるものにより多くのグラフィックスを配置する傾向があります。 28nmバルクCMOSプロセスで製造されたSteamrollerコアには、29.47平方ミリメートルの領域に2億3600万個のトランジスタがあります。これには、2つの整数コア、2つの命令デコードユニット、および命令フェッチ、浮動小数点ユニット、2MBのL2キャッシュを含むいくつかの共有要素が含まれます。 AMDは通常、「デュアルコア」チップ（2つの整数コアを反映）でこれらのSteamrollerモジュールの1つを使用します。「クアッドコア」チップに2つ。

32nm SOIプロセスで製造された以前のPiledriverコアと比較して、Steamrollerは2番目の命令デコードユニット、より大きな96KB共有命令キャッシュ、およびその他の機能強化を追加します。 AMDは、これによりサイクルあたり最大14.5％の命令が増加し、シングルスレッドアプリケーションでのパフォーマンスが9％向上し、デュアルスレッドアプリケーションでのパフォーマンスが18％向上したと述べました。また、同じ電力で500MHzの高い周波数で動作することも、38％の電力削減でほぼ同じ性能を発揮することもできます。 Steamrollerコアは、0.7〜1.45ボルトの範囲で動作するように設計されています。

MediaTek、Renesas、およびQualcommのモバイルプロセッサ

多くの企業が、ARMベースのプロセッサに関するプレゼンテーションを行いました。

MediaTekは、クアッドコアCPUとデュアルGPUを備えた28nmヘテロジニアスマルチコアプロセッサ（HMP）について話しました。 MediaTekチップには、1.8GHzで動作する2つのCortex A15コアと、1.4GHzで動作する2つのCortex A7コアがあり、イマジネーションG6200 400MHzデュアルコアGPUが組み合わされています。また、フルHDハードウェアビデオコーデックと13メガピクセルのイメージセンサープロセッサも備えています。

MediaTekはまた、チップを監視し、電力を制御するPTP（パフォーマンス、熱、および電力）テクノロジーについても話しました。この場合、同社は、PTPがクロック速度の23％の増加または最大41％の電力節約を許可すると述べました。

このチップはARMの真のHMP処理を使用します。つまり、ワークロードに応じて、1〜4の大きなコアと小さなコアの任意の組み合わせを実行できます。 MediaTekは、真のHMPを使用することで、重いワークロードで33-51％のパフォーマンス、または軽いワークロードで2-5倍のエネルギー効率を実現できる一方で、適応熱管理によりパフォーマンスがさらに10％向上すると述べています。

ルネサスは、モバイルデバイスおよびカーインフォテインメントシステム向けに設計された「提案された」28nm HPM 8コアヘテロジニアスプロセッサを発表しました。チップは、4つの2GHz Cortex A15コアと4つの1GHz Cortex A7コアを使用します。最高のパフォーマンスを実現するために8つのコアすべてを同時に動作させることができますが、異種アーキテクチャと電源管理技術を使用して、特定のワークロードまたは電源エンベロープのパフォーマンスを最適化します。

クアルコムは、モバイルSoCでさまざまなマルチメディアおよびモデムアプリケーションに使用されているHexagonデジタルシグナルプロセッサについて説明しました。現在のバージョンは28mm HKMGバルクCMOSプロセスで製造されています。この設計は、高い動作周波数ではなく、クロックあたりの高い命令を対象としています。

ARMサーバー側で、Applied Microは、最近のOpen Computeサミットで初めて発表された、同社の第1世代64ビットARMv8プロセッサについて話しました。これは、256KBのL2キャッシュを共有する2つのコアを含む「Potenza」プロセッサモジュール（PMD）に基づいています。 Potenzaは40nmバルクCMOSで製造され、各PMDは8, 400万個のトランジスタを含み、14.8平方ミリメートルのダイ面積を使用します。 0.9ボルトで最大3GHzで動作できますが、一般的なワークロードでは平均4.5Wです。 X-Gene 3サーバープラットフォームには、4つのPMD（8コア）、8 MBのL3キャッシュの共有、および中央スイッチ周辺の4つのDRAMメモリチャネルが含まれます。また、10GBイーサネット、SATA 2/3、PCIe Gen. 3、およびUSB 3.0も統合されています。

次世代のチッププロセス技術

ほぼすべての主要なチップメーカーは、14または16 nmノード（既に22 nmチップを出荷しているIntelに続く）で、3DまたはFinFET生産に移行する計画があるため、次世代のチッププロセステクノロジーに関するプレゼンテーションもいくつかありました。そのような技術で）。

サムスンは、128Mb 6T SRAMアレイとテストチップを示す14nm FinFETプロセスについて話しました。 Samsungは、FinFETが優れたスケーリング、高オン電流、低リークを提供し、優れた短チャネル制御を備えているため、低電力モバイルSoCの優れたソリューションであると述べました。

SRAMの電源電圧はスケーリングされていないため、これはSRAMにとってもいくつかの課題をもたらします。 SRAMはSoCのダイ面積の20〜30パーセントを占めるようになりましたが、電力の約40〜50パーセントを使用します。これらの問題に対処するために、SamsungはFinFETトランジスタを使用して低電源電圧でSRAMを動作させるいくつかの新しい手法を提案しました。

TSMCは同様の問題に対処し、16nm 128Mb SRAMチップを披露しました。 TSMCは、FinFETが20nmを超える生産の主流技術になったが、FinFETのチャネル幅と長さのサイズは、従来の6T-SRAMと電源電圧のスケーリングにとって課題であると述べた。 TSMCは、これらの問題を克服するために2つの書き込み支援手法を提案しました。

これらはかなり技術的な問題ですが、将来、より高密度で電力効率の高いチップを入手するためには、問題を解決することが重要です。