家前向きの考え方ホットチップ：機械学習が中心となる

ホットチップ：機械学習が中心となる

2024

ビデオ: éæ£®å¸ã®ãã³å±ãã ãããã£ã (十一月 2024)

最近のコンピューティングで最もホットなトピックは機械学習であり、それは確かにハードウェア側で見ることができます。ここ数週間、NvidiaのTesla P100やDrive PX 2からGoogleのTensor Processing Units、IntelのXeon Phiまで、ディープラーニング用に設計された新しいチップについて多くのことを耳にしました。そのため、先週のHot Chipsカンファレンスで、機械学習と視覚処理に合わせて設計された非常に異なるアプローチを採用しているさまざまな企業から話を聞いたのは驚くことではありません。

おそらく最大のニュースは、自動運転車用のDrive PX 2モジュールで使用され、自律マシンのディープラーニングを目的としたNvidiaのParkerチップに関する詳細の開示でした。このチップは、2つのカスタムビルドARM互換デンバーCPUコア、4つのARM Cortex-A57コア、NvidiaがPascal CUDA（グラフィックス）コアと呼ぶ256のコアを使用します。

Nvidiaは、これが特別な回復機能を備えた自動車用に設計および評価された最初のチップであると述べ、より高速な速度とメモリについて語り、デンバーコアがワットあたりのパフォーマンスを大幅に改善することに注目しました。新しい機能には、ハードウェア支援による仮想化があり、従来は別々のコンピューターで行われていた車の機能を統合できる最大8つのVMSがあります。全体的に、Drive PX 2モデルには、これらのパーカーチップを2つとディスクリートGPUを2つ搭載でき、合計パフォーマンスは8テラフロップス（倍精度）または24のディープラーニング操作（8ビット、または半精度）です。同社は、比較的古いベンチマークであるSpecInt_2000を使用して、現在のモバイル処理と比較して有利に比較するベンチマークを含めました。しかし、パフォーマンスは印象的で、ボルボは最近、来年から自動運転車のテストに使用すると発表しました。

もちろん、他にも多くのアプローチがあります。

中国の新興企業DeePhiは、関与するネットワークの種類に応じて2つの異なるアーキテクチャを備えたニューラルネットワーク用のFPGAベースのプラットフォームについて説明しました。 Aristotleは、比較的小規模な畳み込みニューラルネットワーク用に設計されており、Xilinx Zynq 7000に基づいています。一方、Descartesは、Kintex Ultrascale FPGAに基づいた長い短期メモリ（RNN-LSTM）を使用する大規模なリカレントニューラルネットワーク用に設計されています。 DeePhiは、コンパイラとアーキテクチャがFPGAのほとんどの使用と比較して開発時間を短縮し、FPGAを使用するとNvidiaのTegra K1およびK40ソリューションよりも優れたパフォーマンスを提供できると主張しています。

別のアプローチとしては、デジタルシグナルプロセッサまたはDSPを使用する方法があります。これは通常、特定の機能またはごく一部の機能を非常に迅速に、非常に少ないエネルギーで実行します。多くの場合、これらはビジョン処理などの特定の機能を高速化するために、より複雑な他のチップに組み込まれています。 Movidius、CEVA、Cadenceなどの多くの企業がHot Chipsでソリューションを共有していました。

Movidiusは、Myriad 2ビジョンプロセッシングユニットとして知られるDSPベースのソリューションを展示し、DJI Phantom 4ドローンで展示していました。また、2014年のImageNetコンテストで使用されたMyriad 2がGPUおよびGoogLeNetディープニューラルネットワークよりも優れていることも示しました。

CEVAは、CEVA Deep Neural Network 2プラットフォームと共に、特に視覚処理向けに調整され、自動車市場向けのCEVA-XM4 Vision DSPを推進していました。CEVADeep Neural Network 2プラットフォームは、CaffeまたはTensorFlowフレームワーク用に記述されたものをすべて実行して最適化できると述べましたそのDSPで。新しいプロセッサは来年SoCに搭載される予定です。

一方、ビジョンプロセッサのテンシリカファミリ（他の製品に組み込むことができる）を製造するケイデンスは、ベクトル浮動小数点サポートや畳み込みニューラルネットワークなどの新機能を追加した最新バージョンのVision P6について説明しました。。最初の製品はまもなく発売されるはずです。

マイクロソフトは、HoloLensヘッドセットのハードウェアの詳細について話しました。Windows10を実行する14nm Intel Atom Cherry Trailプロセッサと、28nmプロセスでTSMCが製造したカスタムホログラフィックプロセッシングユニット（HPU 1.0）センサーハブを使用したためです。これには24のTensilica DSPコアが含まれます。

特に、ニューラルネットワークの主要な構成要素の1つである乗加算演算に関して、GPU、FPGA、さまざまな種類のDSPのスループットと効率の違いを示したCadenceのスライドの1つに特に惹かれました。（すべてのベンダーのプレゼンテーションがそうであるように）明らかにセルフサービスですが、コストとプログラミングの容易さは言うまでもなく、速度と効率（ワットあたりのパフォーマンス）の点で異なる技術がどのように異なるかを指摘しました。ここにはさまざまなアプローチに対する多くの解決策があり、これが今後数年間でどのように揺れるかを見るのは興味深いでしょう。