NVIDIA Tesla

NVIDIA Tesla（エヌビディアテスラ）は、NVIDIAのデータセンター用のGPU製品シリーズ。GeForceやQuadroをベースとしており、NVIDIA初のGPGPU専用製品である。2017年のVoltaマイクロアーキテクチャ以降は Tesla という名称が消え、単に頭に NVIDIA が付くだけになった。

概要

汎用CPUに比べて浮動小数点演算性能が高く、高性能計算市場での使用を意図した製品であり、TOP500のスーパーコンピュータでも多数採用されている。主な用途は機械学習のディープラーニング、シミュレーション、大規模な計算（特に浮動小数点演算）、高品質の画像生成などで、APIとしてCUDAやOpenCL、DirectComputeを使用する。

なお同社製グラフィックス製品であるGeForceやQuadroとは異なり、TeslaシリーズはC2050/C2070などの一部を除いてディスプレイ出力を持たず、完全に演算用途に特化している。

競合となるのはAMDのAMD FireStream（AMD FirePro Sシリーズ）である。

Kepler世代以降のTeslaは353.06ドライバでOpenCL 1.2に対応している^[1]が、それ以前のG80からFermiまではOpenCL 1.1までの対応となる。

仕様と構成

表中の性能欄は、単精度／倍精度浮動小数点の理論演算性能（ピーク時）である。

Teslaマイクロアーキテクチャ

2007年 6月20日発表^[2]。G80ベースのx870シリーズは単精度浮動小数点演算のみの対応であり、倍精度浮動小数点演算は実行できない^[3]。

構成	機種名	GPU数	グラフィックスクロック (MHz)	CUDA		メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
構成	機種名	GPU数	グラフィックスクロック (MHz)	CUDAコア数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
GPUコンピューティングプロセッサ¹	C870	1	600	128	1350	77	GDDR3	384	1.5	1.6	0.519	N/A	フルハイトビデオカード
デスクサイト・スーパーコンピュータ¹	D870	2	600	256	1350	154	GDDR3	384	3	1.6	1.037	N/A	デスクサイドシステム/ラックマウント装置
GPUコンピューティングサーバ¹	S870	4	600	512	1350	307	GDDR3	384	6	1.6	2.074	N/A	1Uラック
C1060 コンピューティングプロセッサ² ^[4]	C1060	1	602	240	1296	102	GDDR3	512	4	0.800	0.933	0.078	フルハイトビデオカード IEEE 754r 機能
S1070 1U GPUコンピューティングサーバ² ^[5] ^[6]	S1070	4	602	960 (240×4)	1296/1440	408 (102×4)	GDDR3	512	16 (4×4)	?	3.73/4.14	0.311/0.345	1Uラック IEEE 754r 機能

注釈

¹ NVIDIAが明らかにしていない仕様については、GeForce 8800 GTXからの推測。
² NVIDIAが明らかにしていない仕様については、GeForce GTX 280からの推測。

Fermiマイクロアーキテクチャ

2009年 11月6日発表^[7]。ハーフレートの倍精度演算性能を実現している（倍精度の理論演算性能は単精度の場合の1/2になっている）。

機種名	GPU数	グラフィックスクロック (MHz)	CUDA		メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	グラフィックスクロック (MHz)	CUDAコア数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
C2050^{3, 5} ^[8]	1	575	448	1150	144	GDDR5	384	3	1.5	1.03	0.515	フルハイトビデオカード IEEE 754r 機能画面出力機能付き
C2070^{3, 5}	1	575	448	1150	144	GDDR5	384	6	1.5	1.03	0.515
C2075^{3, 6} ^[9]	1	575	448	1150	144	GDDR5	384	6	1.5	1.03	0.515
M2050	1	575	448	1150	148	GDDR5	384	3	1.546	1.03	0.515	フルハイト/ パッシブ・ヒートシンク型
M2070	1	575	448	1150	150	GDDR5	384	6	1.566	1.03	0.515
M2090	1	650	512	1300	177	GDDR5	384	6	1.85	1.331	0.665
S2050	4	575	1792	1150	148	GDDR5	384	12	1.55	4.13	2.06	1Uラック

注釈

³ NVIDIAが明らかにしていない仕様については、Quadro 6000からの推測。
⁵ GF100 (Quadro 6000/GeForce GTX 480) ベース^[要出典]
⁶ GF110 (GeForce GTX 580^[要出典]) ベース

Keplerマイクロアーキテクチャ

最初の製品であるTesla K10は2012年 5月16日に発表された^[10]。GK104ベースのK10は単精度の理論演算性能は高いものの、倍精度の理論演算性能が極端に低く（単精度の場合の1/24^[11]）、科学技術計算向けではなく信号処理・画像処理向けのソリューションという位置付けになっている^[12]。なおGK110ベースとなるK20およびK40、そしてGK210ベースとなるK80における倍精度の理論演算性能は単精度の場合の1/3となっている^[13] ^[14] ^[15]。2014年に発表されたTesla K8もGK104ベース^[16]だが、K8はTeslaシリーズ初の1スロット省スペース製品となる^[17]。

Fermiマイクロアーキテクチャでは SM（ストリーミング・マルチプロセッサー）と呼ばれていた概念が、KeplerマイクロアーキテクチャではSMXという名称になった。GK104/GK110の各SMXが搭載する代表的なユニットは下記である^[18] ^[19]。

192 CUDAコア。16 CUDAコアを1グループとして、12グループ搭載する。
64K個の32ビットレジスタ。合計256KB。
L1キャッシュ 64KB。このうち 16KB/32KB/48KB を共有メモリとして使用。共有メモリからは1サイクルで最大256B読み出せる。
読み取り専用キャッシュ 48KB。
特殊関数ユニット (SFU) 32個。三角関数、対数関数などを計算。

Fermi同様、各スレッド（コア）はワープ (warp) 単位で動作させる（1ワープは32スレッド）。ワープ内のスレッドは同期し、それぞれ同じ命令を実行する。16 CUDAコアを1グループとしているので、32スレッドに命令が行き渡るには2サイクル以上必要となる。その他、Kepler世代ではワープ内で共有メモリを介することなくデータ交換を可能にするシャッフル命令が実装されている。なおCompute capability (CC) に関しては、GK104はCC 3.0、GK110はCC 3.5、そしてGK210はCC 3.7^[20]となるが、CC 3.5以上ではDynamic ParallelismやHyper-Qといった機能を備えている^[21]。

フルスペックGK104では512KB、またフルスペックGK110/GK210では 1536KB (1.5MB) の L2 キャッシュを全 SMX で共有し、このキャッシュを経由して DRAM にアクセスする。なおインテルの第1世代Xeon Phiは30MB前後の L2 キャッシュを搭載しており、この点が設計の違いの一つとなる^{[独自研究?]}。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SMX数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
K8 ⁷	1	1536	8	693 811 (Boost)	160	GDDR5	256	8	2.5	2.13 2.49 (Boost)	0.09 0.10 (Boost)	フルハイト/1スロット型
K10 ⁸	2	3072 (1536x2)	8x2	745	320 (160x2)	GDDR5	256	8 (4x2)	2.5	4.577 (2.288x2)	0.191 (0.095x2)	フルハイト/ パッシブ・ヒートシンク型
K20	1	2496	13	706	208	GDDR5	320	5	2.6	3.52	1.17
K20X	1	2688	14	732	250	GDDR5	384	6	2.6	3.95	1.31
K40	1	2880	15	745 875 (Boost)	288	GDDR5	384	12	3	4.29 5 (Boost)	1.43
K80	2	4992 (2496x2)	13x2	562 875 (Boost)	480 (240x2)	GDDR5	384	24	2.5	5.6 8.74 (Boost)	1.87

注釈

⁷ GK104ベース
⁸ GK104 (GeForce GTX 690) ベース

Maxwellマイクロアーキテクチャ

MaxwellではKeplerよりもさらに倍精度サポートが削られている（単精度の場合の1/32）。M4/M40は主に機械学習・ディープラーニング向けのソリューションとして提供されている^[22] ^[23] ^[24] ^[25]。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
M6 ^[26]	1	1536	12	950 1051 (Boost)	147.3	GDDR5	256	8	2.5	3.6 (Boost)	0.11 (Boost)	MXM
M60 ^[27]	2	4096 (2048x2)	32 (16x2)	899 1178 (Boost)	320 (160x2)	GDDR5	256	16 (8x2)	2.5	9.65 (4.825x2)	0.3 (0.15x2)	フルハイト
M4 ^[28]	1	1024	8	517 1074 (Boost)	88	GDDR5	128	4	2.75	2.2 (Boost)	0.07 (Boost)	ロープロファイル/ パッシブ
M40 ^[29]	1	3072	24	948 1114 (Boost)	288	GDDR5	384	12	3	5.8 6.8 (Boost)	0.18 0.21 (Boost)	フルハイト/ パッシブ・ヒートシンク型

Pascalマイクロアーキテクチャ

最初の製品であるTesla P100は2016年4月に発表された^[30]。16nmプロセスルールを採用。GP100ベースのP100では、Fermi世代のようなハーフレートの倍精度対応のほか、ダブルレートの半精度対応も実現されている（半精度の理論演算性能は単精度の場合の2倍になっている）。メモリに第2世代のHigh Bandwidth Memory (HBM2) を採用する。NVIDIA独自のインターコネクト規格であるNVLinkにも対応し、これまでプロセッサ間の通信ボトルネックとなっていたPCI Expressを大幅に超える伝送帯域幅を実現できる。

GP102ベースのP40およびGP104ベースのP4では、倍精度の理論演算性能は単精度の場合の1/32になっている^[31]。また、SMあたりのCUDAコア数は128、共有メモリも96KBとなっており、Maxwellアーキテクチャに近い^[32]。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
P4 ^[33]	1	2560	20	810 1063 (Boost)	192	GDDR5	256	8	3	4.15 5.44 (Boost)	0.13 0.17 (Boost)	ロープロファイル
P40 ^[34]	1	3840	30	1303 1531 (Boost)	346	GDDR5	384	24	7.25	10.01 11.76 (Boost)	0.31 0.36(Boost)	フルハイト
P100 PCIe ^[35]	1	3584	56	1189 1328 (Boost)	540 / 720	HBM2	4096	12 / 16	0.715	9.5 (Boost)	4.8 (Boost)	フルハイト/ パッシブ
P100 SXM2 ^[36]	1	3583	56	1328 1480 (Boost)	720	HBM2	4096	16	0.715	10.6 (Boost)	5.3 (Boost)	NVLink/ パッシブ

Voltaマイクロアーキテクチャ^[37]

最初の製品であるTesla V100は2017年5月に発表された^[38]。12nmプロセスルールを採用。行列演算を実行するための専用プロセッサ「Tensor Core」を搭載する。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
V100 PCIe	1	5120	80	1245 1380 (Boost)	900	HBM2	4096	16	0.876	14 (Boost)	7 (Boost)	フルハイト/ パッシブ
V100 SXM2	1	5120	80	1312 1530 (Boost)	900	HBM2	4096	16	0.876	15 (Boost)	7.5 (Boost)	NVLink/ パッシブ

Turingマイクロアーキテクチャ

Tesla T4が2018年9月に発売された。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
T4	1	2560	40	585 1590 (Boost)	320	GDDR6	256	16	1.25	8.1	不明	フルハイト

Ampereマイクロアーキテクチャ

最初の製品であるTesla A100は2020年5月に発売された。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
A2	1	1280	不明	1440 1770 (Boost)	200	GDDR6	128	16	6.25	4.531	0.14	ハーフハイト
A10	1	9216	84	885 1695 (Boost)	600	GDDR6	384	24	不明	31.24	0.976	フルハイト
A16	4	5120 (1280x4)	20	885 1695 (Boost)	800 (200x4)	GDDR6	128x4	64 (16x4)	6.25	18.432 (4.608x4)	1.0848	フルハイト/ 2スロット
A30	1	3584	128	930 1440 (Boost)	933	HBM2	3072	24	1.215	10.32	5.161	フルハイト/ 2スロット
A40	1	10752	84	1305 1740 (Boost)	696	GDDR6	384	48	7.251	37.42	1.168	フルハイト/ 2スロット
A100 PCIe	1	6912	108	765 1410 (Boost)	1555	HBM2	5120	40 / 80	不明	19.5	9.7	フルハイト/ 2スロット
A100 SXM	1	6912	108	765 1410 (Boost)	1555 2039	HBM2	5120	40 / 80	不明	19.5	9.7	SXM（英語版）

Hopperマイクロアーキテクチャ

最初の製品であるTesla H100は2022年3月に発売された。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
H100 PCIe	1	14592	114	1065 1650 (Boost)	2000	HBM2e	5120	80	不明	48	24	フルハイト/ 2スロット
H100 SXM	1	16896	132	1065 1650 (Boost)	3350	HBM3	5120	80	不明	60	30	SXM（英語版）
H200 SXM					4800	HBM3e		141	不明	67	34	SXM

脚注

外部リンク

[1] Release 352 Quadro, NVS, Tesla, GRID, & Notebook Drivers - Version 353.06; RN-WQ35306-01_v01 | June 1, 2015; Windows 7, Windows 8, & Windows 8.1; Release Notes

[2] NVIDIA、G80ベースのHPC向けGPU「Tesla」

[3] Tesla Technical Brief (PDF)

[4] NVIDIA Tesla C1060コンピューティングプロセッサ―ワークステーション向けメニーコアスーパーコンピューティング

[5] NVIDIA Tesla S1070 1Uコンピューティングシステム― データーセンター向けの測定可能なメニーコアスーパーコンピューティング

[6] NVIDIA Tesla S1070 - 株式会社エルザジャパン

[7] NVIDIA、Fermi採用の並列プロセッサ「NVIDIA Tesla 20シリーズ」発表 - ITmedia エンタープライズ

[8] Tesla C2050 / C2070 GPUコンピューティングプロセッサ

[9] NVIDIA Tesla C2075 | 株式会社エルザジャパン

[10] NVIDIA Tesla K10 GPU、石油・ガスの探査や防衛産業向け信号処理・画像処理を高速化 | NVIDIA

[11] 4Gamer.net ― 「GeForce GTX TITAN」登場。500円玉より大きなモンスターGPUの“性能以外”を徹底解説

[12] 4Gamer.net ― NVIDIA，Keplerベースの新世代Teslaを発表。「GK110」コア採用の「Tesla K20」が年内に登場予定

[13] AnandTech | NVIDIA Launches Tesla K80, GK210 GPU

[14] NVIDIA，新型GPUコア「GK210」搭載のHPC向けデュアルGPUカード「Tesla K80」を発表 - 4Gamer.net

[15] NVIDIA® Tesla® GPU Accelerators Datasheet - nvidia-tesla-kepler-family-datasheet.pdf

[16] Tesla-K8-Board-Spec-BD-07228-001-v03.pdf

[17] NVIDIA Tesla K8 | 株式会社エルザジャパン

[18] 【後藤弘茂のWeekly海外ニュース】 NVIDIAが次世代GPUアーキテクチャ「Kepler」のベールを剥いだ

[19] ホワイトペーパー NVIDIAの次世代型CUDA コンピュート・アーキテクチャ Kepler GK110

[20] Whitepaper; NVIDIA’s Next Generation CUDA™ Compute Architecture: Kepler™ GK110/210

[21] Kepler Tuning Guide :: CUDA Toolkit Documentation

[22] NVIDIA，Maxwellベースの数値演算アクセラレータ「Tesla M40」「Tesla M4」を発表 - 4Gamer.net

[23] NVIDIA、Maxwellベースで7TFLOPSを実現する機械学習向け「Tesla M40」～Low Profileの1スロットの「Tesla M4」も - PC Watch

[24] NVIDIA Tesla M60 and Tesla M6 Accelerators To Power Grid 2.0 - M60 Featuring Dual-GM204 GPUs

[25] NVIDIA Announces Tesla M40 & M4 Server Cards - Data Center Machine Learning

[26] Tesla M6 Product Brief

[27] Tesla M60 Product Brief

[28] Data Sheet: Tesla M4

[29] NVIDIA Tesla M40 | 株式会社エルザジャパン

[30] ［GTC 2016］西川善司の3DGE：Teslaとして登場した新世代GPU「Pascal」，その詳細に迫る - 4Gamer.net

[31] NVIDIA，ディープラーニング向け数値演算アクセラレータ「Tesla P40」「Tesla P4」を発表 - 4Gamer.net

[32] PASCAL: 最新GPUアーキテクチャ

[33] NVIDIA Tesla P4 GPU Datasheet

[34] Data Sheet: Tesla P40

[35] Data Sheet: Tesla P100

[36] Data Sheet: Tesla P100

[37] NVIDIA TESLA V100 GPU ACCELERATOR

[38] ［GTC 2017］西川善司の3DGE：Volta世代のGPU「GV100」は，これまでと大きく異なるプロセッサだ――いったい何が？ - 4Gamer.net

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

概要