FLOPS
換算表 | ||
---|---|---|
接頭辞 | FLOPS | |
ヨタ(Y) | 1024 | |
ゼタ(Z) | 1021 | |
エクサ(E) | 1018 | |
ペタ(P) | 1015 | |
テラ(T) | 1012 | |
ギガ(G) | 109 | |
メガ(M) | 106 |
FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータの性能指標の一つ。
概要
[編集]FLoating point number Operations Per Secondの名称が示す通り、1秒間に浮動小数点演算が何回できるかの指標値ひいては性能値の事を指す。
ハードウェアの仕様として用いられるのは理論値であるが、ベンチマークソフトなどの計測から導き出される計測値は、理論値からは原則的に下がる。その為、理論値だけでなく、「理論的に算出された値の何%で実際のプログラムが動作するか」ということが重要になる(実測値)。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである。
パーソナルコンピュータ(以下PCと表記)向けのCPUやGPUメーカーは、計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的に並列方式スーパーコンピュータ(以下スパコンと表記)では多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている。
2016年前後の時点において、普及している家庭用のPCのCPUはGFLOPS、スパコンの世界1位はPFLOPSの単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている[1]。2000年頃からの理論値ではPCとスパコンの比例値は、おおよそ1万倍の差で推移している。
2024年3月現在、世界最高速のスパコンはFrontierで1.102EFLOPS[2]。分散コンピューティングでは、Folding@homeが一時的に2.4EFLOPSを突破した[3]。
代表的なハードウェアの浮動小数点数演算能力
[編集]PC (Intel)
[編集]名称 | コア数 | クロック | FLOPS(倍精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Pentium | 1コア | 300MHz | 300 MFLOPS | 理論値 | 1 FLOPS/Clock × 300MHz | |
Pentium II | 1コア | 450MHz | 450 MFLOPS | 理論値 | 1 FLOPS/Clock × 450MHz | |
Pentium III | 1コア | 1.4GHz | 2.1 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.4GHz | |
Pentium M | 1コア | 2.26GHz | 3.39 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 2.26GHz | [4] |
Pentium 4 | 1コア | 3.8GHz | 7.6 GFLOPS | 理論値 | 2 FLOPS/Clock × 3.8GHz | [4] |
Pentium D | 2コア | 3.6GHz | 14.4 GFLOPS | 理論値 | 2 FLOPS/Clock × 3.6GHz × 2コア | [4] |
Intel Atom (Bonnell) |
2コア | 1.8GHz | 5.4 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.8GHz × 2コア | |
Core Solo | 1コア | 1.83GHz | 2.75 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.83GHz | [5] |
Core Duo | 2コア | 2.33GHz | 6.99 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 2.33GHz × 2コア | [5] |
Core 2 Duo | 2コア | 3.33GHz | 26.64 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.33GHz × 2コア | [5] |
Core 2 Extreme | 4コア | 3.2GHz | 51.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.2GHz × 4コア | [5] |
Core i7 (Nehalem) |
4コア | 3.33GHz | 53.28 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.33GHz × 4コア | [5] |
Core i7 (Westmere) |
6コア | 3.46GHz | 83.04 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.46GHz × 6コア | [5] |
Core i7 (Sandy Bridge) |
6コア | 3.3GHz | 158.4 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.3GHz × 6コア | [5][6] |
Core i7 (Haswell) |
8コア | 3.0 GHz (ベース) 3.5 GHz (ターボ) |
384 GFLOPS (ベース) 448 GFLOPS (ターボ) |
理論値 | 16 FLOPS/Clock × 3.0 GHz × 8コア | |
Core i7 (Broadwell) |
10コア | 3.0 GHz (ベース) 3.5 GHz (ターボ) |
480 GFLOPS (ベース) 560 GFLOPS (ターボ) |
理論値 | 16 FLOPS/Clock × 3.0 GHz × 10コア | |
Core i9(Rocket Lake) | 8コア | 5.2 GHz (ターボ) | 665 GFLOPS (ターボ) | 理論値 | 16 FLOPS/Clock × 5.2 GHz × 8コア | [7] |
Core i9(Alder Lake) | P8/E8 | 5.2/4.0 GHz (ターボ) | 1.18 TFLOPS (ターボ) | 理論値 | 16 FLOPS/Clock × 5.2 GHz × 8コア
+ 16 FLOPS/Clock × 4.0 GHz × 8コア |
[8] |
Core 2 Duoより1クロックで SSE で加算と乗算が計算できる[9]ようになり128ビット幅だと倍精度で 4 FLOPS/クロック。Sandy Bridgeより搭載した Intel AVXは256ビット幅なので8FLOPS/クロック。Intel FMAは融合積和命令により1命令で積と和の2演算ができるので16FLOPS/クロック[10]。単精度だと、これらの演算回数は2倍[11]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる[12]ため、合計すると倍精度で3FLOPS/クロックとなる。
サーバ (Intel)
[編集]名称 | コア数 | クロック | FLOPS(倍精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Xeon (Nehalem) |
8コア | 2.26 GHz | 72.32 GFLOPS | 理論値 | 4 FLOPS/Clock × 2.26 GHz × 8コア | |
Xeon (Westmere) |
10コア | 2.4 GHz | 96 GFLOPS | 理論値 | 4 FLOPS/Clock × 2.4 GHz × 10コア | |
Xeon (Sandy Bridge) |
8コア | 3.1 GHz | 198.4 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.1 GHz × 8コア | |
Xeon (Ivy Bridge) |
15コア | 2.8 GHz | 336 GFLOPS | 理論値 | 8 FLOPS/Clock × 2.8 GHz × 15コア | |
Xeon (Haswell) |
18コア | 2.3 GHz | 662.4 GFLOPS | 理論値 | 16 FLOPS/Clock × 2.3 GHz × 18コア | |
Xeon (Broadwell) |
24コア | 2.2 GHz(ベース) 3.4 GHz(ターボ) |
0.845 TFLOPS(ベース) 1.306 TFLOPS(ターボ) |
理論値 | 16 FLOPS/Clock × 3.4 GHz × 24コア | |
Xeon Phi (Knights Corner) |
61コア | 1.238 GHz(ベース) 1.33 GHz(ターボ) |
1.208 TFLOPS(ベース) 1.298 TFLOPS(ターボ) |
理論値 | 16 FLOPS/Clock × 1.33 GHz × 61コア | |
Xeon Phi (Knights Landing) |
72コア | 1.5 GHz(ベース) 1.7 GHz(ターボ) |
3.456 TFLOPS(ベース) 3.917 TFLOPS(ターボ) |
理論値 | 32 FLOPS/Clock × 1.7 GHz × 72コア |
PC/Server (AMD)
[編集]名称 | コア数 | クロック | FLOPS(倍精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Phenom II (X4 980 Black Edition) |
4コア | 3.7GHz | 59.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.7GHz × 4コア | |
Phenom II (X6 1100T Black Edition) |
6コア | 3.3GHz | 79.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.3GHz × 6コア | |
AMD Fusion E Series (Bobcat) |
2コア | 1.65GHz | 6.6 GFLOPS | 理論値 | 2 FLOPS/Clock × 1.65GHz × 2コア | |
AMD Opteron (Magny-Cours) |
12コア | 2.5GHz | 120 GFLOPS | 理論値 | 4 FLOPS/Clock × 2.5GHz × 12コア | [6] |
AMD FX (Bulldozer) |
8コア/4モジュール | 3.9GHz | 124.8 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.9GHz × 4モジュール | |
AMD Opteron (Interlagos) |
16コア/8モジュール | 3.1GHz | 198.4 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.1GHz × 8モジュール | |
Ryzen 9 (Vermeer) |
16コア | 4.9GHz(ブースト) | 1.254 TFLOPS | 理論値 | 16 FLOPS/Clock × 4.9GHz × 16コア | |
EPYC (Milan) |
64コア | 3.5GHz(ブースト) | 2.509 TFLOPS(ベース) 3.584 TFLOPS(ブースト) |
理論値 | 16 FLOPS/Clock × 3.5GHz × 64コア |
Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。
名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
ARM11 | 1コア | 700MHz | 単精度:700 MFLOPS | 理論値 | 単精度:1 FLOPS/Clock × 700MHz | |
ARM Cortex-A8 | 1コア | 1GHz | 単精度:4 GFLOPS | 理論値 | 単精度:4 FLOPS/Clock × 1GHz | |
ARM Cortex-A9 | 4コア | 1.5GHz | 単精度:24 GFLOPS 倍精度:9 GFLOPS |
理論値 | 単精度:4 FLOPS/Clock × 1.5GHz × 4コア 倍精度:1.5 FLOPS/Clock × 1.5GHz × 4コア |
|
ARM Cortex-A15 | 4コア | 2.0GHz | 単精度:64 GFLOPS 倍精度:16 GFLOPS |
理論値 | 単精度:8 FLOPS/Clock × 2.0GHz × 4コア 倍精度:2 FLOPS/Clock × 2.0GHz × 4コア |
|
ARM Cortex-A57 | 4コア | 2.8GHz | 単精度:89.6 GFLOPS 倍精度:44.8 GFLOPS |
理論値 | 単精度:8 FLOPS/Clock × 2.8GHz × 4コア 倍精度:4 FLOPS/Clock × 2.8GHz × 4コア |
- NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)
ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ[13]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。
倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。
ゲーム機
[編集]※いずれも単精度(FP32)
- ドリームキャスト: 1.4GFLOPS(SH-4単体)[14]
- Xbox: 1.5GFLOPS
- Xbox 360: 115.2GFLOPS(Xenon単体)[15]、240GFLOPS(Xenos GPU単体)[15]、1TFLOPS (システム全体):但し詳しい内訳は不明[16]
- Xbox One: 1.3TFLOPS(GPU単体)[17]、Xbox One S: 1.4TFLOPS(GPU単体)[17]、Xbox One X: 6TFLOPS(GPU単体)[17]
- Xbox Series X: 12.15TFLOPS(GPU単体)[18]、Xbox Series S: 4TFLOPS(GPU単体)[18]
- PlayStation Portable: CPU 2.6GFLOPS / 9.6GFLOPS(ピーク時/システム全体)
- PlayStation 2: 6.2GFLOPS(Emotion Engine単体)[19]
- PlayStation 3: 218GFLOPS(Cell Broadband Engine単体)[20]、224GFLOPS (RSX単体)[21]、2TFLOPS (システム全体):但し詳しい内訳は不明[22]
- PlayStation 4: 1.84TFLOPS(GPU単体)[21]、PlayStation 4 Pro: 4.2TFLOPS(GPU単体)[23]
- PlayStation 5:10.3TFLOPS(GPU単体)[24]
スーパーコンピュータ
[編集]名称 | FLOPS | 理論値/実測値 | システム概要 | 参照 |
---|---|---|---|---|
ENIAC | 300FLOPS | 1946年完成 | ||
CRAY-1 | 160MFLOPS | 倍精度, 理論ピーク性能値 | 1976年初号機納入 | |
ディープ・ブルー | 11.38GFLOPS | 1989年開発開始、1997年チェス世界チャンピオンと対戦し、勝利 | ||
地球シミュレータ (第1世代) |
35.86TFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2002 1位 | |
TSUBAME 1.2 | 87.01TFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2009 41位 | |
T2Kオープンスパコン | 101.74TFLOPS | 倍精度, LINPACK実測値 | ||
地球シミュレータ (第2世代) |
122.4TFLOPS | TOP500 Jun 2009 16位 | ||
GPUクラスタ (長崎大学、濱田剛ら) |
158TFLOPS | [25] | ||
Blue Gene/L | 478.2TFLOPS | TOP500 Nov 2007 1位 | ||
IBM Roadrunner | 1.105PFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2008 1位 | |
TSUBAME 2.0 | 1.192PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2011 4位 Xeon + NVIDIA Tesla |
|
天河一号A | 2.566PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2010 1位 理論値 4.701 PFLOPS。実行効率 54.6% |
|
TSUBAME 2.5 | 2.843PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2013 11位 , Green500 6位 理論値 5.609 PFLOPS。実行効率 50.7% |
|
京 | 10.510PFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2011 1位
実行効率 93.2%[26] - CPU数88,128個, 理論値 11,280,384 GFLOPS (=128 GFLOPS×88,128) |
[27][28] |
IBM Sequoia | 17.172PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2012 1位 理論値 20.133 PFLOPS。実行効率 85.3% |
|
天河二号 | 61.445PFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2013 1位 理論値 100.679 PFLOPS。実行効率 61.0% |
|
神威太湖之光 | 93.01PFLOPS | TOP500 Jun 2016 1位 理論値 125.436 PFLOPS。実行効率 74.1% |
||
Summit | 143.5PFLOPS | TOP500 Jun 2018 1位 理論値 200.795 PFLOPS。実行効率 71.4% |
||
富岳 | 442.01PFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2020 1位
理論値 520PFLOPS。実行効率 82.3% |
|
Frontier | 1102.00PFLOPS (1.102EFLOPS) |
倍精度, LINPACK実測値 | TOP500 Jun 2022 1位
理論値1685.65PLOPS。実行効率 65.4% |
名称 | FLOPS | 日付 | 参加台数 | Active率 | 参照 |
---|---|---|---|---|---|
BOINC | 2.958PFLOPS | 2009年12月6日 | [29] | ||
8.563PFLOPS | 2013年12月26日 | 986,613台 | 8.51% | ||
161.081PFLOPS | 2015年2月3日 | 376,688台 | 3.54% | ||
160.76PFLOPS | 2017年3月14日 | 739,507台 | 4.79% | ||
SETI@home (BOINCに含む) |
658.210TFLOPS | 2013年12月26日 | |||
731.599TFLOPS | 2009年12月6日 | ||||
UD Agent | 65TFLOPS | 2001年10月01日 | 約96万台 | ||
Folding@home | 4.273PFLOPS | 2008年11月22日 | Active 353,966 CPU (参加約355万台) |
||
5.427PFLOPS | 2012年3月23日 | ||||
2.4EFLOPS | 2020年4月14日 | [3] |
単精度の積和算を 2 FLOPS/Clock で行える。
NVIDIA GeForce
[編集]- 8600 GTS: 92.8GFLOPS / 139GFLOPS(積和算 / 積和算、積算合計)
- 8800 GT: 336GFLOPS / 504GFLOPS(積和算 / 積和算、積算合計)
- 9600 GT: 208GFLOPS / 312GFLOPS(積和算 / 積和算、積算合計)
- 9800 GTX+: 470GFLOPS / 705GFLOPS(積和算 / 積和算、積算合計)
- GTX 280: 622GFLOPS / 933GFLOPS(積和算 / 積和算、積算合計)[30][31]
名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
GTX 480 | 480 | 1401 MHz | 単精度:1.345 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 1401 MHz × 480コア | |
GTX 580 | 512 | 1544 MHz | 単精度:1.581 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 1544 MHz × 512コア | |
GTX 590 (2GPU合計) |
1024 | 1214 MHz | 単精度:2.488 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 1214 MHz × 1024コア | |
GTX 680 | 1536 | 1006 MHz | 単精度:3.090 TFLOPS 倍精度:129 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1006 MHz × 1536コア 倍精度:1/12 FLOPS/Clock × 1006 MHz × 1536コア |
|
GTX 690 (2GPU合計) |
3072 | 915 MHz | 単精度:5.621 TFLOPS 倍精度:234 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 915 MHz × 3072コア 倍精度:1/12 FLOPS/Clock × 915 MHz × 3072コア |
|
GTX 780 Ti Special Black Edition |
2880 | 1000 MHz | 単精度:5.76 TFLOPS 倍精度:240 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1000 MHz × 2880コア 倍精度:1/12 FLOPS/Clock × 1000 MHz × 2880コア |
|
GTX TITAN X | 3072 | 1000 MHz | 単精度:6.144 TFLOPS 倍精度:192 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1000 MHz × 3072コア 倍精度:1/16 FLOPS/Clock × 1000MHz × 3072コア |
[32] |
GTX TITAN Z (2GPU合計) |
5760 | 705 MHz | 単精度:8.12 TFLOPS 倍精度:2.71 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 705 MHz × 5760コア 倍精度:2/3 FLOPS/Clock × 705 MHz × 5760コア |
[33] |
GTX 980 | 2048 | 1126 MHz | 単精度:4.612 TFLOPS 倍精度:144 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1126 MHz × 2048コア 倍精度:1/16 FLOPS/Clock × 1126 MHz × 2048コア |
[34] |
GTX 1080 | 2560 | 1733 MHz | 単精度:8.872 TFLOPS 倍精度:277 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1733 MHz × 2560コア 倍精度:1/16 FLOPS/Clock × 1733 MHz × 2560コア |
[35] |
RTX 2080 | 2944 | 1710 MHz | 単精度:10.07 TFLOPS 倍精度:314 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1710 MHz × 2944コア 倍精度:1/16 FLOPS/Clock × 1710 MHz × 2944コア |
[36] |
RTX 3080 | 8704 | 1710 MHz | 単精度:29.77 TFLOPS
倍精度:465 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1710 MHz × 8704コア
倍精度:1/32 FLOPS/Clock × 1710 MHz × 8704コア |
[37] |
RTX 4080
16GB |
9728 | 2504 MHz | 単精度:48.74 TFLOPS
倍精度:761 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 2504 MHz × 9728コア
倍精度:1/32 FLOPS/Clock × 2505 MHz × 9728コア |
[38] |
RTX 4090 | 16384 | 2520 MHz | 単精度:82.58 TFLOPS
倍精度:1.290 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 2520 MHz × 16384コア
倍精度:1/32 FLOPS/Clock × 2520 MHz × 16384コア |
[38] |
AMD Radeon
[編集]名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
HD 3650 | 120 | 725MHz | 単精度:174 GFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 725MHz × 120コア | |
HD 3870 | 320 | 825MHz | 単精度:496 GFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 825MHz × 320コア | |
HD 4670 | 320 | 750MHz | 単精度:480 GFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 750MHz × 320コア | |
HD 4870 | 800 | 750MHz | 単精度:1.2 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 750MHz × 800コア | |
HD 5870 | 1600 | 850MHz | 単精度:2.72 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 850MHz × 1600コア | |
HD 5970 (2GPU合計) |
3200 | 725MHz | 単精度:4.64 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 725MHz × 3200コア | [39] |
HD 6970 | 1536 | 880MHz | 単精度:2.703 TFLOPS 倍精度:0.676 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 880MHz × 1536コア 倍精度:0.5 FLOPS/Clock × 880MHz × 1536コア |
[40] |
HD 6990 (2GPU合計) |
3072 | 830 MHz | 単精度:5.1 TFLOPS 倍精度:1.275 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 830 MHz × 3072コア 倍精度:0.5 FLOPS/Clock × 830MHz × 3072コア |
|
HD 7970 GHz Edition |
2048 | 1.05 GHz | 単精度:4.301 TFLOPS 倍精度:1.075 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.05 GHz × 2048コア 倍精度:0.5 FLOPS/Clock × 1.05 GHz × 2048コア |
[41][40] |
HD 7990 (2GPU合計) |
4096 | 1.0 GHz | 単精度:8.192 TFLOPS 倍精度:2.048 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.0 GHz × 4096コア 倍精度:0.5 FLOPS/Clock × 1.0 GHz × 4096コア |
[41] |
R9 290X | 2816 | 1.0 GHz | 単精度:5.632 TFLOPS 倍精度:1.408 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.0 GHz × 2816コア 倍精度:0.5 FLOPS/Clock × 1.0 GHz × 2816コア |
|
R9 295X2 (2GPU合計) |
5632 | 1.018 GHz | 単精度:11.467 TFLOPS 倍精度:2.867 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.018 GHz × 5632コア 倍精度:0.5 FLOPS/Clock × 1.018 GHz × 5632コア |
ハイエンドでは倍精度(fp64)は 0.5 FLOPS/Cycle であるが、ミドルレンジ以下は 0.125 FLOPS/Cycle[42] であったり、倍精度の計算が出来なかったりする。
Intel
[編集]名称 | EU数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Intel GMA X4500 | 10 | 800MHz | 単精度:32 GFLOPS | 理論値 | 単精度:4 FLOPS/Clock × 10EU × 800MHz | [43] |
Intel HD Graphics (Clarkdale) | 12 | 900MHz | 単精度:43.2 GFLOPS | 理論値 | 単精度:4 FLOPS/Clock × 12EU × 900MHz | [43] |
Intel HD Graphics 3000 | 12 | 1.35GHz (Max) | 単精度:129.6 GFLOPS | 理論値 | 単精度:8 FLOPS/Clock × 12EU × 1.35GHz | [43] |
Intel HD Graphics 4000 | 16 | 1.35GHz (Max) | 単精度:345.6 GFLOPS | 理論値 | 単精度:16 FLOPS/Clock × 16EU × 1.35GHz | [44] |
Intel HD Graphics (Haswell) | 10 | 1.2GHz (Max) | 単精度:192 GFLOPS | 理論値 | 単精度:16 FLOPS/Clock × 10EU × 1.2GHz | [44] |
Intel Iris Pro Graphics 5200 | 40 | 1.3GHz (Max) | 単精度:832 GFLOPS 倍精度:208 GFLOPS |
理論値 | 単精度:16 FLOPS/Clock × 40EU × 1.3GHz 倍精度:4 FLOPS/Clock × 40EU × 1.3GHz |
[45] |
Iris Pro Graphics 6200 | 48 | 1.15GHz (Max) | 単精度:883 GFLOPS 倍精度:220.8 GFLOPS |
理論値 | 単精度:16 FLOPS/Clock × 48EU × 1.15GHz 倍精度:4 FLOPS/Clock × 48EU × 1.15GHz |
[46] |
Intel HD Graphics 530 (Skylake) |
24 | 1.15GHz (Max) | 単精度:441.6 GFLOPS 倍精度:110.4 GFLOPS |
理論値 | 単精度:16 FLOPS/Clock × 24EU × 1.15GHz 倍精度:4 FLOPS/Clock × 24EU × 1.15GHz |
[47] |
HD Graphicsの各EUは4-way SIMDの演算器を備えており、1命令で4並列の単精度浮動小数点演算が可能である。Sandy Bridgeより前の世代では1クロックでEUあたり1つの加算もしくは乗算命令を実行可能で、4FLOPS/EU。Sandy Bridge世代では1クロックでEUあたり1つのFMA命令を実行可能で、8FLOPS/EU。Ivy Bridge世代以降は1クロックでEUあたり2つのFMA命令を実行可能で、16FLOPS/EUとなる。
Qualcomm Snapdragon
[編集]名称 | ALU数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Adreno 200 | 8 | 245MHz | 3.92 GFLOPS | 理論値 | 2 FLOPS/ALU × 245MHz × 8ALU | |
Adreno 203 Adreno 205 |
16 | 245MHz | 7.84 GFLOPS | 理論値 | 2 FLOPS/ALU × 245MHz × 16ALU | |
Adreno 220 | 32 | 266MHz | 17.0 GFLOPS | 理論値 | 2 FLOPS/ALU × 266MHz × 32ALU | |
Adreno 225 | 32 | 400MHz | 25.6 GFLOPS | 理論値 | 2 FLOPS/ALU × 400MHz × 32ALU | |
Adreno 320 (Snapdragon S4 Pro) |
64 | 400MHz | 57 GFLOPS | 理論値 | 2.25 FLOPS/ALU × 400MHz × 64ALU | [48] |
Adreno 320 (Snapdragon 600) |
96 | 400MHz | 86.4 GFLOPS | 理論値 | 2.25 FLOPS/ALU × 400MHz × 96ALU | [48] |
Adreno 330 (Snapdragon 800) |
128 | 450MHz | 129.6 GFLOPS | 理論値 | 2.25 FLOPS/ALU × 450MHz × 128ALU | [48] |
Adreno 430 (Snapdragon 810) |
288 | 500MHz | 324 GFLOPS | 理論値 | 2.25 FLOPS/ALU × 500MHz × 288ALU |
チップセット | GPU コア / クラスタ | GPU MHz | FLOPS
(単精度) |
デバイス | GPU モデルと理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Apple A4 | PowerVR SGX535 @ 200 MHz (2vec4)
4 x 2 х 0.200 = 1.6 GFLOPS |
[49] | ||||
PowerVR SGX535 @ 250 MHz (2vec4)
4 x 2 х 0.250 = 2 GFLOPS |
||||||
Apple A5 | PowerVR SGX543MP2 (dual-core) @ 250 MHz
2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 14.4 GFLOPS |
[50] | ||||
PowerVR SGX543MP2 (dual-core) @ 200 MHz
2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 18 GFLOPS |
[50] | |||||
Apple A5X | PowerVR SGX543MP4 (quad-core) @ 250 MHz
2vec4 + 1 scalar: 4х2+1=9 * 16 х 0.250 х 9 = 36 GFLOPS |
[50] | ||||
Apple A6 | PowerVR SGX543MP3 (tri-core) @ 250 MHz
2vec4 + 1 scalar: 4х2+1=9 * 12 х 0.250 х 9 = 27 GFLOPS |
[50] | ||||
Apple A6X | PowerVR SGX554MP4 (quad-core) @ 280 MHz
2vec4 + 1 scalar: 4х2+1=9 * 32 х 0.280 х 9 = 80 GFLOPS |
[51] | ||||
Apple A7 | PowerVR G6430 (quad-clusters) @ 450 MHz
64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS |
[52] | ||||
PowerVR G6430 (quad-clusters) @ 533 MHz
64 USC x 4 Clusters x 0.533 = 136.4 GFLOPS |
[52] | |||||
Apple A8 | PowerVR G6450 (quad-clusters) @ 450 MHz
64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS |
[53] | ||||
Apple A8X | PowerVR GXA6850 @ 450 MHz
64 USC x 8 Clusters x 0.450 = 230.4 GFLOPS |
[54][55] | ||||
Apple A9 | 6 Clusters | 650MHz | 249.6GFLOPS | iPhone 6s/6s Plus | PowerVR Series 7XT GT7600 | |
Apple A9X | 12 Clusters | 650MHz | 499.2 GFLOPS | iPad Pro | ||
Apple A10 Fusion | 6 Clusters | 900 MHz | 364.8 GFLOPS | iPhone 7/7 Plus, iPad (第6世代), iPad (第7世代) | PowerVR Series 7XT GT7600 Plus | |
Apple A10X Fusion | 12 Clusters | 1000 MHz | 768 GFLOPS | 12.9インチiPad Pro (第2世代), | ||
Apple A11 | 3 Clusters | 1066 MHz | 409.3 GFLOPS | iPhone 8/8 Plus, iPhone X | ||
Apple A12 Bionic | 4 Clusters | 1125 MHz | 576 GFLOPS | iPhone XR, | ||
Apple A12X Bionic | 7 Clusters | 1340 MHz | 1200 GFLOPS | iPad Pro | ||
Apple A12Z Bionic | 8 Clusters | 1372 GFLOPS | iPad Pro, Developer Transition Kit | |||
Apple A13 Bionic | 4 Clusters | 1350 MHz | 691 GFLOPS | iPhone 11シリーズ, iPhone SE (第2世代), iPad (第9世代) | ||
Apple A14 Bionic | 4 Clusters | 975 MHz | 998 GFLOPS | iPhone 12シリーズ,
iPad Air (第4世代), iPad (第10世代) |
||
Apple A15 | 4 Clusters
5 Clusters |
1.2 GHz | 1.4 TFLOPS
1.5 TFLOPS |
iPhone 13シリーズ, iPhone 14/14 Plus, iPhone SE (第3世代),iPad mini (第6世代), Apple TV 4K (第3世代) | ||
Apple A16 | 5 Clusters | 1.2 GHz | 2.0 TFLOPS | iPhone 14 Pro/14 Pro Max, | ||
Apple M1 | 7 Clusters
8 Clusters |
1.28 GHz | 2.6 TFLOPS | MacBook Air, Mac mini, iMac, iPad Pro | ||
Apple M1 Pro | 14 Clusters
16 Clusters |
1.3 GHz | 4.5 TFLOPS
5.3 TFLOPS |
MacBook Pro | ||
Apple M1 Max | 24 Clusters
32 Clusters |
7.8 TFLOPS
10.6 TFLOPS |
MacBook Pro, Mac Studio | |||
Apple M1
Ultra |
48 Clusters
64 Clusters |
15.6 TFLOPS
21.2 TFLOPS |
Mac Studio | |||
Apple M2 | 8 Clusters
10 Clusters |
1.4 GHz | 3.6 TFLOPS | MacBook Air, Mac mini, iPad Pro | ||
Apple M2 Pro | 16 Clusters
19 Clusters |
6.8 TFLOPS | Mac mini, MacBook Pro | |||
Apple M2 Max | 30 Clusters
38 Clusters |
13.6 TFLOPS | MacBook Pro, Mac Studio | |||
Apple M2 Ultra | 60 Clusters
72 Clusters |
27.2 TFLOPS | Mac Studio, Mac Pro |
Texas Instruments OMAP
[編集]名称 | コア数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
PowerVR SGX 540 | 4 | 384MHz | 6.1 GFLOPS | 理論値 | 4 FLOPS/コア × 384MHz × 4コア |
NVIDIA Tegra
[編集]名称 | ALU数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Tegra 2 | 8 | 333MHz | 5.6 GFLOPS | 理論値 | 2 FLOPS/ALU × 333MHz × 8ALU | |
Tegra 3 | 12 | 500MHz | 12.48 GFLOPS | 理論値 | 2 FLOPS/ALU × 520MHz × 12ALU | [56][57] |
Tegra 4i | 60 | 660MHz | 79.2 GFLOPS | 理論値 | 2 FLOPS/ALU × 660MHz × 60ALU | [58] |
Tegra 4 | 72 | 672MHz | 96.768 GFLOPS | 理論値 | 2 FLOPS/ALU × 672MHz × 72ALU | [57] |
Tegra K1 | 192 | 950MHz | 365 GFLOPS | 理論値 | 2 FLOPS/ALU × 950MHz × 192ALU | |
Tegra X1 | 256 | 1.0 GHz | 512 GFLOPS | 理論値 | 2 FLOPS/ALU × 1.0GHz × 256ALU | [59] |
名称 | コア数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Exynos 3 | 1 | 200MHz | 3.2 GFLOPS | 理論値 | 16 FLOPS × 200MHz | |
Exynos 4 Dual (45nm) | 4 | 266MHz | 9.6 GFLOPS | 理論値 | 9 FLOPS/コア × 266MHz × 4コア | |
Exynos 4 Dual (32nm) | 4 | 400MHz | 14.4 GFLOPS | 理論値 | 9 FLOPS/コア × 400MHz × 4コア | |
Exynos 4 Quad | 4 | 440MHz | 15.84 GFLOPS | 理論値 | 9 FLOPS/コア × 440MHz × 4コア | |
Exynos 5 Dual | 4 | 533MHz | 72.5 GFLOPS | 理論値 | Mali T604 MP4 (quad-core) @ 533MHz * 16FP + 1 TMU = 17 x 2 ALU x 4 Core x 0.533= 72.488 GFLOPS | [60] |
Exynos 5410 Octa | 3 | 533MHz | 51.2 GFLOPS | 理論値 | PowerVR SGX544MP3 (tri-core) @ 533MHz * 2vec4=8 * 12 х 0.533 х 8 = 51.2 GFLOPS | |
Exynos 5420 Octa | 6 | 533MHz | 102.4 GFLOPS | 理論値 | Mali T628 MP6 (six-core) @ 533MHz * 16FP x 2 ALU x 6 Core x 0.533 = 102.4 GFLOPS | [61] |
GPUアクセラレーター
[編集]名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
NVIDIA Tesla C870 | 128 | 1.35 GHz | 単精度:345.6 GFLOPS 倍精度:不可 |
理論値 | 単精度:2 FLOPS/Clock × 1.35 GHz × 128コア | |
NVIDIA Tesla C1060 | 240 | 1.3 GHz | 単精度:622 GFLOPS 倍精度:78 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.3 GHz × 240コア 倍精度:1/4 FLOPS/Clock × 1.3 GHz × 240コア |
|
NVIDIA Tesla C2070 | 448 | 1.15 GHz | 単精度:1.03 TFLOPS 倍精度:0.515 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.15 GHz × 448コア 倍精度:1 FLOPS/Clock × 1.15 GHz × 448コア |
|
NVIDIA Tesla K10 (2GPU合計) |
3072 | 745 MHz | 単精度:4.58 TFLOPS 倍精度:0.19 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 745 MHz × 3072コア 倍精度:1/12 FLOPS/Clock × 745 MHz × 3072コア |
[62] |
NVIDIA Tesla K20 | 2496 | 706 MHz | 単精度:3.52 TFLOPS 倍精度:1.17 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 706 MHz × 2496コア 倍精度:2/3 FLOPS/Clock × 706 MHz × 2496コア |
[62] |
NVIDIA Tesla K40 | 2880 | 745 MHz | 単精度:4.29 TFLOPS 倍精度:1.43 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 745 MHz × 2880コア 倍精度:2/3 FLOPS/Clock × 745 MHz × 2880コア |
[62] |
NVIDIA Tesla K80 (2GPU合計) |
4992 | 562 MHz | 単精度:5.61 TFLOPS 倍精度:1.87 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 562 MHz × 4992コア 倍精度:2/3 FLOPS/Clock × 562 MHz × 4992コア |
|
NVIDIA Tesla P100 16GB | 3584 | 1329MHz | 単精度:9.526 TFLOPS 倍精度:4.763 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1329 MHz × 3584コア 倍精度:1 FLOPS/Clock × 1329 MHz × 3584コア |
|
AMD FirePro S9150 | 2816 | 単精度:5.07 TFLOPS 倍精度:2.53 TFLOPS |
理論値 | [63] | ||
AMD FirePro S9170 | 2816 | 単精度:5.24 TFLOPS 倍精度:2.62 TFLOPS |
理論値 | [64] |
FPGA
[編集]名称 | クロック | FLOPS (単精度、積和算) |
理論値/実測値 | 理論値の計算式 |
---|---|---|---|---|
Stratix IV | 445 MHz | 理論値 245 GFLOPS 実測値 171 GFLOPS |
理論値 | 64x64の行列のかけ算1つで128個のDSPを消費し、24.45 GFLOPS。DSP は最大1288個なので、244.5 GFLOPS。FPGAでは整数の積和算は1クロックで計算できるが、GPUとは異なり浮動小数点のかけ算は 445MHz 動作で11クロック必要[65][66]。それに対して、GPUは1クロックで行える。 |
Stratix V | 388 MHz | 1.568 TFLOPS | 理論値 | 2048 multiplier / 64 * 49 GFLOPS (388 MHz) = 1.568 TFLOPS[67]。単精度の乗算には 27x27 の multiplier が単精度浮動小数点数あたり 64 個必要。 |
Stratix 10 | 1 GHz | 10 TFLOPS | 理論値 | 2 FLOPS * 5000 DSP * 1 GHz = 10 TFLOPS[68]。 |
名称 | クロック | FLOPS (単精度) |
理論値/実測値 | 理論値の計算式 |
---|---|---|---|---|
Virtex-5 SX240T | 162.52 GFLOPS | 理論値 | [69][70] | |
Virtex-6 SX475T | 450 GFLOPS | 理論値 | [69] | |
Virtex-7 | 833 GFLOPS | 理論値 | [71] | |
Virtex UltraScale | 1.739 TFLOPS | 理論値 | [71] |
脚注
[編集]- ^ 【レポート】ポスト「京」コンピュータはどうなるのか (1) 次世代スパコンの開発開始で米国に遅れをとっている日本 | エンタープライズ | マイコミジャーナル
- ^ “Frontier”. www.olcf.ornl.gov. (2024/03/05)閲覧。
- ^ a b 中村 真司 (2020年4月14日). “Folding@homeがTOP 500の全スパコンを超える2.4EFLOPSに到達”. PC Watch. 2020年4月14日閲覧。
- ^ a b c Intel® microprocessor export compliance metrics
- ^ a b c d e f g Intel Corp.. “インテル® プロセッサー — インテル® マイクロプロセッサー製品の輸出規制基準”. 2015年1月12日閲覧。
- ^ a b PetaFLOPS for the Common Man- Pt 3 In the next few yrs what could PetaFLOPS Systems Look Like - The Dell TechCenter
- ^ "インテル® ターボ・ブースト・マックス・テクノロジー 3.0 の動作周波数‡5.20 GHz" Intel. インテル® Core™ i9-11900K プロセッサー. 2022-04-04閲覧.
- ^ "Performance-core Max Turbo Frequency 5.20 GHz Efficient-core Max Turbo Frequency 4.00 GHz" Intel. インテル® Core™ i9-12900KS プロセッサー. 2022-04-04閲覧.
- ^ Intel's Haswell Architecture Analyzed: Building a New PC and a New Intel
- ^ "Intel® AVX 2.0 delivers 16 double precision and 32 single precision floating point operations per second per clock cycle within the 256-bit vectors, with up to two 256-bit fused-multiply add (FMA) units." Intel. Intel® Advanced Vector Extensions 512. 2022-04-04閲覧.
- ^ IDF Beijingで公開されたHaswellの省電力&オーバークロック機能 - PC Watch
- ^ Agner Fog, The microarchitecture of Intel, AMD and VIA CPUs
- ^ 5.5.2. NEON データ型および VFP データ型 - ARM
- ^ 組込み型マイコンとして業界最高性能の360MIPSを実現した SH-4「SH7750シリーズ」を製品化
- ^ a b “PLAYSTATION 3のグラフィックスエンジンRSX”. PC Watch. 2021年11月12日閲覧。
- ^ マイクロソフト、「Xbox 360」ハードウェア編 丸山嘉浩氏「日本で成功しなければ成功したと言えない」 GAME watch 2005/05/13
- ^ a b c 株式会社インプレス (2017年8月28日). “【後藤弘茂のWeekly海外ニュース】 Xbox One X搭載チップ「Scorpio Engine」の詳細が明らかに”. PC Watch. 2023年1月11日閲覧。
- ^ a b 株式会社インプレス (2020年9月10日). “Xbox One Xを圧倒する高性能! Xbox Series S、詳細スペックが公開”. GAME Watch. 2021年6月5日閲覧。
- ^ “次世代プレイステーション向け世界最高速の128ビットCPU Emotion Engine を開発” (PDF). ソニー・コンピュータエンタテインメント (1999年3月2日). 2013年7月11日閲覧。
- ^ “ベールを脱いだPlayStation 3の姿”. 4gamer.net. 2021年11月12日閲覧。
- ^ a b “西川善司,PS4にまつわる6つの疑問に答えるそぶりをしてみる~PS4はPS4.1,PS4.2と進化する!?”. 4gamer.net. 2021年11月12日閲覧。
- ^ PlayStation.com(Japan)
- ^ “西川善司の3DGE:知られざるPS4 Proの秘密(1)メモリ増量に,Polarisと次世代GPUの機能取り込み!?”. 4gamer.net. 2021年11月12日閲覧。
- ^ “「PS5」の詳細スペックやシステム設計情報が解禁。ロード時間は2GBをわずか0.27秒、PS4互換はすでに100作を確認、新オーディオエンジンで雨粒から音を再現”. 電ファミニコゲーマー – ゲームの面白い記事読んでみない?. 2020年3月18日閲覧。
- ^ “GPU クラスタによる高性能計算技術の実証:長崎大学濱田剛テニュアトラック助教らのGPU クラスタによる計算がゴードン・ベル賞を受賞” (PDF). 2010年6月2日閲覧。
- ^ 【森山和道の「ヒトと機械の境界面」】 スパコン「京」を使う「次世代生命体統合シミュレーション」とは
- ^ 【レポート】「京」コンピュータが京速を達成 - Top500の首位堅持に期待 - エンタープライズ - マイコミジャーナル
- ^ 「京」が第37回TOP500ランキングにおいて世界第一位を獲得!
- ^ BOINC STATS - BOINC combined
- ^ ゲームを超えるミッションとは──NVIDIAが「GT200」にこめたGPUの可能性 (2/3) - ITmedia +D PC USER
- ^ GeForce GTX 200 GPU Technical Brief
- ^ 【レビュー】Maxwellのモンスター、「GeForce GTX TITAN X」をベンチマーク - PC Watch
- ^ 2999ドルの超弩級グラフィックボード『GeForce GTX TITAN Z』登場 - 週アスPLUS
- ^ 【後藤弘茂のWeekly海外ニュース】高い電力性能比を実現した「Geforce GTX 980」の秘密 - PC Watch
- ^ https://www.4gamer.net/games/251/G025177/20160516073/
- ^ Inc, Aetas. “西川善司の3DGE:GeForce RTX 20完全理解。レイトレ以外の部分も強化が入ったTuringアーキテクチャにとことん迫る”. www.4gamer.net. 2020年9月5日閲覧。
- ^ Inc, Aetas. “西川善司の3DGE:GeForce RTX 30シリーズのアーキテクチャを探る。CUDA Coreの増量とRT Coreの高性能化に注目だ”. 4Gamer.net. 2023年5月28日閲覧。
- ^ a b Inc, Aetas. “西川善司の3DGE:GeForce RTX 40完全解説。シェーダの大増量にレイトレーシングの大幅機能強化など見どころのすべてを明らかに”. 4Gamer.net. 2023年5月28日閲覧。
- ^ “米AMD、2基のGPUを搭載する「ATI Radeon HD 5970」 - 演算性能は4.64TFLOPS - マイコミジャーナル”. 2009年12月7日閲覧。
- ^ a b AMD Radeon HD 7970 GHz Edition Review: Battling For The Performance Crown
- ^ a b GPUアーキテクチャ刷新のサイクル変化が産んだ「Radeon HD 7990」
- ^ AMD’s Annual GPU Rebadge: Radeon HD 8000 Series for OEMs
- ^ a b c Intel HD Graphics DirectX Developer's Guide (Sandy Bridge) PDF
- ^ a b DirectX Developer’s Guide for Intel® Processor Graphics Maximizing Graphics Performance on 4th Generation Intel® Core™ Processors PDF
- ^ The Compute Architecture of Intel® Processor Graphics Gen7.5 PDF
- ^ The Compute Architecture of Intel® Processor Graphics Gen8 PDF
- ^ The Compute Architecture of Intel® Processor Graphics Gen9 PDF
- ^ a b c 359gsm.com - Qualcomm Snapdragon 800 & Adreno 330
- ^ AnandTech - The iPhone 5 Performance Preview
- ^ a b c d 359gsm.com - Apple GPU GFLOPS PowerVR Series5 SGXMP
- ^ 359gsm.com - Apple A6X & PowerVR SGX554
- ^ a b 359gsm.com - Apple A7 & PowerVR G6430
- ^ Apple A8 SoC - NotebookCheck.net Tech
- ^ AnandTech | Apple A8X’s GPU - GXA6850, Even Better Than I Thought
- ^ Apple A8X iPad SoC - NotebookCheck.net Tech
- ^ AnandTech - Analysis of the new Apple iPad
- ^ a b 【後藤弘茂のWeekly海外ニュース】NVIDIAがMWCに合わせて「Tegra 4/4i」の詳細を明らかに
- ^ 【レポート】NVIDIA、Tegra 4の詳細をついに公開 - CPUだけでなくGPUも大規模アーキテクチャ変更と明らかに (3) より高性能な製造プロセスを利用するTegra 4i - パソコン - マイナビニュース
- ^ AnandTech | NVIDIA Tegra X1 Preview & Architecture Analysis
- ^ Enjoy the Ultimate WQXGA Solution with Exynos 5 Dual
- ^ 359gsm.com - Samsung Exynos 5420 & ARM Mali T628 MP6
- ^ a b c Tesla Kepler Family Product Overview - Nvidia
- ^ AMD claims supercomputing GPU performance crown with FirePro S9150
- ^ AMD FirePro S9170 Server GPU
- ^ アルテラ浮動小数点メガファンクション
- ^ 浮動小数点メガファンクション ユーザーガイド
- ^ Achieving One TeraFLOPS with 28nm FPGA
- ^ ピーク浮動小数点性能の本質 - ALTERA
- ^ a b FPGAを用いた高性能コンピューティング
- ^ Revaluating FPGAs for 64-bit Floating-Point Calculations
- ^ a b DSP - Xilinx