ECCメモリ
ECCメモリ(Error-correcting code memory, Error checking and correction memory、Error check and correct memory)とは、コンピュータの記憶装置の種類の1つで、データ破損を検出し修正する機能を持つメモリである。ECCメモリが持つエラー訂正機能により長期連続稼働におけるデータ化けや異常終了を防ぐことが出来る。例えば、計算に時間を要する科学技術計算あるいはCGレンダリングを行うコンピュータや、どんな状況でもデータの破損が許されない金融機関や、年中無休でWebサイトやクラウドサービスなどを提供するデータセンターのコンピュータではECCメモリのエラー訂正機能が効いてくる。対して、毎日数時間だけ起動させて対話的に使うような一般の用途では、ECCメモリが提供するような信頼性の高さはあまり意味を成さず、コスト高に繋がるだけである。但し、ITマニアの中には完璧さを求めてECCメモリを好む者も存在する。
多くの場合、ECCメモリは1ビットでエラーが生じても維持できる記憶装置である。もしビットが壊れて1ビット反転したとしても、各ワードから読み出されるデータは常に書き込まれたときのデータと同じになるよう修正される。一方、非ECCメモリは誤りを修正できない。パリティをサポートする非ECCメモリは誤りを検出できるが、訂正はできない。
当初、ECCメモリではエラー検知・訂正の処理などで非ECCメモリと比べて数%程度の性能劣化が発生するとされていたが、CPUにECC機能が統合されてからは性能劣化の問題は解決されつつある。
背景の問題
[編集]コンピュータシステム内部の電磁気的な干渉により、ダイナミックRAM(DRAM)の1ビットが自発的に反転することがある。 はじめはチップのパッケージに含まれる不純物から放射されるアルファ粒子が主な原因だと考えられていたが、DRAM チップの単発的なソフトエラーの多くは環境放射線、主に二次宇宙線に含まれる中性子によって1つかそれ以上のメモリセルの内容が変化するか、読み出しまたは書き込み回路が妨害されるためであることが研究で示された [2]。 したがって誤り率は標高とともに急速に上昇する。たとえば、標高1,500mでは海面よりも中性子束が3.5倍に増え、10〜12kmの高度(旅客機の巡航高度)では300倍にもなる [3]。 その結果、高度の高い場所で運用される装置には特別な信頼性対策が必要となる [4]。
一例として、1997年に打ち上げられた土星探査機・カッシーニは、それぞれ2.5ギガビットの市販のDRAMチップを持つ同型のフライトレコーダーを2つ搭載していた。 組み込みの誤り検出訂正機能(EDAC)のおかげで、探査機のエンジニアリングテレメトリは(訂正可能な)ワードあたり1ビットのエラーと(訂正不可能な)ワードあたり2ビットのエラーの数を報告してきた。 はじめの2年半の飛行で、探査機は1日に約280回でほぼ一定の1ビットエラーを知らせてきた。 しかし1997年11月6日、1日のエラーの数は4倍以上だった。これは GOES 9 衛星が検知した太陽フレアの影響だった [5]。
DRAMがどんどん高密度になり、チップ上の部品が微小化すると同時に、動作電圧が低下し続けるため、DRAMチップがそのような放射線の影響をより頻繁に受けるようになることが懸念された。低エネルギーの粒子がメモリセルの状態を変化させられるようになるからである [3]。 一方、メモリセルが小さくなれば標的が小さくなるわけであり、またSOIのような技術への移行により、個々のメモリセルの感受性は従来と変わりないか、むしろ低下するかもしれない。 最近の研究は、プロセスの形状により、またメモリセルのエラー発生率が上昇するという予測に根拠がなかったことにより、宇宙線によるシングル・イベント・アップセット(SEU、一時的なソフトエラー)が劇的に減少したことを示している [6]。
2007〜2009年の研究で、エラーの発生率が10−10 エラー/ビット・時(およそ1ギガバイトのメモリで1時間に1ビットのエラー)から 10−17 エラー/ビット・時(およそ1ギガバイトのメモリで千年に1ビットのエラー)まで7桁にわたってさまざまであることが発表された [6][7][8]。 グーグルの非常に多くのサーバーを対象にした大規模な研究が SIGMETRICS/Performance’09 conference で発表された [7]。 実際に観測されたエラー発生率は小規模な研究よりも数桁高く、1メガビットあたり10億時間ごとに 25,000〜70,000回だった (およそ 2.5〜7 × 10−11 エラー/ビット・時、つまり8ギガバイトのRAMで1時間に5ビットのエラー)。 毎年8%以上の DIMM がエラーの影響を受けていた。
メモリエラーの結果はシステムによって異なる。 ECCのないシステムでは、エラーはクラッシュかデータの損失を招く。 大規模な工場では、メモリエラーはマシンのクラッシュを起こすもっとも一般的なハードウェア的原因の1つである [7]。 メモリエラーはまた、セキュリティの脆弱性の原因にもなる [7]。 観測可能な誤動作の原因になったり、計算または保存に使われるデータに影響したりしなければ、メモリエラーの影響を受けないことがある。 2010年のシミュレーション研究から、ウェブブラウザに対して、メモリエラーのわずかな一部分のみがデータの損失を引き起こすが、しかし多くのメモリエラーは断続的で相関的なので、メモリエラーの影響は独立なソフトエラーから予期されるよりも大きいことが示された [9]。
隣接したメモリセルへの特別に細工したアクセスによる意図しない副作用により、DRAMメモリセルどうしの分離が迂回されうるといくつかの実験は結論づけている。 したがって、近年のメモリセル密度の上昇に伴い、DRAMに格納されたデータへのアクセスがメモリセルに電荷の漏れと電気的な相互作用を引き起こし、元のメモリアクセスで指定されていない近傍の行の内容が書き換わる。 この効果はロウハンマーとして知られており、コンピュータセキュリティ上いくつかの特権昇格攻撃に使われている [10][11]。
例として、1ビットエラーは、エラーチェックのないシステムでは無視されるだろう。パリティチェックのあるマシンは停止するだろうし、またはECCによって自動的に訂正されるかもしれない。 ASCII形式で数字を保持している表計算ソフトが読み込まれているとしよう。"8"の文字(2進数で 0011 1000)が格納されたバイトの最下位ビットが、チップの故障で1に固定されてしまうか、環境放射線や宇宙線によって1に変化してしまうと、表計算ソフトとその保存データが変化する。結果として"8"はこっそりと"9"(2進数で 0011 1001)になってしまう。
解決策
[編集]望ましくないビット反転に対処するため、いくつかのアプローチが開発されている。障害許容性プログラミング[訳語疑問点](immunity-aware programming)、パリティつきRAM、ECCメモリなどである。
余分なビットを持つメモリとこれらのビットを使うメモリコントローラを持つDRAMモジュールを使うことで、この問題を緩和することができる。 これらの余分なビットにはパリティまたは誤り訂正符号(ECC)を記録する。 パリティは1ビット(実際上は奇数ビット)のエラーを検出できる。 最も一般的な誤り訂正符号はハミング符号(ハミングコード)で、1ビットのエラーを訂正でき、(普通の構成では余分なパリティビットを使って)2ビットのエラーを検出できる1ビットエラー訂正2ビットエラー検出(SECDED、single-error correction and double-error detection)である。 Chipkill ECCはより効果的なバージョンで、メモリチップ全体のデータ損失を含む複数ビットの訂正ができる。
実装
[編集]なぜCDC 6600からパリティをはずしたのかと問われたシーモア・クレイが「パリティは農夫のためのものだ」と答えたのは有名である(→w:en:Doctrine of parity) [12]。 次のCDC 7600にはパリティを組み込んだため、専門家から「多くの農夫がコンピュータを買うだろう」と皮肉られた(→w:en:Parity bit#History)。 初代IBM PCと、その後1990年代初期までのPCはパリティチェックを使っていた [13]。 その後のPCのほとんどはパリティを使っていない。 AMDのほとんどすべての64ビット製品を含む現在のマイクロプロセッサ用メモリコントローラの多くはECCメモリをサポートしているが、多くのマザーボード、特にローエンドのチップセットを使っているものはECCメモリをサポートしていない。 [要出典]
ECC対応のメモリコントローラは、64ビットワード(バス転送幅)につき1ビットのエラーを訂正でき、2ビットのエラーを検出できる(訂正はできない)。 ある種のコンピュータBIOSは、あるバージョンのLinux、macOS、Microsoft WindowsといったOSとの組み合わせにより、大きな故障に至る前に不具合を起こしたメモリモジュールの特定に役立てるため、検出・訂正したメモリエラーを計数することができる。
DRAMチップには誤り訂正回路を内蔵するものがあり、ECCメモリコントローラを持たないシステムでもECCメモリの恩恵の多くを得ることができる [14][15]。 システムによっては、EOSメモリモジュールを使うことで同じ効果を達成できる。
誤り検出訂正(EDAC、Error detection and correction)は、発生が予期されるエラーの種類によって異なる。 暗黙的に、メモリワード中の各ビットの故障は独立であり、2つのエラーは同時に起こらないだろうと仮定されている。メモリチップが1ビット幅だった1980年代前半にはそれは事実だった。後年、技術開発によりチップ内のビット数は増大した。この弱点はさまざまな技法によって対処されている。IBMのChipkill、サン・マイクロシステムズのExtended ECC、ヒューレット・パッカードのChipspare、インテルのSingle Device Data Correction(SDDC)などである [16]。
誤り訂正符号によりDRAMのソフトエラーに対する保護を強化することができる。ECCメモリやEDAC保護メモリとして知られる誤り訂正メモリは、特に高い耐障害性が求められる用途、例えばサーバや多くの放射線にさらされる宇宙機などに特に適している。周期的にすべてのアドレスを読み、ソフトエラーの除去が必要ならば訂正したデータを書き戻す「メモリ磨き(スクラブ、スクラビング、scrub)」をするシステムもある[17]。
インターリーブは、潜在的に反転する可能性のある物理的に隣接した複数のビットを異なるワードに配属させることにより、単一の宇宙線による影響の広がりを許容する。アクセスとアクセスの間にどのワードでもシングル・イベント・アップセット(SEU、single event upset →ソフトエラー)がエラーの限界値を超えない限り(たとえば単独エラー)、訂正が可能で(たとえば1ビット誤り訂正符号で)、実質的に誤りのないメモリシステムを維持することができる[18]。
誤り訂正対応メモリコントローラは伝統的にハミング符号を用いているが、いくつかは三重化(→フォールトトレランス)を用いている。後者はハミング符号による誤り訂正ハードウェアよりも高速な点が優れている[18]。人工衛星ではRAMにハミング符号を使うにもかかわらず、しばしば三重化が使われる[19][20][21][22]。
初期のECCメモリの実装では、訂正可能なエラーがマスクされてエラーが発生していないかのように振る舞い、訂正不可能なエラーのみ報告するものが多かった。新しい実装では、訂正可能なエラー(CE)と訂正不可能なエラー(UE)の両方を記録している。訂正不可能なエラーが発生する可能性を下げるために、エラー発生率の高いメモリモジュールを予防的に交換する人もいる[23]。
多くのECCメモリシステムは、CPUとメモリの間に「外付けの」誤り検出訂正(EDAC)回路を使っている。 内蔵と外付けの両方のEDACシステムを使うECCメモリシステムは少ない。外付けEDACシステムは内蔵EDACシステムが訂正できないある種のエラーを訂正できるように設計しなければならない[14]。特にNUMAアーキテクチャに関連するメモリコントローラ統合CPUへの移行に伴って、現在のデスクトップとサーバーのCPUはEDAC回路をCPUに統合している。
2009年現在、最も一般的な誤り訂正符号は、1ビットの誤り訂正と2ビットの誤り検出(SECDED、1ビットエラー訂正2ビットエラー検出)能力があるハミング符号とシャオ符号(Hsiao code)である[24]。 メモリ保護のために他の誤り訂正符号も提案された。2ビットの誤り訂正と3ビットの誤り検出(DECTED)符号、1ニブル(=4ビット)の誤り訂正と2ニブルの誤り検出(SNCDND)符号、リード・ソロモン符号などである。 しかし実用的な多ビット訂正は、ふつう複数の1ビットエラー訂正2ビットエラー検出(SECDED)符号をインターリーブして実装されている [25][26]。
初期の研究では、ECC回路の面積と遅延の縮小を目指していた。 ハミングはある特定の検査行列により1ビットエラー訂正2ビットエラー検出(SECDED)符号が可能なことを最初に示した。 シャオは奇数のウェイトを列に持つ別の行列が1ビットエラー訂正2ビットエラー検出能力を持ち、ハミング符号よりもハードウェアを小型で高速にできることを示した。 さらに新しい研究は、面積や遅延だけでなく消費電力も減少させようとしている [27][28][29]。
ECCメモリは主にDRAMであるが、キャッシュメモリ(→#キャッシュ)やSRAMにもECCメモリがある [30]。
キャッシュ
[編集]インテル Itanium、Xeon、AMD Athlon、Opteron、DEC Alpha 21264 など多くのプロセッサはチップ上のキャッシュメモリで誤り訂正符号を使っている [25] [31] [32]。
2006年現在、EDC/ECC と ECC/ECC の2つが商用マイクロプロセッサの最も一般的なキャッシュエラー保護技術となっている。 EDC/ECC は誤り検出符号(EDC)をレベル1キャッシュに用いる。エラーが検出された場合、ECCで保護されたレベル2キャッシュからデータを復元する。 ECC/ECC は ECC で保護されたレベル1キャッシュと ECC で保護されたレベル2キャッシュを用いる [33]。 EDC/ECC を採用する CPU はすべてのストア命令[34]でレベル2キャッシュへライトスルーする。レベル1データキャッシュからの読み出し中にエラーを検出すると、その部分のデータはレベル2キャッシュから復元できる。
レジスタード・メモリ
[編集]レジスタード(バッファード)・メモリはECCメモリと同一ではない。両者の機能と目的は異なる。レジスタード・メモリはバッファ回路を持たないマザーボードでは動作しないし、通常は逆も然りである。 サーバに使われるメモリは、多くのメモリモジュールが電気的に問題なく使えるようレジスタードであり、かつデータ完全性のためにECCであるのが普通である。 一方、デスクトップパソコンに使われるメモリは、経済性の為に一般的にはレジスタードでもECCでもない。 しかしレジスタードでないECCメモリも存在し、デスクトップパソコン用のマザーボードの中にはCPUがECCをサポートする場合において、ECCメモリ及びECC機能をサポートするものがある [35]。
利点と欠点
[編集]最終的には異常時のデータ損失に対する保護と高いコストはトレードオフの関係にある。
ECCは検出されないデータの破損から保護し、そのようなデータの破損が受け入れられない例えば科学技術計算や金融情報処理、ファイルサーバのようなコンピュータで使われる。 ECCはまた、特にマルチユーザーのサーバや高可用性システムでは許容できないクラッシュの回数を減らす。 重大でない用途のマザーボードとプロセッサの多くは、価格を抑えるためECCをサポートしない設計になっている。 いくつかのECC対応ボードとプロセッサはレジスタードでない(バッファードでない)ECCメモリをサポートするが、非ECCメモリでも動作する。システムのファームウェアはECCメモリが取り付けられた場合にECC機能を有効化する。
ふつうECCメモリは非ECCメモリよりも高価である。ECCメモリモジュールの製造には追加の回路が必要であり、ECCメモリや関連機器の生産量が少ないためである。 ECC対応のマザーボード、チップセット、プロセッサもまた高価であろう。
しかし、AMDがコンシューマ向けに販売しているAM4ソケット向けプロセッサのミドル~ハイレンジクラスの物ではECC機能が実装されており、ファームウェアで無効とされていないマザーボードが多く通常価格帯で出回っている。(ASUS、GIGABYTE、ASRock等の大手の過半数が機能を凍結していない、例外的にMSIはほぼ全ての製品で無効化している。)
アプリケーションや実装にもよるが、ECCメモリコントローラが誤りを検出するために余分な時間を要するので、いくつかのシステムでECCはメモリ性能が2〜3%下回る [36]。 しかし、CPUへのECCの統合が試みられた新しいシステムでは、メモリアクセスの遅延は発生しなくなっている [37]。
参考文献
[編集]- ^ Werner Fischer. “RAM Revealed”. admin-magazine.com. October 20, 2014閲覧。
- ^ Single Event Upset at Ground Level, Eugene Normand, Member, IEEE, Boeing Defense & Space Group, Seattle, WA 98124-2499
- ^ a b "A Survey of Techniques for Modeling and Improving Reliability of Computing Systems", IEEE TPDS, 2015
- ^ “設計品質確保の思想――航空宇宙エレクトロニクスに学ぶ「信頼性設計」(檜原弘樹)”. CQ出版社. 2018年7月10日閲覧。 “宇宙空間で高エネルギー粒子が半導体デバイスに与える影響”
- ^ Gary M. Swift and Steven M. Guertin. "In-Flight Observations of Multiple-Bit Upset in DRAMs". Jet Propulsion Laboratory
- ^ a b Borucki, "Comparison of Accelerated DRAM Soft Error Rates Measured at Component and System Level", 46th Annual International Reliability Physics Symposium, Phoenix, 2008, pp. 482–487
- ^ a b c d Schroeder, Bianca; Pinheiro, Eduardo; Weber, Wolf-Dietrich (2009). “DRAM Errors in the Wild: A Large-Scale Field Study” (PDF). SIGMETRICS/Performance (ACM). ISBN 978-1-60558-511-6 . 非専門家向けの内容要旨 – ZDNet.
- ^ “A Memory Soft Error Measurement on Production Systems”. 2018年7月16日閲覧。
- ^ “"A Realistic Evaluation of Memory Hardware Errors and Software System Susceptibility". Usenix Annual Tech Conference 2010” (2010年). 2018年7月16日閲覧。
- ^ “Flipping Bits in Memory Without Accessing Them: An Experimental Study of DRAM Disturbance Errors” (PDF). ece.cmu.edu. IEEE (2014年6月24日). 2015年3月10日閲覧。
- ^ Dan Goodin (2015年3月10日). “Cutting-edge hack gives super user status by exploiting DRAM weakness”. Ars Technica. 2015年3月10日閲覧。
- ^ “CDC 6600”. Microsoft Research. 2011年11月23日閲覧。
- ^ “Parity Checking”. Pcguide.com (2001年4月17日). 2011年11月23日閲覧。
- ^ a b Johnston, AH (2001). “Space radiation effects in advanced flash memories”. Non Volatile Memory Technology Symposium 2001 .
- ^ “ECC DRAM – Intelligent Memory”. intelligentmemory.com. 2014年12月23日閲覧。
- ^ “HP-UX Developer Edge”. 日本ヒューレット・パッカード株式会社. 2017年7月22日閲覧。 “ダブルチップスペア(1ビットエラーが発生してもシステムは継続運用)”
- ^ “ECCメモリについて”. クラスターコンピューティング株式会社. 2017年7月10日閲覧。 “ロギング、メモリスクラビング”
- ^ a b “Using StrongArm SA-1110 in the On-Board Computer of Nanosatellite”. Tsinghua Space Center, Tsinghua University, Beijing. 2011年10月2日時点のオリジナルよりアーカイブ。2009年2月16日閲覧。
- ^ “Actel engineers use triple-module redundancy in new rad-hard FPGA”. Military & Aerospace Electronics. 2009年2月16日閲覧。
- ^ “SEU Hardening of Field Programmable Gate Arrays (FPGAs) For Space Applications and Device Characterization”. Klabs.org (2010年2月3日). 2011年11月25日時点のオリジナルよりアーカイブ。2011年11月23日閲覧。
- ^ “FPGAs in Space”. Techfocusmedia.net. 2011年11月23日閲覧。[リンク切れ]
- ^ “Commercial Microelectronics Technologies for Applications in the Satellite Radiation Environment”. Radhome.gsfc.nasa.gov. 2011年11月23日閲覧。
- ^ Doug Thompson, Mauro Carvalho Chehab. "EDAC - Error Detection And Correction" Archived 2009-09-05 at the Wayback Machine.. 2005 - 2009. "The 'edac' kernel module goal is to detect and report errors that occur within the computer system running under linux."
- ^ “コンピュータアーキテクチャの話(269) IBMの研究員が考案したHsiaoコード | マイナビニュース”. 株式会社マイナビ. 2018年7月11日閲覧。 “Hマトリクスの"1"の数が少ない方が、XORゲートが少なく、計算時間も短くて済む。”
- ^ a b Doe Hyun Yoon; Mattan Erez. "Memory Mapped ECC: Low-Cost Error Protection for Last Level Caches". 2009. p. 3
- ^ Daniele Rossi; Nicola Timoncini; Michael Spica; Cecilia Metra. "Error Correcting Code Analysis for Cache Memory High Reliability and Performance".
- ^ Shalini Ghosh; Sugato Basu; and Nur A. Touba. "Selecting Error Correcting Codes to Minimize Power in Memory Checker Circuits". p. 2 and p. 4.
- ^ Chris Wilkerson; Alaa R. Alameldeen; Zeshan Chishti; Wei Wu; Dinesh Somasekhar; Shih-lien Lu. "Reducing cache power with low-cost, multi-bit error-correcting codes". doi: 10.1145/1816038.1815973.
- ^ M. Y. Hsiao. "A Class of Optimal Minimum Odd-weight-column SEC-DED Codes". 1970.
- ^ “非同期SRAM”. Cypress Semiconductor Corp.. 2018年7月15日閲覧。
- ^ Jangwoo Kim; Nikos Hardavellas; Ken Mai; Babak Falsafi; James C. Hoe. "Multi-bit Error Tolerant Caches Using Two-Dimensional Error Coding". 2007. p. 2.
- ^ Intel Corporation. "Intel Xeon Processor E7 Family: Reliability, Availability, and Serviceability". 2011. p. 12.
- ^ Nathan N. Sadler and Daniel J. Sorin. "Choosing an Error Protection Scheme for a Microprocessor’s L1 Data Cache". 2006. p. 1.
- ^ L.Hennessy, John; A.Patterson, David (1994). Computer Organization and Design: The Hardware/Software Interface. Morgan Kaufmann Publishers. p. 101. ISBN 1-55860-281-X
- ^ Specification of desktop motherboard that supports both ECC and non-ECC unbuffered RAM with compatible CPUs
- ^ “Discussion of ECC on pcguide”. Pcguide.com (2001年4月17日). 2011年11月23日閲覧。
- ^ Benchmark of AMD-762/Athlon platform with and without ECC Archived 2013-06-15 at the Wayback Machine.
外部リンク
[編集]- SoftECC: A System for Software Memory Integrity Checking
- A Tunable, Software-based DRAM Error Detection and Correction Library for HPC
- Detection and Correction of Silent Data Corruption for Large-Scale High-Performance Computing
- Single-Bit Errors: A Memory Module Supplier’s perspective on cause, impact and detection
- Intel Xeon Processor E3 - 1200 Product Family Memory Configuration Guide