MCE(Machine Check Exception) とLinuxサーバー

先日とあるLinuxサーバでMCEやERRORなる文字列がログ記録されて、幾つかのプロセスがダウンしていた。

エラー文字列から調べてみると以下記事に記載のあるメモリ故障の可能性が高そう。実際に知識としてECCエラーやMCEによるリカバリというのは頭にあったが、実際にWorkした事例を目にして少し驚いた。

参照:

PCクラスタ、1Uサーバ、スケーラブルインフラ、HA、HPCクラスタリング、Linuxのクラスターコンピューティング株式会社 - LinuxでEDACを使いECCエラーを検出する