ストレージのメモ(故障要因)

Wikipediaより
基礎知識(IT系)

ここで紹介したロジテックのコラムなどを参考にしつつ、先週に引き続き、福田昭のストレージ通信(EE Times Japan)で、ストレージの基礎を勉強中。

摩耗故障期に起きること

バスタブ曲線の摩耗故障期に入ると、システムを構成する部品が劣化し、正常に動かなくなる。バスタブ曲線については、ストレージのメモ(信頼性の指標)に記載。

HDDの場合

おもに、モーター、電子部品、HDDの媒体が故障しやすい。

寿命を決める要因

  • 物理的要因:機械的な摩擦や摩耗、外力(振動・衝撃・落下)
  • 化学的要因:汚染や酸化、エレクトロマイグレーション、電磁障害
  • 温度環境:温度0~90℃における部品レベルの故障率(FIT:Failure in Time)でみると、モーターの故障率は30℃程度の温度上昇によって1桁程度、増加する。磁気媒体の故障率は60℃くらいまではほぼ一定なのだが、60℃を超えると急激に上昇する。

エレクトロマイグレーション(英: electromigration)とは、電気伝導体の中で移動する電子と金属原子の間で運動量の交換が行われるために、イオンが徐々に移動することにより材の形状に欠損が生じる現象である。その効果は電流密度が高い場合に大きくなる。集積回路が微細化するにつれて、その影響が無視できなくなりつつある。(Wikipedia)

故障の実態調査

ユーザから提出されたHDDを製造メーカーが不良解析すると、最大の割合を占める結果は「不再現」である。

種別説明調査方法原因/解決方法
CND (Could Not Duplicate)不良発生のログが残っている場合Gリストを詳しく調べることで原因を推定できる場合が多い・電気的な雑音の侵入
・ヘッドの浮上量が一時的に増加したことによる記録信号の低下
NTF (Not Trouble Found)不良発生のログが残っていない場合不良ログが無いので解析が極めて難しい機器の組合せが原因となっている場合も多く、ホストマシンやケーブルを変えるだけで復旧することがある。
Gリスト
・HDD製品が工場から出荷された後で欠陥が発生し、予備のセクタを代替として利用することになった欠陥セクタのログ
・「Grown Defect List要求」コマンドを使って読む

SSDの場合

機械部品がないため、物理的要因による劣化は起こりづらい。

寿命を決める要因

  • プリント回路基板の汚染や酸化
  • 記憶媒体であるNANDフラッシュメモリの寿命
  • NANDフラッシュメモリを制御するコントローラ半導体の寿命

書き込み制限

読み出しは無制限だが、書き込めるデータ容量は決まっている
・書き込めるデータ容量の定義
TBW(Total ):累計で書き込める容量の最大値
DWPD(Drive Writes Per Day):1日当たりに書き込める容量の最大値

DWPD = TBW/(寿命(日)xドライブ容量)

 

SSDの故障を防ぐ代表的な技術

ウェアレベリング(Wear Leveling):
NANDフラッシュメモリのメモリ・セル・アレイに対する書き換え回数を平準化する(特定のメモリセルに対する書き換えの集中を避ける)

誤り訂正符号(ECC:Error Correcting Code):
NANDフラッシュメモリにデータを書き込むときに、ECCと呼ばれるデータビットを付加する。データの読み出し時にECCを読み出すことで、誤りの発生検知と誤りの訂正を実行する。