ドライブが100%になりPCが固まる
ハードウェア(SSD)によるトラブルシューティング
ドライブの稼働率が100%で読み書きがほぼ行われない状態。
この状態になるとPCが固まったり、反応しなくなる場合があります。
特に対象がCドライブだった場合、OSのシャットダウンすらできないケースもあります。
この現象は、主にSSDで発生する、不良クラスターへの読み込みが原因である事が多いです。
NVMeを含むSSDは、要求によりコントローラーが不良クラスター(物理的に壊れている記憶領域)を読み込もうとすると、稼働率が100%かつIOがない状態で固まります。
これは、その領域への再アクセスをしない場合は、しばらく放置していればタイムアウトにより解消される場合がありますが、OSが必要なファイルが不良クラスターにあった場合は制御が返ってこないケースが多いです。
AMD-RAIDなどの、キャッシュを含むRAIDコントローラーは、特にこのタイムアウトまでの時間が長く、かつIOも完全な0状態が続くことになります。
これを書いている開発者は、AMD-RAID用の情報取得プログラムを作成した時期からこのトラブルにかかり、自分の作成したプログラムが原因ではないかと疑い、2台のPCで条件を変え、原因の切り分けをしていました。
結果、AMD_RC2t7関連の使用を完全に排除して運用しても、この現象は変わりなく発生するということが分かりました。
最終的には、「特定のファイルの特定の部分を読み込もうとすると、100%再現される」という事が確認でき、SSDにある不良クラスター(物理的にトラブルのある記憶領域へのアクセス)がこの現象の原因であるということが判明しました。
以下追記 2022/10/27 :
この後、問題のあるドライブを完全に排除してSSDからHDDへ変更し、AMD_RC2t7関連の使用を再開してのテストを始めたところ、検査してもドライブに問題がないにも関わらず、類似の問題の再現が確認されました。
どうやらドライブの不具合とは別件で、やはりAMD_RC2t7関連にも一部環境にて動作を不安定にさせる原因があったようです。
この問題を認識した後の試験的修正であるAMD_RC2t7の 0b6 Rev.1 (thilmera7 0b176) での運用テストを開始して5週間以上が経過しましたが、この問題は2台のPCで一度も発生しませんでした。
AMD_RC2t7、および thilmera のAMD RAID機能は、対応バージョンであるAMD_RC2t7の 0b6 Rev.1 以降を使用して下さい。
thilmera 7 の対応は 0b176 以降となります。
問題が確認されているAMD_RC2t7のバージョン
・AMD_RC2t7: 0b1 ~ 0b6
・thilmera 7 : 0b171 ~ 0b175 Rev.2
問題が解決したAMD_RC2t7のバージョン
・AMD_RC2t7: 0b6 Rev.1 ~
・thilmera 7 : 0b176 ~
重要度 : Critical