Linux

【障害対応】ディスク使用率の超過アラート

記事内に商品プロモーションを含む場合があります

こんにちは、インフラエンジニアのやすです。

この記事では、ディスク使用率の超過アラートに対する対応方法をご紹介します。

ディスク使用率の超過アラートは、他のCPU使用率、メモリ使用率、プロセスダウンなどのアラートほど突発的ではないので、事前に把握できることが多く、対応時間に少し余裕があることが多いです。

たとえば、ディスク使用率が「80%以上」を「警告(メール通知)」、「90%以上」を「エラー(電話連絡)」という設定にしていた場合、警告の段階でわかることが多いです。

逆に言えば、「警告だから良いか」と流さず、警告の段階で確認しておくと良いですね。

ディスク使用率アラートのパターンは3つ

数ヶ月かけて、少しずつ使用率が増えたパターン

①1日で使用率が増えたパターン

昨日まではディスク使用率が80%を超えてなく、メールもきていなかったのに、いきなり電話がかかってきた(一気に使用率が90%まで超えた)ような場合。

これは「作業影響(誰かが何かの作業でデカいファイルを作った)」「ログファイルの肥大化(ログにエラーなどが出力され続けている)」が原因だと考えられます。

作業影響

ディスク使用率が増え続けていなければ(ガッと上昇して、そのまま止まっていれば)、ほぼ作業影響です。

「だれか今何か作業していますかー?」と確認したり、本番作業のスケジュールなどがどこかで周知されていれば確認します。

作業影響なら、ファイルを移動か削除しておいてもらいましょう。

ログの肥大化

ディスク使用率が増え続けている場合、ログにエラーが出力され続けているなどが考えられます。

この場合は、まず原因となるプロセスを止めるしかないです。

②数週間~1ヶ月など比較的に短い期間で使用率が増えたパターン

数週間~1ヶ月など比較的に短い期間で使用率が増えているような場合、

アラート受信

メールや電話で「ディスク使用率が高い」旨の連絡を受けたら対応スタートです。

「アラートの連絡があったので、確認します」という旨の周知をしてから対応していきましょう。(最初に連絡しておくと、それを見た人から「すみません、今XX作業していてその影響です」などの連絡があって、すぐに解決するかもしれません)

状況確認

まずは、状況確認です。
下記の点を確認していきましょう。

ディスク使用率は増え続けている?止まっている?

まず、ディスク使用率が増え続けているのか、それとも止まっているかを確認します。

ディスク使用率の超過アラートは、過去1~2ヶ月分含めてディスク使用率が現在も増え続けているのかを監視コンソールで確認します。

ディスク使用率アラートのパターンは大きく2つで「使用率が少しずつ右肩上がりに上がっていくパターン」と「一気にドーンと(一時的に)増えるパターン」です。

暫定対処

数ヶ月かけて、少しずつ使用率が増えたパターン