この記事では、システム運用の1つである「システム監視」について紹介します。
「システムを運用する」とは「システムが正常に動いているかを把握・管理し、異常が起きた(起きそうな)際には、すぐに対処してサービスを提供し続けること」と言い換えることができます。
最低限設定しておくべき監視項目
サーバの死活監視
監視対象のサーバにpingを実行し、停止していないかを確認します。
監視をする上で、一番最初に
プロセスの監視
常時動いている必要のあるプロセスがダウンしていないかをチェックします。
ハードディスク使用率の監視
ディスクも100%になると、対象のファイルシステムに何らかのファイルを出力したいのにできない処理が異常終了することになりなす。増えてきたら空き領域を増やすなどを検討する必要があります。
CPU使用率の監視
あるプロセスが暴走してCPU使用率100%で張り付いている、といった状態をすぐ察知して、対応できるようにします。ある程度CPUを使っているのは、適切にサイジングできているともいえるので、90%を常時超えているようであれば、CPUの増強も検討します。
ログの監視
最低限シスログ(/var/log/messages)に「エラー」や「ERROR」といった文言が出力されていないかモニタリングしておきましょう。