Nagios その4
監視設定
HTTPサーバの監視サービスを例に、監視する間隔の変更を行いたいと思います。
設定方法
設定を変更するためには、"/etc/nagios3/conf.d/services_nagios2.cfg"を以下のように変更します。
(赤字の部分を追加)
# check that web services are running
define service {
hostgroup_name http-servers
service_description HTTP
check_command check_http
use generic-service
notification_interval 0 ; set > 0 if you want to be renotified
normal_check_interval 1
retry_check_interval 1
}
追加したものの説明。
normal_check_interval 通常時の監視間隔(分)
retry_check_interval 異常時の監視間隔(分)
ちなみに、実際にHTTPサーバを停止すると以下のようなメールが届きました。
***** Nagios *****
Notification Type: PROBLEM
Service: HTTP
Host: sawako
Address: 10.1.123.10
State: CRITICAL
Date/Time: Thu Feb 3 19:01:27 JST 2011
Additional Info:
接続を拒否されました
実験
当たり前といえば当たり前のことなのですが、ランダムにサーバを停止し
停止しからメールによってサーバの停止を知らされるまでの時間を計測してみました。
今回の環境としては、上記の設定の通り1分間隔で監視を行っています。
回数\時刻 | HTTPサーバ停止 | メール受信 | 差 |
---|---|---|---|
1回目 | 20:59:11 | 21:01:33 | 22 |
2回目 | 21:06:38 | 21:07:33 | 55 |
3回目 | 21:08:55 | 21:09:33 | 38 |
4回目 | 21:10:37 | 21:11:33 | 56 |
5回目 | 21:13:21 | 21:13:33 | 48 |
平均時間 43.8(s)
平均43秒なら、最悪そこそこ早く手を打てるでしょうかね…?
1分以下でも監視出来るようなので、最悪の事態には一秒でも早く復旧させなければならないシステムの場合には
そのような設定を選ぶ必要があるかもしれません。
そもそも、サーバ止めちゃいけないんでしょうけどね。。。