Nagios その4 - 夢見る大学生のはてな日記

監視設定

HTTPサーバの監視サービスを例に、監視する間隔の変更を行いたいと思います。

設定方法

設定を変更するためには、"/etc/nagios3/conf.d/services_nagios2.cfg"を以下のように変更します。
（赤字の部分を追加）

# check that web services are running
define service {
hostgroup_name http-servers
service_description HTTP
check_command check_http
use generic-service
notification_interval 0 ; set > 0 if you want to be renotified
normal_check_interval 1
retry_check_interval 1
}

追加したものの説明。

normal_check_interval 通常時の監視間隔（分）
retry_check_interval 異常時の監視間隔（分）

ちなみに、実際にHTTPサーバを停止すると以下のようなメールが届きました。

***** Nagios *****
Notification Type: PROBLEM
Service: HTTP
Host: sawako
Address: 10.1.123.10
State: CRITICAL
Date/Time: Thu Feb 3 19:01:27 JST 2011
Additional Info:
接続を拒否されました

実験

当たり前といえば当たり前のことなのですが、ランダムにサーバを停止し
停止しからメールによってサーバの停止を知らされるまでの時間を計測してみました。
今回の環境としては、上記の設定の通り1分間隔で監視を行っています。

回数\時刻	HTTPサーバ停止	メール受信	差
1回目	20:59:11	21:01:33	22
2回目	21:06:38	21:07:33	55
3回目	21:08:55	21:09:33	38
4回目	21:10:37	21:11:33	56
5回目	21:13:21	21:13:33	48

平均時間 43.8(s)

平均43秒なら、最悪そこそこ早く手を打てるでしょうかね…？
1分以下でも監視出来るようなので、最悪の事態には一秒でも早く復旧させなければならないシステムの場合には
そのような設定を選ぶ必要があるかもしれません。

そもそも、サーバ止めちゃいけないんでしょうけどね。。。

参考にさせていただいたサイト

NAGIOSの設定方法 - ほぷしぃ