システム開発ブログ

流通システム部

その他

ネットワークの『死活監視』Nagios と『リソース監視』Cacti

ITシステムの運用では、ネットワーク機器全般が正しく稼動しているかを『監視』するよう仕掛けをしておくこと多々あります。
一言で『監視』といっても、実際に見るべき観点は2パターンあって、
ひとつは「サービスは今 正常に稼動しているか」、
もうひとつが「サービスは今後も安定して提供できるか」です。

1つ目の「正常に稼動しているか」は、一般的に『死活監視』と呼ばれます。
監視サーバーから定期的(多くの場合は 5~10分以下の間隔)に pingを打ってみて返事があるか、あるいはサーバーのポートが開いているか(逆にちゃんと閉じているか)、もっと詳しく調べる時にはアプリケーションのプロトコルでアクセスしてみて、正常な結果が得られるか( httpで htmlが取得できるか)等を試してみて、異常があった場合は即座に管理者に向けてメールで連絡する等を行なうものです。

弊社では十年近く自作のスクリプトを使用していましたが、メンテナンスが入り組んできたことから、ようやく昨年あたりから比較的有名なオープンソースの Nagiosというツールを入れるようになりました。
例えば ubuntu Linux を監視サーバーにする場合は「apt-get install nagios3」でインストールして、あとは"http://インストールしたマシン/nagios3/"で参照するだけです。
監視対象を設定する定義ファイルは別途テキストエディタで修正する必要があるのと、監視対象をグループ化してないと1つの機器(例えばルータ)に依存して他の障害が連鎖する場合は大量のメールが届くことになるので、設定し始めのしばらくは調整に時間がかかりますが、あまり難しいことを言わなければ最近の Linuxにはかなりお手軽に導入できます。

画像:Nagiosの例(画像は弊社環境のものなので意図的に荒くしています)
nagios.png

監視の2つ目の「サービスを今後も安定して提供できるか」は、一般的には『リソース監視』等とも呼ばれます。
やはり監視サーバーから定期的(やはり 5~10分以下の間隔)にネットワークワークのトラフィックはどの程度あるか、サーバーのリソース(HDDの残り容量や CPUの平均使用率など)は余裕があるかについて長期にわたって記録し、、グラフ化したりして、今後のインフラ増強の予想を立てるために使用します。

これもしばらく弊社では自作のスクリプトを使用していましたが、最近は比較的有名なオープンソースの Cactiを使うように変えつつあります。
これも ubuntu Linux を監視サーバーにする場合は「apt-get install cacti」でインストールして、
"http://インストールしたマシン/cacti/"で参照するだけです。
監視する対象も Webから設定できたりと相当お手軽に導入できます。

画像:Cactiの例(画像は弊社環境のものなので意図的に荒くしています)
cacti.png


お金を出せば、いろいろと使い勝手の良いアプリケーションもありますが、オープンソースだけでもそれなりの監視体制は組めます。
異常が起きてからあわてて対処するのではなく、日ごろからきちんとシステム監視をしておきましょう。
何をどう監視すればよいのかについてわからない場合は、ご相談に乗りますよ。

システム周りのお悩みを解決します

まずは無料ダウンロード

この記事に関連する記事の一覧


システム開発ブログ

Twitterでilovex_officialをフォローしてください

カテゴリー

以前の部署別ブログ

ページのトップ