イベント管理
掲載:2011年02月15日
執筆者:エグゼクティブコンサルタント 久野 陽一郎
用語集
イベント管理とは、全てのITインフラから発生するイベントを監視し、運用が通常通りに行われていることを確認、そして異常なイベントが検知された際にはインシデント管理などの他管理プロセスへエスカレーションをすることです。
ここでのイベントとは、モニタリングに使用する監視ツールなどから通知されるITサービスに影響ある事象、システムの状態変化に関する通知のことです。例えば、ログインに失敗した際のログやエンドユーザ毎のウェブアクセス先のリアルタイムログ通報と言ったものが挙げられます。あらかじめ設定されたサーバのメモリー使用率の閾値に近づいていることを知らせるための通知もイベントに該当します。
このようにイベントは必ずしもITサービスに悪影響を与えるものだけではなく、設定によって、指示していた作業が完了した時など、システムの状態に変化が起きたとして認識されます。
イベント管理の目的
イベント管理は以下の3つを目的としています。
- イベントを検出し、その意味を判断し、適切な管理プロセスに繋ぐ
- 日常の運用管理を自動化する手助けをする
- パフォーマンスや動作を監視し、SLAや期待されているレベルとの比較基準を提供する
サービスオペレーションを構成する多数のプロセス(変更管理やインシデント管理など)に必要な情報を提供しているため、イベント管理は、サービスオペレーションの基本となるプロセスです。
イベント管理のステップ
ここからはイベント管理のステップについてご説明します。
イベント | 説明 | 例 |
---|---|---|
情報 | 特に対処を必要とせず、例外としては認識されないイベント。ステータスの確認やジョブの完了確認などに使用される。 | ・バッチの正常完了 ・オンラインへの接続 ・エンドユーザのログインなど |
警告 | 設定した閾値に近づいている際に発生する通知。障害が発生する前に適切な処置が取れるように通知される。 | ・ディスクスペースの使用率が増加している ・ネットワークコリジョンの増加など |
例外 | サービスまたは装置が正常に運用されていない状態が通知される。パフォーマンスの低下やサービスに直接的影響がある事象の発生を意味している。 | ・通常の倍以上ユーザの同時ログイン ・ネットワークの大幅遅延 ・サーバの停止など |
【検出】
イベントが発生すると通常監視ツールが検知し、ITサービス管理者へ通知する必要があるかどうかを判断(フィルタリング)します。監視ツールに事前に無視しても構わないイベントなどを設定し、自動的に判断させるようにするとITサービス管理者の負荷を削減することができます。
【イベントの分類】
監視ツールから検知されたイベントを、3つの重要性(情報・警告・例外事項)に分類し、各重要性に合わせた手続きをとります。
【記録】
情報として分類されたイベントは基本的に、人の介入による対応を必要としません。例えば、登録されているバッチ処理が正常に実行された時などイベントを情報として認識し、通常、システムログやサービスログにその記録が保存され、設定された期間保持されます。記録されたイベントを収集し、統計情報としての使用や、調査するための参考資料として活用することができます。
【対応】
警告とはインシデントのような例外処理として監視ツールが自動的に認識はしないものの、人、プロセス、またはツールによって対応策をどうするか決定する必要があるイベントです。警告として分類されたイベントは、その状況に応じて以下の対応が考えられます。
・自動応答
既に対応方法が存在する警告に対し、人的介入を用いず、監視ツールなどに決められた対応を自動的に実行させることである。
・アラート及び人的介入
自動応答するよう設定されていないイベントが検知された場合、監視ツールからアラートを上げ、人的介入を要請することがあります。適切な人に適切に対応されるよう、アラートには必要な情報すべてが含まれます。アラートがあがるとその他プロセス(インシデント管理、問題管理、変更管理など)に移行すべきか、特別な作業は必要無いのかを人的に判断します。
【エスカレーション】
例外とは一般的にサービスまたはシステムが正常に運用されていないイベントを指します。例外と分類されたイベントは、その性質に応じてインシデント管理、問題管理または変更管理のプロセスにエスカレーションされます。組織で定める定義や方針によってインシデント管理プロセスに入れるべきか、問題や変更管理プロセスに入れるべきか判断されます。
【レビュー】
イベント結果を記録し、それらが適切に処理されたかをレビューします。ここでは、発生するすべてのイベントを分析するわけではなく、イベントの種類や傾向、イベント数などを数値化し、適切に分析することにより今後の改善活動に繋がります。イベント管理とインシデント管理などのその他管理プロセスとの引き渡しが適切に行われたかなどもレビューするとより良いプロセスが構築されます。
【クローズ】
適切に処置、レビューされたイベントは、対応中から完了にステータスを変更します。完了したイベントは結果情報として今後の改善活動に必要なインプットとして保管されます。イベントをクローズする権限は適切な管理者に付与し、クローズする前にイベント対応に抜け漏れが無いよう確認し、品質を担保することがより良い改善につながっていくでしょう。