Network×Network目次

スポンサードリンク

障害対応とは

障害対応とは

システム(インフラだとサーバーやネットワークなど)が正常に
動作していない状態が発生してしまったため、その原因調査と
復旧するための作業を障害対応といいます。

運用保守チームが第一報を受け、切り分けを実施して対応します。
運用保守チームだけで障害が解決しない場合さらに環境に詳しい
構築チームやベンダーに連絡をして根本的な解決を試みます。

業務影響を最小限に抑えるため迅速に対応することが求められます。
そのためには復旧に必要な情報(障害発生原因、ログ、コンフィグ、
構成など)を正確に収集して障害対応をしていく必要があります。
障害が発生してから決めていたら後手後手に回ってしまうので
予め障害発生時の障害対応フロー(連絡先、復旧方法、復旧手順)
などを準備しておくことが重要です。

障害発生時の対応フロー
1.障害内容の確認
  ⇒発生している事象の確認、影響範囲の確認、障害発生時刻、対象機器、
  障害発生時のログの有無、過去に同様の障害事例がないか確認
2.障害発生時の連絡
  ⇒連絡フローにのっとり関連各所へ連絡、迅速かつ正確に内容を連携、
  問題のステータスも伝える
3.障害レベルの調査
  ⇒ユーザーや業務に影響するのか、どのシステムで障害が発生して
  いるのか、緊急度やどの程度の体制が必要か  
4.障害原因の調査
  ⇒問題が発生したシステムのログや情報収集、過去事例に基づく調査、
  有識者による打合せ・分析・調査
5.復旧作業
  ⇒原因がわからない場合などは暫定対応、対応できる場合は他の業務に
  影響を与えないように復旧作業、機器交換などが必要であれば
  ベンダー連絡
6.障害収束後の対応
  ⇒再発防止策の検討、障害ナレッジの蓄積(エビデンスの取得保管、
  障害対応の分析、資料の作成など)

最近では障害が発生する前に検知する予防検知や予測検知など
未然に防ぐ対策もよく耳にしますが、まだまだ導入している企業は
少ないと思います。実際に障害が起きてから決めているようでは
遅いのでどのような障害が起きうるか、予期しない障害が発生した
場合はどのように対処するかなど話し合って決めておくことが
重要になってきます。また普段からメンテナンスを実施したり
障害発生時の訓練を行っていくことも重要になってきます。
人間とっさに起きたことに対しては、なかなか対応ができないものです。
TOP OF THE NETWORK×NETWORK
NETWORK×NETWORK
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:


この記事へのトラックバック