システム運用管理における切り分け
近年、複数サーバが仮想化されたサーバで運用されたり、企業内外のシステムがネットワークで密接に連携されている。
少子高齢化社会で、定年も70歳までを推奨したりする動きがあるなか、後継者の人手不足は問題となっている。
そのような中、システム障害が発生した場合の品質の確保について考えてみた。
障害対応時間は、障害検知、切り分け時間、復旧時間の総和である。その中でも、切り分けについては、経験者の存在有無により、やり方や切り分け時間のバラツキが大きく、時間を要してしまう。
切り分けに時間を要してしまう原因は、メンバのスキルや経験に依存していることが多い。
メンバの中には、過去、工事や開発従事者に携わっていたことがあれば考え方のノウハウを持つことができるが、保守業務だけに携わり突然の障害に対してどのように対応してよいのか戸惑うのが現実だ。そのため、障害の切り分けに時間を要してしまう。
そこで、エスカレーションを含めた障害切り分けプロセスの見直しを検討する必要があると考えた。
やはり、プロセスフローを作成するのは経験者であり、複数の経験者の意見を踏まえて作成する必要がある。また、プロセスの網羅性も意識し、不足がないようにすべきだ。
実際の障害対応の作業時に、経験者が作成したプロセスフローで全て対応できるのか検証は必要だが、経験者のノウハウをできるだけ抽出するためにも実際に発生した障害の対応を記録にとどめるようブラッシュアップしていく、継続する見直しが重要だと感じた。
リンク