タイガー!タイガー!じれったいぞー!(SE編)

AS400, Java, JavaEE, JSF等の開発、習慣など。日々の気づきをまとめたブログ(備忘録)

【情シス心得】想定外を想定内に変えていく

「想定内」「想定外」という言葉、どこか懐かしい響きがある。
2005年に堀江貴文氏が受賞した流行語大賞である。

以降、多くのビジネスマンが、その言葉を意識して使っていたと記憶している。
もちろん、私もその中の1人であった。


最近、「想定外」のトラブルが発生した。
LANケーブルベースでスタックを組んでいたスイッチ2台が、突然暴走し、ブロードキャストストームを大量に流し続けた。
その結果、接続していたサーバー群にアクセスできなくなってしまい、多くのユーザーに多大なる迷惑をかけてしまったのだ。

「システムの安定運用」を掲げる我々にとって、あってはならない出来事であった。

事前に、ありとあらゆる検証をした。
想定できるトラブルについての検証も行っていた。
マスター側やスレーブ側をダウンさせてその動きを完全に把握したし、運用フェーズに入ってからの監視方法、ファームアップデートのやり方まで、とことん検証したはずだった。

しかし、「ループ等で2台とも制御不能になる」というシナリオを想定できていなかった。

これが、今回のトラブル対応が少し遅れてしまった原因だ。

「そんなことまで考える必要あるの? 結果論じゃないか?」と思われるかもしれない。

だが、「システムを止めない」ことが我々の最低限の使命である。
もし、何か問題が発生したとしても、トラブルを最小限(最短時間)で食い止めることを我々は求められている。ビジネスを止めることによる損失は、想像以上なのだ。


今回の障害より、「想定外を想定内に変えていく」というプロセスを、真剣に取り込んでいく必要があると考えるようになった。
今までが中途半端だったのかもしれない。

もちろん、IT予算には限りがあるのだが、現時点の構成でできることは何か? あるいは想定される問題を解決できる技術は無いのか?
あるなら、その技術を使える機器はどれか? 価格とその保守形態はどうなっているか?
保守のサポートは365日体制なのか、9時~17時までの定時対応しかないのか?

そうした調査を元に熟考した結果、各シナリオに対して、我々がどう行動するかのアクション・リストが出来上がってくる。
具体的には、冗長構成からシングル構成への切り替え、ルーティングで経路変更、あるいはスタンバイ機を準備しての一時対応、などが考えられる。

今後は、問題が発生しても「想定内だから大丈夫!」と、自信を持って行動したい。