タイガー!タイガー!じれったいぞー!(SE編)

AS400, Java, JavaEE, JSF等の開発、習慣など。日々の気づきをまとめたブログ(備忘録)

トラブル時にどれだけ動ける自分であるか?

日々、働いているとたくさんの「IT障害」が発生します。

最初の切り分けとしては、「コントロール可能か?」と「コントロール不可能か?」

最近だと、Saasの利用が増えてきたので、不可能な場合がほとんど。

ただし、日常的にはSaasの障害時にどこまで備えるかという視点も大切ですね(データをバックアップしたり、オプションを付けたりなど)。

今回のテーマは、コントロール可能な場合に、自分自身をどこまで「発揮」できるかという話です。

「スコープ」や「影響」を正しく把握する

まず大切なことは、その障害の範囲を知りたいですよね。

障害報告者1人だけなのか?
周辺の人にも影響があるのか?
特定のエリアだけの問題か?
はたまた、組織全体に影響しているのか?

その範囲をスコープと呼んだりしますが、スコープが大きければ、大きいほど、またその障害により、どんな「影響」があるのかを正しく判断する必要があります。

ここで大切なことは、報告者の言葉をすべて鵜呑みにしないこと。結構、聞いた内容と相違していることがたまにありますので。

コマンドを叩いたり、資産管理などのツールで確認したり、サーバ監視のログを確認する方が大事だと思っています(もちろん、「ご迷惑をおかけしています。ごめんなさいね」と寄り添う気持ちは大切)。

まずは、スコープとその障害の影響を正しく捉えましょう!

火消しをするか、拡大を防ぐか?

次は、障害により、燃え移った「火」を消すことを優先するか、それとも、その「火」が拡大することを防ぐことを優先するかの判断が必要になります。

いずれにしても、燃えている「火」は消さなければいけないし、同じな「火災」を発生させないための対策は必要です。

しかし、トラブル時は「まず何から始めるか?」が大事。いち早く「平和」な状態に戻さなければならないのですから。

リカバリー」が先か、「恒久対策」が先か。

トラブルの状況により、どちらから始めるかは異なりますから。

平常時と同じ能力を発揮するために?

最後は、今回一番言いたいことです。

「普段の平常時の仕事力を、トラブル時でも "発揮" できますか?」という「問いかけ」を自分にしてみました。

トラブル時には、「早く復旧しなければ!」という焦りが発生します。

心臓の鼓動も早くなり、冷や汗をかくこともしばしば。

どんな状況でも、素早くコマンドを打てたり、正確な判断力が求められるのです。

つまり、トラブルが起きていない時間で、徹底的に原理・原則に従った「動き」と「思考」ができることが大事だと思うのです。

障害時を「試合」と呼ぶのなら、練習でできないことは試合でできるはずはありませんからね(平常時は、練習ではありませんがね……)

まとめ

一言でいうと、平常時であっても「常在戦場」の意識を持って、目の前の仕事に向き合っていきたい!

そんなことを考えていた1週間でした。

どんなに世界が発展したとしても、ゼロ障害はありえません。

そのためにも、日頃の準備や備えを行っていきましょう。

障害を想定した「予行演習」などを、定期的にやっていきましょうね!