日々、働いているとたくさんの「IT障害」が発生します。
最初の切り分けとしては、「コントロール可能か?」と「コントロール不可能か?」
最近だと、Saasの利用が増えてきたので、不可能な場合がほとんど。
ただし、日常的にはSaasの障害時にどこまで備えるかという視点も大切ですね(データをバックアップしたり、オプションを付けたりなど)。
今回のテーマは、コントロール可能な場合に、自分自身をどこまで「発揮」できるかという話です。
「スコープ」や「影響」を正しく把握する
まず大切なことは、その障害の範囲を知りたいですよね。
障害報告者1人だけなのか?
周辺の人にも影響があるのか?
特定のエリアだけの問題か?
はたまた、組織全体に影響しているのか?
その範囲をスコープと呼んだりしますが、スコープが大きければ、大きいほど、またその障害により、どんな「影響」があるのかを正しく判断する必要があります。
ここで大切なことは、報告者の言葉をすべて鵜呑みにしないこと。結構、聞いた内容と相違していることがたまにありますので。
コマンドを叩いたり、資産管理などのツールで確認したり、サーバ監視のログを確認する方が大事だと思っています(もちろん、「ご迷惑をおかけしています。ごめんなさいね」と寄り添う気持ちは大切)。
まずは、スコープとその障害の影響を正しく捉えましょう!
火消しをするか、拡大を防ぐか?
次は、障害により、燃え移った「火」を消すことを優先するか、それとも、その「火」が拡大することを防ぐことを優先するかの判断が必要になります。
いずれにしても、燃えている「火」は消さなければいけないし、同じな「火災」を発生させないための対策は必要です。
しかし、トラブル時は「まず何から始めるか?」が大事。いち早く「平和」な状態に戻さなければならないのですから。
「リカバリー」が先か、「恒久対策」が先か。
トラブルの状況により、どちらから始めるかは異なりますから。
平常時と同じ能力を発揮するために?
最後は、今回一番言いたいことです。
「普段の平常時の仕事力を、トラブル時でも "発揮" できますか?」という「問いかけ」を自分にしてみました。
トラブル時には、「早く復旧しなければ!」という焦りが発生します。
心臓の鼓動も早くなり、冷や汗をかくこともしばしば。
どんな状況でも、素早くコマンドを打てたり、正確な判断力が求められるのです。
つまり、トラブルが起きていない時間で、徹底的に原理・原則に従った「動き」と「思考」ができることが大事だと思うのです。
障害時を「試合」と呼ぶのなら、練習でできないことは試合でできるはずはありませんからね(平常時は、練習ではありませんがね……)
まとめ
一言でいうと、平常時であっても「常在戦場」の意識を持って、目の前の仕事に向き合っていきたい!
そんなことを考えていた1週間でした。
どんなに世界が発展したとしても、ゼロ障害はありえません。
そのためにも、日頃の準備や備えを行っていきましょう。
障害を想定した「予行演習」などを、定期的にやっていきましょうね!