みずほ銀行（MHBK）の大規模システム障害から、私たちみんなが学べること　～「調査報告書」が示す教訓～（後編）

前編では、株式会社みずほ銀行（MHBK）が2021年2～3月にかけて起こしたシステム障害の概要と、そこから得られる学び1・2について解説しました。後編では、学び3～5を見ていきます。

確認された問題とそこから得られた学び
おわりに

確認された問題とそこから得られた学び

発生した問題3）気づけたはずのチャンスを活かせなかった

大事故というのは突然やってくることもありますが、大抵の場合は、予兆があるものです。事実、A事案でも予兆がありました。ですが、その予兆に気づく人はいませんでした。具体的には、システム上のある指標が異常値を示していたにもかかわらず、担当チームがそれを見逃していたのです。調査報告書では「確認はしたものの対応の必要性を認識していなかった」とも指摘されています。いったい、なぜそのようなことが起こったのでしょうか。

原因1）関係者のリスク認識力・意識が不足していた: 「障害が起こるとしたら、この辺りでまず異常が検知されるはずだから、気をつけよう」という意識がなかった。A事案での「この辺り」とは「システムの使用量」、「異常」とは「システムの容量が不足気味であるというエラーメッセージ」に該当する。システム設計段階においても処理本番当日の段階においても、該当リスクに気づける知見のある担当者が不在だったせいもあり、こうした認識がなされていなかった。

原因2）担当者のシステム知識が不足していた: 原因1）に加えて、監視を担当していた技術者が、システムが示した異常値の持つ意味を正しく理解していなかったため「異常」という判断ができなかった。

原因3）当日の作業リスクを過小評価していた: 「取引が集中する月末に行う処理であったこと」「大規模な処理（45万件）であったこと」からそこに大きなリスクが存在することを想定できたはずだが、通常の監視体制とあまり変わらない体制で変更処理を行なった。原因1のリスク認識力不足・意識不足もさることながら、作業リスクの過小評価が、監視の甘さに繋がった可能性は否めない。

問題3とその原因からの学び3） 「要所要所のリスクアセスメントを蔑ろにしてはいけない」と認識すべし: これら原因を見て分かるのはリスクアセスメント品質の低さです。システム設計段階におけるリスクアセスメントは実施されていたものの、今回の障害の直接的原因となった「システムの容量不足リスク」を特定することができていませんでした。人間ですから、100歩譲ってそこで見落としたことは仕方がないとしても、その後の「本番当日作業の検討段階」でも、処理当日のリスクが過小評価されていた点は気になります。
ここから言えるのは要所要所のリスクアセスメント品質の担保が重要である、ということです。そしてその品質担保の鍵は、「適切な時間をかけること」と「適切な関係者を巻き込むこと」の2つだと考えます。中でも「適切な関係者を巻き込む」という点が疎かになるケースは少なくありません。実際、「今回のようなリスク認識ができる知見のある者の関与が弱かったのでは」という指摘がなされています。
リスクアセスメントは「ただ、やれば良い」というものではないことを忘れてはいけないでしょう。

発生した問題4）思わぬボトルネックにより対応が大きく遅延した

前編で、BCPを始動させるには「第一報が大事である」という話をしましたが、同じく「活動上のボトルネックをできる限り排除すること」も重要です。A事案では、システム障害の影響期間が約1.5日間という、「止めてはいけないサービス」にしては非常に長い期間停止を余儀なくされたわけですが、その原因となったのが2つのボトルネックでした。1つは「①対応要員がボトルネックになった」というものです。では、どうして対応要員がボトルネックになってしまったのでしょうか。

①の原因）適切な対応ができる要員の現地駆けつけに時間を要した: 該当システムの調査を行える技術担当者は（特にリモート環境下では）24時間365日の常駐が前提にはなっておらず、営業時間外は「駆けつけ対応」となっていた。今回の障害は「駆けつけ対応」が必要なものであったため、対応要員である技術担当者の到着を待つ間、原因特定作業がかなり遅延することとなった（該当システムのエラー検知は9時50分、対応要員の現地到着が14時、作業完了が16時22分）。

また、2つ目は「②大量の情報処理がボトルネックになった」というものです。次のような原因が指摘されています。

②の原因）大量のエラーメッセージが出た際の対応リソースとプロセスが足枷になった: システム監視をしていた委託先の現場オペレータは2名のみ。大量のメッセージが極めて短時間のうちに生じた場合の手続きは、監視員が一画面に34メッセージまでしか閲覧できない仕様となっている画面をスクロールしながら目視で確認した上、初報とすべきエラーメッセージを抽出して印刷した上で関係者に連絡を入れることになっていた。

さらに、部品故障が7時間のシステム障害に繋がったD事案では「③部品保守の役割を担うベンダーがボトルネックの1つになった」ことがわかっています。事実、ベンダーに部品交換指示を出したのが0時34分、現場に駆けつけたのが2時8分、交換完了が3時50分。このようにシステム障害時間全体の4割をそこで消費しています。その原因の一つには、次の点が挙げられています。

③の原因）保守企業と復旧時間に関する取り決めがなかった: ストレージの保守を担当する株式会社日立製作所と MHBK の間において、障害発生時の具体的な復旧時間に関する取り決め等がなかった。

問題4とその原因からの学び4） 「訓練をしてみなければ発見できないボトルネックは多い」と認識すべし: 「『現地駆けつけ』に時間がかかることは分かっていたはずで、もっと何かできたのでは？」、「ベンダーがボトルネックになることは分かっていたのでは？」などと思いたくなるかもしれません。ですが「想像力を働かせていれば、本当に事前にそれらボトルネック全てを認識できていたのか」というと、それは難しかったように思います。
なぜなら、「そもそもボトルネック特定につながる訓練ができていなかった」ためです。事実、調査報告書には「システム障害などが業務時間外（休日）に発生することを想定したBCPの訓練は過去5年にわたって省略されていた」旨の記載があります。また、「休日や業務時間外等の速やかな連絡や物理的参集が難しいようなシステム障害のケースを想定した顧客影響の拡大を回避するための訓練は実施されていなかった」とあります。
机上で考え抜く努力も重要ですが、「やはり、訓練をしてみなければ見つけ出せない課題はたくさんある」ということも大事な学びではないでしょうか。

発生した問題5）復旧対応の進め方を誤った

肝心の復旧対応にいくつかのミスがあり、これが顧客への影響を長引かせた要因にもなりました。ミスは、システム復旧に直接従事する現場だけでなく、間接的な対応を行うチームでも起きました。システム復旧に直接従事する現場で起こしたミスとは、文字どおり「①誤ったシステム復旧手順をとってしまった」というものです。なぜ、そのようなことが起きたのでしょうか。

①の原因1）復旧作業者がヒューマンエラーを起こした: 「ある手続きを手動で再実行すべきであったにもかかわらず、それを実施しなかった」「システムの障害状況に合わせて、とるべき復旧手順が決まっていたのに、その手順をとらなかった」という復旧作業者によるミスがあった。これらによって復旧までにより時間を要する結果となった。復旧作業者のスキル不足によるところも否めない。

①の原因2）そもそも復旧手順書に不備があった: 整備済みの手順書では対応できない事態に見舞われ、技術者が現地に駆けつけることとなった。「システムの再起動」が必要だったが、技術者はそれがわからず現場で右往左往した。この点に関して、復旧手順書の記述が十分ではなかった。

「復旧対応の進め方を誤った」という観点で次に問題だったのは、「②システム復旧に直接従事する現場以外の対応が緩慢だった」というものです。極端に言えば、有事下にも関わらず必要以上に「待ち」の状態を作ってしまったということです。どうして緩慢になってしまったかという点については次のような原因が考えられます。

②の原因）組織全体での大局を見た復旧計画立案を行わなかった: 先述のとおり、現場で採用されたのは誤った復旧手順だった。一方で、顧客対応を推進する組織などの他部門は、現場によるシステム復旧を待つばかりだった。そのため、「復旧が顧客業務開始時間に間に合わないかもしれない」ということを念頭に置いた、組織としての大局的な検討・行動がみられなかった(そして、実際に間に合わず、間に合わないことが判明してからの後手後手の対応となった)。

問題5とその原因からの学び5） 「『最悪の事態』の想定が最大のリスクマネジメントになる」と認識すべし: 実は本件に限らず、現場での拙速な復旧対応がミスを招き、余計に被害を拡大させてしまったというケースはたくさんあります。例えば、大切な顧客データを間違って完全消去した事例もありました。当然、慌てざるを得ない環境下で「慌てるな」ということに無理がありますが、それでも復旧ミスから起こりうる二次被害の大きさを考えれば、できるだけ冷静に行いたいのもまた事実です。その意味で、「よし、この手順で復旧しよう」と思った時に、一旦立ち止まって「この手順を誤った場合に起こりうる最悪の事態は何か」を考える癖をつけておくことが重要ではないでしょうか。
そして、この「最悪の事態を想定すること」は復旧現場にだけ当てはまる話ではありません。復旧現場をサポートする間接支援チームも、組織全体を指揮する司令塔も、常に「起こりうる最悪の事態は何か」を想定して、予防線を張っておくことが円滑な復旧を可能にします。本件の場合も「起こりうる最悪の事態は何か」という問いかけをしていれば、自ずと「復旧が顧客業務開始時間に間に合わないかもしれない」という答えを導き出すことができたのではないでしょうか。
対応組織のどの階層、どの役割者においても、常に「最悪の事態を想定した行動」をとる癖を身に付けさせておくことが肝要です。

おわりに

いかがでしたか。170ページ近い調査報告書を簡潔にまとめましたが、問題は5つあったため、長文になりましたね。そこで改めて本稿で取り上げた「学び」を再掲します。

※学び1～2は前編で解説

学び1）「顧客対応が疎かになった」: →「トラブルの発生が、いかに人の視野を狭くしてしまうか」を認識すべし

学び2）アラートが届かなかった・アラートだと思ってもらえなかった: →「通報（アラート）は投げればOK、という単純な話ではない」と認識すべし

学び3）気づけたはずのチャンスを活かせなかった: →「要所要所のリスクアセスメントを蔑ろにしてはいけない」と認識すべし

学び4）思わぬボトルネックにより対応が大きく遅延した: →「訓練をしてみなければ発見できないボトルネックは多い」と認識すべし

学び5）復旧対応の進め方を誤った: →「『最悪の事態』の想定が最大のリスクマネジメントになる」と認識すべし

この「学び」を見て、お気づきになった方もいらっしゃると思います。これらは、システム担当者やIT-BCPに関わる人だけに役立つものではないのです。ここでの「学び」は間違いなく、IT-BCPを考える方にも、それ以外の地震・津波災害、火災・爆発事故などさまざまな有事対応を考える方に当てはまる教訓ではないでしょうか。

もちろん、冒頭でも申し上げましたが「組織風土の問題」も置き去りにしないようにしていただければと思います。

本稿を通じて、今回の調査報告書にはこうした「学び」があること、そして、他社の痛みを「自分ごと」として捉え真摯に向き合うことがとても大事であるということ、この2つがみなさまに伝われば目的を果たせたというものです。これをきっかけにみなさまの企業がより強くなることを願っております。

みずほ銀行（MHBK）の大規模システム障害から、私たちみんなが学べること　～「調査報告書」が示す教訓～（後編）

確認された問題とそこから得られた学び

発生した問題3）気づけたはずのチャンスを活かせなかった

発生した問題4）思わぬボトルネックにより対応が大きく遅延した

発生した問題5）復旧対応の進め方を誤った

おわりに

参考情報

Related Articles おすすめの記事

Related Services 関連サービス

人気記事ランキング

カテゴリ

キーワード（タグ）

用語集

業種（タグ）

お問い合わせ

資料ダウンロード

お電話でのお問い合わせはこちらから

みずほ銀行（MHBK）の大規模システム障害から、私たちみんなが学べること ～「調査報告書」が示す教訓～（後編）

確認された問題とそこから得られた学び

発生した問題3）気づけたはずのチャンスを活かせなかった

発生した問題4）思わぬボトルネックにより対応が大きく遅延した

発生した問題5）復旧対応の進め方を誤った

おわりに

参考情報

Related Articles おすすめの記事

Related Services 関連サービス

人気記事ランキング

カテゴリ

キーワード（タグ）

用語集

業種（タグ）

お問い合わせ

資料ダウンロード

お電話でのお問い合わせはこちらから

みずほ銀行（MHBK）の大規模システム障害から、私たちみんなが学べること　～「調査報告書」が示す教訓～（後編）