オピニオン
初めて起こった事象は「想定外」、それを教訓に「想定内」になっていく
更新: 2016年6月1日
熊本、大分を中心とした九州地方を大地震が襲った「平成28年熊本地震」から、はや1カ月半が経過しようとしています。平成28年5月末の現在も余震が続き、予断を許さない状況が続いていますが、被害に遭われた方々に、改めまして心よりお見舞い申し上げます。また復興支援等の活動にご尽力されている皆様に敬意を表しますとともに、被災地域の一日も早い復旧・復興を心よりお祈り申し上げます。私も九州人の一人として精一杯支援をさせていただきます。
私は宮崎出身で今は福岡に住んでいます。九州(沖縄をのぞく)における過去の地震を調べてみました。1923年からの気象庁の震度データベースを検索すると、九州で発生したM7以上の地震は今回の熊本地震を含めて8回。そのうち宮崎県と大分県の沖合にあたる日向灘での地震が5回で最多です。周期は10年~20年間隔ですから、九州では昔から日向灘地震は想定内です。しかし、従来は地震が少なかった熊本のような地域で起こった「想定外」の災害が、今後いつどこで発生するか分かりません。いざというときのために備えておきたいと思います。
さて本題。企業の基幹業務システムでも「想定外」の事象が起こることがあります。重要なシステムを構築する時には、ハードウェアを二重化したり、障害回復手順書などを整備したりしてシステム障害に備えます。二重化したマシンの片方が停止した時、もう片方のマシンが処理を引き継ぐ自動切り替え機能を実装。テストではオペレータがマシンの片方を実際にシャットダウンし(または強制電源オフし)、もう片方のマシンに自動で切り替わって正常に処理できることを検証します。ここまでは想定内ですね。
ところが、最近のマシンは自動回復機能などの性能が良くなったためか、異常が起こっても自動回復動作を何回も繰り返して完全に停止しない事象が起こるケースがあります。障害が起きたマシンが停止しないと、正常なマシンへの自動切り替え機能がうまく作動せず、障害マシン側に処理の滞留やタイムアウトなどが起こりはじめ、やがて全体障害に至ります。
筆者が以前、初めてこの事象に遭遇したときは「想定外」でした。しかし、このケースを教訓にして、今ではたとえば二重化した二つのマシン相互で定期的に信号を送信して一定時間応答がなければ強制的に片方を自動停止する機能を装備するなどしています。今では、これも「想定内」の事象になっているわけです。
また「想定外」のケースが起こると、準備した障害回復手順書が頼りにならないことがあります。片方故障を想定した手順書は当然、備えていますが、「二重化しているから全体障害はありえない」という勝手な思い込みにより、最悪の事態に備えた全体を再起動する手順書を備えていなかったり、あっても最新の状態に更新していなかったりするのです。
そのような時、どうするか?結局、基本に戻るしかありません。まず障害が起こったシステムを詳しく知っている人間を集め、正確な情報を収集して現状を把握します。その上で、その時できる最善の回復手順を作って対処します。「想定外」によって苦い経験をした後は、二重化していても全体障害となる事象が「想定外」ではなく「想定内」になり、以後は最悪の事態を想定した手順書を常に最新状態で備えておくようになります。
初めて起こったときは「想定外」、それを教訓に「想定内」になっていくのが人間の知恵の限界かも知れませんが、不幸にも「想定外」が起こってしまったら、すばやく正確な情報を収集して現状を把握し、状況を理解したら次にとるべき行動を冷静に考えて、その時できる最善の策を決めるしかないと思います。もちろん「想定内」をできる限り広くとっておくことが大前提ですが、このことは災害でもシステム障害でも同じことが言えるのではないでしょうか。いざというときのために、心構えも備えておきたいと思います。
ふくおかフィナンシャルグループ
IT統括部 副部長
中村 成太