10月19日(土)午前2時49分から午前4時までの1時間11分間、「防災みえ.jp」ホームページ等が閲覧できなくなりましたが、その障害原因及び再発防止対策は以下のとおりです。
1.障害原因
「防災みえ.jp」及び防災情報システムは、クラウド上に常用系と予備系の2系統で構築され、常用系に障害が発生しても予備系で運用できるシステムです。
「防災みえ.jp」及び防災情報システムの維持管理業務の委託先の業者(以下、システム管理業者といいます)によると、当時、クラウド運営事業者がシステム停止を伴わない予定で、インターネットアクセスを管理するサーバー群に対してメンテナンス作業を行っていました。
この作業は、自動処理により、サーバーを順番に連携するシステムと切離し、メンテナンス終了後はシステムとの連携を戻すものでした。なお、切離されたシステムは、その間、自動で別のサーバーと連携して運用されます。
「防災みえ.jp」等の常用系システムと連携するサーバーに対するメンテナンス作業終了後、サーバーにインターネットアクセス機能に関するエラーが発生していましたが、自動処理による確認は、サーバーが起動しているかどうかといった単純なものであり、インターネットアクセス機能に関するエラーが確認されないまま、システムとの連携が戻されました。
さらに、「防災みえ.jp」等のシステムに異常があったわけではないので、予備系への切り替えも行われないまま、続けて予備系に対しても同様のメンテナンスが行われ、その結果、「防災みえ.jp」等が利用できなくなりました。
なお、このメンテナンス作業は、システム管理業者及び三重県に対して事前報告なく行われました。
2.再発防止対策
今回の障害は、天災や機器故障など不可抗力によるものではなく、システム管理業者の選定したクラウド運営事業者が、メンテナンスとして行った作業の工程上の問題であり、その結果、1時間11分のシステム停止に至ったものです。
システム管理業者と協議した結果、クラウド運営事業者のメンテナンス作業(全部で4種※1、2)に対して、システム管理業者の責務において、以下の対策を実施します。
この対策の結果、今後、同様の障害の発生を防止することができます。
ア クラウド運営事業者に対して、メンテナンス作業の確認項目を見直させ、メンテナンス作業時には、インターネットアクセス機能を含む必要なサービスの起動を全て確認させる。
イ 日程調整可能なメンテナンス(4種中2種)※1については、台風等の災害が予想される場合、及び実際に災害が発生した際には、クラウド運営事業者にメンテナンスを中止・延期させる。
ウ 残りの日程調整不可能なメンテナンス(4種中2種)※2については、常用系・予備系が共に停止した場合に備え、メンテナンス時期が異なる別のクラウド上に常時利用可能な待機系システムを構築する。
※1 日程調整可能なメンテナンス
・計画的に行うソフトウェアのメンテナンス
・計画的に行うハードウェアのメンテナンス
※2 日程調整不可能なメンテナンス
・計画的に行うクラウド環境のメジャーバージョンアップ
・緊急的に行うメンテナンス
【注】 この4種のメンテナンス以外で、システム停止が懸念されるような作業がないことを、システム管理業者が、クラウド運営事業者に確認しています。