手順書の記入ミスが原因らしいSuicaサーバーの大規模障害[^1]で、再発防止が手順書のチェック強化となったそうです。電源工事のために電源を切る場合、現場ではその電源の電流がどれだけ流れているかを切る直前に調べるのが常識です。手順書を書いた人は図面をもとに手順を決めているので、図面をもとにチェックしても図面のミスには気付きません。電源パネルには電圧計と電流計が付いているべきで、なくても電流クランプがあれば非接触で電流を測れます。切るべき電源の電流がゼロでなければ、何かがおかしいと気付きます。工事に人為的ミスは付きものなので、サーバーには多重のバックアップ電源を用意するのが定石です。さらにサーバーは2系統ではなく3系統に分けるのが効果的です。プロなら知らないわけないので、無理なコストカットの結果でしょうか。
0 件のコメント:
コメントを投稿
注: コメントを投稿できるのは、このブログのメンバーだけです。