\r\n\r\n
お住まいの地域やご覧になるウェブサイトによっては、火曜日(2017年2月28日)にインターネットに問題が発生したことにお気づきになられたかもしれません。数え切れないほどのウェブサイトが停止し、何百万人もの人々が影響を受けた。今、アマゾンが真実を認めたおかげで、私たちはその経緯を知ることができました。
Amazonの簡潔な見出し「Summary of Amazon S3 service outages in Northern Virginia (US-EAST-1) area」によると、1つのタイプミスが原因でインターネットに障害が発生したとのことです。いいえ、タイプミスではありません。不運なエンジニアの小さなミスで、インターネットが何時間もダウンしてしまったのだ。
Amazonの説明によると、午前9時37分にAmazonのエンジニアが「S3課金処理で使用するS3サブシステムの少数のサーバーを削除するように設計されたコマンドを実行」したとのこと。今のところ、チームはそれなりに頑張っているようで、いい感じです。
"残念ながら、コマンドの入力に誤りがあり、想定よりも多くのサーバー群が削除されました。これらのサーバーは「さらに2つのS3サブシステムをサポート」し、そのうちの1つは「リージョン内のすべてのS3オブジェクトのメタデータと位置情報を管理」しています。これは深刻な問題を引き起こした。
その後、アマゾンは何度も何度もシャットダウンに挑戦した。残念ながら、「S3は過去数年間で驚異的な成長を遂げ、これらのサービスを再起動し、メタデータの完全性を検証するために必要なセキュリティチェックを実行するプロセスは、予想以上に時間がかかりました」。その結果、すべてが正常に動き出したのは、午後1時54分だった。
再発防止のため、アマゾンは「今回の運用事象を受け、様々な変更を行っている」という。これには、「容量削除を防ぐための保護機能」の導入、「他の運用ツールを監査して同様のセキュリティチェックを行う」、「重要なS3サブシステムの回復時間を改善するための変更」などが含まれます。".
以前は、オンラインやテキストメッセージでも、タイピングは常に重要だと考えていました。今回の不幸な事件は、たった一度の入力ミスがもたらす壊滅的な影響を示すものであり、それを証明するものです。さて、私たちは皆、インターネットを稼働させる責任を負うアマゾンのエンジニアを持っているわけではありませんが、それでも言い訳はできません。
火曜日に発生したアマゾンの停電の影響を受けましたか?誤動作に気づいたウェブサイトは?たった1つの誤字がインターネットをダメにすることについてどう思いますか?アマゾンはどのようにパフォーマンスを繰り返さないようにすればよいのでしょうか。下のコメント欄で教えてください
Photo credit: Marco Verch via Flickr