日をまたぎ、全てのエックスサーバー系列のサービスが2時間ダウンした障害で気がついた、障害時の対策と情報発信をブログネタとして、今までで一番インパクトのある障害を記録しておくことにしました。
今回は、ホビー三昧Dの入っている収容サーバー単体の接続障害と違い、 エックスサーバー とスタードメイン の公式Webサイトもサーバーダウンして表示がされない状態になっていました。
ビジネス向けサービスも含めて系列グループのサイトが全部ダウンしているなんて、初めて見ました。
サーバーダウンに気づいたのは10日23:50ごろ
10日23:50分ごろ記事投稿の更新ボタンを押した後、サーバーからの応答がなくなり、エックスサーバーのダウンに気がつきました。
てっきりプロバーダーの回線トラブルかと思い、他のサイトを開いたら表示され、ダウンに気がついたのです。
ホビー三昧Dの収容サーバーだけがダウンしているかと思ったら、エックスサーバーのWebサイトも開かず、大規模なハッキングかと思い、お名前ドットコムのレンタルサーバーにつないだらそちらは正常に稼働していました。
Twitterで確認
普段Twitterを全く利用していないのですが、#エックスサーバーで検索したら、接続できないというツイートが沢山出ており、僕のところだけではないことが分かります。
こういうときにTwitterはホントに便利だと実感しました。
発生から1時間後に、エックスサーバー公式アカウントのFacebookとTwitterで、10日23:50から接続障害が起こっているという投稿が出ました。
今回は、ビジネス向けサービスなどの単体サービスレベルではなく、エックスサーバーグループサイト全体が表示されないというダウンだったため、復旧はかなり時間がかかりそうな気がしました。
データには影響はありませんと書かれてはいましたが、外部に取ってあるGoogleDriveとローカルへのホビー三昧Dのバックアップ処理は、毎日朝3時の自動実行しているため、バックアップデータは21時間も前の物になってしまいます。
日曜の更新と、書きかけ記事が全部なくなると、さすがにへこみます。アデランスの記事がぁ。。。
2時間後の4月11日1:50頃復旧
ホビー三昧Dの記事も、色々混沌としているので、バックアップデータもありますが、全部消えたら消えたで、これを機に、1から全部作り直そうかなと思いました。
そして、長時間のサーバー障害にそなえて、「サーバー障害によりホビー三昧Dが閲覧できなくなっていることをアナウンスする動画」を作っていたら、11日1:50分ごろ復旧しました。
無事復旧して良かったですが、どうしよう、ネタとして作った動画。。。。
エックスサーバーが復旧しているのに、これ公開したら、デマ拡散になってします。
夜のテンションで作ったサーバー障害を伝えるナレーション付き動画
それにしても、自分で音声吹き込まなくていい、音声合成ナレーションソフトって、凄く便利です。調子に乗ってBGMまでつけてしまいました。
ヨハン・パッヘルベルのカノンとジーグ ニ長調をBGMにして、CeVIO AI 小春六花のナレーションや、VOICEPEAK 商用可能 6ナレーターセットの男性2で作ってみました。
DLsiteで販売されている著作権フリーBGM集classical music for games vol.2
Classical music for Games vol.2に収録されているヨハン・パッヘルベル カノンとジーグ ニ長調は少し軽く、イメージとしては、スロバキアの室内管弦楽団Capella Istropolitanaで指揮者はRichard Edlingerのカノンに近い音源を、月額定額制のArtlistや日本最大級の著作権フリーBGM・効果音ストックサービスの「Audiostock」で探し始めたら、エックスサーバーが復帰しました。
今見ると。。。作業的には5分程度で完成した最初のバージョンですが、サーバー障害で自社のサイトにつながらないときに、ナレーションにBGM付きの動画というのはどうかと思いました。
シンプルに現場の手作り感満載のパワーポイント表示などで急ごしらえ感を出した方がいいような気もします。
深夜0時を周り暇になってくると、ろくなことをしないなぁ。楽しくてしょうがなかったです。思いっきり脱線してる。
今回の障害で気がついたこと
動画作成はさておき、サーバー障害を体験してみると、色々分かり、今回は、運営サーバーと、告知方法について気づきました。
ドメインとWebサーバーは運営システムが一緒の方がいい?
ちなみにホビー三昧DのWORKドメイン管理は、GMOグループのお名前.com を使っています。WORKドメインは、エックスサーバー系のXserverドメイン では取り扱っていないためです。
今回、障害を起こしていなかったお名前ドットコムのレンタルサーバーを使っていて、エックスサーバーでドメイン管理をしていたら、どうなっていたのだろうか。
ドメインの方は、エックスサーバーの利用率とエックスサーバーのDNSのアドレスが共通のため、複数のDNSサーバーにドメインとIPアドレスを対応させた記録が分散しているので、すぐに接続できなくなる心配はないです。
ただ、普段アクセスしていない地域から接続すると、DNSの問い合わせが起こるため、アクセス障害が起こります。
連動して機能しているため、ドメインとサーバー同じ、基幹システムに接続した方が、耐障害性は高くなりそうな気がします。
障害時の告知方法は複数用意しておいた方がいい
ダメージが大きかったのは、セール終了直前で一番かき入れ時のECサイト系のようです。
Twitterでツイートを色々チェックしていたら、エックスサーバーの公式障害案内ツイートよりも、色々な企業やお店の障害情報のツイート告知の方が早かったです。
ホビー三昧Dではそこまで気にする必要はありませんが、Webページで商売をするとき収容サーバー以外に情報が発信できる場所がないと、大変だなと思いました。
Webページで検索しても、Google検索クローラーはそんなに早く反映しません。
こういうときに備えて、システムが違う、GoogleやFacebookとTwitterで告知できる場所を作っておく必要があるかもしれないと思えた事件でした。
速い障害案内は信頼感とファンを増やす
24時間安定稼働が求められる商売で、障害発生から1時間後のアナウンスでは遅すぎと感じました。たとえ対応中だったとしても、障害発生の第一報は直ぐに出した方がいいと思います。
提供しているサービスがレンタルサーバーである程度サーバー事情を理解している人が多いですが、公式発表が出ていなかったため、色々な憶測が出ていました。
いずれにしろ障害が起こったときの告知はなるべく早いほうが良いのは間違いないです。アクセス障害が発生してから数分後に第一報を出した通販サイトのツイートには、応援メッセージがたくさん付いていました。
更に、準備してあったかのような、割引価格やクーポンの延長などの救済案内には、ちょっと感動しました。決済に失敗した場合のお問い合わせフォームのURLまで案内がありました。
画面の向こうからお店の担当者の様子が見えて、この店で買いたいなぁなんて思ってしまいました。
気がついて覚えておいた方が良さそうなこと
今回は、障害発生時にどういった行動や感情を持つかなど、実際当事者として、その状況に身を置くことで、良い勉強になりました。
ドメインとサーバーといった両方の安定稼働が必要なシステムは、一方がダウンしたら両方ダウンするため、一つの運営システムに統合した方が、耐障害性の低下が防げそうです。
そしてWebページを表示するレンタルサーバーなど、実績稼働率が99.99%以上ある基幹システムに対して、冗長性を持たせる対策を考えてみましたが、対応はとても面倒でコストが合わないと思います。
むしろ、YouTubeやFacebookやTwitterなど複数の公式アカウントを用意して置き、障害時の発信をする手段を増やしておいた方が良さそうです。
大切なのは、障害は発生する物と心得て、日頃から何か起こったときのために、テンプレートやマニュアルを用意しておき、プレリリースなどを迅速に発信できる準備をしておいた方が良いかと思いました。
まぁ、めったにないことなので、ネタにしてみました。