稼働率99.9%以上を実現するための仕組み ~守る cybozu.comの裏側(1)~
2013.10.10
企業でクラウドサービスを利用する際、お客様から預かるデータの保全体制は、事前に確認していただきたいポイントのひとつです。データセンターの運用方法や障害対応は、提供サービスによってそれぞれ特色があります。今回、全4回にわたりサイボウズのクラウド基盤「cybozu.com」がどのようにしてお客様の環境を守っているかをご紹介いたします。サイボウズのクラウドサービスご検討の際に、是非ご参考ください。
お客様の環境はこちらの図のように、大きく4つの仕組みで成り立っています。今回は、サービスのプログラムなどを動かす仮想サーバーの仕組みについてご紹介します。
サービスのプログラムやWebサーバーを稼働するための自動復旧サービスは「自律分散エージェントシステム」(月読)と呼ばれます。この仕組みのメリットは、その名の通り障害の検知→復旧までの流れが自動化されること。その結果作業時間を大幅に短縮し、5分以内に自動回復することが可能となりました。機器の故障など異常時にも、最短でシステムを復旧できるためお客様への影響も最小限にとどめることができます。
以前はオペレーターが手動で実施していましたが、以下の項目を一から作業すると大きな手間と時間がかかってしまいます。
作業プロセス
1. 障害の検知
2. 障害原因が仮想マシンホストサーバーの故障であることを確認
3. 壊れたサーバーの電源を切る
4. 予備のホストサーバーから一台、復旧用のサーバーを選択
5. 故障したホスト上の仮想マシンを復旧用サーバーに移動
6. 仮想マシン上で稼働するべきプログラム類の起動
「機器は必ずいつか壊れる」だからこそ、その影響を極力少なくしサービス開始から約2年が経過する中でも99.9%以上の稼働率で運用しています。快適にご利用いただけるよう運用体制も改善を続けてまいります。
サイボウズ ガルーン プロモーション担当 高田