稼働率99.9%以上を実現するための仕組み ~守る cybozu.comの裏側(1)~

企業でクラウドサービスを利用する際、お客様から預かるデータの保全体制は、事前に確認していただきたいポイントのひとつです。データセンターの運用方法や障害対応は、提供サービスによってそれぞれ特色があります。今回、全4回にわたりサイボウズのクラウド基盤「cybozu.com」がどのようにしてお客様の環境を守っているかをご紹介いたします。サイボウズのクラウドサービスご検討の際に、是非ご参考ください。

お客様の環境はこちらの図のように、大きく4つの仕組みで成り立っています。今回は、サービスのプログラムなどを動かす仮想サーバーの仕組みについてご紹介します。

cybozu.com の仕組み

サービスのプログラムやWebサーバーを稼働するための自動復旧サービスは「自律分散エージェントシステム」(月読)と呼ばれます。この仕組みのメリットは、その名の通り障害の検知→復旧までの流れが自動化されること。その結果作業時間を大幅に短縮し、5分以内に自動回復することが可能となりました。機器の故障など異常時にも、最短でシステムを復旧できるためお客様への影響も最小限にとどめることができます。

サーバーは相互に監視しあい、異常を検知した場合は合議の上で障害を判定します。障害が検知された場合は、速やかにスペアサーバーに置き換える自動復旧プロセスが開始され、通常5分以内に回復します。また、万が一のネットワーク障害などで短時間に多数のサーバーが異常を起こした際には連鎖障害を防止するモードに移行します。

サーバーは相互に監視しあい、異常を検知した場合は合議の上で障害を判定します。障害が検知された場合は、速やかにスペアサーバーに置き換える自動復旧プロセスが開始され、通常5分以内に回復します。また、万が一のネットワーク障害などで短時間に多数のサーバーが異常を起こした際には連鎖障害を防止するモードに移行します。

以前はオペレーターが手動で実施していましたが、以下の項目を一から作業すると大きな手間と時間がかかってしまいます。


作業プロセス

1. 障害の検知
2. 障害原因が仮想マシンホストサーバーの故障であることを確認
3. 壊れたサーバーの電源を切る
4. 予備のホストサーバーから一台、復旧用のサーバーを選択
5. 故障したホスト上の仮想マシンを復旧用サーバーに移動
6. 仮想マシン上で稼働するべきプログラム類の起動

Cybozu Inside Outより


「機器は必ずいつか壊れる」だからこそ、その影響を極力少なくしサービス開始から約2年が経過する中でも99.9%以上の稼働率で運用しています。快適にご利用いただけるよう運用体制も改善を続けてまいります。

サイボウズ ガルーン プロモーション担当 高田