障害対応に振り回されない!情シスが知るべきインシデント管理のキホンと効率化のポイント
2024.07.24
システムの障害対応に追われ、ストレスの多い日々を過ごしていませんか?障害対応はゼロにはできない業務であると同時に、緊急度・優先度が高い業務でもあるため、効率的な業務プロセスの構築が不可欠です。本記事では、効率的なインシデント管理を構築するためのポイントとそれをノーコードツールで実現する方法をご紹介します。
よくある課題
障害対応では以下のような課題をお持ちの方が多いのではないでしょうか。
- 日々の障害対応に追われ、戦略的な業務に手が回らない
- 特定の個人に知識や経験が集中し、その人がいないと対応できない状況になっている
- 過去の対応履歴が散逸し、同じ障害で何度も苦労している
これらの課題は、情シスの業務的・心理的負荷が高まるだけでなく、組織の生産性低下や重大なシステム障害のリスク増大につながります。解決するには、システム障害を適切に管理するプロセス、すなわちインシデント管理プロセスの改善が必要です。
インシデント管理の重要性
では適切なインシデント管理プロセスとは、どのようなものでしょうか。ITシステムの運用に関するベストプラクティスを定義したITILでは、インシデント管理の目的を「インシデントの発生時に、サービスを可能な限り早く復旧し、ビジネスへの影響を最小限に抑えること」と定義しています。
適切なインシデント管理は以下のメリットをもたらします。
- 問題管理・変更管理へのプロセスへとつながり、再発防止に向けた根本対策が取れるようになることで、システムの可用性向上につながる(すなわちシステム障害そのものの減少につながる)
- 不正アクセスや情報漏えいなどの深刻なインシデントに対しても迅速に対応でき、企業の信用損失や機会損失を最小限に抑えることができる
つまり、確実なインシデント管理は業務遂行の円滑化だけでなく、企業の存続に関わる重要なプロセスといえるでしょう。
ITILに沿ったインシデント管理改善のポイント
ITILでは、以下のフローによるインシデント管理を推奨しています。
- イベント発生
- インシデントの検出
- インシデントの登録
- インシデントの分類
- インシデントの診断
- インシデントの解決
- クローズ
理想的なフローは上記のとおりですが、重要なのは、実際に自社で運用できる形に落とし込み、メンバー全員が効率的・効果的に実践できるようにすることです。例えば複数のツールをまたいでおり情報が分散している、判断の基準が人によってバラバラである、ツールの使い方やフローを理解している人が限られる、という状況だと適切な運用とはいえません。
最低限以下のポイントをおさえてプロセスを構築することで、障害対応を「誰でも」「効率的に」行うことができるでしょう。
インシデント管理をツールで実現する場合は、少なくともこれらのポイントを満たすようにツールを選択したり組み合わせたりすることをおすすめします。
kintoneでインシデント管理を効率化する方法とは
kintoneはノーコードツールですが、インシデント管理に適した機能が多数搭載されており、先述の3~7のポイントをすべて標準機能でカバーできます。
「kintoneってどんな製品だろう?」と気になった方は、こちらのページをご覧ください。
はじめての方へ。キントーンとは
本記事ではkintoneでインシデント管理アプリを作成するメリットをご紹介します。
インシデントの登録:【ポイント】フォーマット化しヌケモレなく登録
kintoneでは、データはレコード単位で保存されます。入力はフォーム化されているため、インシデント判別に必要な情報(例えば、サーバーorクライアントOSのバージョン、エラーコード、検知元、画面ショットなど)を過不足なく記録でき、後工程にすぐに取り掛かることができます。またkintoneはノーコードツールです。レコードのフィールドは、デフォルトで用意されているフィールドをドラッグ&ドロップで直観的に配置できるため、プログラミングの知識がない人でもアプリのメンテナンスを行うことができます。
▼kintone製品サイト
さわってみよう!kintoneアプリ作成画面
なお、kintoneではアプリの雛型を用意しています。サンプルアプリの「障害対応管理」をベースに、自社用にカスタマイズするとよいでしょう。
インシデントの分類:【ポイント】影響範囲×緊急度で優先度を決定、適切な担当者の割り当て
蓄積したインシデントは、まず優先度を決定します。ITILでは優先度を影響範囲×緊急度で定義しています。kintoneにはプロセス管理という機能があり、優先度と担当者を設定した上でプロセスを開始することができます。kintoneでプロセスを開始すると、レコードのステータスが進行します。ステータスは、「受付」「調査中」「作業中」のように自由に定義できます。
また通知機能により、担当者に通知を飛ばすことができます。依頼する側は、メールやチャットなどで担当者へ依頼する手間が省けます。依頼を受ける側も、「自分宛」の通知として受け取れるため、依頼を見落とす心配がありません。
インシデントの診断:【ポイント】既知のエラーか未知のエラー(すなわち問題)かを素早く判別
kintoneの関連レコード機能を使えば、アプリに蓄積されている過去のインシデントを自動で検索し、エラーコードやキーワードをキーに関連インシデントを表示できます。過去の類似インシデントの有無が即時に分かるため、対応時間の短縮が期待できます。
インシデントの解決:【ポイント】既知のエラーであれば過去のナレッジを参照し解決、問題であればワークアラウンド(暫定対応)を実施し問題管理へ登録
kintoneはWebデータベースとしての機能も持ちます。過去の対応をすべて蓄積することで、ナレッジ活用につながります。過去にスキルのあるメンバーがどのように対応したかを参照できるため、対応の属人化を防げるだけでなく、若手メンバーのスキルアップにもつながります。
また、レコードごとにコミュニケーションできるコメント機能があるため、対応方法が適切かどうかをチーム内で相談することができます。
また、アプリアクションの機能を使えば、別のアプリへの情報転記をワンクリックで行うことができます。インシデント管理では、既知のエラーの場合は対応方法が確立しているケースが多いですが、そうでないエラー、すなわち問題であった場合には問題管理プロセスへとつながります。また、恒久対応としてシステム変更を行う場合は、変更管理プロセスへとつながります。kintoneで問題管理、変更管理を行っている場合は、アプリアクションを使えばこれらのアプリへの情報転記もワンクリックで行うことが可能です。
クローズ:解決にかかった工数、コストなどを記録
kintoneの集計&グラフ化機能を使えば、リアルタイムでデータを集計・グラフ化できます。例えば以下のような情報を可視化すれば、情シス内のリソース配分の最適化やシステムの評価に役立てることができます。
- 誰に負荷が集中しているか
- どのフェーズに一番工数がかかっているか
- インシデントが多く発生しているシステムはどれか
- インシデントの多い時期はいつか
障害対応の品質を図る尺度の一つに、MTTR(インシデント発生~解決までの時間)があります。kintoneでは日時を入力できる「日時フィールド」があるため、インシデント検知と解決の時間を打刻しておくことで、あとで対応時間を集計したり評価したりすることができます。また、サイボウズが公開しているサンプルコード(無償)を使ってカスタマイズを行えば、ステータスを完了にすると同時に完了日時と担当者を自動入力することができます。
詳しくはリンク先をご覧ください。
▼cybozu developer network
プロセス管理を使って作業完了日と担当者を記録する
継続的な改善の重要性と障害対応のKPI例
ITILでは、蓄積されたインシデントを定期的にレビューし、インシデント管理を継続的に改善していくことが重要であると述べています。kintoneは、継続的な改善の基盤となります。kintoneで過去の対応記録を管理し定期的に集計・分析することで、PDCAサイクルを回しながら改善できます。対応時間などのKPIを設定し定量的に評価すれば、経営層や他組織への取り組みアピールにも有効です。以下はKPIの一例です。
- MTTR(インシデント発生~ 解決までの時間)
- 一次対応遵守率(事前に定義した「障害発生後XX分以内」という条件を遵守できた割合)
- 障害に対するワークアラウンド対応時間
- ユーザーの満足度
- システム可用性
障害対応はゼロにはできない業務ですが、全社に安定したシステムを提供するために必要不可欠な業務です。適切なインシデント管理を行うことで根本原因を解決でき、障害そのものの減少につながります。kintoneを使って、ぜひ効率的なインシデント管理を実現してくださいね!
関連情報
▼kintoneサンプルアプリ
障害対応管理