CloudWatch AlarmsとOpsCenterの連携機能が出たのでインシデント管理が捗りそう
なにやら良さそうな記事が・・
CloudWatch Alarmsで検知したアラームを、インシデント管理のOpsCenterに自動連携してくれるようです。 これでAWS上でアラームをインシデントとして一元管理できるかも?
実際に動かしてみたいと思います。
CloudWatch Alarmsとは
EC2のCPU使用率やClodWatch Logsのログフィルターなど各種メトリクスを、アラームとしてSNSなどで通知できる機能です。
OpsCenterとは
Systems Managerの一機能で、運用担当の運用作業項目 (OpsItems=障害やインシデント)を管理できる機能です。
今回のアップデート
CloudWatchアラームを作成するときに、ポチっとOpsCenterの設定を有効にするだけで、自動的にアラームをOpsCenterに登録してくれるようになりました。良いですね。
試してみる
実際にアラームを作成してみます。今回はEC2のCPU使用率に対してアラームを設定します。
今回は意図的にアラームを発生させるため、CPU使用率100%以下で検知するよう設定します。
アクションの設定にすすむと、「Systems Manager OpsCenter アクション」が追加されてました。 有効にしてみます。
重要度とカテゴリを入力できました。イイ!
その他は名前など任意で入力してアラームを作成します。
作成後、しばらくすると以下のようにアラームが発動します。
これでOpsItemが作成されたはずなので、Systems ManagerのOpsCenterに遷移して状況を見てみます。 1件のOpsItemが出ていました。想定通りですね。
IDをクリックして詳細を見てみます。 先ほど設定した重要度やカテゴリー、関連リソース(今回はEC2インスタンスとCloudWatch アラーム)が表示されています。
その下には、OpsItemに関するAutomationの実行履歴とランブックが一覧で表示されて、実行できるようになっています。 運用作業や障害対応用のランブックを用意しておけば、誰でも簡単に一次対応(ランブック実行)ができそうですね。
最下部には情報管理に役立ちそうな各種データ登録の機能がありました。 件数集計や類似アイテムの検索に役立ちそうです。
情報をひととおり見たので、ステータスを解決済みにしておきます。
完了!
感想・まとめ
うまく活用することで、AWS上でインシデント管理ができそうですね!
個人的には、CloudWatch Alarmだけではなく、CloudWatch EventsでGuardDuty等の検知も行っているので、そういった情報もOpsItemに登録してAlarm以外のイベントも一元管理するとすごーく良い感じになりそうだなと思いました。
※CloudWatch EventsでもターゲットにSSM OpsItemを指定することで簡単に登録できそうです。
機会があれば何かのプロジェクトで提案したいと思います。