fu3ak1's tech days

何事もシンプルに。主にAWS関連の記事を書いています

CloudWatch AlarmsとOpsCenterの連携機能が出たのでインシデント管理が捗りそう

なにやら良さそうな記事が・・

CloudWatch Alarmsで検知したアラームを、インシデント管理のOpsCenterに自動連携してくれるようです。 これでAWS上でアラームをインシデントとして一元管理できるかも?

実際に動かしてみたいと思います。

aws.amazon.com

CloudWatch Alarmsとは

EC2のCPU使用率やClodWatch Logsのログフィルターなど各種メトリクスを、アラームとしてSNSなどで通知できる機能です。

OpsCenterとは

Systems Managerの一機能で、運用担当の運用作業項目 (OpsItems=障害やインシデント)を管理できる機能です。

今回のアップデート

CloudWatchアラームを作成するときに、ポチっとOpsCenterの設定を有効にするだけで、自動的にアラームをOpsCenterに登録してくれるようになりました。良いですね。

試してみる

実際にアラームを作成してみます。今回はEC2のCPU使用率に対してアラームを設定します。

f:id:fu3ak1:20201106095112p:plain

今回は意図的にアラームを発生させるため、CPU使用率100%以下で検知するよう設定します。

f:id:fu3ak1:20201106095302p:plain

アクションの設定にすすむと、「Systems Manager OpsCenter アクション」が追加されてました。 有効にしてみます。

f:id:fu3ak1:20201106100117p:plain

重要度とカテゴリを入力できました。イイ!

f:id:fu3ak1:20201106100211p:plain

その他は名前など任意で入力してアラームを作成します。

作成後、しばらくすると以下のようにアラームが発動します。

f:id:fu3ak1:20201106100610p:plain

これでOpsItemが作成されたはずなので、Systems ManagerのOpsCenterに遷移して状況を見てみます。 1件のOpsItemが出ていました。想定通りですね。

f:id:fu3ak1:20201106100815p:plain

IDをクリックして詳細を見てみます。 先ほど設定した重要度やカテゴリー、関連リソース(今回はEC2インスタンスとCloudWatch アラーム)が表示されています。

f:id:fu3ak1:20201106102023p:plain

その下には、OpsItemに関するAutomationの実行履歴とランブックが一覧で表示されて、実行できるようになっています。 運用作業や障害対応用のランブックを用意しておけば、誰でも簡単に一次対応(ランブック実行)ができそうですね。

f:id:fu3ak1:20201106102739p:plain

最下部には情報管理に役立ちそうな各種データ登録の機能がありました。 件数集計や類似アイテムの検索に役立ちそうです。

f:id:fu3ak1:20201106102915p:plain

情報をひととおり見たので、ステータスを解決済みにしておきます。

f:id:fu3ak1:20201106103120p:plain

完了!

f:id:fu3ak1:20201106103155p:plain

感想・まとめ

うまく活用することで、AWS上でインシデント管理ができそうですね!

個人的には、CloudWatch Alarmだけではなく、CloudWatch EventsでGuardDuty等の検知も行っているので、そういった情報もOpsItemに登録してAlarm以外のイベントも一元管理するとすごーく良い感じになりそうだなと思いました。

※CloudWatch EventsでもターゲットにSSM OpsItemを指定することで簡単に登録できそうです。

機会があれば何かのプロジェクトで提案したいと思います。