ホームニューステックニュースAWS Fault Injection ServiceでECS on FargateのAZ障害にトライ！ #FIS

AWS Fault Injection ServiceでECS on FargateのAZ障害にトライ！ #FIS

2025年7月4日

2

AWS Fault Injection ServiceでECS on FargateのAZ障害にトライ！ #FIS

　2025/4/15にAWSの東京リージョンで障害が発生しました。
　「AZ内の特定のEC2インスタンスへの主電源と二次電源が遮断されたことが原因」ということがAWSから公表されています。今回の障害では、EC2単体の障害だけではなく、EC2を基盤として提供されていると思われる以下のサービスにも影響がありました。

AWS CodeCommit
AWS Lambda
AWS NAT Gateway
AWS Network Firewall
AWS Systems Manager
AWS Transit Gateway
AWS VPCE PrivateLink
Amazon CloudWatch
Amazon Elastic Container Service
Amazon Elastic Load Balancing
Amazon Location Service
Amazon Redshift
Amazon Relational Database Service
Amazon Simple Storage Service
Amazon WorkSpaces

　(AWS〜だったり、Amazon〜だったり、名称統一して欲しいですよね･･･)
　久しぶりに、それなりの規模の影響範囲の障害になったなと感じた事象でした。

さて、障害については、AmazonのCTO、Dr.Werner氏もこう話されています。

Everything fails, all the time.
（全てのものはいつでも壊れうる）

　Well-Architected Frameworkでも、信頼性の柱（Reliability）が提唱されています。本記事を読まれている方も目標とする信頼性を確保するため、設計段階から色々と検討して構築、試験で確認をされていると思います。今回、2025/4/15に起きたAZ障害を踏まえて、Fault Injection Service（以下、FISと記載）を利用してAZ障害を起こして、検証を行ってみることにしました。
　本内容は、2025/5/24に開催されたJAWS-UG 栃木支部でLTさせていただいた内容をベースにしています。LTでお話をさせていただいた内容の補足と、LT内で引き続き挑戦していくとお話をしていたECS on FargateにおけるAZ障害について、備忘も含めて投稿しておきます。

<br />

　Amazon ECS on FargateでAZ障害を試そうとされる方の参考になれば幸いです。(注：お急ぎの方は、最初に「まとめ」をお読みください)

キーワード	概要
ターゲット	障害を注入する対象リソース (例)EC2インスタンス、RDSクラスター、ECSタスクなど
アクション	ターゲットに対して実行される障害 (例)EC2インスタンスの停止・再起動・CPU高負荷、ネットワーク遮断
実験テンプレート	複数のターゲットとアクションを組み合わせたもの。アクションの実行順序や時間の制御を設定して、本番障害に近づけることができる（マネコンでの操作の他、JSON、YAMLでも記述可能）
実験	事前に作成した実験テンプレートを元に一連の擬似障害を発生させること

アクション	障害内容
aws:ecs:drain-container-instances	クラスター内のインスタンスを停止する
aws:ecs:stop-task	指定したECSタスクを停止する
aws:ecs:task-cpu-stress	コンテナにCPU負荷をかける
aws:ecs:task-io-stress	コンテナにI/O負荷をかける
aws:ecs:task-kill-process	コンテナの特定のプロセスを強制終了する
aws:ecs:task-memory-stress	コンテナのメモリ使用率を上げる
aws:ecs:task-network-blackhole-port	コンテナの特定のポートへのトラフィックをドロップする
aws:ecs:task-network-latency	コンテナのネットワーク通信に遅延を発生させる
aws:ecs:task-network-packet-loss	コンテナのネットワーク通信でパケットドロップを発生させる

項目名	設定値
コンテナ名	amazon-ssm-agent
イメージ	public.ecr.aws/amazon-ssm-agent/amazon-ssm-agent:latest ※私はプライベートリポジトリから取得する形にしていたため、画像は以下となっています AWSアカウントID.dkr.ecr.us-east-1.amazonaws.com/amazon-ssm-agent:latest
Docker設定　コマンド	とても長いので、表外に記載します
環境変数（キー）	MANAGED_INSTANCE_ROLE_NAME
環境変数（値）	実際に作成したSSMマネージドインスタンスロール名を設定します私の場合はFIS-ECS-ManagedInstanceroleというロール名で作りましたので、その名前を設定しました

AWS Fault Injection ServiceでECS on FargateのAZ障害にトライ！ #FIS

いいね:

関連

Chris のコーナー: ツーライナー – CodePen

クリスのコーナー: タイプ – CodePen

Chris のコーナー: 落ちたばかりの CSS – CodePen

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

ヒカキンは書道家2026.1.21@TORU#vlog #iphone#切り抜き

聖人ヒカキンのガチギレシーンまとめwww#ヒカキン #ヒカキンマニア #開示 #ガチギレ #面白い動画 #やばい #爆笑 #最高 #ヒカキンボイス #ヒカキンtv

「初音ミク上海コンサート、1.6万人動員！共創文化の今」

AWS Fault Injection ServiceでECS on FargateのAZ障害にトライ！ #FIS

AWS Fault Injection Service とは

今回の構成、FISのシナリオ

今回の標的

利用したシナリオ

シナリオを使用して、障害発生の準備

ターゲットリソースへのタグ付け

Amazon ECS単体のアクション、実行準備

1. AWS FIS 実験テンプレートのIAMロールにAmazon ECS操作用のマネージドポリシーを追加

2. Amazon ECSタスクのIAMロールに権限追加

3. SSMエージェント用マネージドインスタンスロールを作成

4. Amazon ECSタスク定義の編集

5. Amazon ECSサービスでECS Execを有効化

Amazon ECSタスクに対するアクションの実行

1. Amazon ECSタスク停止の障害を起こしてみる ecs:stop-task

実行結果

2. NW障害時にタスク停止を起こす aws:network:disrupt-connectivity & ecs:stop-task

実行結果

3. NW障害を起こす aws:ecs:task-network-blackhole-port

実行結果

4. （番外編）Application Recovery Controller(ARC)ゾーンオートシフトの試行

実行結果

補足、学んだこと

大規模障害も最初は短時間の試行から

実験の結果は保管期間が120日

シナリオは自由に変更可能

実験テンプレートはエクスポート・インポートできる

実験終了後、Amazon RDSは再フェイルオーバしない

料金

共有:

いいね:

関連

Chris のコーナー: ツーライナー – CodePen

クリスのコーナー: タイプ – CodePen

Chris のコーナー: 落ちたばかりの CSS – CodePen

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

返事を書く返事をキャンセル