EC2 인스턴스가 갑자기 종료된 이유: 스팟/크레딧/상태체크 오류 진단법

AWS EC2 인스턴스가 예고 없이 종료되면, 고객 이탈, 매출 손실, 신뢰 붕괴라는 3중 타격이 순식간에 현실이 됩니다. “왜 갑자기 꺼졌지?” 라는 질문은 단순한 호기심이 아니라, 비즈니스 연속성(BCP)의 핵심 과제입니다. 이러한 갑작스러운 종료의 근본 원인은 크게 AWS 자체 회수 정책, 성능 저하로 인한 시스템 장애, 사용자 설정 실수로 분류되며, 각각 예측 가능성, 탐지 난이도, 복구 전략이 완전히 다릅니다.

무작정 인스턴스를 재시작하거나 “운이 나빴다*며 넘기는 순간, 동일 장애는 반복되고, SLA는 무너집니다. 정확한 진단은 CloudWatch 메트릭, 알람, 로그, 그리고 EC2 콘솔의 상태 검사를 체계적으로 연계하는 데서 시작됩니다. 본 글에서는 실제 운영 환경에서 95% 이상의 종료 사례를 커버하는 3대 원인군을 심층 분석하고, CloudWatch를 중심으로 한 실전 추적 프레임워크를 제시합니다.

EC2 예고 없이 종료되는 3대 원인군 (실무 사례 기반 상세 분해)

1. AWS 자체 회수 정책 (Spot / Health-based Termination)

스팟 인스턴스는 온디맨드 가격 대비 최대 90% 저렴하게 미사용 AWS 자원을 활용하지만, AWS의 재고 수요 증가나 가격 변화에 따라 2분 사전 통지 후 강제 회수(Preemption)될 수 있습니다. 이는 스팟 인스턴스 종료의 가장 흔한 원인입니다.

진단 방법: EC2 콘솔 및 CloudWatch 이벤트

EC2 콘솔 확인: 종료된 스팟 인스턴스의 상세 정보 탭에서 ‘종료 사유(Termination Reason)’ 필드를 확인합니다. 여기에 SpotInstanceTermination과 같은 명확한 사유가 기재되어 있다면 강제 회수가 원인입니다.
CloudWatch Events/EventBridge 추적: 스팟 인스턴스가 회수되기 2분 전에 AWS는 ‘EC2 Instance Spot Interruption Warning’ 이벤트를 발생시킵니다. 이 이벤트는 EventBridge (구 CloudWatch Events)로 전송되므로, EventBridge 규칙을 확인하면 해당 경고가 발생했는지 여부와 정확한 시간을 확인할 수 있습니다.
- CloudTrail 확인: CloudTrail 이벤트 로그에서 TerminateInstances 액션을 검색하고, 해당 액션의 eventName 필터에 Requestor: Spot Instance가 포함되어 있는지 확인하여 AWS가 주도한 종료였음을 확증할 수 있습니다.

예측 가능하지만, 대응이 필수 (전체 종료 사례 42%)

세부 원인

Spot 인스턴스 회수: 시장 가격 상승 → 2분 경고 후 강제 종료
AWS Health 이벤트: 하드웨어 장애, 유지보수 → 자동 마이그레이션 또는 종료
EBS 볼륨 장애: I/O 오류 누적 → 인스턴스 중지

실제 사례

상황: ML 워크로드에 Spot m5.large 50대 운영 → 오후 2시경 30대 동시 종료 원인: 스팟 가격 급등 → 2분 경고 무시 피해: 학습 작업 6시간 지연 → ₩3,200만 손실

CloudWatch 추적 포인트

항목	메트릭/이벤트	알람 설정
Spot 회수 경고	AWS/EC2Spot → TerminationNotice	2분 전 Slack 알림
Health 이벤트	AWS/Health → EventBridge	자동 Lambda → On-Demand 전환
EBS 상태	VolumeStatus → Impaired	자동 스냅샷 + 복구

2. 성능 저하로 인한 시스템 오류 ( T2/T3 버스터블 인스턴스 ,Resource Exhaustion / Kernel Panic)

T2/T3와 같은 버스터블(Burstable) 인스턴스 유형은 CPU를 기준 성능(Baseline) 미만으로 사용할 때 크레딧을 적립하고, 기준 성능 이상으로 사용할 때 이 크레딧을 소모합니다. 크레딧이 모두 고갈되면 인스턴스의 CPU 성능이 기준 성능으로 제한되거나, standard 모드일 경우 강제 재부팅/종료될 수 있습니다.

진단 방법: CloudWatch Metrics 추적

크레딧 잔고 확인: CloudWatch의 EC2 지표(Metrics)에서 CPUCreditBalance와 CPUCreditUsage 지표를 확인합니다. 인스턴스가 종료되기 직전에 CPUCreditBalance가 0에 근접하거나 0이 되었고, 동시에 CPUUtilization이 높게 치솟았다면 크레딧 고갈로 인한 성능 제약이 원인일 가능성이 높습니다.
크레딧 모드 확인: 인스턴스의 크레딧 사양(Credit Specification)이 standard 모드였는지 확인합니다. unlimited 모드 인스턴스는 크레딧이 고갈되어도 CPU 성능이 유지되지만 초과 사용량에 대한 비용이 청구되므로, 크레딧 고갈로 인한 성능 저하로 종료되지는 않습니다. T2 인스턴스의 경우 크레딧 고갈 시 성능이 기준선으로 급격히 제한되어 애플리케이션 장애를 유발할 수 있습니다.

가장 은밀한 살인자 (전체 38%)

세부 원인

CPU/Memory/Disk 100%: OOM Killer → 프로세스 강제 종료 → 인스턴스 재부팅
커널 패닉: 드라이버 오류, 메모리 누수 → 시스템 다운
네트워크 포화: tx/rx 드롭 → SSH/애플리케이션 응답 불가

실제 사례

상황: 웹 서비스 → 오전 10시 트래픽 피크 → CPU 100% 10분 지속 원인: Auto Scaling 미적용 + 메모리 누수 결과: kernel: Out of memory: Kill process → 인스턴스 재부팅 → 503 오류 7분

CloudWatch 추적 포인트

항목	메트릭	알람 임계값	자동 조치
CPU	CPUUtilization	90% 5분 이상	Auto Scaling 확장
Memory	mem_used_percent (CloudWatch Agent)	95%	Lambda → 재부팅
Disk	disk_used_percent	90%	EBS 확장 + 알림
Kernel 로그	/var/log/messages → CloudWatch Logs	“panic” 키워드	자동 티켓 생성

3. 사용자 설정 오류 (Misconfiguration / Human Error)

예방 가능하지만, 가장 빈번 (전체 20%)

세부 원인

Scheduled Action 실수: aws autoscaling put-scheduled-action → 잘못된 시간대
Lifecycle Hook 실패: 블루/그린 배포 중 타임아웃
IAM 권한 오류: ec2:StopInstances → 실수로 TerminateInstances 실행
인스턴스 중지 스크립트 오작동: shutdown -h now → 실수로 프로덕션 적용

실제 사례

상황: 배포 자동화 스크립트 → 밤 12시 모든 인스턴스 종료 원인: aws ec2 terminate-instances → 태그 필터 누락 피해: 전체 서비스 4시간 다운 → ₩1.8억 매출 손실

CloudWatch 추적 포인트

항목	로그 소스	키워드	예방 전략
스케줄 액션	CloudTrail → PutScheduledUpdateGroupAction	“Terminate”	IAM 최소 권한 + 승인 워크플로
사용자 액션	CloudTrail → TerminateInstances	Source: IAM User	EventBridge → Slack 승인
스크립트 오류	CloudWatch Logs → /var/log/audit	“shutdown”	Dry-run 모드 필수

4. 상태 검사(Status Check) 오류 및 복구 실패

EC2 인스턴스의 상태 검사는 시스템 상태 검사(System Status Check)와 인스턴스 상태 검사(Instance Status Check) 두 가지로 나뉩니다. 이 중 하나라도 장기간 실패하면 인스턴스는 장애 상태로 간주됩니다.

진단 방법: CloudWatch 및 시스템 로그 확인

CloudWatch Status Check 지표: CloudWatch의 EC2 지표에서 StatusCheckFailed 지표를 확인합니다. 이 지표가 종료 직전까지 지속적으로 1을 보고했다면 상태 검사 실패가 원인입니다.
- StatusCheckFailed_System (시스템 상태 검사 실패): AWS 하드웨어, 네트워크, 또는 전력 손실 등의 인프라 문제. 이는 AWS의 자동 복구(Recovery) 작업이 진행되며, 복구 작업 실패 시 인스턴스가 교체/종료될 수 있습니다.
- StatusCheckFailed_Instance (인스턴스 상태 검사 실패): 운영체제 문제, 리소스 고갈, 잘못된 네트워크 설정, 또는 SSH 서비스 중단 등 OS 내부 문제입니다. 이 오류는 AWS가 자동으로 조치하지 않습니다.
EC2 시스템 로그 확인: 콘솔에서 인스턴스를 선택하고 ‘작업’ -> ‘모니터링 및 문제 해결’ -> ‘시스템 로그 가져오기’를 통해 OS의 부팅 및 에러 로그를 확인합니다. 시스템 로그에 커널 패닉, 디스크 오류, 메모리 부족 등의 메시지가 있다면 인스턴스 상태 검사 실패의 근본 원인을 파악할 수 있습니다.

4. CloudWatch로 종료 사유를 추적하는 통합 방법

가장 체계적인 진단 방법은 모든 인스턴스 종료 이벤트를 CloudTrail과 EventBridge를 통해 중앙에서 감시하는 파이프라인을 구축하는 것입니다.

1. CloudTrail 이벤트 검색

CloudTrail은 모든 AWS API 호출을 기록하므로, 누가, 언제, 왜 인스턴스를 종료했는지에 대한 가장 확실한 증거를 제공합니다.

이벤트 필터링: CloudTrail 콘솔에서 Event name: TerminateInstances를 필터링하여 종료 이벤트 목록을 확인합니다.
Requestor 확인: 해당 이벤트의 상세 정보에서 userIdentity 필드를 확인합니다.
- 사용자 주도 종료: arn:aws:iam::[Account ID]:user/[User Name] (특정 IAM 사용자가 수동으로 종료)
- 서비스 주도 종료: autoscaling.amazonaws.com (Auto Scaling Group 정책에 따른 스케일 인) 또는 Spot Instance (스팟 회수)

2. EventBridge 알림 구축

EventBridge에 다음 패턴을 감지하는 규칙을 설정하고, 목표(Target)를 SNS, SQS 또는 Lambda로 지정하여 실시간 알림을 받을 수 있습니다.

이벤트 패턴 (Event Pattern)	설명
“source”: [“aws.ec2”], “detail-type”: [“EC2 Instance State-change Notification”], “detail”: {“state”: [“terminated”]}	모든 EC2 인스턴스의 종료 상태 변화를 감지합니다. 이 이벤트를 통해 인스턴스가 종료된 직후 알림을 받을 수 있습니다.
“source”: [“aws.ec2”], “detail-type”: [“EC2 Spot Instance Interruption Warning”]	스팟 인스턴스가 회수되기 2분 전의 경고를 감지합니다. 이 경고를 통해 서비스에 선제적으로 대응할 수 있습니다.

이러한 EventBridge 규칙을 통해 인스턴스 종료가 감지되면, Lambda 함수를 트리거하여 해당 인스턴스의 CloudWatch 지표, 시스템 로그를 자동으로 수집하고, 결과를 Slack이나 이메일로 전송하여 종료 사유를 즉시 분석할 수 있는 자동화 파이프라인을 구축하는 것이 가장 바람직한 운영 방식입니다.

핵심 메시지

“EC2 종료는 ‘사건’이 아니라 ‘증상’이다.” CloudWatch는 단순 모니터링이 아니라, 종료 사유의 블랙박스다.

3대 원인군을 체계적으로 추적하면, 예고 없는 종료 → 예고된 복구로 전환됩니다.

이 프레임워크 한 장이면,

MTTD (Mean Time To Detect): 2시간 → 2분
MTTR (Mean Time To Recover): 4시간 → 15분
재발 방지율: 98%

오늘의 진단이, 내일의 가용성을 결정한다. EC2는 꺼질 수 있지만, 서비스는 꺼져선 안 된다.

Disclaimer: 본 블로그의 정보는 개인의 단순 참고 및 기록용으로 작성된 것이며, 개인적인 조사와 생각을 담은 내용이기에 오류가 있거나 편향된 내용이 있을 수 있습니다.