로그는 계속 보고 있었는데,
막상 장애 대응할 때는 “어디가 진짜 중요한 로그인지” 바로 안 보였음.
특히 내부 API보다
외부 URL 호출 이 훨씬 중요할 때가 있음 ( 책임이 우리쪽이 아니면 빠르게 요청해야함) .
여기서 터지면 바로 장애 체감됨.
그래서 접근 바꿈.
1. 로그를 그냥 보지 않고 “중요도 기준”으로 나눔
- 내부 API → 참고용
- 외부 호출 (외부 IP / 외부 URL) → 핵심
특히 아래 같은 에러에 집중함
- ETIMEDOUT
- ECONNRESET
- connect timeout
→ 거의 다 외부 통신 문제라서 장애 직결됨
2. 외부 호출만 따로 뽑아서 지표화 (gauge)
OpenSearch에서 필터 따로 걸어서
외부 URL 호출 에러만 집계함
예:
- 외부 도메인 호출
- error 존재
- timeout / reset 포함
이걸 단순 로그가 아니라
Gauge 형태로 시각화
→ “지금 외부 호출 몇 개 터지고 있는지” 한눈에 보이게
3. 효과
이게 진짜 체감 큼
이전:
- 로그 뒤짐
- 어디서 터졌는지 찾는 데 시간 씀
이후:
- gauge 보고 바로 판단 가능
- “아 외부 통신 터졌네” 바로 감 잡힘
4. 결론
- 로그는 많다고 좋은게 아님
- 중요한 로그를 따로 뽑아서 보는게 핵심
특히
외부 API 호출 에러율 따로 관리하는거
이거 하나로 장애 대응 속도 확 줄어듦
한줄 요약
로그 전체 보는거보다
“외부 호출 에러만 따로 gauge로 보는게 좋을 때가 있다”
'TIL' 카테고리의 다른 글
| 정보처리기사 후기 (0) | 2026.04.22 |
|---|---|
| Redis로 풀다가 메시지 큐까지 고민하게 된 과정 (0) | 2026.04.14 |
| 공인 IP 2개 나오는 이유 (VIP 구조 정리) (0) | 2026.04.01 |
| Jenkins + GitOps 기반 배포 자동화 정리 (0) | 2026.03.26 |
| 오늘 느낀 것 — 개발보다 더 중요한 것 (0) | 2026.03.20 |