TIL

중요한 로그가 무엇인지

하얀잔디 2026. 4. 3. 14:22

로그는 계속 보고 있었는데,
막상 장애 대응할 때는 “어디가 진짜 중요한 로그인지” 바로 안 보였음.

 

특히 내부 API보다
외부 URL 호출 이 훨씬 중요할 때가 있음 ( 책임이 우리쪽이 아니면 빠르게 요청해야함) .
여기서 터지면 바로 장애 체감됨.

 


 

그래서 접근 바꿈.

1. 로그를 그냥 보지 않고 “중요도 기준”으로 나눔

  • 내부 API → 참고용
  • 외부 호출 (외부 IP / 외부 URL) → 핵심

특히 아래 같은 에러에 집중함

  • ETIMEDOUT
  • ECONNRESET
  • connect timeout

→ 거의 다 외부 통신 문제라서 장애 직결됨

 


 

2. 외부 호출만 따로 뽑아서 지표화 (gauge)

OpenSearch에서 필터 따로 걸어서
외부 URL 호출 에러만 집계함

예:

  • 외부 도메인 호출
  • error 존재
  • timeout / reset 포함

이걸 단순 로그가 아니라
Gauge 형태로 시각화

→ “지금 외부 호출 몇 개 터지고 있는지” 한눈에 보이게

 


 

3. 효과

이게 진짜 체감 큼

이전:

  • 로그 뒤짐
  • 어디서 터졌는지 찾는 데 시간 씀

이후:

  • gauge 보고 바로 판단 가능
  • “아 외부 통신 터졌네” 바로 감 잡힘

4. 결론

  • 로그는 많다고 좋은게 아님
  • 중요한 로그를 따로 뽑아서 보는게 핵심

특히
 외부 API 호출 에러율 따로 관리하는거
이거 하나로 장애 대응 속도 확 줄어듦

 


 

한줄 요약

 로그 전체 보는거보다


“외부 호출 에러만 따로 gauge로 보는게 좋을 때가 있다”