요즘 서버 상태를 OpenSearch Dashboards로 보고 있음.
단순히 로그 쌓아두는 용도가 아니라, 지금 서비스가 정상인지 한눈에 보기 위함임.
대시보드에 뭘 올려야 하는지
각각을 어떤 방식으로 보는 게 좋은지 정리!
1. 대시보드 목표부터 정하자.
대시보드 만들기 전에 목표부터 잡음.
- 지금 트래픽 얼마나 들어오는지
- 에러가 발생하고 있는지
- 에러 비율이 위험한 수준인지
- 갑자기 튀는 요청이나 느린 API는 없는지
원인 분석용 보다는
운영 중 이상 징후 빠르게 감지용에 초점을 뒀다.
2) 기본은 트래픽 + 에러 수
가장 먼저 넣은 건 이 두 개임.
- 전체 요청 수 (Traffic)
- nginx access log 기준
- status 상관없이 전체 HTTP 요청 카운트
- 분 단위 / 5분 단위로 집계
서비스 살아있는지 확인용 및 관리자들은 얼마나 트래픽이 오는지도 중요하니까..
에러 요청 수
- status >= 500 위주
- 경우에 따라 4xx도 따로 봄
👉 “에러가 있나?”를 숫자로 바로 보기 위함
3) 핵심은 에러율 (Error Rate)
에러 개수보다 중요한 게 에러 비율임.
트래픽 10만에 에러 10개랑
트래픽 100에 에러 10개는 완전 다른 문제임
그래서 이렇게 구성함.
에러율 계산 방식
에러율 = (에러 요청 수 / 전체 요청 수) * 100
- TSVB에서 Math aggregation 사용
- 분 단위로 계산
- 퍼센트(%)로 표시
시각화는 Gauge 사용함
- 0 ~ 1% : 정상
- 1 ~ 3% : 주의
- 3% 이상 : 바로 확인 필요

결론은 이런식으로 했음.
- 전체 트래픽 수
- 에러율 Gauge
- 에러 요청 수
- HTTP Status 분포
- 지연 시간 (p95 / p99)
'TIL' 카테고리의 다른 글
| k3s 컨테이너에서 외부 DNS 확인 (0) | 2026.02.10 |
|---|---|
| 스위치 LAN 정리. 뭐더라.. (0) | 2026.02.06 |
| 클라이언트 에러 로그를 추적해보자. 어떻게? (0) | 2026.02.05 |
| 파드 상태별 확인방법 정리 (0) | 2026.01.31 |
| CKA용 deploy update, rollback 명령어 정리 (0) | 2026.01.27 |