TIL

Dashboards로 서버 상태 보는 법 정리 ( OpenSearch )

하얀잔디 2026. 2. 9. 20:40

 

 

요즘 서버 상태를 OpenSearch Dashboards로 보고 있음.
단순히 로그 쌓아두는 용도가 아니라, 지금 서비스가 정상인지 한눈에 보기 위함임.


대시보드에 뭘 올려야 하는지
각각을 어떤 방식으로 보는 게 좋은지 정리!

 

 

1. 대시보드 목표부터 정하자.

대시보드 만들기 전에 목표부터 잡음.

  • 지금 트래픽 얼마나 들어오는지
  • 에러가 발생하고 있는지
  • 에러 비율이 위험한 수준인지
  • 갑자기 튀는 요청이나 느린 API는 없는지

 원인 분석용 보다는
운영 중 이상 징후 빠르게 감지용에 초점을 뒀다.

 

 

2) 기본은 트래픽 + 에러 수

가장 먼저 넣은 건 이 두 개임.

-  전체 요청 수 (Traffic)

  • nginx access log 기준
  • status 상관없이 전체 HTTP 요청 카운트
  • 분 단위 / 5분 단위로 집계

 서비스 살아있는지 확인용 및 관리자들은 얼마나 트래픽이 오는지도 중요하니까..

 에러 요청 수

  • status >= 500 위주
  • 경우에 따라 4xx도 따로 봄

👉 “에러가 있나?”를 숫자로 바로 보기 위함

 

 

3) 핵심은 에러율 (Error Rate)

에러 개수보다 중요한 게 에러 비율임.

트래픽 10만에 에러 10개랑
트래픽 100에 에러 10개는 완전 다른 문제임

그래서 이렇게 구성함.

에러율 계산 방식

 
에러율 = (에러 요청 수 / 전체 요청 수) * 100
  • TSVB에서 Math aggregation 사용
  • 분 단위로 계산
  • 퍼센트(%)로 표시

시각화는 Gauge 사용함

  • 0 ~ 1% : 정상
  • 1 ~ 3% : 주의
  • 3% 이상 : 바로 확인 필요

예시

 

 

결론은 이런식으로 했음.

 

 

  • 전체 트래픽 수
  • 에러율 Gauge
  • 에러 요청 수
  • HTTP Status 분포
  • 지연 시간 (p95 / p99)