Skip to content

[Monitoring] 온프레미스 모니터링(OTel) 연동 및 게이트웨이 구성 #33

@kohtaewoo

Description

@kohtaewoo

🔥PURPOSE

EKS 기반 모니터링 스택(Prometheus + Loki + Grafana)에
온프레미스 서버/VM의 메트릭 · 로그를 함께 수집할 수 있도록

  • OTel Gateway(Service + DaemonSet) 구성 정리
  • 온프레미스용 OTel Collector 템플릿 추가
  • README 가이드 정리

를 통해 하이브리드(온프 + EKS) 통합 모니터링 환경을 구축한다.


📒TODO

  1. system/monitoring/values.yaml
    • OTel service.pipelines.logs.receiversotlp 추가 (온프에서 오는 OTLP 로그 수신)
  2. system/monitoring/templates/otel-service.yaml
    • type: LoadBalancer + internal NLB 어노테이션(scheme: internal) 확정
    • 루트 system/monitoring/otel-service.yaml (구 ClusterIP 버전) 정리 여부 결정 및 제거
  3. 온프용 otel-collector.example.yaml 정리
    • endpoint: "http://<OTEL_GATEWAY_ENDPOINT>:4318" 형태로 placeholder 처리
    • 온프 VM 기준 기본 수집 대상(hostmetrics, filelog) 정의
  4. README에 On-premise Monitoring (OTel Collector) 섹션 추가
    • otel-collector.example.yaml 복사 → 실제 endpoint 설정 → Docker 실행 예시 등 사용 가이드 문서화
  5. Site-to-Site VPN 환경에서 internal NLB 엔드포인트로 OTLP HTTP 전송 테스트
    • 온프 VM 1대에서 Collector 실행
    • Grafana(Prometheus) / Loki에서 온프 레이블이 잘 보이는지 E2E 검증
  6. (옵션) Route53 + 도메인 전략 정리
    • Private Hosted Zone (예: ipiece.internal) + otel.ipiece.internal 레코드 설계
    • 향후 클러스터 재생성 시 NLB 변경에 대한 대응 방식 정리

📚ETC

  • 전제 조건
    • Site-to-Site VPN 이미 구성 완료
    • 온프레미스 CIDR → OTel NLB(4317/4318/TCP) 보안 그룹 허용 필요
  • Grafana 대시보드 및 Loki 쿼리에서 온프/클라우드 리소스를 구분할 수 있도록
    • 추후 resource / attributes 기반 라벨링 전략(예: cluster=onprem|eks, env=prod|lab) 추가 이슈로 분리 가능

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions