Kubernetes/삽질 13

node NotReady - kubelet (code=exited, status=255)

쿠버네티스 클러스터 내 노드 일부가 notReady 상태를 유지하고 있다. 이런 경우는 대부분 노드에서 kubelet이 정상적으로 동작하고 있지 않는 상태일 경우에 해당한다. describe 명령으로 확인해보면 이런 모양에 가까울 것이다. kubelet 동작 확인 systemctl 명령으로 kubelet의 상태를 확인해본다. systemctl status kubelet.service exit-code와 함께 정상적으로 동작하지 않고 있는 상태임을 확인할 수 있다. 만약 아래와 같이 inactive 상태인 경우, kubelet을 재시작한 후의 상태를 확인해보도록 한다. kubelet 시작/재시작 # 시작 systemctl start kubelet.service # 재시작 systemctl restart k..

Kubernetes/삽질 2022.02.22

[NVIDIA/gpu-monitoring-tools] dcgm-exporter CrashLoopBackOff - 2

2021.12.14 - [NVIDIA/gpu-monitoring-tools] dcgm-exporter CrashLoopBackOff 위 글에 이어 dcgm-exporter에서 발생한 CrashLoopBackOff 상태를 해결 방법을 적어둔다. 현상 에러 메시지 확인할 수 있는 pod container 로그가 없어, describe 명령으로 상태를 확인했다. kubectl describe pods dcgm-exporter- # ... 생략 ... Containers: dcgm-exporter: Container ID: docker:// Image: nvcr.io/nvidia/k8s/dcgm-exporter:2.2.9-2.4.0-ubuntu18.04 Image ID: docker-pullable://nvcr..

Kubernetes/삽질 2022.02.21

[NVIDIA/gpu-monitoring-tools] dcgm-exporter CrashLoopBackOff

쿠버네티스 환경에서 GPU 서버인 노드를 Grafana와 Prometheus를 이용해 모니터링하고자 한다. 모니터링 도구는 NVIDA Gpu Monitoring tools이며, 각 노드에 dcgm-exporter 설치가 필요하다. 이 글에서는 helm chart package로 dcgm-expoter 컨테이너를 실행하는 포드를 클러스터에 배포했다. 그러나, 배포 이후 아래와 같이 CrashLoopBackOff 상태인 dcgm-expoter 포드가 존재했다. 해당 현상의 원인을 찾아 해결한 방법을 정리해둔다. 현상 에러 메시지 드라이버 초기화 관련 에러인 것으로 추측된다. $ kubectl logs dcgm-exporter-fk4s5 Warning #2: dcgm-exporter doesn't have s..

Kubernetes/삽질 2021.12.14
1 2