태그 보관물: nvidia

NVIDIA 드라이버 버전 불일치

NVRM: API mismatch: the client has the version 570.124.06, but
NVRM: this kernel module has the version 550.144.03.  Please
NVRM: make sure that this kernel module and all NVIDIA driver
NVRM: components have the same version.

원인 설명

  • NVIDIA 커널 모듈(Driver)사용 중인 NVIDIA 라이브러리(Client) 의 버전이 다릅니다.
    • 커널 모듈 버전: 550.144.03
    • 클라이언트(라이브러리) 버전: 570.124.06

상황 예시

  • OS 부팅 시, 커널 모듈(예: /lib/modules/$(uname -r)/kernel/drivers/video/nvidia.ko)이 550 버전임.
  • 유저가 CUDA, cuDNN, pytorch, nvidia-docker 등에서 사용하는 nvidia-smi, libcuda.so 같은 사용자 공간 라이브러리는 570 버전임.
  • 이럴 때, NVIDIA 드라이버는 항상 버전이 동일해야 하고, 다르면 GPU가 정상 동작하지 않거나 CUDA가 인식되지 않습니다.

주로 발생하는 원인

  1. NVIDIA 드라이버 업그레이드/다운그레이드 후 재부팅 없이 사용
  2. apt/yum 등으로 패키지 설치/업데이트 후 옛날 커널 모듈이 남아 있음
  3. NVIDIA Docker, CUDA Toolkit, cuDNN, Pytorch 등 개별 설치 시 충돌
  4. 커널 업데이트 후 드라이버 재설치 안 함

해결 방법

  1. 드라이버 완전히 재설치 (추천)
    • 기존 드라이버 완전히 삭제
sudo nvidia-uninstall
sudo apt-get remove --purge nvidia-*
sudo yum remove nvidia-*
  • 모든 커널 모듈 및 라이브러리 삭제
sudo rm -rf /usr/local/cuda*
sudo rm -rf /lib/modules/$(uname -r)/kernel/drivers/video/nvidia*
sudo rm -rf /usr/lib/x86_64-linux-gnu/libnvidia*
  • 서버 재부팅
sudo reboot
# Ubuntu 예시
sudo apt-get update
sudo apt-get install nvidia-driver-570
  1. 설치 후 꼭 재부팅
sudo reboot
  1. 버전 확인
nvidia-smi
# Driver Version이 570.124.06 처럼 나와야 함


추가로 현재 설치된 드라이버/라이브러리 상태 확인 명령어:

nvidia-smi
cat /proc/driver/nvidia/version
lsmod | grep nvidia