회사에서 모델학습을 위해 GPU서버를 요청해서 드디어 받았습니다.
사용을 하기 위해 구축을하였는데,
이때 발생한 오류들을 기록하면서 공유하도록 하겠습니다.
1. NVIDIA 드라이버 설치
#1. 드라이버 설치를 위해 기존 드라이버 제거(필요시)
sudo apt-get purge nvidia*
#2. 드라이버 목록 업데이트:
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
#3. NVIDIA 드라이버 설치
sudo apt-get install nvidia-driver-535
#4. 시스템 재부팅
sudo reboot
#5. 설치 확인
nvidia-smi
# 설치 완료시 화면
2. CUDA 툴킷 설치
# 1.cuda 11.8버전 다운로드
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
# 2.cuda 툴킷 설치
sudo sh cuda_11.8.0_520.61.05_linux.run
# 3.환경 변수 설정
echo 'export PATH=/usr/local/cuda-11.2/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.2/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
## 설치시 발생했던 오류
1. cuda 툴킷을 실행하면서 GCC버전 오류로 인해 cuda 툴킷 설치 불가
해결방법
기존 GCC버전을 임시로 변경 -> 호환 가능한 GCC 설치 및 링크 -> cuda 설치 -> 설치 후 기존 GCC 복구
# 1. 기존 GCC 백업
sudo mv /usr/bin/gcc /usr/bin/gcc-backup
sudo mv /usr/bin/g++ /usr/bin/g++-backup
# 2. 호환 가능한 GCC 설치 및 링크
sudo ln -s /usr/bin/gcc-10 /usr/bin/gcc
sudo ln -s /usr/bin/g++-10 /usr/bin/g++
# 3. cuda 설치
sudo sh cuda_11.8.0_520.61.05_linux.run
# 4. 설치 후 기존 GCC 복구
sudo rm /usr/bin/gcc
sudo rm /usr/bin/g++
sudo mv /usr/bin/gcc-backup /usr/bin/gcc
sudo mv /usr/bin/g++-backup /usr/bin/g++
이후에는 패키지 및 라이브러리를 설치해서 사용하실 수 있습니다.