안녕하세요
TASK ID = 771c1c19-0076-4937-a7dc-f8c7bfc617d2
모델 학습 진행상황을 확인한 결과 모델이 학습되고 있는 것은 확인하였지만
stderr 창에서 Cannot dlopen some GPU libraries. Skipping registering GPU devices..와 같은 문구를 확인하였고
Metric창을 확인해본 결과 GPU는 0%로 변함이 없었고 CPU만 돌아가는 것을 확인하였습니다.
도커 업로드 과정에서 문제가 생긴건지 아니면 이미지 생성중에 문제가 생긴건지 확인하고자 문의드립니다.
감사합니다
Created by hdwycy LD_LIBARARY_PATH는 Dockerfile에서 삭제하는 것이 맞습니다.
docker image에 설치된 내용을 보니
base image는 tensorflow/tensorflow:2.1.0rc1-gpu-py3 여서 tensorflow 2.1이 설치되어 있고,
libcudart.so도 libcudart.so.10.1 로 설치되어 있는데
requirements.txt에 tensorflow가 1.14.0 version으로 있어서 tensorflow가 재설치되어 dependency가 깨진 상황입니다.
아마 code를 tensorflow 1.14 에서 개발하신 듯 한데,
Dockerfile의 FROM 절에서 base image를 tensorflow/tensorflow:1.14.0-gpu-py3 로 바꾸고 build하시면 될 듯 합니다. GPU 경로관해서 질문드립니다.
TASK ID = TASK ID = 771c1c19-0076-4937-a7dc-f8c7bfc617d2
에러부분에
Could not dlopen library 'libcudart.so.10.0'; dlerror: libcudart.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/lib64:/usr/local/nvidia/lib:/usr/local/nvidia/lib64
다른 라이브러리 6개정도가 위의 에러처럼 뜬걸 확인하여
Dockerfile에 ENV LD_LIBRARY_PATH = /usr/local/lib64를 추가해서 진행하는것이 맞는지 확인차 문의드립니다.
혹시 추가적으로 입력해야할 코드가 있는지 해서 여쭙니다.
감사합니다! gz file upload만 하면 됩니다. GPU관련해서 하나만 더 여쭙겠습니다.
혹시 도커 이미지를 생성하고 나서 바로 gz파일로 만든 후 업로드하였는데
이 과정 사이에 추가로 진해애햐할 것이 있는지 궁금합니다! 위의 waiting문제는 파악을 했는데
GPU관련 문제는 말씀주신대로 했지만 해결되지 못했습니다.
좀 더 파악을 해보고 다시 문의드리겠습니다.
감사합니다!
위에서 말씀드린 것처럼 Dockerfile을 수정하고 업로드 하였는데
이전에는 뜨지 않았던 waiting(20%)에서 멈춰있습니다.
혹시 에러사항을 확인할 수 있을까요??
```
ENV LD_LIBRARY_PATH /usr/local/lib
```
line을 제거하고 image를 생성하시면 될 듯 합니다.
그리고 tensorflow는 정식 release된
tensorflow/tensorflow:2.1.0-gpu-py3 로 변경하는게 좋을 것 같습니다. FROM tensorflow/tensorflow:2.1.0rc1-gpu-py3
ENV SRC_DIR /src
ENV DEBIAN_FRONTEND=noninteractive
COPY src $SRC_DIR
WORKDIR $SRC_DIR
RUN pip install --upgrade pip
RUN chmod +x ./train.sh ./inference.sh
RUN apt-get update && apt-get install -y autoconf \
libsm6 \
libxext6 \
libxrender-dev \
openslide-tools \
automake \
cmake \
python3-sklearn \
python3-sklearn-lib \
git \
libgtk2.0-dev \
libjpeg-dev \
liblcms2-dev \
libpng-dev \
libsqlite3-dev \
libtiff-dev \
libtool \
libxml2-dev \
pkg-config \
python-pip \
sqlite3 \
wget
RUN pip install openslide-python==1.1.1
RUN pip install -r ./requirements.txt
ENV LD_LIBRARY_PATH /usr/local/lib
도커에 익숙하지 않다보니 에러가 생길때마다 시간이 걸리네요
감사합니다! dlopen error는 so file을 찾을 수 없어서 발생한 error입니다.
정상적으로 library가 설치되지 않았거나, path가 지정되지 않았을 거 같은데요.
docker image 생성시 사용한 Dockerfile 알려주시겠어요?