안녕하세요 TASK ID = 771c1c19-0076-4937-a7dc-f8c7bfc617d2 모델 학습 진행상황을 확인한 결과 모델이 학습되고 있는 것은 확인하였지만 stderr 창에서 Cannot dlopen some GPU libraries. Skipping registering GPU devices..와 같은 문구를 확인하였고 Metric창을 확인해본 결과 GPU는 0%로 변함이 없었고 CPU만 돌아가는 것을 확인하였습니다. 도커 업로드 과정에서 문제가 생긴건지 아니면 이미지 생성중에 문제가 생긴건지 확인하고자 문의드립니다. 감사합니다

Created by hdwycy
LD_LIBARARY_PATH는 Dockerfile에서 삭제하는 것이 맞습니다. docker image에 설치된 내용을 보니 base image는 tensorflow/tensorflow:2.1.0rc1-gpu-py3 여서 tensorflow 2.1이 설치되어 있고, libcudart.so도 libcudart.so.10.1 로 설치되어 있는데 requirements.txt에 tensorflow가 1.14.0 version으로 있어서 tensorflow가 재설치되어 dependency가 깨진 상황입니다. 아마 code를 tensorflow 1.14 에서 개발하신 듯 한데, Dockerfile의 FROM 절에서 base image를 tensorflow/tensorflow:1.14.0-gpu-py3 로 바꾸고 build하시면 될 듯 합니다.
GPU 경로관해서 질문드립니다. TASK ID = TASK ID = 771c1c19-0076-4937-a7dc-f8c7bfc617d2 에러부분에 Could not dlopen library 'libcudart.so.10.0'; dlerror: libcudart.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/lib64:/usr/local/nvidia/lib:/usr/local/nvidia/lib64 다른 라이브러리 6개정도가 위의 에러처럼 뜬걸 확인하여 Dockerfile에 ENV LD_LIBRARY_PATH = /usr/local/lib64를 추가해서 진행하는것이 맞는지 확인차 문의드립니다. 혹시 추가적으로 입력해야할 코드가 있는지 해서 여쭙니다. 감사합니다!
gz file upload만 하면 됩니다.
GPU관련해서 하나만 더 여쭙겠습니다. 혹시 도커 이미지를 생성하고 나서 바로 gz파일로 만든 후 업로드하였는데 이 과정 사이에 추가로 진해애햐할 것이 있는지 궁금합니다!
위의 waiting문제는 파악을 했는데 GPU관련 문제는 말씀주신대로 했지만 해결되지 못했습니다. 좀 더 파악을 해보고 다시 문의드리겠습니다. 감사합니다!
위에서 말씀드린 것처럼 Dockerfile을 수정하고 업로드 하였는데 이전에는 뜨지 않았던 waiting(20%)에서 멈춰있습니다. 혹시 에러사항을 확인할 수 있을까요??
``` ENV LD_LIBRARY_PATH /usr/local/lib ``` line을 제거하고 image를 생성하시면 될 듯 합니다. 그리고 tensorflow는 정식 release된 tensorflow/tensorflow:2.1.0-gpu-py3 로 변경하는게 좋을 것 같습니다.
FROM tensorflow/tensorflow:2.1.0rc1-gpu-py3 ENV SRC_DIR /src ENV DEBIAN_FRONTEND=noninteractive COPY src $SRC_DIR WORKDIR $SRC_DIR RUN pip install --upgrade pip RUN chmod +x ./train.sh ./inference.sh RUN apt-get update && apt-get install -y autoconf \ libsm6 \ libxext6 \ libxrender-dev \ openslide-tools \ automake \ cmake \ python3-sklearn \ python3-sklearn-lib \ git \ libgtk2.0-dev \ libjpeg-dev \ liblcms2-dev \ libpng-dev \ libsqlite3-dev \ libtiff-dev \ libtool \ libxml2-dev \ pkg-config \ python-pip \ sqlite3 \ wget RUN pip install openslide-python==1.1.1 RUN pip install -r ./requirements.txt ENV LD_LIBRARY_PATH /usr/local/lib 도커에 익숙하지 않다보니 에러가 생길때마다 시간이 걸리네요 감사합니다!
dlopen error는 so file을 찾을 수 없어서 발생한 error입니다. 정상적으로 library가 설치되지 않았거나, path가 지정되지 않았을 거 같은데요. docker image 생성시 사용한 Dockerfile 알려주시겠어요?

모델 학습 관련 문의 page is loading…