docker image 관련 질문입니다.
템플릿 방식대로
FROM tensorflow / tensorflow : 1.14.0-gpu-py3 사용해서 이미지 빌드를 해서, 업로드 하니까
E tensorflow/stream_executor/cuda/cuda_dnn.cc:319] Loaded runtime CuDNN library: 7.4.1 but source was compiled with: 7.6.0.
CuDNN library major and minor version needs to match or have higher minor version in case of CuDNN 7.0 or later version
라는 오류가 발생했습니다.
cuda 버전 문제인가 싶어서
FROM tensorflow / tensorflow : 2.1.0rc1-gpu-py3 (cuda 10.1, cudnn 7.6)를 사용하니까,
W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'libcudart.so.10.0'; dlerror: libcudart.so.10.0: cannot open shared object file: No such file or directory;
LD_LIBRARY_PATH: /usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/lib64:/usr/local/nvidia/lib:/usr/local/nvidia/lib64
라는 워닝 메세지가 나오면서, CPU로 실행이 되더라구요
혹시 문제 ��결 방법을 알려주실 수 있나요?
Created by goonm docker image를 직접 실행해서 보니 크게 2가지 문제가 있었는데요.
1. tensorflow/tensorflow:2.1.0rc1-gpu-py3
이 image가 애초에 build가 잘 못된 것 같습니다.
cuda version 문제가 있네요. rc version이라 문제가 있었던 듯 합니다.
2. 사용하시는 library에 tensorflow-addons 가 있는데, 이 package가 tensorflow 2.0에 dependency가 있습니다.
즉 tensorflow/tensorflow:2.1.0rc1-gpu-py3 에 설치된 tensorflow version은 2.1.0-rc1 인데, build하신 image의 tensorflow version은 2.0.0 이네요.
정확한 해법이 될지는 모르겠는데 FROM에 base image를 'tensorflow/tensorflow : 2.0.0-gpu-py3' 로 해보시는 것을 권고드립니다. taskID : 0175e3e7-6ce4-44cf-a863-919d35f8c7f8
Dockerfile : Dockerfile-1.14.0-gpu-py3
------------------------------------------------------------
FROM tensorflow/tensorflow:2.1.0rc1-gpu-py3
ENV SRC_DIR /src
COPY src $SRC_DIR
WORKDIR $SRC_DIR
RUN chmod +x ./train.sh ./inference.sh
RUN pip install -r requirements.txt
-------------------------------------------------------------
로 Dockerfile 작성하였고, 이미지 빌드해서 업로드 했을 경우에
W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'libcudart.so.10.0'; dlerror: libcudart.so.10.0: cannot open shared object file: No such file or directory;
LD_LIBRARY_PATH: /usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/lib64:/usr/local/nvidia/lib:/usr/local/nvidia/lib64
라는 워닝 메세지가 나오면서 CPU로 실행됩니다. Dockerfile이 copy source folder에 없었나 보네요.
build된 image에는 Dockerfile이 없습니다.
Dockerfile 내용을 보내주셔야합니다. 첫번째 오류:
task ID : 63f02402-369d-45ba-9240-9fe867d0261c
Dockerfile : Dockerfile-1.14.0-gpu-py3
두번째 오류:
taskID : 0175e3e7-6ce4-44cf-a863-919d35f8c7f8
Dockerfile : Dockerfile-1.14.0-gpu-py3
입니다. task id와 image 생성시 사용하신 Dockerfile 알려주세요.