안녕하세요 현재 도커 이미지 빌드해서 업로드하고 모델 학습중입니다. 다만 task info 에서 GPU와 CPU 사용량을 체크하여 진행사항을 체크중인데 GPU 사용은 0프로고 CPU 만 계속해서 사용되고 있습니다. Progress 또한 70프로에서 올라가지않고 계속 멈춰있습니다. 모델 학습이 시작되지 못하고 코드가 멈춰있는것 같은데 디버깅이 되지않아 문의드립니다. ID는 ab465f86-9b71-4f50-8d26-d319ffb77a1adlq입니다. 확인해주시면 감사하겠습니다.

Created by ccids.aihelp
답변 감사합니다. 아직 문제가 해결되지는 않았으나 더 시도해본 후 다시 질문드리도록 하겠습니다.
아래 문의와 연결되는 문의인 것 같습니다. 우선 cloud에서는 train.sh 만 실행합니다. 당연히 train.sh 내에서 호출하는 python command는 cloud에서 제어할 수 없습니다. echo문 이후 log에 찍히지 않는 부분은 python 실행에 이상이 있는 것이 아니라 실제로 python code에서 print가 실행되지 않았거나 log file로 flush가 되기 전이어서 보이지 않는 것입니다. 문의 주신 task의 소스를 잠깐봤는데 efficientnet_pytorch 에서 pretrained model을 download하는 code가 있는 듯 합니다. 대회용 cloud에서는 container의 모든 network device를 off 시켰기 때문에 pretrained model을 download하는 부분은 동작하지 않습니다. 아마 library내에서 download를 retry하거나 waiting하고 있어서 CPU 사용율만 올라가고 이후 코드는 진행되지 않고 있는 듯 합니다. progress 관련해서는 이전 다른 문의에도 답변을 드렸는데, cloud에서는 개별 task의 training 진척도를 알 방법은 없습니다. web에서 표시되는 progress는 waiting, running, scoring등 task의 상태 변화에 따른 진행도를 대략적인 고정 수치로 표시하기 위해서 노출한 값입니다.

모델 학습 관련해서 질문드립니다 page is loading…