두 가지 문의사항이 있습니다. 첫째, 도커파일 업로드시 p1.large와 p2.large 중에 p1으로 학습하면 드랍 현상이 있습니다. 해당 ID는 a1a0ef26-d2e7-4e4d-a321-3e8ee4c3436f 입니다. p2의 경우에는 튀는 경우가 있긴해도, 학습은 꾸준히 진행되는데, p1은 처음 5분가량을 제외하고는 학습 도중 메모리만을 먹은 상태로 학습이 더이상 진행되지 않고 정지합니다. 해당 id는 금일 22:10분부터 22:50분까지 지켜봤는데, 22:20분 가량부터 죽어서 현재는 cancel한 상태입니다. 확인 부탁드립니다. --둘째, 그래서 ID : 839c7386-29a9-44b3-a8dc-180c15417203 를 p2.large로 올렸는데, -- --직전에 p2.large로 학습했던 ID : 3a73e634-11a0-484c-aa45-52a7e0bfe88f 결과를 submit 했더니, 새로 올린 도커 이미지는 waiting이 걸려서 학습이 진행되지 않고 있습니다. -- --submit한 ID : 3a73e634-11a0-484c-aa45-52a7e0bfe88f가 phase2 테��트 �����터 100개 중 75개 이상 inference가 진행되지 않았다면, 종료 부탁드립니다. -- + 가능하시다면 이슈 1에 대한 답변만 부탁드립니다. 감사합니다.

Created by doyeon Yoon doyeon
a1a0ef26-d2e7-4e4d-a321-3e8ee4c3436f task의 OOMKilled값이 true입니다. main memory나 gpu memory를 과도하게 써서 발생한 문제로 보입니다.

[whole_body_CT] 학습시 GPU 사용율 관련 질문입니다. page is loading…