안녕하세요 에러관련 문의드립니다.
올린 도커파일이 알 수 없는 이유로 생성이 되지 않습니다.
한번은
I0203 20:12:18.138386 27260 executor.cpp:675] Container exited with status 125
W0203 20:12:18.138386 27243 logging.cpp:93] RAW: Received signal SIGTERM from process 29781 of user 0; exiting
다른 한번은
Killed
I0204 17:20:27.672811 14338 executor.cpp:675] Container exited with status 137
W0204 17:20:27.672811 14334 logging.cpp:93] RAW: Received signal SIGTERM from process 31215 of user 0; exiting
이런 에러가 뜨면서 올린 도커파일이 돌어가지 않습니다.
혹시 저희가 올린 도커라일 갯수가 많아서 이런 에러가 나는것일까요?
읽어주셔서 감사합니다.
Created by 민욱 마 DeepRunningMachine 아 제가 실수한것 같습니다. 해결되었습니다. 감사합니다! 974cdfd2-a638-43a5-a87c-0e2f181bbbf4
이 태스크의 경우는 예전에 성공했고 점수출력까지 정상적으로 동작했던 코드인데 현재 또 돌아가지 않고 있습니다.
예전에 올렸을때는 메모리문제로 멈춘적이 없었는데 현재 문제가 생기는듯 합니다.. 혹시나 해서 위 task를 재시작 해봤는데
OOMKilled 로 뜨네요.
에러가 달랐던 이유는 cloud의 Docker daemon이 container process의 종료 상태를 확인하기도 전에
process 정보가 날라가서 그런 듯 합니다. (거의 발생하지 않는 경우인데 Docker daemon이 잘 처리하지 못한 원인까지는 확인이 어렵네요)
재시작한 process의 memory 사용량을 계속 check해보니
할당된 61G가 다 찰때까지 계속 증가하다가 container가 죽었습니다.
모든 data를 main memory에 올려놓고 inference를 하는 code가 아닌지 확인해보셔야 할 듯 합니다. 01126924-ec83-40df-b202-3e93dbf5f664
이 ID는 말씀하신대로 p2 로 지정하였는데도 에러가 나서 진행이 되지 않습니다.
W0206 17:51:55.612849 48369 executor.cpp:600] The container process (pid: 48533) has exited, but Docker daemon failed to catch it.
I0206 17:51:55.612983 48369 executor.cpp:675] Failed to get exit status of container
이번에는 조금 다른 에러메세지가 떴구요 container 상태가 OOMKilled: true 로 나오네요.
memory 사용량이 많아서 발생한 문제입니다.
memory 사용량을 check해 보시거나
flavor를 p2로 지정해보세요. be62ac35-7baf-40c6-8d6c-736cbf4e2df6
ID입니다. task id 알려주세요