안녕하세요 에러관련 문의드립니다. 올린 도커파일이 알 수 없는 이유로 생성이 되지 않습니다. 한번은 I0203 20:12:18.138386 27260 executor.cpp:675] Container exited with status 125 W0203 20:12:18.138386 27243 logging.cpp:93] RAW: Received signal SIGTERM from process 29781 of user 0; exiting 다른 한번은 Killed I0204 17:20:27.672811 14338 executor.cpp:675] Container exited with status 137 W0204 17:20:27.672811 14334 logging.cpp:93] RAW: Received signal SIGTERM from process 31215 of user 0; exiting 이런 에러가 뜨면서 올린 도커파일이 돌어가지 않습니다. 혹시 저희가 올린 도커라일 갯수가 많아서 이런 에러가 나는것일까요? 읽어주셔서 감사합니다.

Created by 민욱 마 DeepRunningMachine
아 제가 실수한것 같습니다. 해결되었습니다. 감사합니다!
974cdfd2-a638-43a5-a87c-0e2f181bbbf4 이 태스크의 경우는 예전에 성공했고 점수출력까지 정상적으로 동작했던 코드인데 현재 또 돌아가지 않고 있습니다. 예전에 올렸을때는 메모리문제로 멈춘적이 없었는데 현재 문제가 생기는듯 합니다..
혹시나 해서 위 task를 재시작 해봤는데 OOMKilled 로 뜨네요. 에러가 달랐던 이유는 cloud의 Docker daemon이 container process의 종료 상태를 확인하기도 전에 process 정보가 날라가서 그런 듯 합니다. (거의 발생하지 않는 경우인데 Docker daemon이 잘 처리하지 못한 원인까지는 확인이 어렵네요) 재시작한 process의 memory 사용량을 계속 check해보니 할당된 61G가 다 찰때까지 계속 증가하다가 container가 죽었습니다. 모든 data를 main memory에 올려놓고 inference를 하는 code가 아닌지 확인해보셔야 할 듯 합니다.
01126924-ec83-40df-b202-3e93dbf5f664 이 ID는 말씀하신대로 p2 로 지정하였는데도 에러가 나서 진행이 되지 않습니다. W0206 17:51:55.612849 48369 executor.cpp:600] The container process (pid: 48533) has exited, but Docker daemon failed to catch it. I0206 17:51:55.612983 48369 executor.cpp:675] Failed to get exit status of container 이번에는 조금 다른 에러메세지가 떴구요
container 상태가 OOMKilled: true 로 나오네요. memory 사용량이 많아서 발생한 문제입니다. memory 사용량을 check해 보시거나 flavor를 p2로 지정해보세요.
be62ac35-7baf-40c6-8d6c-736cbf4e2df6 ID입니다.
task id 알려주세요

Error 문의 page is loading…