안녕하세요. 현재 task두개 진행중인데, 그중 밑의 task(id : 4a7d9366-af94-49c1-9480-f34202e0cbbc)가 stdout을 봤을 때 epoch 17에서 멈춰 진행이 되지 않고 있습니다. 해당 task의 tensorboard WCELOSS는 epoch 7까지만 업데이트되고 멈췄는데, 멈추고 다시 돌려야 할까요? 아님 멈추지 않고 해결할 수 있는 방안이 있는지 궁금합니다.
Created by deepcaffeine 감사합니다. 네, 같은 이슈로 보입니다.
cpu 작업이 오래 걸려서 tfevent file write까지 진행되지 않았을 가능성이 커보이네요. 감사합니다. 혹시 텐서보드 업데이트 7에서 멈춘것도 같은 이유일까요? process 상태를 보면 /data/train 에서 png file을 계속 읽고 있습니다.
file read로 cpu 사용량이 높아서 진행이 느린듯 합니다. (6core 중 550% 이상을 유지하고 있어서 거의 모든 core를 사용중으로 나옵니다.)
process 상태상으로는 정상 동작으로 보입니다.