안녕하세요 데이터셋 관련 문의드립니다.
다름이 아니라 슬라이드의 피쳐를 조사하던 중 발견한 사실인데
Slide 297번까지는 이미지 사이즈가 level4에서 14627, 5873 사이즈의 이미지가 대다수였는데요
Slide 298번부터는 8308, 3527 사이즈의 데이터가 대부분인걸로 보입니다.
설명회에서 서로 다른 두 병원의 데이터셋이 사용되었다고 들었는데요,
혹시 이 두 병원의 데이터가 골고루 섞여서 트레이닝셋에도 포함되어 있는것이 아닌,
데이터가 번호순으로 정렬되어 297번 이전까지의 데이터와 298번 이후의 데이터가 다른 도메인의 데이터인가요?
즉 트레이닝 단계에서 본적이 없는 배율과 염색 정도가 다른 데이터셋이 테스트셋으로 구성이 되어 있는것인가요?
읽어주셔서 감사합니다.
Created by 민욱 마 DeepRunningMachine 우선 언급해주신 CAMELYON 2016 challenge (2016년 대회에서 slide classification이 진행되었습니다.)에서 1위를 한 하버드 팀은 대회기간동안 slide AUC가 0.92였고,
대회가 끝난 뒤 추가적으로 진행하여 0.99까지 성능을 올릴 수 있었습니다.
생각하고 계신 성능까지 올리기에 시간이 충분했으므로, 많은 시도들을 통해 얻은 결과라고 생각됩니다.
물리적 거리에 대한 차이는 데이터셋마다, 데이터셋 내부에서도 있을 수 있습니다.
데이터마다 생기는 염색의 정도, 픽셀간 물리적 거리 등 여러 변동사항은 이번 대회에서 해결해야하는 문제입니다.
궁금하신 데이터의 세부정보는 공개될 수 없는 점, 양해의 말씀드립니다.
phase1, phase2에 대해서 제출해주신 결과를 종합하여 팀별 total score, slide auc, major axis acc를 이 곳 disccusion란 및 전체 메일로 빠�� 시일 내 공지드리겠습니다.
전달드리는 정보가 궁금하신 사항에 대해 도움이 되었으면 좋겠습니다.
이번 HeLP challenge에 참여해주셔서 진심으로 감사드립니다.
김성철 드림. 우선 답변 감사합니다.
이미 대회가 거의 다 끝났고 더이상 대처할 수 있는 것도 없지만 연구차원에서 어떤 원인에서 문제가 발생한건지 저희가 무엇을 놓쳐서 실패한것인지 알고 피드백을 하기 위해 여쭤보고 싶습니다.
카멜레온 대회에서 각 모델들의 성능으로 미루어봤을 때 정상적인 상황이라면 최저점은 못해도(Diameter를 전혀 측정하지 못하더라도) 0.75점 근처가 나와야 한다고 생각합니다.
(Calssification 점수 최소 95%, Diameter는 negtive에 대해 100% 맞추므로 최소 47%정도 보장)
헌데 저희 뿐만아니라 많은 팀의 점수가 그 근처도 가지 못하는것은 수년전 카멜레온 대회의 베이스라인에조차 도달하지 못하고 실패하고 있기 때문이라 생각합니다.
카멜레온대회의 경우는 모든센터에서 트레이닝, 테스트 데이터가 제공된 것으로 알고 있는데, 저희��� 이 부분이 실패의 원인이 아닌가 생각합니다.
저희 실험에서 297번 이전 데이터에서 적당히 동작하는 네트워크가 298번 데이터에서 먹통이 돼버리는 현상을 관찰했는데요,
혹시 아산병원의 샘플들이 서로간 배율이(1픽셀당 물리적거리) **5~10퍼센트** 정도로 그 차이가 대체로 작게 난다면, 아산병원과 서울대병원 데이터들의 배율차이는 대체로** 50~60% 이상** 크게 차이가 나는것인지 궁금합니다.
읽어주셔서 감사합니다! 이전 질문에 대해 미리 답변드리지 못한 점 죄송합니다.
---
언급해주신 병원 간 데이터 차이는 분명 나타날 수 있는 현상입니다.
하지만 정도의 차이일 뿐 병원 내 데이터들에게도 나타나는 현상입니다.
validation set을 train set으로 제공하지 않은 이유는
연구들의 궁극적인 목표인 '타기관에서도 잘 적용되는가?'를 평가하기위한 지표입니다.
비록 어려움이 있겠지만, 이 문제를 잘 해결하는 것도 챌린지의 목표 중 하나라고 생각됩니다.
---
기관에 관계없이 모든 데이터가 1픽셀에 해당하는 실제 샘플의 물리적 거리가 다를 수 있습니다.
감사합니다. 질문이 살짝 모호했던 것 같아 다시 질문드립니다.
아산 병원 데이터와 서울대병원의 level4 이미지 데이터에서 1픽셀에 해당하는 실제 샘플에서 물리적 거리가 같은가요?
현재 슬라이드 297번 이하의 데이터와 298번 이후의 데이터에서 네트워크 아웃풋의 상당한 차이가 나는데,
이 두 데이터셋이 같은도메인 (비슷한 분포의 컬러, 배율 등) 에 속한 데이터가 맞는지 궁금합니다. 아.. 혹시 점수가 TEST SET에서만 측정된다면 Val set에 대해서 레이블을 제공해주실 수는 없을까요?
이게 사이즈만 다른게 아니라 저희의 경우 지금 특정 번호 전까지의 데이터와 특정번호 이후의 데이터에 대해 네트워크가 완전히 다르게 추론하고 있습니다.
구체적으로는 아산병원샘플로만 학습된 네트워크는 분당병원 샘플에 대해 전혀 동작을 하지 않는듯 합니다.
혹시 두 병원샘플의 배율이 1.3배이상(1.66배 추정) 나는것인가요?
두 병원의 샘플이 모두 포함된 데이터셋으로 학습을 해야 두 병원샘플에 대해 학습을 할 수 있을 것 같다고 생각해서
분당병원의 데이터셋도 트레이닝 셋에 포함시키고 싶습니다. 안녕하세요.
먼저, 자세한 데이터 구성에 대해서는 말씀을 드릴 수 없습니다.
다만, 설명회에서 서울아산병원과 분당서울대병원의 데이터로 데이터셋을 구성했다고 말씀드렸는데,
(train set : 서울아산병원 / validation set : 서울아산병원 + 분당서울대병원 / test set : 분당서울대병원)
병원의 종류와 관계없이 데이터셋의 사이즈, 배율(배율의 차이는 미미합니다.), 염색의 정도는 모두 다를 수 있습니다.
남은 챌린지 기간동안 좋은 성과 얻으셨으면 좋겠습니다.
감사합니다.