안녕하십니까 NICU 데이터 관련하여 답변드립니다. 더불어 다른 분들도 볼 수 있도록 새 글에 작성하였습니다. #### 1. 자료 Cleansing 상태 - 데이터는 정제되어 있지 않으며 수치형 데이터의 경우 numeric value와 raw string 2개가 같이 제공됩니다. cleansing이 되지 않은 이유는 다음과 같습니다. * 데이터는 측정장비에서 직접 측정된 값과 의료진 메뉴얼로 입력한 값 형식으로 구성되어 있습니다. 여기서 발생할 수 있는 이상치 데이터는 다음과 같이 구성됩니다. + 측정 장치 (ex, lead, probe) 의 미체결로 인하여 측정 장비에서 정의된 null value 기록 (2^32, 0 등) + 계측 장비의 체결 문제로 인한 이상치값 측정 (ex, 의료진 중재 발생, 환아의 지나친 움직임, 또는 접지 불량으로 인한 ECG 측정 불가 또는 Heart rate 0 bpm 입력) + 값 입력시 오기로 인한 오류 (ex, 실제 값 : 36.5 °C, 기록된 값 : 6.5 °C) + 데이터 전송오류로 인한 오류 (ex, 138 -> 1, 뒤의 38 손실) * 단순히 저 값들을 제외하거나 내삽하여 보정할 수 있으나, 의료진의 판단으로 인해 측정이 불필요하여 체결이 해제되거나 입력이 안된 경우 의료진 판단의 간접적인 지표가 될 수 있으며, 또한 오기로 입력된 값의 경우 복구하여 활용할 가능성도 있으므로 데이터 제공할 때 활용 가능 데이터 손실을 줄이기 위해 정제하지 않았습니다. #### 2. nan 값 처리 - 위의 이상치 사항과 마찬가지로 nan에 따른 값처리는 하지 않았습니다. - 일반적으로 heart rate, oxygen saturation 의 경우 계측 장비에서 주기적으로 전송하므로 거의 손실이 없으나 보안 네트워크의 제한적인 환경과 주기적인 보안 모니터링으로 도중에 데이터의 유실이 발생될 수 있습니다. 해당 비중은 높지 않으므로 nan 값을 무시하시거나 interpolation 으로 처리하셔도 큰 문제는 없습니다. - 의료진 메뉴얼 입력값의 경우 nan이 자주 발생할 수 있습니다. 이는 의료진의 판단으로 인해 발생한 것이 대부분이며 더 이상 해당 생체 신호의 모니터링이 불필요하다고 필요한 경우, 또는 시스템의 생체신호 업데이트 주기에 비해 의료진의 입력 주기가 더 길 경우 (ex, 시스템 업데이트 주기 : 30분, 의료진의 생체 신호 측정 주기 : 1시간) 잔여 시간동안 nan 또는 시스템에서 정의된 NULL 값이 반영되어 들어 갈 수 있습니다. 이러한 결측은 참가자 분들께서 임상적으로 유의미하다고 판단하시는 경우 별도로 가공하여 사용할 수 있다고 판단하였기에 임의로 제거하지 않았습니다. #### 3. 모델 내 표준화, 정규화 기능 포함 여부 - 예측 모델에 측정값의 normalization, standardization 등으로 처리된 입력값�� 포함여부는 자유입니다. - 입력값 전처리에 따라 모델 성능이 크게 차이가 날 가능성이 크며, EMR 기반 예측모델 연구에 있어서 입력값 전처리 및 결측/이상치 처리는 주요 이슈 사항 중 하나이므로 이를 평가 대상으로 판단하였기 때문에 최대한 원본 데이터와 동일하게 데이터를 제공드릴 예정입니다. 감사합니다. *** > >``` >안녕하세요 NICU 자료에 관심이 있어서 문의드립니다. > >train valid set이 각각 다른시기에 주어지는데, 혹시 자료의 cleansing상태는 어느정도이며, nan값에 따른 처리는 어떻게 되는지요? > >예를들어 prediction model을 만들 때 환자별로 데이터를 보통 min max scaling 을 포함하여 가공해놓고 예측을 맞추는데, >혹시 이 값까지 모델에 포함을 해놔야하는 것인지, 아니면 이미 처리된 데이터값을 주시는지 궁금합니다. > >감사합니다. >```

Created by wongeun_song

NICU 데이터 전처리에 관해 답변입니다 page is loading…