논문 리뷰/Histology

Interpretable deep learning model to predict the molecular classification of endometrial cancer from haematoxylin and eosin-stained whole-slide images

Cho et al. 2023. 1. 27.

Interpretable deep learning model to predict the molecular classification of endometrial cancer from haematoxylin and eosin-stained whole-slide images: a combined analysis of the PORTEC randomised trials and clinical cohorts

2023, The Lancet Digital Health

 


Figure from paper

딥러닝 모델은 크게 4가지 단계로 구성됨. 

 

구축된 딥러닝 모델인 im4MEC 의 처리과정

 

A. Whole slide image (WSI) 의 전처리.

 

B. tile-level morphological features 을 학습시키기 위해 Feature extractor model 을 contrastive self-supervised learning, MoCo-v2 로 training.

 

C. B. 에서 나온 tile-level 의 feature 을 모두 가지고 옴. 

 

D. Attention-based classification model 로 4가지 형질에 대한 inference 실시. ( 하나의 슬라이드에 있는 모든 tile 이미지를 이용하는 듯  ) 

 

E. Interpretability 를 위해 top 20 feature (tile) 들을 모아서 HoVer-Net 으로. ( 여기서 Top 20 은 attention score 가 높은 top 20 tile 들을 말함 ) HoVer-Net 에서는 세포 수준의 분자 특징 도출 가능. (inflammatory cells, stromal cells, and tumour cells)

 

E-1. HoVer-Net 에서는 5개의 특징 벡터가 계산되는데, 3개 세포 유형에 대한 count 와, WSI 의 top 20 tile 들의 종양 세포 핵 크기와 모양에 대한 평균값임. 

E-2. E-1 에서 구해진 다섯개 값을 가지고 SVM 을 돌려서 feature importance 를 봄. 


성능에 대한 figure. 


Feature importance 를 본 것은 말하자면 4개의 class 로 구분하는 데 있어서 생물학적으로 어떤 요소가 관여했냐 ( 딥러닝 모델 자체는 image 를 기반으로 training 된 것이기 때문에 이것이 feature 로 직접적으로 들어가지 않으므로)

를 보려고 한 것인 것 같고, 

 

논문에서 말하고 있는 것은 4개의 class 로 구분할 때 각각의 형질에 맞는 importance feature 들의 점수가 관계있었다는 것을 말하고 있음. 또한 여기서 feature importance score 의 방향도 따지고 있는데, 긍정적으로 기여했는가, 부정적으로 기여했는가도 본다고 할 수 있음.


 

댓글