논문 리뷰/Systems biology

Cell-to-cell and type-to-type heterogeneity of signaling networks: insights from the crowd

Cho et al. 2023. 3. 20.

Cell‐to‐cell and type‐to‐type heterogeneity of signaling networks: insights from the crowd

Single Cell Signaling in Breast Cancer Challenge - syn20366914 - Wiki (synapse.org)

Method Description

2021, Molecular systems biology

Dream Challenge , Julio Saez-Rodriguez group

 


Abstract

  • Dream challenge : 의생명분야 국제대회. 여러 생명현상들에 대해 문제해결을 위한 대회.
  • 기술의 발전은 개별 세포에서 많은 수의 단백질의 상태를 측정할 수 있게 해주는데, 이는 세포, 세포 특성까지 이어지는 복잡한 다중 신호의 heterogeneity 를 이해하고, 암과 같은 질환 치료에도 도움을 줌. 
  • 하지만 이런 기술들은 항체 사용가능한 단백질에 한전되어 있고, 꽤 비싸기 때문에 새로운 마커나 존재하는 마커, 그리고 새로운 환경에서 그들을 예측하는 것이 좋은 대체방안이 될 수 있음. 
  • 방법론 개발에 박차를 가하기 전 그러한 예측을 할 수 있는지를 평가하기 위해, Single Cell Signaling in Breast Cancer DREAM challenge를 개최했음.
  • 36개의 마커와 4000개의 조건 하에서의 8000만개의 single cell를 포함하는 67개 유방암 cell line Mass cytometry 데이터셋을 사용하여 진행되었음.
  • 4개의 소분류 과제가 진행됨 ( 마커 예측, 새로운 condition 예측, kinase inhibitor 가 있을 때, 없을 때 single cell 의 시간대별 자극 예측 ) 
  • Challenge 결과 single cell 에서의 산발적인 신호전달에도 불구하고 기계학습 방법론에 의해서 정확하게 새로운 실험데이터를 예측할 수 있다는 것을 보임. 

 


Dream Challenge

- Genomic, basal transcriptomics, proteomics, single-cell phosphorylation dataset 으로 이루어진 데이터

- Train : Test 로 나눠졌고, Test set 은 subchallenge 마다 달랐음

 

 “Can we predict the signaling response

(i) of nodes that are not directly measured from other measurements on the same cells?”,

같은 세포에서 측정되지 않은 다른 node 의 신호의 반응 를 예측할 수 있는가 ?

 

(ii) “to new combinatorial treatments based on how other cell lines respond to that treatment?”,

다른 cell line 들의 반응에 기본하여 새로운 조합 처리 에 대한 반응 예측을 예측할 수 있는가 ?

 

(iii) “to perturbations for which we have no data but know the target?”,

Target만을 알고있을 때 그 세포 신호의 반응을 예측할 수 있는가?

 

(iv) purely from basal omics data?”

omics 데이터만을 가지고 세포 신호의 반응을 예측할 수 있는가 ?

임. 

점수가 낮을 수록 좋은 prediction 임. 

각 Team 종류와 그들이 사용한 Data, Method 에 대한 부분이 써있음.

보라색은 challenge 시작 전 Group 에서 만든 reference data

 


 

The missing marker prediction subchallenge

- 실험적으로 측정될 수 없는 node 의 인산화 를 예측하는 모델을 만드는 것이 목적

- 특정 cell line 과 특정 조건 하의 Single cell 에서 선택된 단백질들에 대한 인산화 여부를 예측해달라고 요청함

- 다른 cell line 에서의 같은 node 데이터가 포함된 signaling netowrk 를 사용할 수 있었음.

- 5개에 마커에 대해 6개의 cell line, 49개의 condition 상에서의 인상화를 예측해달라고 함.  (1190만개 세포)

- 각 single cell 에 대한 예측을 제출해야 했고, 실제 측정치와 비교해서 RMSE 로 scoring

- 먼저 baseline model 인 Random forest 모델의 성능과 비교해서 팀의 순위를 정하고, bootstrap 샘플링을 통해 각 팀의 예측치의 분포를 봄. 그 후 Bayes factor 기준으로 순위 다시 정함.

- Training 데이터에 test cell line 의 초기 활성화 데이터 ( 자극 전 ) 가 없었기 때문에, 어떤 cell line 에서는 결과 차이가 많이 났음. 따라서 basal activity 로 prediction 을 고쳐주니 대부분 성능이 좋아졌음.

- Winner 의 method 로 external data 를 validation 해보았는데 random prediction 보다 훨씬 성능이 좋았다고함

 


Model 이 예측을 잘 한 이유?

- Top3 팀은 모두 다른 방법론을 사용. 앙상블학습, CNN, Gradient boosting.

- CNN 을 사용한 팀은 5개의 마커에 대한 모델을 한번에 만들었음.

- 3 팀의 공통점은 32개의 측정된 마커 데이터를 model feature 로서 모두 포함시켰다는 것

- Building block 비교 결과 그나마 preprocessing 에서 가장 큰 성능 차이를 보였음

- 1등 팀은 각 마커에 대해서 모델을 따로 만들었고, 32개의 마커 데이터의 처리, 시간, proteomic data 의 principle component 도 포함하여 사용했음. 또 t 시점에서 마커의 값을 예측할 때, 다른 32개 마커의 t-1, t1, t+1 시점, 즉 시간적인 것도 고려하여 모델링함.

- 1등 팀은 앞서 말한 feature 들의 subset 을 사용하여 선형 모델의 앙상블로 학습한 후 그들의 평균을 사용함

- Dream challenge 의 다른 시도들과 비교해 볼 때, 여러가지 방법론의 조합이 성능이 좋았음. 1,2 위 팀의 방법론을 합쳐보았지만 0.5% 성능 향상밖에 얻지 못했는데, 아마도 이는 예측 결과가 비슷해서가 아닐까 생각됨

- 이 외에도 추가적으로 예측하기 어려운 마커나, condition 이나, cell line 이 있었는지에 대해서 분석해본 결과 cell line, marker 마다 오차 폭이 컸지만 treatment, perturbation after time 의 경우에는 비슷했음.

- p-Her2 는 제일 정확하게 예측된 마커였으며 HCC2218 cell line 의 경우 가장 오차가 컸음


The missing conditions subchallenges

- 2,3 번 challenge 에서 알려져있거나 새로운 저해제에 대한 효과를 예측해달라고 했음

- 선택된 cell line 에서 특정한 인산화 저해제에 해단 반응을 예측 ( 모든 marker 에 대한 반응이라던지 .. )

- 2번 challenge 는 12개의 cell line 에 대한 EGF 자극 + 4개의 저해제에 의한 반응을 예측하는 것 이었음

- 이것은 SC1과 근본적으로 다른 작업인데, 예측된 조건에서 모든 노드를 알 수 없기 때문에 모델은 조건 사이를 예측하기 위해 모든 마커의 신호 관계를 캡처해야 하기 때문

- Training data : 다른 cell line 에서 앞서 말한 저해제에 대한 반응 데이터 포함

- 3번 challenge 는 mTOR inhibitor 에 대한 영향을 예측하는 것으로, 조건에 대한 말 없이 오직 target data 만 주고 예측하는 것 이었음. 처리된 양만 알려줬음. Training data 에는 mTOR 데이터가 없었기 때문에 사전지식이 필요했음

-  모집단 수준 통계, 즉 각 마커의 평균 값과 각 조건에서 마커 쌍 간의 공분산(재료 및 방법 참조)을 사용하여 예측 점수평가

- 이러한 방식으로 우리는 개별 마커의 정확성뿐만 아니라 점수에서 마커 사이의 변화하는 상호 작용(공분산)을 포착

- top3 를 포함한 총 5개의 팀은 비슷한 접근법을 가지고 있었음.

- 선형 모델을 이용해서 각 단백질 인산화의 median 값과 covariance matrice를 예측함

- 더 나아가, 같은 cell line 에서 가능한 condition 을 사용해서 예측을 진행함. 

- 그 다음, 다변량 정규분포에서 샘플링을 진행함.

- 1등 팀은 여기서 Z-score transformation, single cell distribution 의 다른 feature 를 사용하여 가장 좊은 성능을 냄


Time-course prediction subchallenge

- Perturbation 데이터는 방향성, 정도, 시간에 대한 좋은 정보를 제공해줌.

- 우리는 basal stat 의 cell 에서 perturbation 정보를 얼마나 잘 예측할 수 있는지에 대해 알고싶었음

- 참가자들은 EGF 자극, 4가지 저해제 따로따로에 대해 5가지 cell line 의 population-level response 를 예측했음. 

 

댓글