논문 리뷰/Other topics

CancerVar: An artificial intelligence–empowered platform for clinical interpretation of somatic mutations in cancer

Cho et al. 2022. 5. 16.

CancerVar: An artificial intelligence–empowered platform for clinical interpretation of somatic mutations in cancer (science.org)

Science Advances, 2022.

Yunzun Zhou group

 

일반적으로 쓰는 variant 의 clinical implication / significance 를 보여주는 툴이 너무 많은데, 이들을 비교해 보면 일관되지 않은 결과를 나타내는 경우가 많다. 그래서 통일된 툴에 대한 필요성이 부각되는데, 이 논문에서는 12개의 in-house feature ( annotation ) 과 23개의 external tool output  + AMP/ASCO/CAP 2017 guidelines + DL approach 를 이용했다.

 

이를 합쳐서 말하면 논문에서 paraphrasing 하는 것과 같이, rule-based + AI model 이 되는데, Fig.1 에 나와 있는 여러 가지 feauture 들에 대한 정보들을 제공해 준다.

 

이번 리뷰에서는 variant interpretation model 에 GAN 이 들어간 것이 신기해서 model 위주로 리뷰해보았다.

 

Model

One unique feature of CancerVar is the inclusion of the OPAI approach, which allows prediction of oncogenic variants that have never been reported in public databases.

 

In the current study, training the OPAI models required ~100 hours with 1000 epochs on an Nvidia Tesla M40 GPU.

 

 

Variant 의 oncogenicity 를 예측하기 위해, Fig 1. 에 나열되어있는 각 variant 별 구한 12 개의 evidence score + 23 개 tool 에서 나온 score 를 사용해서 모델링 하였음. 외부 툴에서 가져온 데이터는 2개 이상 정보가 없으면 그 variant 는 버렸음. output 은 categorical 로 하였고.

 

Generator 에서 synthetic sample 을 생성한다고 하는데, 여기서는 variant 를 의미하는 것으로 보임. 정규분포를 따르는 random noise 에서 생성된 샘플. input 데이터는 labeled samples, unlabeled samples, and random noise from a normal distribution as the synthetic data 의 세 개로 구분되어서 들어간다고 함. ​

 

Discriminator 에서는 크게 3 가지 category 로 분류를 하는데, 이는 Real sample+oncogenic , Real sample+neutral, Fake sample 임.

 

따라서 Loss function 이 두개로 쓰일 수 있는데 ( semi-supervised 이기 때문에 ? ),

Semi-supervised learning 이라서 Loss function 이 두개가 들어간다. 최종 Loss 는 그 두개를 단순히 더한 값으로 사용.

where Pdata is the underlying distribution of real samples and pG is the distribution of the output from the generator. For the loss of the generator, we used feature matching as our loss function:

Generator 에서의 loss 는 Feature Matching loss(FM) 을 사용했다고 하는데, 이는 real sample 과 generated sample 가 각각 discriminator 에서 나오는 feature 의 값의 차이 를 측정해서 사용하는 것으로 생각된다.

 

Generator 에서 생성한 분포가 실제 데이터의 분포를 match 시키기 위해서 discriminator 중간층의 activation 함수를 이용.

> 단순히 진짜, 가짜를 나누는 것이 아니라, 진짜와 같은 feature 를 가지고 있는지? z 에 대해서 분포가 비슷한지 확인 (matching) 해 보는 것임. 

 

라벨링 된 데이터는 in-house database 에서 expert curation 에 의해서 정해짐 (4000 : train, 1234 : validation)

Test dataset 은 6226 variants ( literature review ), unlabeled data는 13M 데이터에서 feature missing 없는 데이터로 60000개 뽑았음. 이 작업 여러 번 반복.

Synthetic sample : Batch마다 정규분포에서 random noise 생성하는 방식으로. 각각 minibatch 마다 모델은 labeled 샘플 2000, unlabeled 10,000, synthetic 10,000 샘플 계산함.

Discriminator 는 supervised learning / unsupervised learning 에서 loss 를 각각 계산하는 방식으로 train 되었고 generator 는 각 batch 마다 feature matching 을 최소화 하는 방식으로 train 됨. 

 


To improve analysis interpretability and evaluate the feature contribution in our study, RF analysis was used to evaluate the importance of 35 features (23 in silico functional features and 12 clinical evidence scores) in the above expert manually labeled variant database.

 

 

연구의 해석을 돕기 위해, RF 를 사용해서 feature importance score 를 계산한 것 인데, 이제까지도 많이 쓰는 PROVEAN 에 대한 score 가 높고, 그 다음으로는 in-house feauture(CBPxx) 의 순위들이 꽤 높은데, CBP7,9,8 은 각각 

Population data ( Population germline ) , Somatic data, Germline data 이다.

이 variant 가 somatic 이냐 아니냐 뿐만 아니라, pathogenicity 를 판단하는데 있어서도 population data 가 높은 비중을 차지하는 것 같다. 

 

 

Results

 

Oncogenicity prediction of edgetic mutations

 

논문 인트로에, 

In interactome networks, certain perturbed mutations (network nodes) can disrupt certain signaling pathways and protein-protein interactions (PPIs), resulting in sim- ilar cancer phenotypes in different patients. These perturbed muta- tions, termed “edgetic”mutations are functionally important but are understudied with existing cancer variant interpretation tools (39, 40).

 

이렇게 PPI network 에 대한 설명이 있어서 이것이 modeling 에 직접적으로 들어간 것 인가 했는데 그것은 아니고, modeling 후에 edgetic mutation 들에 대한 prediction 을 진행함으로서 network level 에서 perturb 되어있는 mutation 의 effect 가 어느정도인가에 대해 ( 예상 상으로는, 그 effect 가 클 것임. )  말하고자 했다. 

 

Li et al. (45) 에서 만든 e-MutPath 라는 DB 가 있는데, 이것을 사용해서 test 를 진행했고, CancerVar 만으로 예측했을 때는 39%만 oncogenic 하다고 예측했지만, ensemble features ( e-MutPath 에서 있는 feauture 와 같이 예측한 듯 ) 했을 때는 81 % 를 oncogenic 하다고 예측했다고 한다.  

 

This result is consistent with the expectation that the functional impact of edgetic variants contributes more weight than clinical features in the prediction model for oncogenicity.

 

생물학에서 어떤 sample 들에서 outcome prediction 을 하고자 할 때, network 구조를 사용해서 그 task 를 하려는 시도들이 많아지고 있다. 본인도 현재 cancer gene network를 기반으로 clinical outcome 을 predict 하려는 연구를 진행하고 있는데, 오늘의 논문에서도 그런 것들을 보여 준다. 

 

Next, we assessed the ability to predict novel oncogenic variants. OPAI was compared with five other machine learning algorithms, including gradient boosting tree, SVM, AdaBoost, RF, and XGBoost, using the Python packagescikit-learn.

 

 

잘 알려진 pathogenic variant 에서 OPAI score 가 좋은 것을 볼 수 있다.

 

 


Reference

[GAN] Improved Techniques for Training GANs - Subinium의 코딩일지

https://paperswithcode.com/method/feature-matching

Semi-Supervised Learning 정리. 연구실 세미나 정리 (1) | by Jiwung Hyun | Medium

https://github.com/WGLab/CancerVar/

 

댓글