2023, Bioinformatics
Bin Liu Group
Abstract
단백질 기능 annotation 은 생물 현상을 이해하는데 있어서 필수적인데, 유전체 수준의 단백질-단백질 상호작용(PPI) 와 단백질의 생물학적 특징들은 단백질 기능을 annotation 하는데 풍부한 정보를 제공한다. PPI와 생물학적 특징들은 다른 관점에서 단백질 기능을 설명하는데, 이 둘을 연결시켜 단백질 기능을 예측하는 것은 쉽지 않다.
최근 Graph Neural Network ( GNN ) 을 사용한 많은 시도들이 있었지만, GNN 은 그래프를 이용하는 특징 때문에 edge 의 noisy 함 때문에 bias가 있을 수 있고, 또한 많은 layer 를 쌓는 것에서 오는 over-smoothing problem 을 가져올 수 있다.
이 연구에서는 CFAGO 를 개발함 - 단백질의 PPI + 생물학적 특징 + Multi-head attention 을 이용하여 단백질 기능예측.
종별로 benchmark 진행하였고, 다른 방법론들보다 훨씬 성능이 좋은 것을 확인,
또한 Davies Bouldin Score 를 사용하여서 다른 방법론과의 비교를 진행하였는데, 적어도 2.7% 정도는 향상된 것을 확인하였음.
Model
Train
Train 은 크게 두 가지 단계로 이루어졌음
1. Encoder - Decoder 로 이루어진 pretraining.
2. pretrained model 의 encoder 부분 + GO term score prediction 을 통한 classification
1. 의 과정에서 Multi-head attention layer 가 사용됨.
- 다양한 종류의 input feature 통합
- noise, 관계없는 정보들 무시
- Multiple attention head 로 구성되어 input feature 의 다양한 부분을 학습
- 각 attention head 는 각 input feature vector (여기서는 MLP 의 output 인) 의 attention weight 를 계산함.
- 이렇게 계산된 attention weight 들은 input vector 의 weighted sum 을 계산하기 위해 사용되는데, 이는 attention head 의 output 임.
- 모든 attention head 로 부터 계산된 값들은 concat 되어서 feedforward neural net 으로 보내져 각 단백질마다 최종 예측 결과를 산출하게 됨.
또한 attention mechanism 은 중요한 정보에만 집중할 수 있게 해준다는 점에서 의의가 있음 - 이는 CFAGO 가 overfitting 을 극복하고 새로운 protein 에도 결과를 일반화할 수 있게 해줌
Input
모식도를 보면 주황색과 에메랄드색 input 이 나타나 있는데, 이 둘이 PPI 와 biological attribute 를 나타내는 것임.
1. PPI
- PPI 는 네트워크 안에서 단백질간의 상호작용을 의미
- STRING 에서 데이터를 가져왔고, 실험, 문헌... 등이 포함된 "combined type" 을 사용함
- CFAGO 는 weighted adjacency matrix 를 사용했는데, 이는 STRING 에서 제공하는 edge score 를 사용. 그 후 minmax 로 정규화함.
2. Biological attributes
- 많이 쓰이는 protein domain, subcellular location 정보를 사용.
- BoW encoding 을 통해 binary vector 로 표시되었음.
- 총 5번 이하로 annotation 된 protein domain term 은 제외.
- Amino acid sequence feature, protein domain feature, subcellular location feature 가 사용됨
Train : Validation : Test spit ?
- 두 개의 timepoint 를 기준으로 Train : Val : test 를 나눔. t0, t1
- t0 (1 January 2018) and t1 (31 December 2020)
- Training : t0 까지 annotate 된 protein
- Validation : t0 ~ t1 까지 annotate 된 protein
- Test : t1 이후에 annotate 된 protein.
- Train 에 실험적으로 검증된 GO Term 이 annotate되지 않은 protein 은 제외함
Output
Output 은 각 protein 에 annotation 된 GO Term 각각에 대한 predicted score 임. 이 GO Term 은 protein 에 mapping 된 단백질 기능을 의미함.
Output 은 Binary matrix 로 Protein 이 해당 GO term 에 상응하는 기능을 가지고 있는지, 가지고 있지 않은지에 대한 값임.
이 연구에서는 Proteome 에 있는 모든 single protein 에 대해서 CFAGO 를 돌려 기능들을 확인하려고 했음.
Evaluation
Evaluation 은 굉장히 생물학적 의미를 잘 담는 evaluation 이라고 생각되었음. 이는 각 protein 마다 예측된 GO Term 들과 그 GO Term 들 중 실제로 실험적으로 검증된 Term 들을 비교하는 방법으로 이루어짐.
3개의 evaluation metric 을 사용함 : m-AUPR, M-AUPR, and Fmax.
- m-AUPR is the mean area under the precision-recall curve for all GO terms
- M-AUPR is the maximum AUPR across all GO terms
- Fmax is the maximum F1 score across all GO terms
이 값들은 각 protein 별로 계산됨.
Training data 에 있는 GO Term 모두는 실험적으로 검증된 Term 들이 아니었음 ( GT ).
실험적으로 검증된 Term 들은 'IDA', 'IPI', 'EXP', 'IGI', 'IMP', 'IEP', 'IC', or 'TA' 의 evidence 코드를 가지고 있었음.
물론 실험적으로 검증되지 않은 GO Term 이라도 중요한 역할을 가지고 있을 수 있지만, 경우에 따라서는 Training 에 들어가 있는 Term들 중 일부는 noise 라고 생각할 수 있음. 하지만 저자들은 attention 을 이용함으로서 이런 noise 들보다 예측에 중요하게 작용하는 인자들이 예측을 더 잘 이끌어냈을것이라 말하고 있음
Result
Metrics
기존 Tool 들 보다 성능이 좋음
David Bouldin Score
저자들은 Davis Bouldin Score (DBS) 를 사용하여 4가지 종류의 protein representation 을 비교해보고자 했음.
Davies Bouldin Score (DBS) 는 클러스터를 평가하기 위한 metric 중 하나로, within-cluster scatter의 비율과 between-cluster separation 를 이용함.
여기서 clustering 은 GO term 으로 진행되었고, 두 개의 단백질이 정확히 같은 GO Term 을 가지고 있을 때 같은 클러스터로 설정하였음.
이를 통해 저자들은 CFAGO 가 예측한 단백질 기능에 기조하여 CFAGO 가 얼마나 잘 cluster 하는지를 보려고 함.
이렇게 4가지의 protein representation 을 비교하였는데,
o_PPI : original PPI network
o_attribute : original biological attribute values
c_embedding : attention 구조를 제외한 protein embedding
cf_embedding : CFAGO 를 이용한 protein embedding
이를 비교해봤을 때, CFAGO 에서 유래된 protein representation 의 clustering evaluation metric 이 가장 성능이 좋은 것을 볼 수 있음.
DL structure and performance variation
Attention structure 를 제거하고 실험해봤을 때 성능이 떨어지고, 추가하여 했을 때가 성능이 제일 좋은 것을 볼 수 있음
Input type performance variation
CFAGO 에서는 PPI, Biological attribute 를 이용하여 모델을 구축했는데, 그 input 중 어느 하나를 빼면서 분석을 진행했을 때의 성능을 보여주고 있음. 모든 input 을 같이 했을 때 성능이 제일 좋았다고 함.
Discussion
단백질 기능을 예측 - 이는 연구자들이 생물학적 과정과 경로에서 단백질의 역할을 이해하는 데 도움을 줄 수 있음
이 정보는 잠재적인 약물 표적을 식별하거나 질병에 대한 새로운 치료법을 개발하는 데 사용될 수 있음
CFAGO는 또한 단백질-단백질 상호작용(PPI)과 세포 과정에서의 역할을 연구하는 데 사용될 수 있음
CFAGO는 PPI 네트워크 정보를 생물학적 속성 데이터와 통합함으로써 단백질이 다른 단백질과 상호작용하거나 특정 경로에 참여할 확률을 예측할 수 있음
CFAGO의 또 다른 잠재적인 응용은 질병의 바이오마커를 식별하는 것
댓글