Using deep learning to annotate the protein universe | Nature Biotechnology
2022, Nature Biotech
Mark A. DePristo & Lucy J. Colwell groups
아미노산 서열과 단백질 기능의 관계를 이해하는 것은 광범위한 과학적, 해석적 의미를 갖는 오랜 과제이다. Alignment-based 의 최신 기법들은 미생물 1/3 단백질의 기능을 예측하지 못해서 이는 다양한 유기체의 데이터를 확용하지 못하게 한다.
이 논문에서는 Pfam 데이터베이스에서 17,929 family 를 사용해서 unaligned amino acid 의 기능을 예측하기 위한 딥러닝 모델을 학습시켰다. 모델은 진화적인 substitution 들 중 알려진 것들을 추론하고, 새로운 family 에서 정확하게 서열들을 군집화할 수 있는 representation 들을 학습니다. 딥러닝 모델과 이제까지 존재하는 method들을 합치는 방법을 사용하므로서 원거리 homology detection 을 향상시켰는데, 이는 딥러닝 모델이 지금까지 알려진 정보들에 추가하여 보충적인 정보를 학습할 수 있다는 것을 의미한다.
이 접근법은 Pfam 의 coverage 를 9.5% 이상 확장시켰으며, 지난 10년간 추가된 것을 넘어섰고 Pfam annotation 이 없는 360개의 인간 Reference proteome protein 에 대한 기능을 예측했다.
이 결과는 딥러닝 모델이 protein annotation tool 의 중심이 될 것임을 시사한다.
'논문 리뷰 > Abstract only' 카테고리의 다른 글
NMR-guided directed evolution (0) | 2022.10.25 |
---|---|
The metastatic spread of breast cancer accelerates during sleep (0) | 2022.07.03 |
Structural basis of GABA reuptake inhibition | Nature (0) | 2022.06.19 |
On the Frustration to Predict Binding Affinities from Protein–Ligand Structures with Deep Neural Networks (0) | 2022.06.10 |
People construct simplified mental representations to plan (0) | 2022.05.29 |
댓글