논문 리뷰/Abstract only

Using deep learning to annotate the protein universe

Cho et al. 2022. 6. 26.

Using deep learning to annotate the protein universe | Nature Biotechnology

2022, Nature Biotech

Mark A. DePristo & Lucy J. Colwell groups

 

 

 

아미노산 서열과 단백질 기능의 관계를 이해하는 것은 광범위한 과학적, 해석적 의미를 갖는 오랜 과제이다. Alignment-based 의 최신 기법들은 미생물 1/3 단백질의 기능을 예측하지 못해서 이는 다양한 유기체의 데이터를 확용하지 못하게 한다. 

 

이 논문에서는 Pfam 데이터베이스에서 17,929 family 를 사용해서 unaligned amino acid 의 기능을 예측하기 위한 딥러닝 모델을 학습시켰다. 모델은 진화적인 substitution 들 중 알려진 것들을 추론하고, 새로운 family 에서 정확하게 서열들을 군집화할 수 있는 representation 들을 학습니다. 딥러닝 모델과 이제까지 존재하는 method들을 합치는 방법을 사용하므로서 원거리 homology detection 을 향상시켰는데, 이는 딥러닝 모델이 지금까지 알려진 정보들에 추가하여 보충적인 정보를 학습할 수 있다는 것을 의미한다. 

 

이 접근법은 Pfam 의 coverage 를 9.5% 이상 확장시켰으며, 지난 10년간 추가된 것을 넘어섰고 Pfam annotation 이 없는 360개의 인간 Reference proteome protein 에 대한 기능을 예측했다. 

이 결과는 딥러닝 모델이 protein annotation tool 의 중심이 될 것임을 시사한다.

 

 

댓글