논문 리뷰/Protein

Evolutionary-scale prediction of atomic-level protein structure with a language model

Cho et al. 2023. 3. 21.

Evolutionary-scale prediction of atomic-level protein structure with a language model | Science

2023, Science

Alexander Rives ( Meta AI ) Group

 

 

 

 

 

Abstract

 다중 서열 정렬에 존재하는 진화적 정보를 이용한 단백질 구조 예측 기계학습 방법론을 이용해서 정확한 예측 정보를 얻을 수 있었지만, 단일 서열을 가지고 예측하는 것은 아직 어려움.

이 논문에서는 transformer 단백질 언어 모델을 사용하여 원자 수준의 구조까지 예측하는 ESMfold 를 만들었고, 이는 정렬기반 모델만큼 정확하고 상대적으로 빠름.

MSA 기반의 모델인 AlphaFold 나 Rosetta 는 비슷한 protein 을 찾는데만 10분이 걸리는데 ESMfold 는 이것을 없엤음.

6억개의 서열에 대한 구조를 2000개의 GPU 를 사용해서 2주만에 끝냈음.

이를 이용하여 ESM metagenoics Atlas 에 적용, 6억개 이상의 metagenomic 단백질 예측에 사용하였음.


원자 수준의 구조 예측하는 언어 모델의 개발

먼저 이전에 만들었던 ESM-2 는 8M 파라미터를 가지고 있는데, 이를 기반으로 scale up 하여 15B ( 대략 2배 ) 로 만듬. 

ESM-2 는 단백질 서열에서 랜덤하게 mask 된 아미노산의 identity 의 확률을 예측하는 것

 

 

- 단백질 서열의 15% 가 masking 처리되어있고 모델은 이를 맞추는 것을 학습하는 것

- ESM-2 의 의 크기를 2배가량 늘리면서 묘사적인 정확도 (fidelity) 가 높아졌는데, 이는 perplexity 를 기반으로 하는 수식으로 계산가능함. 모델이 커질수록 증가하는 추세를 띔. 

- ESM-2 는 오직 서열만 고려하는데, masked language model 을 이용한 transformer 모델은 단백질에서 residue-residue contact map 에 상응하는 attention pattern 을 만든다고 알려져 있음.

- 이 논문에서는 attention pattern 에서 linear projection 을 통하여 contact map 을 추출했음. 

- A에서 그것을 볼 수 있는데, 이는 3차원 구조에 대응함. 또한 parameter 가 늘어남에 따라서 정확한 예측을 하는 것을 볼 수 있음 ( B,C )

- A 에서 왼쪽이 실제, 오른쪽이 예측

 

- 개별 단백질의 Perplexity와 long-range contact prediction 에 대한 plotting. Parameter 가 늘어날수록 더 나은 성능을 가지는 경향을 볼 수 있었음. ( correlation 또한 ) 

- 이를 통해 Large Language Model 을 통한 예측이 구조적으로도 좋은 성능을 낼 수 있다는 것을 보임

- 원자 수준의 prediction 을 진행하기 위해서 언어모델의 내부 representation 을 대상으로 동일한 transformer 모델을 사용하여 각 원자의 공간좌표를 사영함. 

- 이 공간좌표계는 Protein Data Bank 에서 실험적으로 검증된 구조들로 모델링되었음

- TM-score 는 예측된 구조와 실제 구조 사이를 비교해서 0-1 값을 내는데, 0.5 를 기준으로 예측 결과를 나눔. 이는 또한 시간적 cutoff 를 사용하여 test 에 사용한 protein 들이 fit 할때 사용된 protein 들과 분리되게 함. 

- E 를 보면 15B 모델이 150M 모델과 비교했을 때 더 높은 TM value 를 가지는 것을 볼 수 있음. F는 몇가지 예시.

- pLDDT :  per-residue confidence score (pLDDT). 예측의 신뢰도, 90 이상은 매우 신뢰도가 높은 영역


Accelerating accurate atomic-resolution structure prediction with a language model

 

 

모델링

1. ESM-2 언어 모델에 대한 폴딩 헤드를 학습

2. 단백질 서열을 ESM-2 모델에 입력

3. 서열을 전방향 레이어를 통해 처리하고 internal representation 얻음

4. 폴딩 헤드를 사용하여 서열 및 쌍별 표현을 업데이트

5. 폴딩 블록의 출력을 equivalent transformer 구조 모듈에 전달 ( From AlphaFold2 )

6. 최종 원자 수준 구조 및 예측된 신뢰도를 출력하기 전에 세 단계의 재활용을 수행.

ESM-2 (evolutionary-scale prediction of atomic level protein structure with a language model) (ramith.fyi)

 

 

- 알파폴드2와 동일한 loss 수준으로 학습됨

- 2020 년 이전 데이터로만 training : AlphaFold, RoseTTAFold 와 동일한 조건

- CASP14 data 로 는 AF2, RoseTTA 보다 낮았지만 AF2, RoseTTA 에서 MSA 를 제외시키고 학습했을때보다는 훨씬 좋게 나왔음. 

- 성능이 좀 낮았지만, perplexity 가 낮은 protein 들은 AF2 와 성능이 일치했음. 

 


Evolutionary-scale structural characterization of metagenomics

더보기

메타지노믹스는 환경 샘플 (예 : 토양, 해양, 인간 등)에서 발견된 모든 미생물의 유전자 정보를 연구하는 분야입니다. 메타지노믹스는 전통적인 세포 배양 방법보다 미생물의 생태학적 역할과 다양성을 더 잘 반영할 수 있으며, 생태계에 존재하는 미생물의 진화 및 생태학적 역할을 연구하는 데 중요한 정보를 제공합니다. 메타지노믹스에서 발견된 미생물의 대부분은 이전에 배양되지 않았기 때문에, 이러한 미생물의 유전자 정보를 연구함으로써, 더 많은 새로운 종의 발견 및 이들의 생태학적 역할에 대한 이해가 가능해집니다.

- We fold >617 million sequences from the MGnify90 database

- 225 million predictions with high confidence (mean pLDDT > 0.7 and pTM > 0.7)

Conclusion

Purpose Fast and accurate computational structure prediction can help understand the structure of all proteins discovered in gene sequencing experiments, including metagenomic proteins.
Results Completed large-scale structural characterization of metagenomic proteins, predicting structures for millions of distinct proteins. Calibration is critical for accuracy and speed.
Insight High-confidence predictions in the metagenomic atlas can provide insight into active site biochemistry, and remote structural relationships can help with function.
Language models Atomic-level structure in language models can capture protein structure encoded by evolution and improve modeling of low depth proteins.
ESM-2 ESM-2 improves speed, making accurate atomic-level prediction possible for far larger numbers of sequences.
Implications Structure prediction at the scale of evolution can deepen the understanding of natural protein diversity and accelerate the discovery of protein structures and functions.

 

 

Reference

ESM-2 (evolutionary-scale prediction of atomic level protein structure with a language model) (ramith.fyi)

댓글