Evolutionary-scale prediction of atomic-level protein structure with a language model | Science
2023, Science
Alexander Rives ( Meta AI ) Group
Abstract
다중 서열 정렬에 존재하는 진화적 정보를 이용한 단백질 구조 예측 기계학습 방법론을 이용해서 정확한 예측 정보를 얻을 수 있었지만, 단일 서열을 가지고 예측하는 것은 아직 어려움.
이 논문에서는 transformer 단백질 언어 모델을 사용하여 원자 수준의 구조까지 예측하는 ESMfold 를 만들었고, 이는 정렬기반 모델만큼 정확하고 상대적으로 빠름.
MSA 기반의 모델인 AlphaFold 나 Rosetta 는 비슷한 protein 을 찾는데만 10분이 걸리는데 ESMfold 는 이것을 없엤음.
6억개의 서열에 대한 구조를 2000개의 GPU 를 사용해서 2주만에 끝냈음.
이를 이용하여 ESM metagenoics Atlas 에 적용, 6억개 이상의 metagenomic 단백질 예측에 사용하였음.
원자 수준의 구조 예측하는 언어 모델의 개발
먼저 이전에 만들었던 ESM-2 는 8M 파라미터를 가지고 있는데, 이를 기반으로 scale up 하여 15B ( 대략 2배 ) 로 만듬.
ESM-2 는 단백질 서열에서 랜덤하게 mask 된 아미노산의 identity 의 확률을 예측하는 것
- 단백질 서열의 15% 가 masking 처리되어있고 모델은 이를 맞추는 것을 학습하는 것
- ESM-2 의 의 크기를 2배가량 늘리면서 묘사적인 정확도 (fidelity) 가 높아졌는데, 이는 perplexity 를 기반으로 하는 수식으로 계산가능함. 모델이 커질수록 증가하는 추세를 띔.
- ESM-2 는 오직 서열만 고려하는데, masked language model 을 이용한 transformer 모델은 단백질에서 residue-residue contact map 에 상응하는 attention pattern 을 만든다고 알려져 있음.
- 이 논문에서는 attention pattern 에서 linear projection 을 통하여 contact map 을 추출했음.
- A에서 그것을 볼 수 있는데, 이는 3차원 구조에 대응함. 또한 parameter 가 늘어남에 따라서 정확한 예측을 하는 것을 볼 수 있음 ( B,C )
- A 에서 왼쪽이 실제, 오른쪽이 예측
- 개별 단백질의 Perplexity와 long-range contact prediction 에 대한 plotting. Parameter 가 늘어날수록 더 나은 성능을 가지는 경향을 볼 수 있었음. ( correlation 또한 )
- 이를 통해 Large Language Model 을 통한 예측이 구조적으로도 좋은 성능을 낼 수 있다는 것을 보임
- 원자 수준의 prediction 을 진행하기 위해서 언어모델의 내부 representation 을 대상으로 동일한 transformer 모델을 사용하여 각 원자의 공간좌표를 사영함.
- 이 공간좌표계는 Protein Data Bank 에서 실험적으로 검증된 구조들로 모델링되었음
- TM-score 는 예측된 구조와 실제 구조 사이를 비교해서 0-1 값을 내는데, 0.5 를 기준으로 예측 결과를 나눔. 이는 또한 시간적 cutoff 를 사용하여 test 에 사용한 protein 들이 fit 할때 사용된 protein 들과 분리되게 함.
- E 를 보면 15B 모델이 150M 모델과 비교했을 때 더 높은 TM value 를 가지는 것을 볼 수 있음. F는 몇가지 예시.
- pLDDT : per-residue confidence score (pLDDT). 예측의 신뢰도, 90 이상은 매우 신뢰도가 높은 영역
Accelerating accurate atomic-resolution structure prediction with a language model
모델링
1. ESM-2 언어 모델에 대한 폴딩 헤드를 학습
2. 단백질 서열을 ESM-2 모델에 입력
3. 서열을 전방향 레이어를 통해 처리하고 internal representation 얻음
4. 폴딩 헤드를 사용하여 서열 및 쌍별 표현을 업데이트
5. 폴딩 블록의 출력을 equivalent transformer 구조 모듈에 전달 ( From AlphaFold2 )
6. 최종 원자 수준 구조 및 예측된 신뢰도를 출력하기 전에 세 단계의 재활용을 수행.
- 알파폴드2와 동일한 loss 수준으로 학습됨
- 2020 년 이전 데이터로만 training : AlphaFold, RoseTTAFold 와 동일한 조건
- CASP14 data 로 는 AF2, RoseTTA 보다 낮았지만 AF2, RoseTTA 에서 MSA 를 제외시키고 학습했을때보다는 훨씬 좋게 나왔음.
- 성능이 좀 낮았지만, perplexity 가 낮은 protein 들은 AF2 와 성능이 일치했음.
Evolutionary-scale structural characterization of metagenomics
메타지노믹스는 환경 샘플 (예 : 토양, 해양, 인간 등)에서 발견된 모든 미생물의 유전자 정보를 연구하는 분야입니다. 메타지노믹스는 전통적인 세포 배양 방법보다 미생물의 생태학적 역할과 다양성을 더 잘 반영할 수 있으며, 생태계에 존재하는 미생물의 진화 및 생태학적 역할을 연구하는 데 중요한 정보를 제공합니다. 메타지노믹스에서 발견된 미생물의 대부분은 이전에 배양되지 않았기 때문에, 이러한 미생물의 유전자 정보를 연구함으로써, 더 많은 새로운 종의 발견 및 이들의 생태학적 역할에 대한 이해가 가능해집니다.
- We fold >617 million sequences from the MGnify90 database
- 225 million predictions with high confidence (mean pLDDT > 0.7 and pTM > 0.7)
Conclusion
Purpose | Fast and accurate computational structure prediction can help understand the structure of all proteins discovered in gene sequencing experiments, including metagenomic proteins. |
Results | Completed large-scale structural characterization of metagenomic proteins, predicting structures for millions of distinct proteins. Calibration is critical for accuracy and speed. |
Insight | High-confidence predictions in the metagenomic atlas can provide insight into active site biochemistry, and remote structural relationships can help with function. |
Language models | Atomic-level structure in language models can capture protein structure encoded by evolution and improve modeling of low depth proteins. |
ESM-2 | ESM-2 improves speed, making accurate atomic-level prediction possible for far larger numbers of sequences. |
Implications | Structure prediction at the scale of evolution can deepen the understanding of natural protein diversity and accelerate the discovery of protein structures and functions. |
댓글