논문 리뷰/Protein

Global detection of human variants and isoforms by deep proteome sequencing

Cho et al. 2023. 5. 11.

Global detection of human variants and isoforms by deep proteome sequencing | Nature Biotechnology

 

Jürgen Cox & Joshua J. Coon Groups

2023, Nature Biotechnology

 

Abstract

 

샷건 프로테오믹스 실험은 단일 샘플에서 약 10,000개의 인간 단백질을 검출

그러나 개별 단백질은 일반적으로 전체 아미노산의 일부를 나타내는 펩타이드 서열에 의해 식별되는데, (샷건 프로테오믹스는 잘게 자르는 방법이라서) 이에 일반적인 샷건 방법은 다른 단백질 변형과 동질효소를 구별하지 못함.

따라서 단백질 동질효소의 전 세계적인 발견을 위해서는 더 깊은 단백질 서열화가 필요

이 연구에서는 6개의 인간 cell line, 6개의 단백질 분해 효소, 및 3개의 탠덤 질량 분석 단편화 방법을 사용하여, 17,717개의 단백질 그룹에서 서열 커버리지 80% 로 백만 개의 고유 펩타이드를 식별함.

RNA 발현과 직접 비교하면 nonsynonymous variant 의 번역에 대한 증거를 제공함.
발견되지 않은 variant 들 ( 발현은 되었는데 proteome 상에서 없었던 variant ) 이 아마도 돌연변이-유래 단백질 불안정성에서 발생했을 가능성이 높다는 가설을 세웠음.
또한 대체 스플라이싱 이벤트를 나타내는 엑손-엑손 접합 펩타이드에 대한 유사한 탐지율을 관찰함 ( 번역된다는 것을 확인함 ).

> 프로테오폼 발견을 위한 자원을 나타내며 대부분의 프레임 보존 대체 스플라이스된 동형 단백질이 번역된다는 직접적인 증거를 제공.

 

 

Result

 

연구에 사용된 방법론.

6개의 cell line, 6개의 protease, 3개의 분석기법으로 분석한 결과.

Hemoglobin subunit gamma-1 에 해당하는 sequence 가 coverage 와 함께 나와있음

 

 

 

Protease 에 따른 검출결과를 나타내는 피규어. Trypsin protease 를 사용했을 때 전체적으로 많이 검출된 것을 볼 수 있음. 

또한 Transmembrane protein 은 전체적으로 적게 검출된 것이 확인됨.

 

Transcriptome ( 전사체 ) 와의 비교. 

비교 대상은 SAP (Single Amino acid Polymorphism) 이고, 전사체 데이터(ENCODE) 와 이번 proteome 데이터를 cell line 별로 비교하고 있음.

Transciptome 에서 검출된 variant 들이 전부 다 검출된 것은 아님. Transriptome 에서 더 많은 수를 report 하고 있음을 볼 수 있음. 

왼쪽 그림은 DeepMass 라는, protein detection model ( 본 논문의 PI 중 한 명 랩에서 만든 ) 과, 이번 검출된 proteome 를 비교하면서 그 성능을 본 것인데, 높은 성능을 보임.

C 는 cell line 별로 전사체, 단백체를 비교하여 전사체-exclusive 혹은 단백체-exclusive 하게 나온 것 ( 아무런 표시도 안되어 있는 것 ) 를 보여주고 있는데, 이렇게 보면 생각보다 전사체와 단백체가 겹치는게 많이 없어보임. 

 

D 는 검출된 proteome 과 검출되지 않은 proteome 의 GO enrichment 점수임. 

파란 색으로 표시된 proteome 은 "Membrane" 을 가지고 있는 GO Term 인 경우를 표시함. 

E,F 는 SIFT, PolyPhen2 의 점수 비교로 이또한 검출된 것, 검출되지 않은 것으로 나누어서 비교함. 이 두 점수는 amino acid change 에 따른 결과가 유해한지 (deleterious) , 혹은 무해한지 (benign) 를 알려주는 <예측> 툴의 점수임. Variant 의 conseuquence 를 나타내는 것에 많이 사용되는 top 2 툴임.

결과를 보면 생각보다 검출된 SAP 들은 deleterious 한 것이 많이 없음을 볼 수 있음. 

 

 

Exon splicing 의 과정과 그 예시 두 개를 보여주고 있음 ( Exon skipping 이 있는 경우와 없는 경우 )

 

 

h, ROC curve of a binary XGBoost classifier trained to predict whether AS events are detected or not detected on the proteomics level.

H 에 나온 ML model target :

cassette exon skipping events detected in both proteomics and transcriptomics data (1)

those events detected solely in the transcriptome.(0)

그 후 permutation importance 로 어떤 feature 가 검출에 중요했는지 파악함. 

 

 

 

Discussion

- 이 연구의 핵심 결과는 단백질학적 커버리지 이득이 종종 suboptimal trypsin cleavage sites을 가진 단백질 영역, 예를 들어 membrane-spanning 도메인 및 스플라이스 접합에서 온다는 것

- nonsynonymous SNP(즉, SAP)의 약 73%가 번역되어 단백질에 존재한다는 증거를 제공

- Alternative splicing은 대부분의 shotgun MS 실험에서 펩타이드 coverage 가 낮았기 때문에 이전에는 proteomics 수준에서 대부분 발견되지 않았지만,  이 연구에서 전사체학에 의해 검출된 상대적으로 고도로 발현된 유전자의 inframe 스플라이싱 이벤트의 절반 이상(약 64%)이 실제로 번역되어 단백질 수준에서 존재하며, 전체 발현 범위에서 22%가 검출된다는 증거를 제공

- ~5,000개의 스플라이스 이벤트에 대한 프로테오믹스 증거를 제공하는 ~25,000개의 펩타이드의 개요를 확립했다. 이러한 검출은 다수의 프로테아제(protease)를 사용하여 가능

-  이전 리보솜 프로파일링 연구의 결과와 대체로 일치하며, 안정적으로 표현된 전사체에서 코딩 시퀀스와 겹치는 대체 접합의 대다수가 번역된다는 증거를 제공

- 트립신만을 사용하여 생성된 제한된 적용 범위로 MS 데이터에 대한 이전 연구의 결론을 반박하면서 대체 스플라이싱이 단백질 수준에서 널리 퍼져 있다는 직접적인 증거를 제공한다.

- 이 펩타이드 카탈로그에 액세스할 수 있도록 온라인 리소스인 Deep Sequencing Data Browser (deep-sequencing.app) 을 만듬

- 어떤 유전자든 쿼리할 수 있고 검출된 해당 펩타이드, SAP 및 스플라이싱 접합을 검사할 수 있음

 

 

 

기존 트립신만을 사용하던 방법과 다르게 여러가지 protease 를 사용하여 서열을 파악한 논문으로, 각 세포주마다 전사체와 단백체결과(본 논문의 결과) 를 비교함으로서 mRNA->Protein 으로 가는 central dogma의 한 부분을 검증하면서, alternative splicing에 대한 고찰을 한 논문.

 

생각보다 많은 양의 transcriptome 이 proteome 으로 전환됨에 놀랐음. In silico modelling 할 때 전사체 데이터로 네트워크 모델링을 하고 protein-protein interaction 이나 Protein DB 를 가지고 network 를 확장하는 식의 연구를 진행하려고 했는데, transriptome 에서 proteome 으로 가는 실험적 검증되고 믿을만한 DB 를 찾기 어려워 전자의 모델링만 진행한 경험이 있음.

Nat biotech 에서 나온 이 방법론이 proteomics 와 transcriptomics 의 간극을 메꿔줄 방법이 되길 기대해봄.

댓글