2021, Molecular Systems Biology
Peter Sarkies Lab
Abstact
- 전이인자(TE)는 진핵생물의 유전체에 널리 분포해있지만, 종 간 구성은 다양하지만, 다양성을 이루는 인자들은 아직 많이 알려져있지 않음
- 전이인자의 진화를 이해하는것은 어려운데, 이는 전이인자의 서열이 빠르게 분화하고, conventional 하지 않은 방법인 horizontal gene transfer 를 통해서도 전파되기 때문
- 이 논문에서는 다른 유전체에서의 네트워크 분석을 통해 전이인자의 서열과 구성을 시각화하여 전이인자의 진화를 추적하는 방법을 개발
- 개발된 방법은 먼저 monopartite 네트워크를 사용하여 Tc1/mariner elements 서열의 진화를 연구함으로서 설명되었다.
- 우리는 여기서 두 개의 subfamiliy 간의 연결성을 발견하였고, 이 연결성은 단백질 코딩 유전자로부터 온 한 도메인의 수렴 진화에 관계되어 있는 것 이었다.
- 두 번째로, 우리는 bipartite network 를 이용하여 여러 종에서의 전자인자 구성이 후성유전체적인 silencing 으로 어떻게 구축되는지를 연구하였다.
- 이 연구에서 계통분류 효과를 제어했을 때, Piwi-interacting RNA 가 네트워크 위상 차이에 관계되어있다는 것을 밝힌다.
-> 개발된 방법은 네트워크 기반 접근 방식이 종에 걸쳐 지금까지 알려지지 않은 TE 진화의 특성을 어떻게 식별할 수 있는지 보여준다.
Introduction
TcMar/mariner sequence similarity network
- SSN ( 서열 유사성 네트워크 ) 에서 6종간 진화관계를 보여주는 계통수 그림, RepeatMasker 를 이용해서 TE 찾았다고 함
- openOrd layout algorithm 을 사용한 시각화들. ( Large network 를 나타내는 데 좋은 알고리즘이라고 한다 )
- SSN 은 5개 선형동물과 1개의 곤충으로 구성되어 있는데, 네트워크에서 각 노드는 각 개체의 유전체에서 전이인자를 나타내고, edge 는 서열유사성을 나타냄 (BLAST bit score when the two are aligned).
- Cluster identity 에 의해서 정해진 클러스터 중 14개의 가장 큰 클러스터에 속한 node 만 색으로 표시되어 있으며, 나머지는 회색으로 표시되어 있음. (B, Cluster 는 openOrd 에 의해서 - node 사이의 strength 에 따라 얻어짐)
- 클러스터를 분석하기 위해 두 가지 알고리즘을 사용했는데,
- the connected component statistic implemented by the depth-first search algorithm
- modularity calculation using the Louvain Method for community detection
이것이 그 두개이고, 이 두 개 알고리즘을 이용해서 구해진 클러스터들이 B 에 색으로 표시되어 있음.
- Tc1 element 는 1형 TE로서 cut-and-paste 기작에 의해서 움직이는데, 자가활성되는 TE 는 움직임에 필요한 DDE3 도메인을 가지고 있지만 대부분의 Tc1 조각들은 비활성화 돌연변이때문에 더이상 이 기능을 하지 못함.
- 놀랍게도 DDE3 를 가지고 있는 TE 와 그렇지 않은 TE 사이에 높은 연결성이 있었고, 이는 DDE3 가 활성화에 필요하다는 것을 말하고, 더 많은 TE 의 복사본을 만들 수 있다는 것을 말함.
Network properties illuminate cryptic sequence features of TEs
- 대부분 cluster 들이 subfamily of Tc1/mariner TE 중 하나로 구성이 되어있었지만, 몇개는 섞여 있었음 (D). 이 경우 Fot1 and Tc1.
- Fot1 and Tc1 는 fungi 에서 가장 공통적이지만 metazoan 에서도 발견되기도 하는데, nematode 에서 이 element 의 근본은 알려져있지 않음.
- 여기서 subfamily 가 섞인 cluster 전부에서 계통수 정렬을 진행했고 4개의 out-group 서열들이 같은 Fot1 타입으로 분류되었음.
- 계통수가 클러스터 안에서 element 들의 공통 조상을 알려주지 않기 때문에, 네트워크 상에서 같이 나온 이유가 상동성이 아니라고 생각되었고, 다른 이유로 서열 유사성의 암호화된 부분이 있을 것이라고 생각했음.
- 이 가설을 검증하기 위해 C.elegans proteome 에 대해 cluster 에 있는 모든 element 를 blast 했음. 결과적으로 63개 서열 중 53개 서열이 c.elegance rbc-1 단백질에 best blast hit 이었고 이들 중 대부분에서 RAVE domain 을 발견했음.
- 또한 rbc-1 hit 이 다른 mixed cluster 에서는 별로 안나왔다는 것을 발견했는데, rbc-1 은 yeast 에서 보존되어있고 초파리와 포유류에서 DMXL2 라는 homologue 로 되어있는 것과 비슷한 기능을 한다는 것을 알아냈음.
- fot , rbc-1 의 상동성이 다르기때문에, 여러가지 가능성을 생각할 수 있었는데 최고의 설명은 rbc-1 서열을 그들이 진화적으로 따로따로 얻었다는 것 이었음.
Construction of a bipartite network to assess genome-wide TE content across metazoans
- TE 는 유전체마다 매우 다양한데, 그 이유는 명확하지 않아 이 논문에서 bipartite network 를 이용해서 그것들을 비교하는 방법을 만들었음.
- 이 bipartite network 에서 node 는 metazoan 이나 TE 서열들임. TE-genome 연결만 가능. 연결강도는 특정 TE 가 genome-wide 하게 얼마나 존재하고 있는가를 나타냄
- TE 의 count 수, coverage in bp, 전체 genome 에서의 percentage , genome 안에 있는 TE 에서 특정 TE 가 차지하는 정도 : 이 네 가지 척도는 rand index 에 의해서 계산되었는데 우리는 "Total coverage in base pairs", 즉 TE 의 길이에 초점을 맞춰서 TE 길이 네트워크를 만듬
- A,B 에서 볼 수 있듯 robust 한 구조를 나타냈는데, 이중 제일 많은 것은 Gypsy element 였음. Gypsy 가 가장 많은 노드를 가지고 있어, 네트워크에 공헌을 많이 한다고 생각될 수 있었음.
- 또한 후성유전체적 silencing 이 genome 간의 TE content 에 어떻게 영향을 주는지 알아보려고 했는데, 네트워크 안에 있는 genome 들에 대해서 DNMT1, DNMT3 의 orthologue 를 가지고 있는지, 혹은 piRNA 의 존재에 필요한 Argonaute piwi protein 을 가지고 있는지를 annotate 했음.
- DNMT1, DNMT3 는 metazoan genome 에서 cytosine 5 DNA 메틸레이션에 관여하고 있음.
- Pfam 에서 Reciprocal blast search, hmmner 를 이용해서 DNMT, piwi 를 annotate 했고 C,D 에서 볼 수 있듯이 DNMT 를 가지는 종이나 piRNA 를 가지는 종은 균등하게 분포되어 있었음.
- DNA methylation 이 있는 종은 DNA methylatoin 이 부족한 종에 비해 종특이적 TE 를 가지고 있는 경우가 많았음.
- 종특이적 TE 들은 한 종 안에서 진화되어 온 element 들일 수 있는 반면 그들은 너무 분화된 나머지 다른 종이 가지고 있는 TE 의 친척으로도 볼 수 있음. 이 가능성에 근거하여, DNMT 를 가지는 종들과 그렇지 않은 종들 간 TE 의 비교는 TE 가 catalytic domain 을 잃어버린 것을 확인하였는데, 이는 오래된 TE 들이 활성을 잃어버린 것이라 보여짐.
- piRNA 를 가지는 종들은 그렇지 않은 종들에 비해 연결성이 높은 것으로 보임 ( 네트워트 상 degree ), 이는 다른 familiy 로부터 온 TE 의 수를 말함.
- 하지만 이는 weighted degree(genome 이 가지고 있는 절대적인 수를 고려) 상에서는 나타나지 않았는데, 이는 piRNA 를 가지는 종들이 TE 의 다양성은 높을지는 몰라도, 그들의 genome이 가지고 있는 TE 의 절대적인 수는 적다고 보여짐.
- 위 분석에서 동일 epigenetic silencing 을 가지는 다른 종들이 여럿 포함되어있어 bias 가 생겼을 수도 있기 때문에, 우리는 계통분류적 요인을 통제하고자 같은 epigenetic silencing mechanism 을 가지는 종들을 하나의 node 로 collapse 함 (E)
- 그림에서 볼 수 있듯, DNMT 의 유무에 따른 TE 의 수는 더이상 통계적으로 차이가 나지 않았지만 piRNA 경우는 통꼐적으로 차이가 있었음. 이는 계통분류적 요인을 통제하고도 차이가 나는 것으로 보임. 따라서 이는 다양성이 감소된 TE 들은 piRNA 가 부족한 종 안에서 독립적으로 진화되었다고 볼 수 있음.
--> piRNA 에 의한 TE 의 통제가 각 TE 의 절대적인 수는 적은 반면, 한 genome 안에서의 TE 의 다양성을 증가시켰을수 있다. (이전 연구결과와 동일)
- 이 연구에서는 네트워크 분석을 사용하여 TE(이동성 유전자) 콘텐츠를 시각화하는 방법을 제안
- 저자들은 두 개의 Tc1/mariner 하위 가족에서 유래한 rbc-1 유사체에서 유래한 서열을 공격한 TE의 수렴 진화를 확인
- TE가 특정 유전자 rbc-1을 Elegans 하위군의 Caenorhabditis에서만 침략하였으며, 자연 선택에서 제거되기 어려웠음
- DNMT의 존재는 비활성화된 TE의 존재로 인해 한 개의 유전체에만 존재하는 "Singleton" TE의 수가 증가하는 것과 관련이 있음
- DNA 메틸화는 비활성화된 TE의 부정적인 영향을 억제하고 유전체 내에서 TE의 축적을 가능하게 할 수 있음
- piRNA를 가진 종은 TE 가족의 다양성이 더욱 높았지만, TE의 총 길이는 증가하지 않았음
- 네트워크 분석은 TE를 연구하기 위해 더 많은 네트워크를 만들고, TE가 진화를 통해 유전체를 형성하는 방법을 파악하는 데 유연성을 제공함
댓글