Ploidy
사람은 모계, 부계로부터 Genome 을 하나씩 받는다.
각 세포에 들어가있는 염색체의 완전한 조합 ( Haplotypes ) 은 ploidy 라고 한다.
사람과 다른 동물들은 diploid ( 2N ) 인데 반해 식물은 더 높은 배수를 가질수도 있다.
염색체 쌍의 증가는 DNA 양을 증가시켜줄 뿐만 아니라, 유전체의 복잡성에도 영향을 미친다.
이는 보통 두 개의 genome (부계 / 모계) 는 동일하지만, 다른 경우도 있기 때문이다.
Phasing
거대한 다배수체나 배수체를 시퀀싱할 때, 그 목표는 각 copy 당 우리가 보고자 하는 부위의 서열을 정확하게 아는 것이다.
이는 haploid genome (single copy) 를 조립한 후, variant 를 찾거나, 어떤 allele 이 다른지 보는 것으로 이루어질 수 있다.
하지만 variant 를 찾는 것은 유전체의 완전한 서열을 알려주지 않는데, 여기서 phasing 이 필요하다. 이는 어떤 variant 가 같은 chromosome 의 copy 로 부터 온 것인지 찾는 과정이다. ( cis, trans )
Phasing 의 방법 중 하나는 Trio sequencing 인데, 부-모-자식 을 시퀀싱 해서, 자식의 variant 는 오직 같은 염색체의 부모의 한쪽에만 있어야 한다는 것이다.
두번 째 방법 중 하나는 population inference 로, 사람들 안에서 자주 보이는 variant 를 가지고 phase 할만한 것을 찾는 것이다.
Reference
Sequencing 101: ploidy, haplotypes, and phasing — how to get more from your sequencing data - PacBio
'개념 정리' 카테고리의 다른 글
[ML/DL] 쿨백-라이블러 발산 (Kullback-Leibler divergence, KLD) (0) | 2023.03.31 |
---|---|
[Bioinformatics] Qiagen Web (0) | 2022.10.24 |
Cancer immunoediting (0) | 2022.05.22 |
댓글