automated multi-modal graph-based pipeline for mouse genetic discovery | Bioinformatics | Oxford Academic (oup.com)
2022, Bioinformatics
Gary Peltz group
Abstract
Mouse model 을 이용해서 인간의 질병이나 의학적 형질에 대한 원인 유전인자를 찾는 것은 true factor 를 찾는 것에 대한 어려움에 막혀있는데, GWAS 로부터 생성된 많은 false positive ( 위양성 ) 들이 그것을 더 모호하게 한다.
genetic discovery를 가속화가기 위해서, GNN-기반의 자동화 파이프라인을 만들었는데, 이는 분석된 형질들에 대해 높은 확률로 원인이 되는 유전적 요소들을 찾빨리 찾을 수 있다고 한다. strain response pattern 과 더불어 allelic association 들을 평가한 후, 이 파이프라인은 출판된 논문들 (2900만 개 ) 를 분석하여 후보 유전자-표현형 관계를 평가한다. 또한 이 과정은 단백질-단백질 상호작용 정보를 사용하여 단백질 네트워크, 단백질 서열 정보도 평가에 같이 사용한다.
이 GNN 모델은 단순한 linear NN 모델보다 훨씬 좋은 성능을 냈으며, 결과적으로 murine model 에서 새로운 causative genetic factor 를 밝혀내었다. 이는 knockout 실험에 의해 증명된 내용이다.
Full access 가 없어서 전문을 읽지는 못했지만,
GNN 에 대한 부분은 대략 NLP 로 Pubmed paper 중에서 gene-MeSH[2] 를 통해서 그래프를 만든 후, candidate gene-phenotype 간의 literature score 를 계산한다는 것 같다. 공개데이터 기반으로 트레이닝 시킨 후 마우스 모델에서 나온 genetic association 을 test 하거나 predict 해서 계산된 값으로 gene candidate에 대한 우선순위를 구하는 논문인 듯.
Genetic factor - gene candidate 간의 관계를 literature + PPI + protein sequence 로 모델링해서 결과적으로는 causal genetic factor 중 높은 확률로 원인이 되는 gene 을 골라낸다.
B,C 에 나오는 genemesh 는 프로그램 이름으로 gene expression data 를 이용해서 gene-MeSH 와의 interaction 을 알려주는 것 인듯. 이렇게 edge로 연결한 후 C 에 나와 있는 알고리즘으로 GCN, RGCN, GAT[4] 를 이용해서 결과적인 causal genetic factor 의 probability 를 계산해주는 논문인 것 같다.
Reference
[1] zqfang/GNNHap: Graph neural newtork for haplotype based genetic mapping (Mouse GWAS) (github.com)
[2] :::: 대한핵의학회 :::: 학회지 > 검색어 사전 (ksnm.or.kr)
[4] [머신 러닝/딥 러닝] 그래프 어텐션 네트워크 (Graph Attention Network) 구조 및 설명 (tistory.com)
'논문 리뷰 > Data & Text mining' 카테고리의 다른 글
Automated assembly of molecular mechanisms at scale from text mining and curated databases (0) | 2023.05.30 |
---|
댓글