automated multi-modal graph-based pipeline for mouse genetic discovery | Bioinformatics | Oxford Academic (oup.com)
automated multi-modal graph-based pipeline for mouse genetic discovery
AbstractMotivation. Our ability to identify causative genetic factors for mouse genetic models of human diseases and biomedical traits has been limited by the d...
academic.oup.com
2022, Bioinformatics
Gary Peltz group
Abstract
Mouse model 을 이용해서 인간의 질병이나 의학적 형질에 대한 원인 유전인자를 찾는 것은 true factor 를 찾는 것에 대한 어려움에 막혀있는데, GWAS 로부터 생성된 많은 false positive ( 위양성 ) 들이 그것을 더 모호하게 한다.
genetic discovery를 가속화가기 위해서, GNN-기반의 자동화 파이프라인을 만들었는데, 이는 분석된 형질들에 대해 높은 확률로 원인이 되는 유전적 요소들을 찾빨리 찾을 수 있다고 한다. strain response pattern 과 더불어 allelic association 들을 평가한 후, 이 파이프라인은 출판된 논문들 (2900만 개 ) 를 분석하여 후보 유전자-표현형 관계를 평가한다. 또한 이 과정은 단백질-단백질 상호작용 정보를 사용하여 단백질 네트워크, 단백질 서열 정보도 평가에 같이 사용한다.
이 GNN 모델은 단순한 linear NN 모델보다 훨씬 좋은 성능을 냈으며, 결과적으로 murine model 에서 새로운 causative genetic factor 를 밝혀내었다. 이는 knockout 실험에 의해 증명된 내용이다.

Full access 가 없어서 전문을 읽지는 못했지만,
GNN 에 대한 부분은 대략 NLP 로 Pubmed paper 중에서 gene-MeSH[2] 를 통해서 그래프를 만든 후, candidate gene-phenotype 간의 literature score 를 계산한다는 것 같다. 공개데이터 기반으로 트레이닝 시킨 후 마우스 모델에서 나온 genetic association 을 test 하거나 predict 해서 계산된 값으로 gene candidate에 대한 우선순위를 구하는 논문인 듯.
Genetic factor - gene candidate 간의 관계를 literature + PPI + protein sequence 로 모델링해서 결과적으로는 causal genetic factor 중 높은 확률로 원인이 되는 gene 을 골라낸다.
B,C 에 나오는 genemesh 는 프로그램 이름으로 gene expression data 를 이용해서 gene-MeSH 와의 interaction 을 알려주는 것 인듯. 이렇게 edge로 연결한 후 C 에 나와 있는 알고리즘으로 GCN, RGCN, GAT[4] 를 이용해서 결과적인 causal genetic factor 의 probability 를 계산해주는 논문인 것 같다.
Reference
[1] zqfang/GNNHap: Graph neural newtork for haplotype based genetic mapping (Mouse GWAS) (github.com)
[2] :::: 대한핵의학회 :::: 학회지 > 검색어 사전 (ksnm.or.kr)
[4] [머신 러닝/딥 러닝] 그래프 어텐션 네트워크 (Graph Attention Network) 구조 및 설명 (tistory.com)
'논문 리뷰 > Data & Text mining' 카테고리의 다른 글
Automated assembly of molecular mechanisms at scale from text mining and curated databases (0) | 2023.05.30 |
---|
댓글