Exploring the computational methods for protein-ligand binding site prediction - ScienceDirect
2) Template similarity-based LBS prediction method
단백질의 3차구조는 geometry, energy 에 대한 단서를 제공해서 단백질 하나의 구조만으로 LBS 예측을 가능하게 한다. 만약 단백질이 독립적인 분자가 아닌 다른 분자들로부터 생겨난 것이라는 것을 가정한다면, 구조적/기능적인 정보들은 homologous 하거나 구조적으로 비슷한 단백질들에서 전달받을 수 있을 것. 이를 이용하면 target protein 의 LBS prediction 은 알려진 protein 들을 template 으로 사용하여 진행할 수 있음.
이 Template similarity--based method 는 주로 두 가지 타입을 포함하는데,
structural template-based method, sequence template-based method 의 두 가지를 포함함.
Structural template-based LBS prediction 은 구조 정렬 알고리즘을 이용해 LBS 가 label 된 데이터베이스 상에서 가장 비슷한 단백질을 찾아 알려진 LBS 를 target(query) protein 에 transfer 하는 것. 이 방법은 엄청나게 축적된 protein DB의 이점을 이용함.
- FINDSITE : 2008년 . 주어진 target protein sequence 를 가지고 PROSPECTOR3 threading algorithm 을 사용해 PDB 데이터베이스에서 ligand 가 붙는 structural template 을 알아낸 후, 그 template 를 target protein 에 TMalign 을 사용하여 겹침. 그 후 structural template 에 붙은 LBS 들은 cluster 된 후 prediction 으로서 순위가 매겨짐.
- 3DLigandSite : 2010년. MAMMOTH 를 사용하여 target protein 과 structural template 간의 유사도를 계산하고 최상위 유사도를 가지는 25개 template protein에 대해서 그들의 ligand information 이 template 으로 사용됨. FINDSITE 와 비슷하게, 이 template 들은 target protein 과 겹쳐졌으며 이들의 ligand 는 Single linkage clustering algorithm 에 의해서 cluster 됨. template ligand 가 가장 많은 cluster 가 LBS 예측의 basis 로 선택됨. 3DLigandSite 의 성능은 CASP8 target, FINDSITE test set 를 사용하여 ACC 60 % MCC 0.64% 가 나옴
현재(2022.07) 까지 PDB 에 등록되어있는 protein structure 는 192489 개 인데, 아직도 위의 방법으로 LBS 가 예측되지 않는 것이 많음. 시퀀싱의 발전을 통해 매년 protein sequence 가 엄청난 수로 출판되고 있는데, 이로 인해 sequence template-based LBS 가 주목을 받음.
sequence template-based LBS prediction 는 기본적으로는 structual 과 비슷하지만, alignment tool 이 structual 가 아닌 seuquence 에 한다는 점이 다르고, template 이 유사성에 의해서 선택된다는 점이 있다. 마지막으로, Target protein 의 ligand-binding residue 는 정렬된 영역에 알려진 리간드 결합 잔기를 참조하여 추정함.
- S-SITE : 2013년. Yang Zhang's team 이 개발함. Needleman-Wunsch algorithm 을 사용하여 BioLip 데이터베이스에 있는 protein 들과 query protein 을 정렬함. 그 결과에 따라 query protein 과 비슷한 서열들을 골라냄. query protein 의 잔기는 template protein 의 잔기와 정렬되며, 이는 binding residue 라고 명명됨. Consensus vote 가 template 의 정렬 결과를 점수매기기 위해서 사용되며, 25% 이상의 투표를 받은 잔기가 LBS 로 결정됨. MCC , Pre 0.45.
Hybid method ( structural + sequence )
- TM-SITE : hybrid method. TMalign algorithm을 사용하여 alIgn 한 다음 sequence 의 evolutionary information 와 structure 의 spatial distance 정보가 합쳐져서 scoring 된 후, BioLip database 에 있는 template protein 들이 screen 됨. MCC 0.51, Pre 0.59
댓글