Exploring the computational methods for protein-ligand binding site prediction - ScienceDirect
3) 전통적인 기계학습 기반의 LBS prediction 방법들
LBS prediction 은 이분법 문제이기 때문에, class imbalance 가 있음.
Naive Bayes : prior probability 를 계산하기 때문에 샘플간 corerlation 이 있는 경우에는 적용하기 적합하지 않음.
Logistic regression : underfit 되는 경향으로 acc 가 잘 나오지 않음.
KNN : 빠르지만 class imbalance situation 에서는 성능을 기대할 수 없음.
따라서 SVM 을 많이 쓰게 되는데, LBS 분야에서 가장 유명한 기계학습 방법이었음.성능도 좋고, 일반화 능력도 좋고, 높은 차원의 적은 샘플 데이터도 잘 되기 때문. SVM 기반의 연구들이 많이 진행되었음.
-MetaDBSite : 2011, sequence-based, protein-DNA binding residue 예측. DISIS, DNABindR, BindN, BindN-rf, DP-Bind, DBS-PRED 의 6가지 tool 의 결과를 합치기 위해 SVM 을 사용함. DISIS, DNABindR, BindN, BindN-rf 의 결과가 주로 SVM 의 Input 으로 들어갔으며 DP-Bind, DBS-PRED 의 결과는 추가 파라미터로 들어감. 6개의 개별 툴 보다 좋은 결과인 ACC, Spe, Sen 0.77, MCC 0.32 .
- NsitePred : 2011, PDB database 에 있는 가장 common 한 5개의 residue 를 예측하는 것. 먼저 2차구조, 용매 접근성, 상대 용매 접근성 및 이면체 각도를 추출하고, 시험할 단백질 서열로부터 PSSM 프로파일 및 기타 정보를 결정하고, 슬라이딩 윈도우 기술을 사용하여 residue을 설명하는 고유 벡터를 생성하는 것. 이 고유벡터가 SVM의 Input 으로 사용되며 classification modeling 이 진행됨. Protein 을 예측하는데 사용되고 BLAST 결과와 합쳐져서 최종 결과를 도출함. ATPint, GTPbinder 보다 좋은 성능을 냄.
- COACH : 2013, Yang Zhang. SVM-based prediction method. structural + sequence information ( S-SITE, TM_SITE ) 의 결과와 COFACTOR, FINDSITE, ConCavity 의 3개 결과를 SVM 의 고유벡터로사용하여 train 한 후 classification model 만듬. 결과적으로는 이 모델을 prediction result 를 내는 것에 사용.
PSSM : 상동 시퀀스 집합의 다중 시퀀스 정렬에 내재된 패턴을 표현.
기본 아이디어는 데이터베이스의 쿼리 시퀀스를 정렬 테이블의 시퀀스와 일치시켜 가변 위치보다 보존된 위치에 더 높은 가중치를 부여하는 것
이러한 프로파일은 정렬의 각 위치에서 각 아미노산(또는 갭)에 대한 확률 점수 집합을 통해 얻어짐.
프로파일에는
(i) 멀리 관련된 시퀀스의 정렬에서 더 높은 정확도를 허용하고,
(ii) 보존 패턴이 다른 상동 시퀀스의 식별을 용이하게 하며,
(iii) 시퀀스의 패턴은 상동 집합 내에서 하위 패밀리를 분류하는 데 유용하며,
(iv) 대부분의 구조 예측 방법 등의 여러 응용 프로그램이 있음
ods는 단일 시퀀스 등이 아닌 다중 시퀀스 정렬을 기반으로 할 경우 신뢰할 수 있음
최근, PSSM 프로파일은 서로 다른 접힘 유형의 단백질을 구별하고, 결합 잔기, 기능 잔기의 식별 등을 위해 성공적으로 사용되고 있음
Reference
댓글