논문 리뷰/Protein

Exploring the computational methods for protein-ligand binding site prediction (4)

Cho et al. 2022. 7. 9.

Exploring the computational methods for protein-ligand binding site prediction - ScienceDirect

 

4) 딥러닝 기반의 LBS prediction 방법들

 

2006년에, 딥러닝은 머신러닝의 성능을 많은 부분에서 앞서갔고 머신러닝에서 가장 유명한 분야가 되었음.

딥러닝은 복잡한 기계학습 방법으로 3가지 방법으로 주로 적용되는데,

CNN, DBN, self-encoding netual network 가 그것임. 

지난 2년간 DL 을 이용한 LBS prediction 논문들이 report 되었음. 

 

Table from original paper

 

- DEEPSite : 2017, 단백질 구조를 3차원 이미지로 생각하고, 특정 사이즈를 가지는 voxel 로 이산화 시킴. 소수성, 수소결합 공여자/수여자 등과 같은 원자적 성질은 각 voxel 의 occupany 를 계산하기 위한 feature 로 사용됨. 마지막으로 특정 사이즈의 subgrid 가 샘플링되고 그 subgrid 의 feature 가 CNN 의 Input 으로 들어감. binding site 라고 라벨링 되어있는 부분의 probability 가 output 임. 

 

- DeepCSeqSite : 2019, position-specific 한 7 종류의 score 를 사용함.

Relative solvent accessibility, secondary structure, the dihedral angle, conservation scores, residue type and position embeddings 을 사용해서 eigenspace 를 만듬. 

아미노산 서열에 있는 각 잔기들은 eigenspace 에 embed 되어있고, 따라서 아미노산 서열이 feature map 으로 전환되어 CNN 의 입력으로 들어감. output 은 protein ligand binding 의 예측 결과임. 다른 template 을 사용하는 대신, DeepCSeqSite 는 직접 binding site 를 예측함. 

 

DeepConv-DTI : 최근에, Ingoo Lee et al. 이 drug-target interaction 을 설명하기 위해 발표. 모델의 아이디어는 전체 단백질 서열을 CNN에 입력하고, 단백질이 DTI에 참여하는 residue pattern 과 어떻게 일치하는지 포착하기 위해 단백질의 다양한 아미노산 서열을 합성곱 ( Convolution ) 한 다음, 모델을 구축하고 특징을 추출하기 위해 상위 계층 네트워크에(higher layer network) 대한 입력으로 사용하는 것. 새로운 feature 들은 drug signature 와 모델을 연결하고, 네트워크 안에 있는 higher FC layer 를 통하여 DTI ( Drug-target Interaction ) 의 확률 을 예측할 것. Model 을 최적화하면서, 성능이 계속 향상됨. 

 

DeepDrug3D : 2019, binding pocket characterization, classification algorithm. ligand 와 protein target 간 특정한 분자적 interaction 의 패턴을 학습하면서 뉴클레오타이드, Heme- 결합 부위를  구별할 수 있음. 먼저, ligand-protein complex  3차원 Pocket grid 로 바꾸고, binding pocket 의 물리화학적 특징들이 고려되고 특성화됨. 이러한 3D pocket grid들은 voxel화 되어 14 채널을 가지는 3차원 이미지로 변환됨. 이 voxel 들은 CNN 의 Input 으로 들어감. PDB 에 적용되어서 95% ACC 를 냈음. 

 

 

새로운 방법들은 많이 나오고 있지만, 전통적인 ML 방법들과 비교해서 DL 방법이 항상 좋은지는 미지수임. 전통적인 ML 방법들도 계속 최적화되고있음. 저차원 데이터나 적은 양의 데이터가 있는 경우는 DL과 ML 을 비교했을 때 비슷한 성능을 냄. 

 

본 논문에서 언급된 이온 방법은 결합되지 않은 단백질에는 분명하지 않지만 리간드 결합에서 형성되는 일부 암호화 부위가 있기 때문에 LBS 검출 문제를 완전히 해결할 수 없음.

이러한 암호 사이트를 밝히려면 conformational change 가  매우 중요함.

따라서, 암호 결합 부위를 검출하는 것은 지난 몇 년 동안 많은 관심을 받았으며, 분자 역학 시뮬레이션은 이 분야에서 가장 인기 있는 방법 중 하나가 되었음.

예를 들어, Bowman과 Gaissler는 잠재적인 암호 부위를 식별할 수 있는 분자역학(MD) 시뮬레이션에서 마르코프 상태 모델을 구축했으며 , 탐침 기반 분자역학 시뮬레이션을 사용하여 Ras 단백질에서 숨겨진 결합 부위를 찾기 위한 일련의 연구를 수행.

 

댓글