드디어 8개월간의 여정이 일단락되었다.
포스팅을 주기적으로 하려 했으나 정말 정신이 없었어서 round 1 이 끝난 지금에야 포스팅을 한다!
심지어 이것도 내지 못할 뻔 했는데 일화를 설명하자면,
대회 담당자 : "너 Synapse 에 등록된 것으로 나오긴 하는데, 대회 제출한 흔적이 없어서. 혹시 제출할 생각 있으면 제출 기간 5월까지로 늘려줄게!"
나 : " 11월까지로 연기된 줄 알았어. 그래주면 고맙지. 바로 제출할게. "
로 되어서 어제 Method 정리해서 제출하였다.
Round 1 은 성능평가 , Round 2 는 code 평가로 이어지는 대회라서 우선 Round 1 에서 전체적인 성능을 포함하여 Method도 같이 달라고 했다.
모든 대회가 다 그렇듯 prediction file 의 validation 이 필요해서 그들이 만든 Java 프로그램으로 validation 도 끝냈고, 어떻게 될지는 모르지만 Round 2 candidate team 발표를 기다리는 중이다.
Round 1 후기
8개월동안 단백질-이온 , 혹은 단백질-리간드 상호작용과 그 결합 예측에 대해서 여러 논문들을 읽어 보았고 많은 것을 배웠다.
내 블로그의 여러 포스팅에서 발견할 수 있듯, 기존 논문들이 PSSM 을 기준으로 하여 결합예측을 많이 진행하여서, 그 모델링도 시도했다. 결과는 나쁘지 않았으나, 아무래도 Matrix를 학습시켜야 하다 보니 binding site 별로 만들어진 data 가 massive 해서 이것은 real-life 에는 적용이 어렵구나 생각했고, 그 다음으로 시도해 본 것은 서열기반 모델링이었다.
단백질 서열은 어떻게 보면 자연어로 볼 수도 있어서, 우리가 관심있는 서열의 위치 근처와 그 주변의 context 를 이용한 학습 방법도 많이 사용되고 있다. 비교적 간단한 모델을 사용하여 예측해보았는데, 결과가 좋게 나와서 이것을 최종으로 가져가게 되었다.
Alphafold, Rosetta 같은 3D 정보를 주는 tool 들과 함께 했으면 더 좋은 결과를 낼 수 있었을 것 같고, 그들의 사용은 아직 내가 익숙치 않아 먼저 이번에 ground truth 가 있는 데이터를 이용해 내 model 이 실제로 잘 예측했는가를 한번 보려고 한다.
IonBind 를 만들면서 팀으로 해볼까 생각을 했었지만, 내가 일정이 워낙 불규칙적이고 손에 잡고 있는 것들이 많아서 혼자 하는게 좋겠다는 생각으로 진행하였는데 다음엔 팀으로 해보는것도 좋을 것 같다. 내가 혼자 하면 시야가 좁긴 하니까. 내 깃헙에 소스코드가 있는데, 이번 해 안에 Keras -> Torch 로 바꾸고 모듈화 하는 것이 목표이다. 내가 만든 software 는 e2e로 만들고 싶은 마음으로...
만약 이 대회에 참가한 분들이 있다면 다들 고생하셨습니다! 혹시 문의 사항이 있으시면 여기 댓글로 알려주세요.
'Resources > Personal Projects' 카테고리의 다른 글
[Hist2Mol] Histology <-> Anti-cancer Drugs conversion using VAE (0) | 2023.03.29 |
---|---|
[Uniprot Challenge] SVM model metric (0) | 2023.03.24 |
[UniProt Challenge] Inferencing test data : 메모리... 메모리... (0) | 2022.12.13 |
[UniProt Challenge] MMseqs2 : 10,000x faster BLAST & profile generator (0) | 2022.09.27 |
[UniProt Challenge] Protein database download (0) | 2022.09.27 |
댓글