Resources/Personal Projects16 [Hist2Mol] 데이터 찾기 프로젝트의 목적이 Histopathology 로 부터 Drug molecule 구조를 생성하는 것 이기 때문에, 환자의 histopathology 정보와 더불어 Drug 처리 정보도 필요했다. ( 어떤 drug 인지도 ) Histopathology data : Aspera Faspex (cancerimagingarchive.net) Aspera Faspex faspex.cancerimagingarchive.net https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwif9-T-8tH-AhUAqFYBHUk9DE4QFnoECAsQAQ&url=https%3A%2F%2Fwiki.cancerimagingarchive.net%2Fpage.. Resources/Personal Projects 2023. 4. 28. [Hist2Mol] Histology <-> Anti-cancer Drugs conversion using VAE Gex2SGen: Designing Drug-like Molecules from Desired Gene Expression Signatures | Journal of Chemical Information and Modeling (acs.org) 3/27 에 JCIM 에서 나온 논문. 이 논문에서는 Gene expression - > Molecule 로 가는 VAE 모델을 학습했는데, 그렇다면 Histology 를 이용하여, 항암치료나 anti-cancer drug 에 대한 영향이 있을 것이므로, 이에 대한 비슷한 약을 디자인하는 연구를 진행할 수도 있지 않을까 라는 것에 대한 생각. Chemotherapy responder, non-responder 따라서 drug response 와 survival 이.. Resources/Personal Projects 2023. 3. 29. [Uniprot Challenge] SVM model metric Accuracy = 0.97 AUC ( Micro ) = 0.98 Recall ( Micro ) = 0.97 F1 ( Micro ) = 0.97 Precision ( Micro ) = 0.97 AUC ( Macro ) = 0.91 Recall ( Macro ) = 0.82 F1 ( Macro ) = 0.84 Precision ( Macro ) = 0.88 Resources/Personal Projects 2023. 3. 24. [UniProt Challenge] Round 1, 종료. 드디어 8개월간의 여정이 일단락되었다. 포스팅을 주기적으로 하려 했으나 정말 정신이 없었어서 round 1 이 끝난 지금에야 포스팅을 한다! 심지어 이것도 내지 못할 뻔 했는데 일화를 설명하자면, 대회 담당자 : "너 Synapse 에 등록된 것으로 나오긴 하는데, 대회 제출한 흔적이 없어서. 혹시 제출할 생각 있으면 제출 기간 5월까지로 늘려줄게!" 나 : " 11월까지로 연기된 줄 알았어. 그래주면 고맙지. 바로 제출할게. " 로 되어서 어제 Method 정리해서 제출하였다. Round 1 은 성능평가 , Round 2 는 code 평가로 이어지는 대회라서 우선 Round 1 에서 전체적인 성능을 포함하여 Method도 같이 달라고 했다. 모든 대회가 다 그렇듯 prediction file 의 val.. Resources/Personal Projects 2023. 3. 12. [UniProt Challenge] Inferencing test data : 메모리... 메모리... 학습 완료. 드디어 Uniprot binding challenge 의 모델의 학습이 끝났다. 시험보고 하느라 좀 늦어진 것 같긴 한데... 그래도 validation metric 은 괜찮은 듯 하다. 이 대회는 training set : 19만개, test test : 100만개 (...?) 인 대회라, 대회 Kickoff meeting 에서도 말했지만 Uniprot 에서 annotated 되지 않은 protein 들의 binding site 를 조금이라도 예측해보고자 만든 대회다. 문제점 모델 파라미터는 0.6M , 가벼운 모델인데 아무래도 테스트 데이터가 100만개 정도이다 보니 이게 좀 걸림돌이었다. 1) 지금 모델이 아미노산 잔기에 대해서 하나하나 binding ion 과, binding scor.. Resources/Personal Projects 2022. 12. 13. [UniProt Challenge] MMseqs2 : 10,000x faster BLAST & profile generator BLAST 보다 10,000x 빠른 searching algorithm. C 로 짜여졌고 마틴 슈타이네거 교수님 논문. 17' Nat. Biotech 에 나온 툴로, 상당히 빠르긴 하다. 근데 문제는 내가 Many-for-many algorithm 이 아니라, One-for-many algorithm 을 사용해 query 각각의 PSSM 을 구해야 한다는 것. 어제 두 개를 비교해 보니 비슷한 느낌이긴 한데, 아마 DB 가 너무 커서 그럴수도 있어서 오늘 좀 더 작은 것으로 바꿔 볼 예정이다. 이하 내가 사용했던 부분 발췌. MMseqs2 User Guide soedinglab/MMseqs2: MMseqs2: ultra fast and sensitive search and clustering suite .. Resources/Personal Projects 2022. 9. 27. [UniProt Challenge] Protein database download Protein database 다운로드에 대한 archiving. 1. Uniprot Downloads | UniProt help | UniProt UniProt www.uniprot.org Resources/Personal Projects 2022. 9. 27. [UniProt Challenge] PSI-BLAST & PSSM : Protein representation import subprocess import os # Local Psi Blast installation path path_to_psiblast = 'C:\\Program Files\\NCBI\\blast-2.7.1+\\bin\\psiblast.exe' # Path to Proteins in Fasta format fasta_path = 'processed_fastas/mouse_train/' from os import listdir from os.path import isfile, join onlyfiles = [f for f in listdir(fasta_path) if isfile(join(fasta_path, f))] # psiblast -query A0JNU3.fasta -db swissprot.. Resources/Personal Projects 2022. 9. 26. [UniProt Challenge] CNN + Attention Attention-augmented CNN [1904.09925] Attention Augmented Convolutional Networks (arxiv.org) Attention Augmented Convolutional Networks Convolutional networks have been the paradigm of choice in many computer vision applications. The convolution operation however has a significant weakness in that it only operates on a local neighborhood, thus missing global information. Self-attention, on arxiv... Resources/Personal Projects 2022. 9. 17. [UniProt Challenge] Amino acid binding / pocket signature Mutation 에는 mutational signature 라고 해서, 어떠한 muatation 생겼을 때 그 mutation 이 어디에서부터 유래한 것인지, 말하자면 mutation 의 origin을 유추할 수 있는 signature가 많이 공개되어 있음. COSMIC | Mutational Signatures (sanger.ac.uk) COSMIC | Mutational Signatures Mutational Signatures (v3.3 - June 2022) IntroductionSomatic mutations are present in all cells of the human body and occur throughout life. They are the consequence of multipl.. Resources/Personal Projects 2022. 9. 15. [UniProt Challenge] PSSM : Binding residue representation Protein ligand-specific binding residue predictions by an ensemble classifier | BMC Bioinformatics | Full Text (biomedcentral.com) Protein ligand-specific binding residue predictions by an ensemble classifier - BMC Bioinformatics Background Prediction of ligand binding sites is important to elucidate protein functions and is helpful for drug design. Although much progress has been made, many cha.. Resources/Personal Projects 2022. 9. 15. [UniProt Challenge] Protein representation vector to image DeepInsight: A methodology to transform a non-image data to an image for convolution neural network architecture | Scientific Reports (nature.com) DeepInsight: A methodology to transform a non-image data to an image for convolution neural network architecture - Scientific Re It is critical, but difficult, to catch the small variation in genomic or other kinds of data that differentiates phenotyp.. Resources/Personal Projects 2022. 8. 29. 이전 1 2 다음