논문 리뷰/Other topics

Machine learning guided signal enrichment for ultrasensitive plasma tumor burden monitoring

Cho et al. 2022. 7. 28.

Machine learning guided signal enrichment for ultrasensitive plasma tumor burden monitoring | bioRxiv

 

Machine learning guided signal enrichment for ultrasensitive plasma tumor burden monitoring

In solid tumor oncology, circulating tumor DNA (ctDNA) is poised to transform care through accurate assessment of minimal residual disease (MRD) and therapeutic response monitoring. To overcome the sparsity of ctDNA fragments in low tumor fraction (TF) set

www.biorxiv.org

2022, bioRXiv

Dan A. Landau group

Result

Deep learning integratesmutagenesis features to distinguish ctDNA SNVs from sequencing error

1) 전처리

- 이전 연구에서는 sequencing error 를 줄이는데만 집중했기 때문에, germline SNP 과 sequencing error SNP 을 사용해서 분류기를 만들었었음.

- 하지만 sequencing error 뿐 아니라 ctDNA 특이적으로 나오는 signal 도 있을 것 이기 때문에, 이번에네는 germline SNP 이 positive label 로 사용되지 못함.

- 따라서 Tumor Fraction 이 높은 샘플들을 사용하여 모델링 진행.

- 이 샘플들에는 피부암, 폐암, 대장암 의 세 종류 cancer 가 포함됨.

- ctDNA SNV 는 병을 가지고 있지 않은 cfDNA 샘플들의 sequencing error 와 비교되었음.

- germline SNP 을 제거하기 위한 필터 + WGS artifact 제거 필터 + low BQ, MQ variant 필터 적용하여 modeling 에 robustness 를 더함

2) Additional feautures

- 전처리가 끝난 후 더 많은 feature space 탐색을 위해 몇 가지를 더 고려함

- Single base substitutions ( SBS ) 는 암으로부터 유래한 돌연변이 발생 과정에 영향을 미침. ( eg. SBS4,6 )

- ctDNA 는 더 짧게 shedding 되는 것으로 알려져 있음

- SNV 는 genome 에서 특히 많이 발견되는 구간이 존재하고, 이는 quiescent chromatin and late replicating regions 을 포함함.

 

3) 1,2 에서 말한 정보를 통합하기 위해서 가장 좋은 방법이 neural network라 생각하여 neural net 을 사용함.   

Original figure from paper Original figure from paper

- d 에서 볼 수 있듯 2차원의 cfDNA-representation 을 개발했는데, 이는 SBS, frangment length 같은 fragment level 의 feauture 를 포함하고 read edit distance, PIR 같은 quality metric 도 포함함. 

- 위와 병행하여 만든 두 번째 모델은 regional context 를 보기 위하여 만든 것으로, SNV를 포함하는 fragment가 여러가지 점수로 표현되는 식임. 

- 위에서 만든 CNN, MLP 앙상블 모델을 통해 ctDNA fragment 인지 cfDNA error 인지 분류하는 것을 만들었음. ( Sigmoid funciton, [0,1] ) 

4) Tumor-informed 와의 비교

- Tumor tissue 에 있는 variant ( tumor-confirmed variant ) SNV + healthy 로 부터 온 SNV artifact 를 섞어서 만듬

- Training 시에 Heldout 된 데이터를 사용 

- 이전 연구결과인 MRDetect와 비교했을 때 MRD-EDGE 에서 signal to noise ( S2N )  enrichment 가 높았음 ( 118 : 8.3 ) .

- LoD : in silico TF admixture 사용. TF=0 인 noise distribution 과 비교해 봤을 때, TF 1*10^-6 에서도 성능이 좋았음.

 

Advanced denoising and an enriched feature space enable enhanced CNV-based ctDNA detection

1) CNV classifier

- MRDetect 에서도 aneuploidy 를 잘 찾아냈지만, 검출되려면 genome 에 상당량의 CNV 가 있어야 됐음. ( >1Gb)

- 또한, 낮은 TF를 가지는 ctDNA 에서의 read depth skew 가 sample prep, alignment, biological factor 등에 의해서 영향받을 수 있다고 생각했음.

- 이러한 bias 들을 정정하기 위해, plasma WGS 를 대상으로 하는 기계학습 기반의 CNV denoising platform 을 만듬. 

- 이 분류기는 PoN(정상인들을 기반으로 만들어진 데이터) 에 학습된 robust principal component analysis (rPCA) 를사용하여 assay, batch, and recurrent noise 에 관계되는 background artifacts 를 정정하고자 함

- 평가를 위해 in silico mixture 생성

- TF 1*10^-5 까지 검출 가능하였음

2) LOH 를 이용한 BAF classifier

- Read depth skew 를 denoising 하는 것에 대한 개선책으로, Loss of heterozygosity ( LOH ) 가 CNV signal 에 중요한 영향을 미칠 것으로 예상함. 

- Copy-neutral LOD 는 read depth skew 로는 확인할 수 없고, plasma 에서 germline SNP 의 allelic imbalance 로 확인할 수 있음. 

- LOH의 영향을 받는 genome 영역의 주요 allele 은 tumor WGS의 분석을 기반으로 하며, BAF가 cfDNA pool 에서의 ctDNA 의 indicator 역할을 함. 

- LOH signal 을 사용하기 위해, 1Mbp 정도의 넓은 영역 plasma SNP 를 모았음.

- cfDNA pool 에 내재되어있는 bias와 mosaicism 을 설명하기 위해서, BAF 값들은 기대되는 분포인 0.5 와, PBMC 의 BAF 와 비교함. PBMC BAF 값들에서는 QC filter 를 사용해서 low coverage 에서 오느 이상한 signal, PBMC bias 를 제거함.

- TF 5*10^-5 까지 검출가능했음

3) Fragmentation classifier

- 잘 알려져 있는 fragmentation pattern 을 이용한 classifier 를 만들어보고자 했음. ctDNA 에서 shedding 되는 DNA 는 더 짧고, 일정하지 않은 길이라고 알려져 있음. 

- 따라서 tumor 에서의 deletion, amplication 에 관련된 segment 의 fragment length entropy 를 측정 ( Shannon's entropy 사용 ) 하였음.

- 다른 연구들에서는 non-cancer, cancer 의 fragmentation profile 을 비교했지만, 이 연구에서는 matched tumor tissue 를 사용함으로서 neutral plasma region 에서의 cfDNA fragment pool 이 internal control 로 사용되게 했음. 

- Amplificaiton(증폭으로 인한 ctDNA 의 큰 엔트로피), deletion(적은 엔트로피) 으로부터 entropy 측정

-TF 5*10^-5 까지 검출 가능했음

 

Read depth, BAF, fragment entropy 를 사용한 세 가지의 CNV classifier 는 CNV 의 상호보완적인 정보를 담고 있음. 따라서 MRD-EDGE 에서는 이 세 가지의 classifier 를 합쳐서 이용하여 예측해보고자함

plama WGS 에서의 aneuploidy signal 은 TF와 genome region 의 크기에도 영향을 받기 때문에 TF, CNV 의 cumulative size 를 downsize 하면서 본 결과 넓은 genome 영역, 좁은 genome 영역에서도 균일하게 성능이 잘 나왔음.

 

MRD-EDGE yields high performance in tumor-informed detection of early-stage colorectal cancer and postoperative MRD

Original figure from paper

- 기존에 사용하였던 샘플을 사용하여 기존 기술인 MRDetect과의 비교를 진행

- ctDNA 여부를 판단하기 위해 patient plasma 의 Z-score signal 이 사용됨

- Z score 는 control plasma 대비 90%의 specificity 로 설정됨

Pre-operative samples

- 그림에서 볼 수 있듯 SNV, CNV 에서 좋은 성능을 냈는데, 이는 matched data ( tumor ) 를 사용한 경우와, unmatched data 를 사용한 경우 둘 다 성능이 비슷했음. 

- 또한 CNV 의 경우 copy neutral LOH 를 고려함으로서 MRDetect 에서는 찾지 못했던 ctDNA(+) case 를 더 찾을 수 있었음. 

Post-operative samples

- post-operative sample 에서는 19명 중 8명이 ctDNA(+) 였는데, 그 중 4명은 recurrence 가 확인된 샘플 ( 시점은 수술 후 median 43일 ) 

- ctDNA(-) 였던 샘플 11명은 다 recur 샘플이 아님

- ctDNA(+) 이면서 recur 하지 않은 샘플들 : adj.therapy / short os / MSI 였음.

MRD-EDGE enables ctDNA monitoring in melanoma plasma WGS without matched tumor

1) Background

- 고형암에서는 tumor tissue 가 적은 경우도 있음.

- 이전 연구들에서는 bespoke panel 을 통해 추적관찰을 하려면 tumor tissue 가 꼭 필요했지만, 이는 DNA 양이 적거나 purity 가 낮은 샘플에서는 사용하기 어려울 수 있음. 

- 따라서 이는 tumor-agnostic 접근에 대한 필요성이 부각되는데, MRD-EDGE 로 de novo mutation calling 을 해볼 수 있게 하는 계기가 되었음. 

- 하지만 이는 mutation 에 대한 이전 정보가 없기 때문에 sequencing error 와 구분하기가 쉽지 않음. 

2) De novo mutation calling by MRD-EDGE

- De novo mutation calling 에서는 SNV 를 포함하는 모든 plasma fragment 에 대한 평가가 필요함. 

- fragment 의 수는 샘플 당 10^7 ~ 10^8 개임 ( 현재 WGS 코호트에서 ) 

- 이러한 SNV 들이 ctDNA signal 보다 훨씬 더 많은 cfDNA sequencing error signal 을 가지고 있기 때문에, 이 분류기를 만듬에 있어서 더 높은 specificity threshold 가 적용되어야 함을 생각함. 

- MRD-EDGE SNV classifier 의 threshold 를 정함에 있어서 이전에 사용한 in-silico admixture 를 사용함. 

- 이 경우 threshold 는 0.995 로 정했는데, TF 5*10^-5 기준으로 AUC 는 0.77 이었음. 

- Fragment level 의 benchmarking 후 sample level 로 진행하였는데, ICI 관련의 cohort 였음.

- 이 cohort 에서 pre-treatment 의 경우는 AUC 0.94 로 검출할 수 있었음. negative control 로 다른 암종으로 시험했는데 ( pre+post) 여기서는 positiveness 가 나오지 않았음.

 

3) Benchmarking MRD-EDGE 

- Benchmark 의 한 형식으로, target panel 과 비교해서 pre-treatment 에서의 detection 을 비교하고자 했음.

- MRD-EDGE, tumor-informed panel, de novo panel, ichorCNA 를 사용함. 

 

Figure from original paper

 

Method

SNV deep learning model architecture and model training.

To evaluate SNV fragments with our machine learning architecture, candidate SNV fragments were pulled from alignment files using pysam(v0.15.2) and salient features were encoded as input to our deep learning model architecture (Fig 1d) with a custom python (v3.6.8) script. There are two main components of our deep learning SNV model architecture: a regional MLP, and a fragment CNN.The MLP takes a tabular feature representation as input and consists of five fully-connected layers with ReLU activation functions of decreasing size. Each layer is preceded by a batch normalization layer and followed by a dropout layer (with the exception of dropout following the final layer). We represent cfDNA fragments as an 18x240 tensor (Fig 1d). Within the rows of the tensor we compare the one-hot encoded reference sequence to the R1 and R2 sequence of a cfDNA fragment containing a variant (either true somatic mutation or sequencing artifact). We also encode the length and position of R1 and R2, and wemark the position of the SNV to be classified as ctDNA or noise. The columns of the matrix mark individual nucleotides along the length of the fragment.The R1 and R2 regions are padded with neutral values (0.2 in each of the 5 possible nucleotides N, A, C, T, G) where the read does not overlap the reference sequence. This tensor serves as input to a CNN which consists of 4 one dimensional convolution layers (convolving over the base pair width dimension), each followed by a max pooling operation. This is then followed by three fully-connected layers (with ReLU activation) and a subsequent dropout layer, and ends with a single sigmoid-activated fully-connected layer (parallel to the MLP). Model architectures are built in Keras(v.2.3.0) with a Tensorflow base(1.14.0). The fragment tensor has potential access to features including fragment length, key genomic features including mutation type, trinucleotide context, and leading or lagging strand, and quality metrics such as PIR and edit distance (how many variants against the reference sequence are present in a fragment). The tensor structure is coded to account for all possible CIGAR outputs, including insertions, deletions,skips,and soft masks, by inserting ‘N’ (base undetermined) values in reads (deletions, soft skips, soft masks) or the reference sequence and as needed in the alternate read (insertions).

댓글