Dissecting cell identity via network inference and in silico gene perturbation | Nature
Lilianna Solnica-Krezel & Samantha A. Morris Groups
2023, Nature
Abstract
Cell identity는 유전자-조절 네트워크로 대표되는 유전자 발현의 복잡한 조절에 의해 통제됨
이 논문에서는 single-cell multi omics 데이터를 사용하여 만들어진 유전자 조절 네트워크로 wildtype 데이터를 대상으로 하는 in silico transcription factor perturbations 을 수행하고 cell identity 의 변화되는 정도를 시뮬레이션함.
기계 학습 기반 접근법인 CellOracle을 잘 확립된 패러다임(마우스 및 인간 조혈, 제브라피쉬 발생)에 적용하고 전사 인자 섭동의 결과로 발생하는 표현형의 변화를 올바르게 모델링
발생 중인 제브라피시의 in silico transcription factor perturbations 을 통해 확립된 노토 코드 조절기인 노토의 손실로 인해 이전에 보고되지 않은 표현형을 시뮬레이션하고 실험적으로 검증, 축방향 중배엽 조절기인 lhx1a를 식별
함께, 이러한 결과는 CellOracle이 전사 인자에 의한 세포 정체성의 조절을 분석하는 데 사용될 수 있으며, 발달과 분화에 대한 기계적 통찰력을 제공할 수 있음을 보여 줌.
먼저 방법론에 대한 Supplementary Figure.
최근에는 Single cell sequencing 기술과 접목하여 single cell ATAC sequencing (scATAC-seq)을 통해 세포 개별 Chromatin Accessibility 정보를 얻는데 많이 사용하고, single cell RNA sequencing (scRNA-seq) 과 함께 시행하여 다양한 세포군을 구분, 발생 과정에 따른 유전자 발현 패턴을 알아보는데 상호 보완적으로 사용[1]
논문 :
Supplementary Figure 1a~1d
1. single-cell ATAC-seq + scRNA-seq 을 이용하여 GRN을 구축하고
2. perturbation target gene 을 대상으로 first, second, third... downstream gene을 정함
3. sc gene expression vector 를 사용하여 target gene 의 KO 을 simulation 한 vector 를 생성 ( 이것이 perturbation simulation ) 한 다음에 vector 값의 차를 통해서 input delta X 를 만들어 냄
4. 그 후 input delta X 를 GRN coefficient matrix 와 곱하여 propagation 을 진행함. 이 과정을 계속 반복.
Supplementary Figure 1e
5. 1~4 의 과정이 cell type pair 별로 모두 이루어지고 ( 관심 cell 을 기준으로 하는 모든 pair ), 이 값은 2D dimenstion 에 projection 됨 ( cell trajectory embedding space ).
6. Cell of interest 기준으로 다른 cell type embedding 까지의 unitary vector 를 계산 ()
7. 유전자 발현량 shift simulation을 project 하기 위해, 이웃에 있는 cell들에 대해서 weighted average vector 를 계산함.
- 이는 Cell of interest 를 대표하는 하나의 vector를 구하기 위함인데, 계산식은 위에 나와있는대로, 각 cell pair 의 probability 의 softmax 와 단위벡터의 곱의 총 합임.
- 여기서 probability 는 저자들이 method 에서 설명하고 있는대로, <cell transition probability> 로 보임.
8. 이전 단계에서 계산된 cell 을 대표하는 벡터가 나왔다면, 5~7 의 과정을 모든 세포에 반복함. 이것은 cell state transition vector map 을 만들기 위함임.
- Vector map 은 전사인자 perturbation 으로 인한 작은 initial cell identity 의 변화의 시뮬레이션을 나타냄.
- 이는 한 cell 이 어느 cell 로 변화할지에 대한 방향성 정도로 이해하면 될 듯 함.
Fig 1에서는 앞에서 말했던 방법론을 이용하여 계산된 vector representation 을 2,730 myeloid progenitor cells 에 대해서 보여주고 있음.
특히 e~h 까지 이어지는 과정은 Gata1, Spi1 의 perturbation 에 따라서 어떻게 진행이 변하는가를 보여주고 있음.
i 에서는 전사인자 90개에 대한 K/O simulation 결과를 보여주고 있음. 점선은 False-positive rate 0.01 에 해당하는 cutoff range.
- 여기서 Perturbation score 라는 개념이 나오는데 이는 < pseudotime 기울기 벡터와 내적을 사용 > 하여 계산하는 것임. 그에 대해 살펴보자면..
- 시뮬레이션 결과를 해석하기 위해 만들어진 점수로
세포 분화 벡터 필드와 KO 시뮬레이션 벡터 필드 간의 유사성을 정량화
1) 세포 분화 pseudotime calculation
세포 분화 pseudotime 은 diffusion-map 기반 의사시간 계산 알고리즘인 DPT를 사용하여 scanpy.tl.dpt
2) pseudotime 데이터 기반 벡터 계산
pseudotime 데이터는 n개의 2D 그리드 포인트(기본값으로 n = 40)에 의해 n개로 전송
이 계산을 위해 CellOracle에서 데이터 전송을 위한 KNN 회귀와 다항식 회귀 구현
발달 분기가 비교적 간단한 분기일 때 다항식 회귀 선택
더 복잡한 분기 구조를 위해 KNN 회귀를 사용
numpy.gradient 함수를 사용하여 2D 그리드 포인트에서 pseudotime 데이터의 구배를 계산하여 분화 방향을 나타내는 2D 벡터 맵을 생성 ( Supplementary Fig 4a)
3) 분화 및 KO 시뮬레이션 벡터 필드 간 내적 계산
Perturbation score = pseudotime data * Simulation data
4) 랜덤화된 GRN 모델을 사용하여 PS cutoff 값 계산
이렇게 두 개 종류의 Perturbation Score 가 나오게 되는데,
Positive : 분화의 방향과 simulation 의 방향이 같은 것. 즉, TF 가 perturbation 되었을 때 분화를 촉진하는 경우.
Negative : 그 반대의 경우로, TF 가 perturbation 되었을 때, 분화가 저해되는 경우
로 나눠질 수 있음.
따라서 위에서 정의한 score 를 따라서 그림을 그려보게 되면 이렇게 나오는데, 4가지 경우가 있을 수 있음
positive 의 경우 TF 가 분화를 촉진하는 경우가 되므로 시간적으로 좀 더 나중에 cell 이 accumulate 되는 것이고,
negative 의 경우는 TF 가 분화를 저해하는 것이 되므로 그 시간대에 cell 이 분화하지 못하고 accumulate 되는 것으로 이해할 수 있음
Figure from paper. Zebrafish 에서 simulation 결과들. | Zebrafish 에서 실제 실험한 결과 |
이후의 내용들은 실제로 zebrafish model 에서 방법론을 사용해 예측한 후 실험적으로 검증하는 부분들.
Discussion
의의
- perturbational single-cell omics 는 세포 정체성과 행동의 조절자를 모델링하고 예측할 수 있게 함.
- 예를 들어, scGen은 세포 감염 반응을 예측하기 위해 가변 자동 인코더와 잠재 공간 벡터 산술을 결합하나 이 접근 방식은 실험 데이터를 필요로 하고, 복잡한 블랙박스 모델에 의존하기 때문에 이러한 이전의 계산 섭동 접근법을 사용하여 시뮬레이션 결과 뒤에 있는 유전자 프로그램을 해석하는 것이 어려움
- 따라서 시뮬레이션은 유전자 조절이 세포 표현형과 어떻게 관련이 있는지 해석하는 수단이 부족합니다. 반면, 이전의 GRN 분석은 주로 정적 그래프 이론에 의존했고 셀 정체성을 동적 특성으로 고려할 수 없었음
- 이 논문에서는 computational perturbation을 GRN 모델링과 통합하여 이러한 한계를 극복하는 전략을 제시
- CellOracle : 네트워크 모델을 기반으로 한 시뮬레이션 및 벡터 시각화는 해석 가능하고 확장 가능하며 광범위하게 적용 가능한 동적 TF 기능 분석을 가능하게 함
- CellOracle은 멀티모달 데이터를 사용하여 각 세포 상태에 대한 체계적인 유전자 대 유전자 관계를 고려함으로써 세포 정체성의 변화를 시뮬레이션하며, 미분 유전자 발현이나 크로마틴 접근성만으로는 불가능한 복잡한 맥락 의존적 벡터 표현을 생성
- 과립구 분화에서 Gata1의 역할은 아마도 이 세포 유형에서 낮은 발현을 고려할 때 예측되지 않을 것
- 하지만, CellOracle은 이 상대적으로 가벼운 Gata1 표현형을 확증할 수 있습니다.
- 또한, 홍반에서 보고된 초기 단계 특이적 세포 운명 조절 역할을 정확하게 재현 > CellOracle의 이러한 용량은 이전에 보고되지 않은 표현형을 식별할 수 있음을 의미
한계
- CellOracle은 기존 궤적 공간 내에서 시뮬레이션 벡터를 시각화하므로 입력 scRNA-seq 데이터에 없는 셀 상태를 분석할 수 없음
- 그럼에도 불구하고 심각한 발달 장애 후 수집된 기존의 단일 세포 데이터는 유전자 기능의 손실 상황에서 새로운 전사 상태의 출현을 보고하지 않으며, 이는 비정상적인 발달 중에도 광범위한 운하화를 제안하여 CellOracle을 사용하여 TF 섭동 효과를 정확하게 시뮬레이션할 수 있도록 지원함.
- TF 시뮬레이션은 입력 데이터 가용성과 데이터 품질에 의해 제한
댓글