2023, Molecular Systems Biology
Peter K Sorger group
Graphical Abstract
오믹스 데이터 분석은 단백질 상호작용, 수정, 활성도에 대한 정보를 기반으로 한다.
이러한 정보들은 인간이 직접 큐레이션하는 것에 의존도가 높다.
주요한 문맥을 파악하는 자연어 처리 시스템은 인간 큐레이터들의 수고를 덜어주는 한편 지식 자원을 상당하게 늘려줄 수 있는데, 기계가 읽는 시스템은 오류율이 높고, 반복적이고 단편적인 정보를 만들어내는 경우가 많다.
이 논문에서는 다중 자연어처리 기법과 Integrated Network and Dynamical Reasoning Assembler (INDRA) 를 이용하여 대규모로 분자적인 메카니즘을 조립하는 방법에 대해서 설명하고자 한다.
INDRA 는 출판된 논문이나 pathway 데이터베이스로부터 추출된 정보 안에 있는 완전하거나 부분적인 교집합을 찾고, 기계 독해(machine reading) 의 신뢰도를 높이기 위해 예측 모델을 사용하여 결과적으로는 단편적인 정보들을 모아 비반복적이고 폭넓게 사용가능한 기계적인 지식을 조립하는 것을 목표로 한다.
INDRA 를 사용하여 고품질의 지식을 생성함으로 이 연구에서는 단백질-단백질 상호작용 데이터베이스를 연장할 수 있음을, 그리고 Cancer Dependency Map 에서 co-dependency 를 설명할 수 있음을 보였다.
Result
Conceptual overview of knowledge assembly
Structured + Unstructured biological knowledge -> machine-readable, mechanistic fragments.
Structured knowledge : pathway databases
Unstructured knowledge : literature, expert input in natural language
이렇게 만들어진 단편들은 분석 전에 coherent corpus 로 조립되어야 함.
B.
위에서 만들어진 "단편" 들은 분자 메카니즘을 불완전하게 나타냄. 이 경우 MEK 의 작용으로 인한 ERK 의 인산화 반응을 나타내는데, 붉은 색으로 표시되어있는 애들은 오류임.
"조립" 은 단편들간의 관계를 파악함으로서 사용가능한 정보를 나타내는 consensus representation 을 만드는데 도움을 줌.
여기서 결과는 MEKp.... phosphorylates ... (맨 끝)
INDRA 의 예시.
The INDRA knowledge assembly pipeline was used to create a Benchmark Corpus
벤치마크 셋을 만들기 위한 INDRA 파이프라인.
The pipeline starts with ~570 thousand publications processed by multiple reading systems, as well as structured database sources including Pathway Commons and SIGNOR.
필터링 (붉은 색) ; 정규화 (초록 색) ; 조립 (파란 색)
C : 중복된 statement 를 합치는 법. INDRA 에서 합쳐서 전체에서 가장 특정적인 문장을 만들게 됨.
F : Text mining 으로 조립 결과 + 어떤 근거로 그렇게 "조립" 했는지 알려주고 있음.
Identifying refinement relationships among Statements
INDRA에서 나타낸 용어의 상위성을 나타내고 있음. ( 상위성을 이용한 정제 ; Refinement )
Refinement 방법의 예시.
각 노드는 파란색(Pathway DB), 붉은색(machine reading) 으로부터 온 것. 출처의 수 (언급된 수) 의 형식으로 적혀있음.
For example, the statement “CREB1 is phosphorylated on S133” has five pieces of evidence from one pathway database source, and 48 mentions extracted by three reading systems.
밑으로 갈수록 refinement 되는 방향.
Estimating statement belief for a single machine reader
A. 오류의 종류를 분류해놓은 것. ( Confusion matrix 아님 )
B Reading system 3개의 비교. Empirical precision of three reading systems based on the number of mentions supporting a given Statement extracted by that reader.
...
We used manual curation to quantify the technical error and overlap characteristics of different machine reading systems and then developed predictive models that estimate the reliability of text-mined extractions in the form of a “belief score.”
...
C : Mathematical formulas for Statement correctness for three different Belief Models. Each model specifies the probability that a Statement is incorrect overall given that a specific number k of mentions support it from a given source.
erand: random error for the source;
esyst: systematic error for the source;
B(α, β): Beta function.
3가지 Belief model 중 "Binomial" 이 가장 좋았음.
Detecting and explaining gene codependency in cancer cell lines using an INDRA-assembled network
CHEK2와 CDKN1A 유전자의 공존 종속성을 보여주는 CRISPR와 RNAi 데이터
이는 다양한 암 세포 주에서 관찰됨.
DepMap 공존 종속성을 설명하는 네트워크 노드와 엣지의 패턴
세 가지 네트워크인 BioGRID 상호작용, INDRA 네트워크, 그리고 Reactome 경로에 의해 제공된 DepMap 종속성에 대한 설명의 교집합을 보여주는 Upset 플롯
INDRA 네트워크에 의해 제공된 DepMap 종속성에 대한 세 가지 유형의 설명의 교집합을 보여주는 Upset 플롯
INDRA 네트워크에서 파생된 ROCK2와 MPRIP 간의 종속성에 대한 예시 설명
Discussion
- 이 논문에서는 생물학적 상호작용에 대한 메커니즘적 원인 지식을 자동으로 강력하게 수집하는 방법을 INDRA 소프트웨어 시스템에 구현
- 이 방법은 통계 모델을 사용하여 각 문장의 신뢰성을 평가하고, 다양한 출처의 정보를 정규화하며, 문장간의 관계를 식별
- INDRA는 신뢰성 있는, 중복되지 않는 메커니즘적 지식을 크기 순으로 자동으로 수집하는 방법
- 텍스트를 읽는 다양한 시스템들이 동일한 텍스트 말뭉치로부터 다른 유형의 정보를 추출한다는 것이 이 연구의 눈에 띄는 결론 중 하나
- 읽기 시스템 오류의 직접적인 비교가 이러한 시스템을 개선할 가능성을 제안
- INDRA 도구의 사용은 바이오 큐레이션과 기능적 게놈학에 상당한 영향을 미칠 수 있는 잠재력
- 이 약속이 실현되기 위해서는 텍스트 읽기 시스템의 정밀도와 리콜을 향상시키는 추가적인 작업
'논문 리뷰 > Data & Text mining' 카테고리의 다른 글
An automated multi-modal graph-based pipeline for mouse genetic discovery (0) | 2023.05.30 |
---|
댓글