데이터/Data Manipulation

[0] 데이터 품질 높이기

Cho et al. 2023. 4. 9.

데이터의 품질과 신뢰성 높이기. 

어떤 작업들이 필요할까 ? 

1) 회사 플랫폼에 data quality rule을 만들어서 테스트

  • 실험 데이터에 적용 경우
  • NGS QC 데이터를 다루는 경우가 많은데, 먼저 data 를 가지고 process 를 진행하기 전 테스트를 진행한다
  • 실험 데이터는 정량화된 값이 많기 때문에, 시퀀싱에 관련된 인자들을 고려한 선형 / 비선형 모델을 만든 후 그것에 넣어봄
  • 1차적으로 process 가 들어가기 전 어떤 형식으로 해석이 될 지 알 수 있음 / 혹은 사용할지, 사용하지 않을지 알 수 있음. 

2) 개념적으로 데이터 품질 관리를 위해 데이터 리니지, 데이터 카탈로그 등으로 데이터 품질 관리와 히스토리를 관리

A. 데이터 리니지

  • 데이터 리니지는 데이터의 수집과 저장, 이동과 통합, 분석 폐기에 이르는 모든 라이프 사이클을 추적하는 것

B. 데이터 카탈로그

 

3) 데이터 품질을 저하시키는 요인이 다양함. 트래킹이 되지 않은 ETL과 불필요하게 많은 데이터셋 등을 제어해야 함

  • 동일한 로우 데이터가 엔드 유저에게 10가지 유형으로 제각각 다르게 쪼개지고, 그 쪼개진것들 간 조인이나 트랜스폼 등이 사용되면서 데이터 품질 저하가 발생하기도 함
  • 데이터 카탈로그란 개념이 트래킹 모니터링을 포함
  • 파이프라인에서 raw대비 컬럼 타입의 변환, 컬럼명의 변환 등등
  • 어떤 파이프라인이고 어떤 목적이고, 태깅과 메타데이터를 보면서 리니지 관리

 

A Metadata Platform for the Modern Data Stack | DataHub (datahubproject.io)

 

A Metadata Platform for the Modern Data Stack | DataHub

DataHub is a data discovery application built on an extensible metadata platform that helps you tame the complexity of diverse data ecosystems.

datahubproject.io

-> 메타데이터 리니지에 좋음.

 

 

great-expectations/great_expectations: Always know what to expect from your data. (github.com)

 

GitHub - great-expectations/great_expectations: Always know what to expect from your data.

Always know what to expect from your data. Contribute to great-expectations/great_expectations development by creating an account on GitHub.

github.com

-> 데이터 퀄리티 체크에 도움될만한 프로그램!

 

 

댓글