데이터의 품질과 신뢰성 높이기.
어떤 작업들이 필요할까 ?
1) 회사 플랫폼에 data quality rule을 만들어서 테스트
- 실험 데이터에 적용 경우
- NGS QC 데이터를 다루는 경우가 많은데, 먼저 data 를 가지고 process 를 진행하기 전 테스트를 진행한다
- 실험 데이터는 정량화된 값이 많기 때문에, 시퀀싱에 관련된 인자들을 고려한 선형 / 비선형 모델을 만든 후 그것에 넣어봄
- 1차적으로 process 가 들어가기 전 어떤 형식으로 해석이 될 지 알 수 있음 / 혹은 사용할지, 사용하지 않을지 알 수 있음.
2) 개념적으로 데이터 품질 관리를 위해 데이터 리니지, 데이터 카탈로그 등으로 데이터 품질 관리와 히스토리를 관리
A. 데이터 리니지
- 데이터 리니지는 데이터의 수집과 저장, 이동과 통합, 분석 폐기에 이르는 모든 라이프 사이클을 추적하는 것
B. 데이터 카탈로그
3) 데이터 품질을 저하시키는 요인이 다양함. 트래킹이 되지 않은 ETL과 불필요하게 많은 데이터셋 등을 제어해야 함
- 동일한 로우 데이터가 엔드 유저에게 10가지 유형으로 제각각 다르게 쪼개지고, 그 쪼개진것들 간 조인이나 트랜스폼 등이 사용되면서 데이터 품질 저하가 발생하기도 함
- 데이터 카탈로그란 개념이 트래킹 모니터링을 포함
- 파이프라인에서 raw대비 컬럼 타입의 변환, 컬럼명의 변환 등등
- 어떤 파이프라인이고 어떤 목적이고, 태깅과 메타데이터를 보면서 리니지 관리
A Metadata Platform for the Modern Data Stack | DataHub (datahubproject.io)
-> 메타데이터 리니지에 좋음.
great-expectations/great_expectations: Always know what to expect from your data. (github.com)
-> 데이터 퀄리티 체크에 도움될만한 프로그램!
'데이터 > Data Manipulation' 카테고리의 다른 글
[PandasAI] Swiss army knife for data processsing (0) | 2023.05.24 |
---|---|
[einops] 차원 관리 툴 (0) | 2023.04.28 |
[Pytorch] Batch size 무시한 채 하나만 test 하고 싶은 경우 (0) | 2023.02.03 |
Graph 자료 모음 (0) | 2022.10.20 |
[Python] Missingno Package : Overview of new datasets (0) | 2022.10.20 |
댓글