데이터/Data Manipulation12 [PandasAI] Swiss army knife for data processsing 🐼Introducing PandasAI: The Generative AI Python Library 🐼 | by Gabe Araujo, M.Sc. | May, 2023 | Level Up Coding (gitconnected.com) 🐼Introducing PandasAI: The Generative AI Python Library 🐼 Pandas AI is an additional Python library that enhances Pandas, the widely-used data analysis and manipulation tool, by incorporating… levelup.gitconnected.com gventuri/pandas-ai: Pandas AI is a Python library.. 데이터/Data Manipulation 2023. 5. 24. [einops] 차원 관리 툴 이제 차원 관리는 einops (yongwookha.github.io) 이제 차원 관리는 einops stupidly easy yongwookha.github.io arogozhnikov/einops: Deep learning operations reinvented (for pytorch, tensorflow, jax and others) (github.com) 데이터/Data Manipulation 2023. 4. 28. [0] 데이터 품질 높이기 데이터의 품질과 신뢰성 높이기. 어떤 작업들이 필요할까 ? 1) 회사 플랫폼에 data quality rule을 만들어서 테스트 실험 데이터에 적용 경우 NGS QC 데이터를 다루는 경우가 많은데, 먼저 data 를 가지고 process 를 진행하기 전 테스트를 진행한다 실험 데이터는 정량화된 값이 많기 때문에, 시퀀싱에 관련된 인자들을 고려한 선형 / 비선형 모델을 만든 후 그것에 넣어봄 1차적으로 process 가 들어가기 전 어떤 형식으로 해석이 될 지 알 수 있음 / 혹은 사용할지, 사용하지 않을지 알 수 있음. 2) 개념적으로 데이터 품질 관리를 위해 데이터 리니지, 데이터 카탈로그 등으로 데이터 품질 관리와 히스토리를 관리 A. 데이터 리니지 데이터 리니지는 데이터의 수집과 저장, 이동과 통합.. 데이터/Data Manipulation 2023. 4. 9. [Pytorch] Batch size 무시한 채 하나만 test 하고 싶은 경우 [Deep Learning] [Pytorch] ValueError: Expected more than 1 value per channel when training, got input size torch.Size([1, 512, 1, 1]) - model.eval()로 해결 ! (tistory.com) [Deep Learning] [Pytorch] ValueError: Expected more than 1 value per channel when training, got input size torch.Size([1, 512, 1 에러 발생 상황 : 1) Resnet 에 배치사이즈 100으로 이미지 데이터를 학습 시켰다. 2) 모델 학습이 완료된 후 학습한 모델에 1개의 테스트 인풋을 넣고 예측값을 확인하려.. 데이터/Data Manipulation 2023. 2. 3. Graph 자료 모음 Visualize Similarities Between Companies With Graph Database | by Khuyen Tran | Medium Visualize Similarities Between Companies With Graph Database Build and Analyze Graph Database with Neo4j khuyentran1476.medium.com Graphs with Python | by Dmytro Nikolaiev (Dimid) | Towards Data Science Graphs with Python: Overview and Best Libraries Graph analysis, interactive visualizations, and graph machin.. 데이터/Data Manipulation 2022. 10. 20. [Python] Missingno Package : Overview of new datasets ResidentMario/missingno: Missing data visualization module for Python. (github.com) 데이터/Data Manipulation 2022. 10. 20. [Pandas] Stratified sampling with pd.DataFrame.sample() pandas.DataFrame.sample — pandas 1.5.0 documentation (pydata.org) pandas.DataFrame.sample — pandas 1.5.0 documentation Default ‘None’ results in equal probability weighting. If passed a Series, will align with target object on index. Index values in weights not found in sampled object will be ignored and index values in sampled object not in weights will be assigned we pandas.pydata.org Pandas 에.. 데이터/Data Manipulation 2022. 10. 13. [6] Stratified K-fold 의 여러가지 방법 논문을 읽던 도중 실험 데이터에 적용할 수 있는 좋은 K-fold 방법이 소개된 피규어가 있어서 가져와 보았다. 논문은 Machine learning enables detection of early-stage colorectal cancer by whole-genome sequencing of plasma cell-free DNA | BMC Cancer | Full Text (biomedcentral.com) Machine learning enables detection of early-stage colorectal cancer by whole-genome sequencing of plasma cell-free DNA - BMC Can Background Blood-based methods using c.. 데이터/Data Manipulation 2022. 9. 6. [4] Python list comprehension 써보기. 파이썬에서 리스트 안에 리스트가 있는, "Nested list" 일 때, flatten ( nested list 를 하나의 리스트로 통합하는 ) 을 하는 좋은 방법을 소개한다. 1) List comprehension netsted_list = [[1, 2], [3, 4], ["a", "b"]] new_list = [item for nested_list_sub in nested_list for item in nested_list_sub] print(new_list) # output [1, 2, 3, 4, 'a', 'b'] 리스트(nested_list) 안에 리스트(nested_list_sub)를 하나씩 가지고 와서(item), 새로운 리스트(new_list) 로 받아서 저장해주는 방법이다. List com.. 데이터/Data Manipulation 2022. 5. 29. [3] Pandas transform : lambda 대신 데이터프레임에 사용가능, 하지만 더 다양하게. When to use Pandas transform() function | by B. Chen | Towards Data Science When to use Pandas transform() function Some of the most useful Pandas tricks towardsdatascience.com 데이터/Data Manipulation 2022. 5. 29. [2] Pandas cut : 조건식 있는 loc 대신 쓸 수 있는 방법. bins=[0, 12, 19, 61, 100] labels=[' 데이터/Data Manipulation 2022. 5. 29. [1] Pandas query : 한 번만 써보자! Introduction Pandas 를 사용하여 EDA 를 진행할 때, import seaborn as sns import matplotlib.pyplot as plt import os import numpy as np import pandas as pd iris = sns.load_dataset('iris') iris 에서 sepal_length 가 5~6 사이인 row만 뽑고 싶을 때, 보통 이렇게 많이 쓴다. iris[(iris.sepal_length>5) & (iris.sepal_length 데이터/Data Manipulation 2022. 5. 27. 이전 1 다음