최근에 PandasAI 라는 것이 나왔는데,
Pandas 기반으로 imputation, data augmentation 등 기계학습이나 데이터 분석에 필요한 전처리를 자동으로 진행해준다.
특히 imputation 기능하고 data clean 기능이 주목할만 한데,
imputation 의 경우 여러 알고리즘을 사용할 수 있는지는 모르겠으나 ( 현재 기준으로 documentation 이 없음 )
아주 쉽게 missing value 를 채워넣을 수 있다.
또한 data clean 모듈은
import pandasai as pdai
# Load the dataset
data = pdai.read_csv('data.csv')
# Clean the dataset by removing missing values
cleaned_data = pdai.clean_data(data)
# Save the cleaned dataset
cleaned_data.to_csv('cleaned_data.csv', index=False)
로 간단하게 처리할 수 있으니, 나중에 한번 사용해봄직 하다.
Pandas 를 이용한 PandasAI 는 간단한 시각화까지 제공하니, 간단한 EDA 는 이것드로도 잘 사용할 수 있지 않을까
그리고 Github 에 가면 좀 더 재미있는 예제들이 있다. LLM 을 이용한 exercise 들도 해보면 좋을 것 같다.
'데이터 > Data Manipulation' 카테고리의 다른 글
[einops] 차원 관리 툴 (0) | 2023.04.28 |
---|---|
[0] 데이터 품질 높이기 (0) | 2023.04.09 |
[Pytorch] Batch size 무시한 채 하나만 test 하고 싶은 경우 (0) | 2023.02.03 |
Graph 자료 모음 (0) | 2022.10.20 |
[Python] Missingno Package : Overview of new datasets (0) | 2022.10.20 |
댓글