데이터/Data Manipulation

[PandasAI] Swiss army knife for data processsing

Cho et al. 2023. 5. 24.

🐼Introducing PandasAI: The Generative AI Python Library 🐼 | by Gabe Araujo, M.Sc. | May, 2023 | Level Up Coding (gitconnected.com)

 

🐼Introducing PandasAI: The Generative AI Python Library 🐼

Pandas AI is an additional Python library that enhances Pandas, the widely-used data analysis and manipulation tool, by incorporating…

levelup.gitconnected.com

gventuri/pandas-ai: Pandas AI is a Python library that integrates generative artificial intelligence capabilities into Pandas, making dataframes conversational (github.com)

 

GitHub - gventuri/pandas-ai: Pandas AI is a Python library that integrates generative artificial intelligence capabilities into

Pandas AI is a Python library that integrates generative artificial intelligence capabilities into Pandas, making dataframes conversational - GitHub - gventuri/pandas-ai: Pandas AI is a Python libr...

github.com

 

최근에 PandasAI 라는 것이 나왔는데, 

Pandas 기반으로 imputation, data augmentation 등 기계학습이나 데이터 분석에 필요한 전처리를 자동으로 진행해준다.

 

특히 imputation 기능하고 data clean 기능이 주목할만 한데,

imputation 의 경우 여러 알고리즘을 사용할 수 있는지는 모르겠으나 ( 현재 기준으로 documentation 이 없음 )

아주 쉽게 missing value 를 채워넣을 수 있다.

 

또한 data clean 모듈은 

import pandasai as pdai

# Load the dataset
data = pdai.read_csv('data.csv')
# Clean the dataset by removing missing values
cleaned_data = pdai.clean_data(data)
# Save the cleaned dataset
cleaned_data.to_csv('cleaned_data.csv', index=False)

로 간단하게 처리할 수 있으니, 나중에 한번 사용해봄직 하다.

 

Pandas 를 이용한 PandasAI 는 간단한 시각화까지 제공하니, 간단한 EDA 는 이것드로도 잘 사용할 수 있지 않을까

그리고 Github 에 가면 좀 더 재미있는 예제들이 있다. LLM 을 이용한 exercise 들도 해보면 좋을 것 같다.

 

 

 

댓글