데이터/Data Manipulation

[Pandas] Stratified sampling with pd.DataFrame.sample()

Cho et al. 2022. 10. 13.

pandas.DataFrame.sample — pandas 1.5.0 documentation (pydata.org)

 

pandas.DataFrame.sample — pandas 1.5.0 documentation

Default ‘None’ results in equal probability weighting. If passed a Series, will align with target object on index. Index values in weights not found in sampled object will be ignored and index values in sampled object not in weights will be assigned we

pandas.pydata.org

 

Pandas 에서는 dataframe 객체에 대해서 [0,1] 범위로 (0~100%) dataframe 을 무작위 추출해주는 메소드를 제공한다.

Extracted from Pandas Doc

 

또한 weights= 에 column 이름이나 target 이름을 주면 stratified sampling 을 해 주는 것으로 알고 있는데,  하지만 이는 Class가 binary 일 때 작동하지 않는다는 stackoverflow 의 답변이 있었다 

하지만 이는 class 가 0,1 로서 coding 되어있을 때 일어나는 문제로

Class 이름을 1,2 로 바꾸어주면 해결된다. 

 

댓글