728x90
In [1]:
import pandas as pd
In [2]:
#Tistory 관련 모듈이라 상관 없음.
from IPython.core.display import display, HTML
display(HTML("<style>.container {width:90% !important;}</style>"))
In [16]:
#데이터 가져오기 https://www.kaggle.com/rojour/boston-results
marathon_2017 = pd.read_csv("C://Users//82106//Desktop//boston-results//marathon_results_2017.csv")
In [5]:
marathon_2017.head()
Out[5]:
범주화 하기¶
pandas.cut(x, bins, right: bool = True, labels=None, retbins: bool = False, precision: int = 3, include_lowest: bool = False,duplicates: str = 'raise')¶
참고 페이지 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html¶
1. 나누고 싶은 범주 정의¶
In [6]:
bins = [0,10,20,30,40,50,60,70,80,90]
2. 범주화 이름 정의¶
In [7]:
bins_names = ["0세","10대",'20대',"30대",'40대',"50대",'60대',"70대",'80대']
3. 범주화하고 싶은 데이터 가져와서 범주화 해주기¶
In [8]:
age_categories = pd.cut(marathon_2017['Age'], bins, labels = bins_names)
In [10]:
age_categories
Out[10]:
In [13]:
#데이터프레임으로 만들어주기
age_categories=pd.DataFrame(age_categories)
In [14]:
#marathon_2017에 age_categories 만들어주기
marathon_2017['age_categories'] = age_categories
In [15]:
marathon_2017.head()
Out[15]:
반응형
'나는야 데이터사이언티스트 > PYTHON' 카테고리의 다른 글
[Python]데이터 시각화, 연관성 분석 heat map, pairplot 그리기 (0) | 2020.03.22 |
---|---|
[Python]데이터 시각화, matplotlib & seaborn - line Plot(선 그래프) (0) | 2020.03.20 |
[Python]데이터 시각화, matplotlib & seaborn - Bar Plot(막대그래프) (0) | 2020.03.11 |
[Python]파이썬 데이터 전처리 기초 정리 (0) | 2020.03.05 |
[Python] sklearn.pipeline, 파이프라인(Pipeline)이란 ? (0) | 2020.02.23 |