728x90
In [1]:
import pandas as pd
pd.set_option('display.max_columns',500) #생략없이 모두 출력
In [2]:
marathon_2015 = pd.read_csv("C://Users//82106//Desktop//boston-results//marathon_results_2015.csv")
marathon_2016 = pd.read_csv("C://Users//82106//Desktop//boston-results//marathon_results_2016.csv")
marathon_2017 = pd.read_csv("C://Users//82106//Desktop//boston-results//marathon_results_2017.csv")
bar plot¶
matplotlib¶
In [3]:
from matplotlib import pyplot as plt
In [4]:
marathon_2017.head().append(marathon_2017.tail())
Out[4]:
남자 여자 참여자 그래프¶
In [5]:
marathon_2017['M/F'].value_counts()
Out[5]:
In [6]:
#plt.figure(figsize = (20,10))
plt.bar(marathon_2017['M/F'].value_counts().index,marathon_2017['M/F'].value_counts(),color = 'red',
alpha = 0.4,width = 0.8, align = "edge")
#alpha는 투명도, align는 한쪽끝으로 정렬
plt.title("marathon 2017 male VS female")
plt.xlabel('sex', fontsize = 15, rotation = 40) #rotaion은 회전
plt.ylabel("counts", fontsize = 15)
#plt.xticks([1,2]) # x축 단위 바꾸기
plt.show()
참여자 나이¶
In [7]:
#범주화 하기
bins = [0,10,20,30,40,50,60,70,80,90]
bins_names = ["0세","10대",'20대',"30대",'40대',"50대",'60대',"70대",'80대']
age_categories = pd.cut(marathon_2017['Age'], bins, labels = bins_names)
In [8]:
age_categories=pd.DataFrame(age_categories)
In [9]:
marathon_2017['age_categories'] = age_categories
In [10]:
marathon_2017['age_categories'].value_counts()
Out[10]:
In [11]:
plt.bar(marathon_2017['age_categories'].value_counts().index,marathon_2017['age_categories'].value_counts())
plt.title("age category")
plt.show()
In [12]:
from matplotlib import pyplot as plt
plt.rcParams['figure.figsize'] = [10, 5] # [width, height] (inches)
import seaborn as sns
참여 국가(USA 빼고)¶
In [13]:
marathon_2017_country = marathon_2017['Country'].isin(['USA'])
marathon_2017_country=marathon_2017[~marathon_2017_country]
In [14]:
plt.figure(figsize = (100,30))
sns.countplot('Country', data = marathon_2017_country)
plt.title("Runner Country (drop USA)", fontsize = 20)
plt.show()
In [15]:
marathon_2017.head()
Out[15]:
참여자 성별, 나이¶
In [16]:
age_runner=marathon_2017.sort_values(by=['age_categories'])
In [17]:
sns.countplot('age_categories', data = age_runner, hue = 'M/F')
plt.show()
반응형
'나는야 데이터사이언티스트 > PYTHON' 카테고리의 다른 글
[Python]데이터 시각화, 연관성 분석 heat map, pairplot 그리기 (0) | 2020.03.22 |
---|---|
[Python]데이터 시각화, matplotlib & seaborn - line Plot(선 그래프) (0) | 2020.03.20 |
[Python]pandas.cut - 데이터 범주화하기 / if문 쓰지않고 데이터 나누기 (0) | 2020.03.12 |
[Python]파이썬 데이터 전처리 기초 정리 (0) | 2020.03.05 |
[Python] sklearn.pipeline, 파이프라인(Pipeline)이란 ? (0) | 2020.02.23 |