728x90
데이터는 Kaggle에 있는 bostan marathon 데이터를 참고했다.
https://www.kaggle.com/rojour/boston-results
csv 파일 빠르게 불러오기(작업 효율성 증가)¶
In [29]:
#tistory 관련 코드(필요없음)
from IPython.core.display import display, HTML
display(HTML("<style>.container {width:90% !important;}</style>"))
In [1]:
import pandas as pd
In [4]:
%%time
marathon_2017 = pd.read_csv("C://Users//82106//Desktop//boston-results//marathon_results_2017.csv")
In [6]:
marathon_2017.head()
Out[6]:
1. Python library for Apache Arrow¶
Apache Arrow란 메모리 내 데이터를 위한 언어 간 개발 플랫폼이다. 자세한 내용은 https://arrow.apache.org/
In [5]:
! pip install pyarrow
In [15]:
#feather파일 형식으로 바꾸기
marathon_2017.to_feather("C://Users//82106//Desktop//boston-results//marathon_2017.feather")
In [17]:
%%time
marathon_2017_feather = pd.read_feather("C://Users//82106//Desktop//boston-results//marathon_2017.feather")
In [18]:
marathon_2017_feather.head()
Out[18]:
In [19]:
type(marathon_2017_feather)
Out[19]:
2. dask.dataframe¶
Dask 패키지를 사용하면 가상 데이터프레임을 만들 수 있다. 가상 데이터프레임은 Pandas 데이터프레임과 비슷한 기능을 제공하지만 실제로 모든 데이터가 메모리 상에 로드되어 있는 것이 아니라 하나 이상의 파일 혹은 데이터베이스에 존재하는 채로 처리할 수 있는 기능이다. 참조 : https://datascienceschool.net/view-notebook/2282b75b2a63448087b77269885c27cb/
In [22]:
import dask.dataframe
In [26]:
%%time
marathon_2017_desk = dask.dataframe.read_csv("C://Users//82106//Desktop//boston-results//marathon_results_2017.csv")
In [27]:
marathon_2017_desk.head()
Out[27]:
In [28]:
#desk는 compute() 매소드를 호출해야 값을 볼 수 있다.
marathon_2017_desk['Age'].mean().compute()
Out[28]:
반응형
'나는야 데이터사이언티스트 > PYTHON' 카테고리의 다른 글
[Python]시계열 데이터 모델링 - 기초버전 (0) | 2020.04.05 |
---|---|
[Python] 시계열 데이터 분석 - 기초버전 (1) | 2020.03.27 |
[Python]데이터 시각화, 연관성 분석 heat map, pairplot 그리기 (0) | 2020.03.22 |
[Python]데이터 시각화, matplotlib & seaborn - line Plot(선 그래프) (0) | 2020.03.20 |
[Python]pandas.cut - 데이터 범주화하기 / if문 쓰지않고 데이터 나누기 (0) | 2020.03.12 |