반응형

나는야 데이터사이언티스트 87

[ML]K-NN 알고리즘 실습 - 기초 버전

먼저 K-NN(K-Nearest Neighbor) 알고리즘에 대해 알아보자. K-NN 알고리즘이란 특정공간내에서 입력과 제일 근접한 k개의 요소를 찾아, 더 많이 일치하는 것으로 분류하는 알고리즘이다. 지도 학습(Supervised Learning)의 한 종류로 레이블이 있는 데이터를 사용하여 분류 작업을한다. 알고리즘의 이름에서 볼 수 있듯이 데이터로부터 거리가 가까운 k개의 다른 데이터의 레이블을 참조하여 분류한다. 주로 거리를 측정할 때 유클리디안 거리 계산법*을 사용하여 거리를 측정하는데, 벡터의 크기가 커지면 계산이 복잡해진다. K-NN은 classification과 regression에 모두 적용할 수 있다. K-NN의 장점 알고리즘이 간단하여 구현하기 쉽다 수치 기반 데이터 분류 작업에서 성..

지도학습, 비지도학습, 강화학습 - 머신러닝 개요

https://www.sas.com/ko_kr/solutions/ai-mic/blog/machine-learning-algorithm-cheat-sheet.html 최적의 머신러닝 알고리즘 가이드 SAS에서 최적의 머신러닝 알고리즘 선택을 위한 치트시트와 가이드를 설명하고, 머신러닝 선택 시 유의사항과 특정 알고리즘 사용시점을 봅니다. www.sas.com https://stickie.tistory.com/43 [ML] 머신러닝 시스템의 종류 (1) - 지도학습, 비지도학습, 준지도 학습, 강화학습 머신러닝 시스템의 종류는 굉장히 많고, 다음과 같이 크게 3가지로 분류됩니다. 1. 지도, 비지도, 준지도, 강화학습 2. 온라인 학습과 배치 학습 3. 사례 기반 학습과 모델 기반 학습 위의 3가지 머신러닝..

[ML]선형회귀분석 실습 - 기초버전(2)

기초버전(1)에서는 sklearn.linear_model.LinearRegression() 으로 회귀분석을 실습해봤고 이번에는 stats 모델의 OLS로 회귀분석을 해봅니다. 1. 먼저 필요한 모듈을 import 시켜줍니다. import pandas as pd import matplotlib.pyplot as plt import matplotlib matplotlib.style.use('ggplot') import seaborn as sns import scipy.stats as stats import statsmodels.api as sm from statsmodels.formula.api import ols 2. 그 다음에는 실습에 필요한 데이터를 만들어 줍니다. data = {'x': [13, 19..

[ML]선형회귀분석 실습 - 기초버전(1)

- 선형회귀분석 실습 1. 먼저 필요한 모듈을 불러오고 데이터를 만들어줬습니다. from sklearn import linear_model from scipy import stats import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib %matplotlib inline matplotlib.style.use('ggplot') import seaborn as sns data = {'x': [13, 19, 16, 14, 15, 14], 'y': [40, 83, 62, 48, 58, 43]} data = pd.DataFrame(data) data 2. scatter plot을 그려봅니다. sns.scatte..

선형회귀분석(linear regression analysis)

선형회귀란 데이터에 가장 잘 부합하는 직선을 찾는 것이다. 주어진 데이터와 직선이 사이의 오차가 가장 최소화 되는 선을 찾아야 한다. 선형 회귀 모델을 이용한 분석의 목적은 두 가지로 말할 수 있다. 선형회귀분석의 목적 1) 독립변수(x)와 종속변수(y) 간의 관계 설명 관심있는 y에 대해 x가 어떻게, 얼마나 영향을 주는지 알 수 있다. 2)종속변수(y)를 예측 만들어 놓은 회귀 모델 식을 이용해서 값을 예측할 수 있다. 선형회귀모델 종류 종속변수(y)가 1개 독립변수(x)가 1개 단변량 단순 선형 회귀 모델 독립변수(x)가 2개 이상 단변량 다중 선형 회귀 모델 종속변수(Y)가 2개 이상 독립변수(x)가 1개 다변량 단순 선형 회귀 모델 독립변수(x)가 2개 이상 다변량 다중 선형 회귀 모델 회귀분석..

[Python]cannot import name 'PlotnineWarning'

plotnine을 import하는데 계속 cannot import name 'Bunch' python , cannot import name 'PlotnineWarning' 계속 이런 문장뜨고 떠서 난감 찾아보니까 plotnine은 버전 의존성이 강하다고 한다.2020.04.08 기준으로 다음 버전을 설치하면 plotnine 사용가능함 ! !pip install plotnine==0.5.0 !pip install –upgrade pandas==0.23.4 !pip install folium==0.5.0

[Python]Jupyter Notebook 잘 사용하기

주피터 노트북을 사용하다보면 markdown으로 파일을 주고 받을 때가 많다. 특히 블로그 업로드 할 때 주피터 노트북을 바로 올리다 보니 다시 볼 때 설명이 많으면 좋다. 그래서 적는 주피터 노트북 잘 사용하기 ! In [1]: #tistory 관련 코드(필요없음) from IPython.core.display import display, HTML display(HTML("")) 1. 수식 넣기¶$ 사이에 수식을 넣으면 가능¶참고 사이트 : https://jupyter-notebook.readthedocs.io/en/stable/examples/Notebook/Typesetting%20Equations.html $\begin{eqnarray} x' &=& &x \sin\phi &+& z \cos\phi..

[Python]시계열 데이터 모델링 - 기초버전

데이터는 Kaggle에 있는 데이터를 사용했습니다. https://www.kaggle.com/ternaryrealm/airlines-passenger-data Airlines Passenger Data www.kaggle.com In [23]: #tistory 관련 코드(필요없음) from IPython.core.display import display, HTML display(HTML("")) Time series¶데이터 : https://www.kaggle.com/ternaryrealm/airlines-passenger-data 참고 : https://www.kaggle.com/ifitoverfit/international-airlines-passenger-forecast-on-keras In [1]..

[Python] 시계열 데이터 분석 - 기초버전

In [68]: #tistory 관련 코드(필요없음) from IPython.core.display import display, HTML display(HTML("")) import pandas as pd pd.set_option('display.max_columns',500) #생략없이 출력 가능 Time series end to end¶데이터 : https://community.tableau.com/docs/DOC-1236¶참고 페이지 : https://towardsdatascience.com/an-end-to-end-project-on-time-series-analysis-and-forecasting-with-python-4835e6bf050b¶시계열 참고¶ https://datasc..

[Python] 용량이 큰 CSV 파일 빠르게 불러오기

데이터는 Kaggle에 있는 bostan marathon 데이터를 참고했다. https://www.kaggle.com/rojour/boston-results Finishers Boston Marathon 2015, 2016 & 2017 This data has the names, times and general demographics of the finishers www.kaggle.com Untitled csv 파일 빠르게 불러오기(작업 효율성 증가)¶ In [29]: #tistory 관련 코드(필요없음) from IPython.core.display import display, HTML display(HTML("")) In [1]: import pandas as pd In [4]: %%time mar..

반응형