반응형

나는야 데이터사이언티스트/Machine Learning 5

의사결정나무(Decision Tree) 쉽게 이해하기

의사결정나무(Decision Tree)란 ? 의사결정나무(decision tree) 또는 나무 모형(tree model)은 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification) 하거나 예측 (prediction)을 수행하는 분석방법이다. 목표변수가 이산형인 경우의 분류나무(classification tree)와 목표변수가 연속형인 경우의 회귀나무(regression tree)로 구분된다. ■ 의사결정나무(decision tree) 장점 1) 결과를 해석하고 이해하기 쉽다. 2) 자료를 가공할 필요가 거의 없다. 3) 수치 자료와 범주 자료 모두에 적용할 수 있다. 3) 화이트박스 모델을 사용한다. 5) 안정적이다. 6) 대규모의 데이터 셋에서도 잘 동작한..

[ML]K-NN 알고리즘 실습 - 기초 버전

먼저 K-NN(K-Nearest Neighbor) 알고리즘에 대해 알아보자. K-NN 알고리즘이란 특정공간내에서 입력과 제일 근접한 k개의 요소를 찾아, 더 많이 일치하는 것으로 분류하는 알고리즘이다. 지도 학습(Supervised Learning)의 한 종류로 레이블이 있는 데이터를 사용하여 분류 작업을한다. 알고리즘의 이름에서 볼 수 있듯이 데이터로부터 거리가 가까운 k개의 다른 데이터의 레이블을 참조하여 분류한다. 주로 거리를 측정할 때 유클리디안 거리 계산법*을 사용하여 거리를 측정하는데, 벡터의 크기가 커지면 계산이 복잡해진다. K-NN은 classification과 regression에 모두 적용할 수 있다. K-NN의 장점 알고리즘이 간단하여 구현하기 쉽다 수치 기반 데이터 분류 작업에서 성..

지도학습, 비지도학습, 강화학습 - 머신러닝 개요

https://www.sas.com/ko_kr/solutions/ai-mic/blog/machine-learning-algorithm-cheat-sheet.html 최적의 머신러닝 알고리즘 가이드 SAS에서 최적의 머신러닝 알고리즘 선택을 위한 치트시트와 가이드를 설명하고, 머신러닝 선택 시 유의사항과 특정 알고리즘 사용시점을 봅니다. www.sas.com https://stickie.tistory.com/43 [ML] 머신러닝 시스템의 종류 (1) - 지도학습, 비지도학습, 준지도 학습, 강화학습 머신러닝 시스템의 종류는 굉장히 많고, 다음과 같이 크게 3가지로 분류됩니다. 1. 지도, 비지도, 준지도, 강화학습 2. 온라인 학습과 배치 학습 3. 사례 기반 학습과 모델 기반 학습 위의 3가지 머신러닝..

[ML]선형회귀분석 실습 - 기초버전(2)

기초버전(1)에서는 sklearn.linear_model.LinearRegression() 으로 회귀분석을 실습해봤고 이번에는 stats 모델의 OLS로 회귀분석을 해봅니다. 1. 먼저 필요한 모듈을 import 시켜줍니다. import pandas as pd import matplotlib.pyplot as plt import matplotlib matplotlib.style.use('ggplot') import seaborn as sns import scipy.stats as stats import statsmodels.api as sm from statsmodels.formula.api import ols 2. 그 다음에는 실습에 필요한 데이터를 만들어 줍니다. data = {'x': [13, 19..

[ML]선형회귀분석 실습 - 기초버전(1)

- 선형회귀분석 실습 1. 먼저 필요한 모듈을 불러오고 데이터를 만들어줬습니다. from sklearn import linear_model from scipy import stats import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib %matplotlib inline matplotlib.style.use('ggplot') import seaborn as sns data = {'x': [13, 19, 16, 14, 15, 14], 'y': [40, 83, 62, 48, 58, 43]} data = pd.DataFrame(data) data 2. scatter plot을 그려봅니다. sns.scatte..

반응형