선형회귀란 데이터에 가장 잘 부합하는 직선을 찾는 것이다. 주어진 데이터와 직선이 사이의 오차가 가장 최소화 되는 선을 찾아야 한다. 선형 회귀 모델을 이용한 분석의 목적은 두 가지로 말할 수 있다.
선형회귀분석의 목적
1) 독립변수(x)와 종속변수(y) 간의 관계 설명
관심있는 y에 대해 x가 어떻게, 얼마나 영향을 주는지 알 수 있다.
2)종속변수(y)를 예측
만들어 놓은 회귀 모델 식을 이용해서 값을 예측할 수 있다.
선형회귀모델 종류
종속변수(y)가 1개 | 독립변수(x)가 1개 |
단변량 단순 선형 회귀 모델 |
독립변수(x)가 2개 이상 |
단변량 다중 선형 회귀 모델 |
|
종속변수(Y)가 2개 이상 | 독립변수(x)가 1개 |
다변량 단순 선형 회귀 모델 |
독립변수(x)가 2개 이상 |
다변량 다중 선형 회귀 모델 |
회귀분석 절차
1. 독립변수(x)와 종속변수(y) 선택하고 산점도 그리기
2. 회귀식의 적합성 확인(F검정)
3. 통계 검정으로 회귀 계수 선택(T검정)
4. 다중공선성, 결정계수, 수정결정계수 확인
5. 잔차 분석(정규성, 등분산성, 독립성)
6. 최종 회귀 모형 선정
1. 독립변수(x)와 종속변수(y) 선택하고 산점도 그리기
두 변수가 선형의 관계를 가지는지 알아보기 위하여 산점도를 확인한다. 산점도를 확인함으로써 다중공선성의 문제를 미리 파악할 수도 있다.
2. 회귀식의 적합성 확인(F검정)
귀무가설(H0) : 회귀식이 유의하지 않다. (B1 = 0 이다)
대립가설(H1) : 회귀식이 유의하다. (B1 = 0 이 아니다)
적합성을 확인할 때 분산분석(ANOVA) 결과를 확인하는 경우도 있는데 그 이유는 분산 분석의 결과를 이용하여 회귀 분석 F-검정에 필요한 검정통계량을 구할 수 있기 때문이다. 자세한 내용은 아래 주소를 통해 확인 할 수 있다.
-> https://datascienceschool.net/view-notebook/a60e97ad90164e07ad236095ca74e657/
-> https://blog.naver.com/vnf3751/220838283162
3. 통계 검정으로 회귀 계수 선택(T검정)
귀무가설(H0) : 독립변수(x)는 종속변수(y)에 영향을 미치지 않는다. (B1 = 0 이다)
대립가설(H1) : 독립변수(x)는 종속변수(y)에 영향을 미친다. (B1 = 0 이 아니다)
-> https://blog.naver.com/vnf3751/220841363022
4. 다중공선성, 결정계수, 수정결정계수 확인
다중공선성이란 독립변수(x)들 간의 상관 관계를 나타내는 것이다. 만약 독립변수(x)들 간에 상관 정도가 높으면 분석 시 부정적인 영향을 미친다. 다중공선성이 생기게 되면 변수 각각에 대한 설명이 약해지고 이는 변수들의 표준 오차의 증가로 이어진다. 상관분석을 이용해 확인한다.
결정계수란 회귀직선의 설명력이다. 즉 추정한 선형 모형이 얼마나 적합한지 나타내는 척도이다. 0과 1사이의 값을 가지며 1에 가까울 수록 모든 데이터들이 회귀식에 접근한다는 것을 알 수 있다. 하지만 결정계수는 단순히 선형 관계의 정도를 나타내는 수치일 뿐이다. 그리고 관측치가 많아지면 결정계수가 커지는 경향이 있으므로 주의해야한다. 이러한 점을 보완하기 위해 나타난 것이 수정결정계수이다.
수정결정계수는 표본의 크기와 독립변수의 수를 고려하여 계산하게 된다. 단순회귀분석을 하는 경우에는 일반 결정계수를 사용하면 되지만 다중회귀분석을 수행하는 경우에는 수정된 결정계수를 함께 고려하는 것이 좋다.
5. 잔차 분석(정규성, 등분산성, 독립성)
정규성 검정 : 정규성 검정, 정규분포를 따르지 않으면 변수변환(가장 자주 사용되는 것은 log 변환)
등분산성 검정 : 산점도를 확인, 등분산이 아닌 경우 변수변환 또는 가중회귀(Weight Least Square)을 이용
독립성 검정 : Durbin-Waston 검정, 독립이 아닌 경우 1차 차분을 이용
6. 최종 회귀 모형 선정
위의 과정을 통해 최종 회귀 모형 선정 ! 화이팅 !
출처
'나는야 데이터사이언티스트 > 통계' 카테고리의 다른 글
모델 성능 평가 지표 (회귀 모델, 분류 모델) (0) | 2020.06.24 |
---|---|
교차검증(Cross-Validation) 쉽게 이해하기 (0) | 2020.06.04 |
AIC, BIC, Mallow's Cp 쉽게 이해하기 (0) | 2020.06.01 |
최대우도추정법 쉽게 이해하기 (2) | 2020.05.13 |
Ridge regression(릿지 회귀)와 Lasso regression(라쏘 회귀) 쉽게 이해하기 (0) | 2020.04.30 |