나는야 데이터사이언티스트/통계

상관분석(Correlation Analysis) 쉽게 이해하기

우주먼지의하루 2021. 1. 19. 00:02
728x90

상관분석이란 ?

상관분석은 연속형 변수로 측정된 두 변수 간의 선형적 관계를 분석하는 기법이다. 연속형 변수는 산술 평균을 계산할 수 있는 숫자형의 데이터이며, 선형적 관계라 함은 흔히 비례식이 성립되는 관계를 말한다. 예를들어 A 변수가 증가함에 따라 B 변수도 증가되는지 혹은 감소하는지를 분석하는 것이다.

 

상관분석에는 두 변수 사이의 선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용한다. 상관분석에는 측정 데이터에 따라 피어슨 상관분석, 스퍼만 상곤분석 등의 여러가지 분석 방법이 있지만, 일반적으로 상관계수라 함은 피어슨 상관계수(Pearson correlation coefficient)를 의미한다.

 

두 변수간의 관련성은 각 케이스의 값을 좌표위에 점으로 표시한 산점도 그래프를 통해 한 눈에 확인할 수 있다.

 

상관분석에서 알아보자 하는 것
  • 선형관계를 갖는가 ?
  • 선형관계를 갖는다면 어느 방향인가 ?
  • 그 관계는 얼마나 큰가 ?

공분산과 상관계수 관계

상관계수를 구글에서 찾다보면 공분산 이야기가 계속 나온다. 그렇다면 공분산과 상관계수의 관계를 어떠한 것 일까 ?

먼저, 공분산을 알려면 분산부터 정확하게 알아야한다.

 

  • 분산

확률변수 X에 대한 

기대값 μ=E(X)

분산 Var(X)=E((X−μ)2) 

즉, 평균에서 얼마나 떨어졌는지를 나타내는 편차의 제곱을 평균낸것이다.

 

다시말하면 분산은 평균에서 표본들이 얼마나 떨어져있는지의 정도를 나타낸다고 보면 된다. 분산이 크면 말그대로 평균에서 멀리 멀리 떨어져들 있어서 변동성이 심한 것이다.

 

  • 공분산

공분산은 두 변수가 각각의 평균에 대해서 얼마나 떨어져 있는지를 수치화 한것이라 할 수 있다.

 

확률변수 X와 Y 각각의 평균에 해당하는

 

분산과 비교해보면 분산에서는 하나의 확률변수에 대한 표본과 평균의 차이를 제곱하는데 (E((X−μ)2))

공분산에서는 대신에 두개의 확률변수에 대한 표본과 평균의 차이를 곱해준 형태이다.

 

다르게 표현하자면 공분산은 X의 편차와 Y의 편차를 곱한것의 평균이 된다.

 

식을 전개해보면 다음과 같이 된다.

 

 

X와 Y가 독립이라면 공분산은 0이된다. 

(독립사건과 독립시행이 있는데 여기서는 독립사건으로 해석해야할 듯 하다.)

 

이산확률변수에 대해서 기대값을 제거한 식을 써보면 다음과 같다.

 

 

분산에서와 마찬가지로 표본공분산을 구할때는 n이 아니라 n-1로 나눠줘야 한다.

 

 

  • 공분산을 구하는 예시

두 속성 x, y에 대한 값이 다음과 같다고 해보자 (1, 7), (2, 5), (3, 3), (4, 1), (5, -1)


그렇다면 이제 공분산의 의미를 보자.

 

공분산은 두 변수 사이의 관계를 나타낸다.

 

Cov(X,Y)>0    X가 증가 할 때 Y도 증가한다.

Cov(X,Y)<0   X가 증가 할 때 Y는 감소한다.

Cov(X,Y)=0  X와 Y는 서로 독립이다. 두 변수간에는 아무런 선형관계가 없다.

 

위 그림을 보고 식과 연관지어 생각해보자. 어떤 샘플이 에 대해서도 양의 편차를 가지고 에 대해서도 양의 편차를 가지면 위 그래프에서 1사분면에 점이 찍히게 된다.

 

평균은 어차피 중간쯤으로 정해져 있지만 X가 양의 편차일때 Y도 양의 편차, X가 음의 편차일때 Y도 음의편차를 가지는 식이 되면 공분산이 커진다는 것이다.

 

공분산은 값의 범위가 정해져 있지 않아서 어떤 값을 기준으로 정하기 애매하다. 그리하여 공분산의 값을 정규화하여 특정 범위에서만 나오게 하는 상관계수라는 개념이 나왔다. 즉, 상관계수는 공분산과 개념적으로는 같고 수치만 절대값 1이내로 정규화됐다고 보면 된다.

 

출처 

ldgeao99.tistory.com/424

sevity.tistory.com/54

상관계수

위에서 말한 공분산의 한계를 보완하기 위해 공분산을 정규화하여 그 결과가  -1 ~ 1 범위에서 나오게 한것이다. 상관관계를 나타내는 상관계수는 피어슨, 스피어만, 켄달 등 여러가지가 있으나 가장 많이 사용하는 것은 피어슨 상관계수이다. 공분산을 각자의 표준편차의 곱으로 나눠주면 된다.

 

 

 

아래의 그림은 연속형 두 변수 중에서 한 변수의 변화가 다른 변수의 변화에 따라 어떤 변화가 일어나는지를 보여주는 지표이다. 

※ 상관계수 특징

① 상관계수는 변수간의 관계의 정도와 방향을 하나의 수치로 요약해 주는 지수이다.
② 상관계수는 -1.00에서 +1.00 사이의 값을 가진다.
③ 변수와의 방향은 (-)와 (+)로 표현한다. 양의 상관관계일 경우에는 (+)값이 나타나고, 음의 상관관계의 경우에는 (-)값이 나타난다. 양의 상관관계는 한 변수가 증가함에 따라 다른 변수도 증가하는 경우를 말하며, 음의 상관관계는 한 변수가 증가함에 따라 다른 변수는 감소하는 경우를 말한다.
④ 상관계수의 절대값이 높을수록 두 변수간의 관계가 높다고 할 수 있다. 그러나 계수의 절대값이 작다고 해서 그 가치가 중요하지 않다고는 말할 수 없으므로 함부로 자료를 버리는 것보다 다양한 분석기법을 사용해 보는 것이 좋다.

⑤다시 말해, 상관계수 값이 0인 경우 상관이 전혀 없다라는 표현보다는 선형의 상관관계가 아니다라고 말하는게 적절하다. (두 변수가 곡선관계라면 상관분석으로 설명할 수 없다)

 

 

상관계수의 종류

 

ㄱ) Pearson(피어슨)

-상관 분석에서 기본적으로 사용되는 피어슨 상관계수

-연속형 변수의 상관관계 측정 (신장, 몸무게)

-모수 검정 (parametric test)

 

ㄴ) Kendall(켄달)

-켄달 상관 계수( τ : tau)

-변수값 대신 순위로 바꿔서 이용하는 상관계수 (학교등급, 졸업학위 level)

-비모수 검정 (non-parametric test)

-샘플사이즈가 적거나, 데이터의 동률이 많을 떄 유용

 

ㄷ) Spearman(스피어만)

-스피어만 상관 계수( ρ : rho )

-변수값 대신 순위로 바꿔서 이용하는 상관계수 (학교등급, 졸업학위 level)

-비모수 검정 (non-parametric test)

-데이터 내 편차와 애러에 민감하며, 일반적으로 켄달 상관계수보다 높은 값을 가짐

 

#켄달과 스피어만은 순위 일치 정도를 검사한다는 점에서 유사한 분석이다.

따라서,  동일 데이터로 상관분석을 진행한다면 상관계수 값이 약간 다를지라도 비슷한 추론을 내린다.

 

#아래 사이트에 접속하면 'Kendall vs Spearman' 의 상세한 설명을 볼 수 있다.

http://www.statisticssolutions.com/kendalls-tau-and-spearmans-rank-correlation-coefficient/

회귀분석과 상관분석의 차이

① 회귀분석의 경우 변수간에 인과관계가 성립되어야 한다.
② 회귀분석은 등간성, 정규성, 선형성 등의 조건이 필요하며, 이를 검증해야 한다.
③ 상관관계는 등간척도 이상이 아닌 서열척도만으로도 분석할 수 있다.
④ 상관관계는 두 변수의 관계를 예측할 수 있는 정도일 뿐 정확한 예측치를 제시하지 못한다.

 

상관분석 예시

아래의 사이트에 상관분석 예시가 있다. 또한 이 글에 적힌 내용도 이곳에서 많이 참고 했다.

 

www.6025.co.kr/bbs/board.php?bo_table=cust_in&wr_id=13

 

상관관계분석 > 통계연구 | KSI

HOME 통계연구 통계연구  글쓰기는 회원가입시 가능합니다.  serom6025@hanmail.net로 주시면 바로 확인가능합니다.

www.6025.co.kr

 

반응형