[엑셀 활용법] 상관계수(correlation coefficient) 구하는 법
요즘 신문을 펼치면 '상관계수'라는 단어를 심심치 않게 보게 됩니다.
'환율과 주가의 상관계수가 높다 혹은 낮다'는 뉴스가 보입니다.
상관계수가 뭘까요. 상관계수란 두 변수가 얼마나 서로 관련을 맺고 움직이느냐를 수치화한 것입니다.
예를 들어볼까요.
다음은 1991년부터 2007년까지 16년간의 한국의 코스피(KOSPI)에 포함된 기업의 평균 자기자본이익률(ROE)과 주가수익률 추이입니다. 주가수익률이란 주가수익비율(PER)의 역수에 배당수익률을 더한 값이며, 쉽게 말하면 주식을 보유했을 때의 수익을 말합니다.
아래의 그림처럼 이 두가지 값을 그래프로 그려보면 서로 관계가 있다는 사실이 눈에 드러납니다(세상에서 일어나는 일들을 그림이나 그래프로 만들어 보는 훈련은 문제 해결에 유용합니다)
그런데 실제로 얼마나 관계가 있는걸까요. 이것을 구체적인 수치로 확인할 수 있는 지표가 상관계수입니다. 상관계수는 직접 계산하려면 아주 시간을 많이 잡아 먹지만, 엑셀을 이용하면 쉽게 구할 수 있습니다.
먼저, 아래의 그림처럼 엑셀의 아무 셀(cell)에나 커서를 대고 '=correl(C3:C19,D3:D19)'라고 입력해볼까요.
그리고 나서 엔터를 치면 '0.6584'라는 값이 나오는 것을 확인할 수 있습니다.
상관계수 0.65854가 무엇을 의미하는걸까요.(상관계수(c)는 -1.00에서 +1.00 사이의 값이 나오게 됩니다)
먼저, 상관계수가 0.00에서 +1.00 사이에 있을 경우( 0 < c <= 1.00일 경우)
두 변수는 양의 상관관계가 있다는 뜻입니다. 그리고 상관계수가 1.00에 가까울수록 두 변수의 양의 상관관계는 높다는 것을 의미합니다.
다음으로, 상관계수가 -1.00에서 0.00 사이에 있을 경우( -1.00 < c <= 0.00)
음의 상관관계가 있다는 뜻입니다(두 변수가 서로 반대로 움직인다는 뜻입니다). 그리고 상관계수가 -1.00에 가까울수록 두 변수의 음의 상관관계가 높다는 것을 의미합니다.
앞서 KOSPI ROE와 주가수익률의 상관계수가 0.6584라는 것은 두 변수가 상당히 관련이 있다는 것을 의미합니다. 기업이 주주에게 돌려주는 이익(ROE)이 높으면 주식에서 얻을 수 있는 수익(주가수익률)이 높아진다는 사실이 통계적으로 확인되네요.
상관계수는 기업의 실적과 주가에 영향을 미치는 변수가 뭔지, 이게 실제로 얼마나 영향을 미치는지를 확인할 때 유용합니다. 예를 들어 신세계 이마트의 기업 실적이 경제성장률(GDP)과 얼마나 관련이 있는지를 확인하는데 사용될 수 습니다.
상관계수와 비슷한 지표로 공분산(Covariance)이 있습니다.(어느 주식 책을 보니 '공분산을 주목하라'는 챕터가 있는 것을 봤습니다)
공분산은 상관계수를 구하는 과정에서 미리 얻어지는 값입니다. 공분산을 구하지 않고는 상관계수를 구할 수 없습니다. 공분산이 0보다 크면 두 변수는 같은 방향으로 움직인다는 뜻이고(관계가 있다는 뜻이고), 공분산이 0이라면 두 변수는 아무런 관계가 없다는 뜻입니다.
앞서 말씀 드린 KOSPI ROE와 주가수익률의 공분산을 구하려면 '=COVAR(C3:C19,D3:D19)'이라고 치면 됩니다. 그러면 0.001341 이 나올겁니다. 0보다 크므로 두 변수가 관계가 있다는 뜻이네요. 기업 분석을 하면서 상관계수를 구해보면 유용할 때가 많습니다. 그럼....
※출처를 밝히면 자유롭게 인용 가능합니다.