Natural science /Statistics

상관관계분석

나 그 네 2019. 8. 12. 09:06

상관관계분석

상관관계는 연속적 속성을 갖는 두 변인들 간 상호 연관성에 대한 기술통계 정보를 제공해 줄 뿐만 아니라, 두 변인 간의 상호 연관성에 대한 통계적 유의성을 검증해 주는 통계분석 기법이다. 커뮤니케이션 과학에서는 흔히 피어슨 (곱적률) 상관계수 r을 자주 사용하므로, 여기에서는 피어슨 상관계수 r의 작동원리 및 두 가지 특성들을 설명할 것이다. 또한 상관계수 r과 함께 산포도 도출의 필요성에 대해서도 함께 논의할 것이다. 한편, 상관관계는 크게 단순, 편, 그리고 준편 상관관계로 구분할 수 있다. 따라서 각 상관관계가 갖는 통계적 함의에 대해 설명할 것이다. 마지막으로 상관관계를 해석할 때 주의해야 할 점도 추가로 소개할 것이다.

1. 특정 현상들의 관계 분석

커뮤니케이션 분야에서 가장 뜨거운 연구주제 중 하나는 단연 '인터넷게임 중독'이다. 특히 자기조절능력이 낮은 초등학생이나 중학생의 인터넷게임 중독은 그들을 사회부적응이나 비행 또는 심지어 자살이란 비극적인 결말에 이르게 하기도 한다. 어떤 아이들은 현실에서 친구들로부터 느끼는 소외감을 달래기 위해 가상현실인 인터넷게임 중독에 빠질 수 있다. 반면 어떤 아이들은 인터넷게임 중독으로 인해 게임을 하는 데 보내는 시간이 많아지면서 친구 간 관계가 소원해지고 결국 극도의 소외감을 느낄 수도 있다. 이처럼 '소외감'과 '인터넷게임 중독'은 어떤 연관성을 맺고 있을 개연성이 높다. 다만 이 두 변인 중에서 무엇이 원인이고 결과인지를 밝혀내고자 하는 것은 또 다른 연구문제다.

이처럼 우리가 살고 있는 현실에서는 다양한 현상들이 서로 간에 특정한 관계를 맺고 있으며, 상관관계분석은 이런 사회현상 간 관계를 밝혀줄 수 있는 통계분석 기법이다. 이것이 여러분이 왜(why?) 상관관계분석을 배워야 하는지에 대한 이유다.

여기서는 상관관계분석의 작동원리와 종류, 그리고 상관관계를 사용할 때 주의해야 할 점에 대해 살펴보도록 하겠다.

2. 상관관계분석의 작동원리

‘상관관계(correlation)’ 개념을 처음으로 제시한 프랜시스 갤턴(Francis Galton, 1822~1911)

‘상관관계(correlation)’ 개념을 처음으로 제시한 프랜시스 갤턴(Francis Galton, 1822~1911)ⓒ 커뮤니케이션북스

상관관계(correlation, ) 용어를 그대로 해석할 경우, 영어로 correlation은 '공동 또는 서로'란 의미를 갖는 접두사 co-와 '관계'란 의미의 relation이 결합된 형태로 서로 관계가 있음을 나타낸다. 한자어로 이란 용어 역시 '서로 관계 맺음'을 뜻한다. 따라서 상관관계는 연구자가 관심을 갖고 연구하고자 하는 현상들 간 관계, 이를 통계학 용어로 나타내면 변인들 간의 관계를 나타낸다. 만일 변인들 간의 상호 연관성만을 간략하게 설명한다면 상관관계분석은 기술통계가 되지만, 만일 변인들 간의 상호 관계에 대한 통계적 유의성을 검증함으로써 모집단의 속성을 추론하고자 한다면, 상관관계분석은 추론통계가 된다.

변인들 간의 관계는 크게 두 가지 속성으로 이해할 수 있다. 하나는 변인들 간의 상호 연관성 강도(strength 또는 magnitude)이고, 또 다른 하나는 변인들 간의 연관성 방향(direction)이다. 이 개념들을 이해하기 위해 간단한 사례 한 가지를 소개하면 다음과 같다.

남녀 관계를 보면, 서로 간에 불같이 뜨거운 사랑을 하는 커플이 있는 반면, 어떤 커플은 애인 사이가 맞긴 맞나 할 정도로 미지근한 관계를 갖는 경우도 있다. 전자의 경우 두 사람 간 관계 강도는 매우 크지만, 후자는 관계 강도가 낮다. 한편, 남자가 여자를 사랑하면 할수록 여자 역시 남자를 더욱 더 사랑하는 관계가 있는 반면, 남자가 여자를 사랑하면 할수록 여자는 남자를 더욱 더 싫어하거나, 반대로 여자가 남자를 사랑하면 할수록 남자는 여자를 더욱 더 싫어할 수도 있다. 전자는 두 사람 간 관계가 서로 같은 방향에 있는 정적(+) 관계인 반면, 후자의 두 경우는 두 사람 간 관계가 서로 반대 방향에 있는 부적(-) 관계다.

이와 같이 변인들 간의 강도와 방향을 함께 제시해 주는 다양한 통계량 중 커뮤니케이션 과학에서 가장 자주 이용하는 것이 피어슨 곱적률 상관계수 r(Pearson's product-moment coefficients of correlation)이다. 간단하게 피어슨 상관계수 r(Pearson's r) 또는 피어슨 r이라고도 일컫는 이 상관계수는 개발자인 칼 피어슨(Karl Pearson)의 이름을 딴 것으로서 방향과 강도란 두 가지 속성에서 두 변인 X와 Y 간 관계를╶1과 +1 범위 내에서 설명한다. 두 변인 간의 관계가 정적이라면 상관계수는 +값을, 만일 두 변인 간 관계가 부적이라면 상관계수는╶값을 갖는다. 두 변인 간 관계 강도는 0과 1 사이의 통계량으로 설명한다. 0은 두 변인 간에 아무런 관계가 없음을 나타내는 반면, 1은 두 변인 간에 완벽한 관계가 있음을 의미한다. 따라서 관계 방향을 나타내는 ±부호와 관계 강도 범위인 0≤r≤1이란 점을 함께 고려한다면, 피어슨 상관계수 r의 범위는 -1≤r≤1이 된다. 일반적으로 피어슨 r이 .30이면 두 변인들은 약한(weak) 관계, .50이면 중간(moderate) 관계, 그리고 .70이면 강한(strong) 관계를 나타낸다. 피어슨 r에 따른 두 변인 간 강도와 방향을 산도포(scatterplot)로 표현하면 아래와 같다. 여기서 산포도란 2차원 공간에서 변인 X와 Y에 대한 각 케이스 값들의 쌍을 이미지로 표현한 도표다.

두 변인 간 상관관계의 강도와 방향에 대한 예

1

12

23

3

4

4

5

5

6

6

7

7

89

8

10

9

10

출처 : Hayes, A. F.(2005). Statistical methods for communication science. 류성진 옮김(2011). 『커뮤니케이션 통계방법론』, 서울 : 커뮤니케이션북스, p.103.

이 산포도에서 피어슨 r이 커질수록 두 변인 간 관계를 나타내는 데이터들은 점점 조밀해지는 반면에, 반대의 경우 두 변인 간 데이터들은 점점 흩어짐을 명확하게 확인할 수 있다. 또한 피어슨 r의 기호에 따라 데이터 분포가 정반대 방향을 보이고 있음을 확인할 수 있다. 흥미로운 것은 산포도 1과 10번의 경우 피어슨 r이 동일하게 0인데도, 두 산포도가 전혀 다른 분포 양상을 보이고 있다는 점이다. 산포도 1번은 변인 X와 Y 간 관계가 전혀 없음을 쉽게 파악할 수 있지만, 산포도 10번의 경우 X값이 –3부터 0까지는 X와 Y값 간 관계가 정적이면서 다소 강한 관계를, X값이 0부터 +3까지는 두 변인 간 관계가 부적이면서 다소 강한 관계를 나타내고 있다. 이것은 산포도 10번의 두 변인 간 관계가 상관관계의 기본 가정인 선형성(linearity) 즉, 하나의 직선 관계라는 가정을 위배하고 있기 때문이다. 이 경우 단지 피어슨 r 통계량을 통해서는 두 변인 간 관계를 정확하게 파악할 수 없으며, 이때 시각적인 이미지인 산포도를 이용한다면, 두 변인 간 관계를 좀 더 정확하게 파악할 수 있다.

상관관계는 두 변인 간의 강도 및 방향과 같은 관계 정보를 제공해 주지만, 두 변인 간 인과관계에 대한 정보는 제공해 주지 않는다. 따라서 상관관계는 원인이 되는 독립변인과 결과가 되는 종속변인을 구별하지 않는다. 상관관계분석은 두 변인이 모두 유사등간 수준 성격이 강한 서열수준, 등간수준, 그리고 비례수준인 양적 데이터일 경우에 주로 사용한다. 이제 피어슨 r 도출 공식을 소개하면 다음과 같다.

상관관계분석 본문 이미지 1

이 공식에서 ∑(시그마)는 모든 값을 합산하는 것을 나타내며, ZxZy는 변인 X와 Y의 표준화 점수(standardized score, 또는 Z-score)다. 피어슨 r은 각 변인의 원 데이터(raw data) 대신 각 변인의 표준화 점수 간 곱을 전체 케이스 수로 나눈 값이다. 여기서 간략하게 표준화 점수에 대해 소개하면 표준화 점수는 원 점수가 평균으로부터 얼마나 떨어져 있는지를 표준편차 단위로 재해석한 것으로서 공식으로 표현하면 다음과 같다.

상관관계분석 본문 이미지 2

여기서 M은 변인 X의 평균이고, SD는 변인 X의 표준편차다. 원 데이터 대신 표준화 점수를 사용한 이유는 각 변인에 대한 척도가 다를 경우 척도를 표준화시켜 주기 때문이다. 예를 들어, 변인 X와 Y가 각각 5점과 7점 척도를 사용했을 경우, 한 케이스의 응답이 동일하게 3점이라고 하더라도 3점에 대한 상대적 가치는 다를 수 있다. 따라서 각 척도값을 평균이 0이고, 표준편차가 1인 점수로 치환해 준다면, 점수 간에 상대 비교가 가능해질 것이다. 다시 피어슨 r 공식 으로 돌아오면, 이 공식은 평균을 도출하는 공식, 즉 과 동일하다는 것을 알 수 있다. 즉, 피어슨 r은 변인 X와 Y의 표준화 점수 간 곱에 대한 평균으로 볼 수 있다.

두 변인 간 연관성을 나타내는 피어슨 상관계수 r은 또 다른 가치를 갖는다. 만일 피어슨 r을 제곱하면 한 변인의 변화량이 다른 변인의 변화량에 의해 얼마만큼 설명되는지를 설명해 줄 수 있는데, 이 통계량을 결정계수(coefficient of determination)라고 한다. 결정계수는 한 변인의 개인 대 개인 변화량에 의해 설명되는 다른 변인의 변화량을 설명하는 척도다. 이 부분은 회귀분석 통계량 중 하나인 R2과 동일한 개념이다.

3. 상관관계의 종류

상관관계는 연관성이 있는 변인들의 숫자에 따라 n차 상관관계로 설명한다. 만일 단지 두 변인 간 연관성만을 다룬다면 단순 0차 상관관계라고 하며, 만일 단순 0차 상관관계에 변인이 하나씩 추가할 때마다, 차수는 하나씩 증가한다. 두 변인 간 연관성에 새로운 제3자 변인을 추가할 경우, 편 상관관계(partial correlation)나 또는 준편 상관관계(semi-partial 또는 part correlation)를 이용해 두 변인에 영향을 줄 수 있는 제3자 변인의 설명력을 통제한 후, 남은 두 변인 간의 고유한 연관성을 살펴볼 수 있다.

편 또는 준편 상관관계는 다중 회귀분석의 작동원리에 근간을 제공하는 핵심 개념이므로 매우 중요하다. 다만 이 개념들을 이해하는 것은 난해한 작업이므로 여기서는 다루지 않도록 하겠다. SPSS 통계프로그램을 이용하면 단순 그리고 편 상관계수, 그리고 유의확률을 간단하게 구할 수 있다.

사실 여기서는 양적 데이터에 한정한 피어슨 상관계수 r에 대해서만 논의했다. 그러나 질적 데이터인 범주수준 변인들 간 또는 범주수준 변인과 양적 데이터 변인 간 연관성을 파악할 수 있는 상관관계분석 기법들도 있다. 다만 이와 같은 상관관계분석 방법들은 커뮤니케이션 연구에서는 거의 사용하지 않기 때문에 여기서는 소개하지 않겠다.

4. 상관관계 사용 때 주의할 점

통계분석 방법에서 여러분이 가장 주의해야 할 사안 중 하나는 숫자가 갖는 마력에 현혹되어서는 안 된다는 것이다. 이야기인즉, 두 변인 간의 관계를 이론적으로 설명하지 못하는 가운데, 단지 상관계수에만 의지해 두 변인 간 관계를 해석한다면 심각한 오류를 범할 수 있다는 것이다. 특히 두 변인 간 관계를 설명하는 피어슨 r이 높게 나타났지만, 실제로는 두 변인 간에 이론적으로 아무런 연관성이 없을 수도 있는데, 이 경우를 '거짓 관계(spurious relationship)'라고 지칭한다.

이와 관련해 사회과학에서 가장 자주 등장하는 사례 한 가지를 소개하면 다음과 같다. 한 도시의 아이스크림 판매량을 보면 수영장에서 익사율이 높을 때 아이스크림 판매량 역시 증가한다는 것을 알 수 있다. 따라서 이 경우 피어슨 r을 구해 보면, 매우 높은 수치가 나타날 것이다. 그러나 이 관계는 거짓 관계임을 쉽게 알 수 있다. 실제로 여름, 즉 온도가 매우 높은 계절에는 아이스크림 판매량이 증가할 뿐만 아니라 무더위를 피하기 위해 수영장을 찾는 이용객도 역시 많을 것이다. 따라서 익사율도 높아질 것이다. 즉 익사율의 원인은 아이스크림 판매량이 아니라 무더위를 피하기 위한 수영장 이용일 것이다. 따라서 두 변인 간의 상관계수가 매우 높다고 하더라도, 이론적으로 두 변인 간에 연관성이 있는지 없는지를 반드시 확인해야 한다.

참고문헌

  • 장택원(2012년) 『세상에서 가장 쉬운 사회조사방법론』. 서울: 커뮤니케이션북스.
  • 최현철(2008년) 『사회통계방법론』. 서울: 나남.
  • Agresti, A., & Finlay, B.(1997년) Statistical methods for the social science (3rd ed.). Upper Saddle River, NJ: Prentice Hall.
  • Gravetter, F. J., & Wallnau, L B.(2008년) Statistics for the behavioral sciences (8th ed.). 김광재·김효동 옮김(2009년) 『사회과학 통계방법론의 핵심 이론』. 서울: 커뮤니케이션북스.
  • Hayes, A. F.(2005년) Statistical methods for communication science. 류성진 옮김(2011년) 『커뮤니케이션 통계방법론』. 서울: 커뮤니케이션북스.
  • Levin, J., & Fox, J. A.(1997년) Elementary Statistics in social research (8th ed.). Needham Heights, MA: Allyn & Bacon.

온라인사이트

  • Garson, D. G.(2012a). Statistical associates publishing. available: Correlation. available: http://www.statisticalassociates.com/FAQ.htm
  • Garson, D. G.(2012b). Statistical associates publishing. available: Partial correlation. available: http://www.statisticalassociates.com/FAQ.htm
  • Trochim, W. M. K.(2012). Research methods knowledge base. available: http://www.socialresearchmethods.net/kb/index.php
  • Wikipedia(2012a). Correlation and dependence. available: http://en.wikipedia.org/wiki/Correlation_and_dependence
  • Wikipedia(2012b). Partial correlation. available: http://en.wikipedia.org/wiki/Partial_correlation

주제어

  • 상관관계, 피어슨 곱적률 계수 r, 산포도, 결정계수, 편상관관계, 준편상관관계, 거짓관계

    [네이버 지식백과] 상관관계분석 (커뮤니케이션 통계 방법, 2013. 2. 25., 류성진)