본문 바로가기

갈아먹는 통계 기초[2] 공분산과 피어슨 상관 계수

지난 글

갈아먹는 통계 기초[1] 확률 분포 정리

들어가며

캐글 컴페티션 같은 데이터 사이언스 테스크를 풀 때 주어진 데이터의 특성을 분석하는 작업을 EDA라고 합니다. EDA를 수행할 때 필수적으로 분석하는 것이 자료들 간의 상관관계입니다. 가령 직원들의 근무 성과 데이터가 주어졌다고 하면 직원들의 거주 지역과 성과 사이의 상관관계를 분석하고 싶을 수 있습니다. 만일 상관관계가 높다면 직원들의 성과를 예측하는데 적절한 데이터로 활용이 가능하겠죠?

 

이렇듯 데이터 간의 상관관계를 분석하고 싶을 때 사용되는 것이 공분산입니다. 이번 포스팅에서는 공분산의 기초 개념과 실질적으로 많이 사용되는 피어슨 상관 계수에 대해서 알아보겠습니다.

공분산(covariance)

공분산은 두 측정값 사이에 연관성을 분석하기 위해서 사용하는 통계 지표입니다. 분산은 아시다시피 집단 안에서 자료들이 얼마나 흩어져 있는가를 측정하는 값으로 개별 값에 평균을 빼준 뒤 제곱한 값들을 모두 더한 다음, 자료의 수로 나누어준 값입니다. 이제 서로 다른 두 자료 집단 간에 상호 연관성을 분석하기 위해서 공분산의 개념을 알아보겠습니다. 수식은 아래와 같습니다.

위 식은 x와 y의 모집단을 대상으로 측정한 모집단 공분산입니다. 만일 n개의 표본만 추출하여 공분산을 측정하였다면 표본 공분산이라 부르며 수식이 살짝 달라집니다.

n으로 나눠주는 것이 아닌 n-1로 나눠주는 것은 n-1로 나눠주어야만 비편향 추정량이 되기 때문이라고 합니다. n-1로 나눠주는 이유는 표본 분산이 비편향 추정값이 되도록 하기 위함인데, 자세한 내용은 다음의 자료를 참고해주시 바랍니다.[2]

 

피어슨 상관 계수(Pearson Correlation coefficient)

두 숫자형 변수 사이의 선형적 강도를 나타내기 위해서 공분산을 그대로 사용하지 않고, 공분산을 각 변수의 표준 편차로 나누어준 피어슨 곱적률 상관계수(Pearson product moment correlation coefficient)를 많이 사용합니다. 식으로 나타내면 아래와 같습니다.

이 피어슨 상관계수는 -1에서부터 1 사이의 값을 가집니다. 공분산과 마찬가지로 양수일 경우 두 변수가 양의 선형 상관 관계, 음수일 경우 음의 선형 상관 관계, 0일 경우 선형적 관계가 존재하지 않습니다. 이러한 피어슨 상관 계수에 따른 두 자료의 분포를 시각화해보면 아래와 같습니다.

 

그래프 상에서 하나의 점은 x좌표와 y좌표를 가지며 각각은 확률 변수입니다. 점의 개수는 표본의 개수 n에 해당합니다. 좌측 상단에 그래프를 보면 상관계수가 0.1입니다. 이 경우 점들이 특정한 패턴을 가지지 못하고 흩어져 있게 됩니다. 반면 우측 하단의 그래프는 0.9로 양의 상관관계가 높습니다. 이는 곧 x 값이 증가할 때 y값도 함께 증가하는 선형 관계를 가짐을 의미하며, 점들이 우상향 직선 형태를 만들며 모여있게 됩니다. 바로 옆 중앙 하단 그래프의 경우에는 음의 선형관계를 가져서 반대 방향의 직선 그래프를 보여줍니다.

피어슨 상관 계수의 활용

도입부에 언급했듯이 피어슨 상관 계수는 데이터 사이언스에서 실용적으로 많이 활용됩니다. 캐글의 유명한 타이타닉 데이터 셋을 통해서 이것이 어떻게 활용되는지 알아보겠습니다. 먼저 데이터 셋은 다음과 같이 구성되어 있습니다.

승객 별로 생존 여부와 이름, 성별, 형제 자매와의 동승 여부, 부모 자식들의 동승 여부, 지불한 금액 등등의 정보가 나와있습니다. 이렇게 데이터만 봐서는 생존 여부에 어떠한 지표가 가장 상관관계가 높을지 가늠이 안됩니다. 이를 pandas-profiling을 활용하여 각 컬럼별 피어슨 상관관계를 구해보았습니다.

붉은 색으로 표시될 수록 피어슨 상관관계가 높은 것이며, x축과 y축에는 각각의 컬럼명이 있습니다. 먼저 자기 자신과는 항상 상관관계가 1이므로 붉게 표시된 것을 확인할 수 있습니다. 다음으로 눈에 띄는 것은 생존 여부를 나타내는 Survived와 Fare가 붉게 표시되어 있습니다. 즉, 부자일 수록 생존 확률이 높다는 것을 유추할 수 있습니다. 반면 Pclass와 Fare 사이에는 음의 상관관계가 나타났는데 지불한 금액이 낮을 수록 낮은 등급의 좌석에 탑승하게 되므로 당연한 결과라고 볼 수 있습니다.

 

이렇든 컬럼간의 상관관계를 피어슨 상관관계를 통해서 파악해보면 데이터의 특성을 한 눈에 파악 가능합니다. 또한 피쳐 엔지니어링을 수행할 때 많은 도움이 됩니다.

마치며

지금까지 두 데이터 사이의 상관관계를 나타내는 공분산과 피어슨 상관계수에 대해서 알아보았습니다. 이 개념들 이외에도 훨씬 더 많은 개념들이 있지만 여기까지 살펴보고 넘어가도록 하겠습니다. 추후에 더 알게되는 내용들이 있다면 추가해보도록 하겠습니다.

 

감사합니다.

Reference

[1] 통계학 입문, 강상욱 외 8인

[2] https://hsm-edu.tistory.com/15?category=741767