피어슨상관계수 (1) 썸네일형 리스트형 갈아먹는 통계 기초[2] 공분산과 피어슨 상관 계수 지난 글 갈아먹는 통계 기초[1] 확률 분포 정리 들어가며 캐글 컴페티션 같은 데이터 사이언스 테스크를 풀 때 주어진 데이터의 특성을 분석하는 작업을 EDA라고 합니다. EDA를 수행할 때 필수적으로 분석하는 것이 자료들 간의 상관관계입니다. 가령 직원들의 근무 성과 데이터가 주어졌다고 하면 직원들의 거주 지역과 성과 사이의 상관관계를 분석하고 싶을 수 있습니다. 만일 상관관계가 높다면 직원들의 성과를 예측하는데 적절한 데이터로 활용이 가능하겠죠? 이렇듯 데이터 간의 상관관계를 분석하고 싶을 때 사용되는 것이 공분산입니다. 이번 포스팅에서는 공분산의 기초 개념과 실질적으로 많이 사용되는 피어슨 상관 계수에 대해서 알아보겠습니다. 공분산(covariance) 공분산은 두 측정값 사이에 연관성을 분석하기 위.. 이전 1 다음