본문 바로가기
Statistics

평균은 왜 데이터의 대표값이 되었을까?

by 김꾸준 2021. 9. 15.

출처 : "빅데이터를 지배하는 통계의 힘" https://book.naver.com/bookdb/book_detail.nhn?bid=9473624 

 

빅데이터를 지배하는 통계의 힘

일본과 한국의 독자들에게 출간 즉시 큰 사랑을 받았던 ‘빅데이터를 지배하는 통계의 힘’이 실무활용 편으로 다시 돌아왔다. 이전 책이 빅데이터와 통계의 관계를 설명하고, 통계 마인드의

book.naver.com

 

 

 우리는 '평균'을 데이터의 대표값으로 사용한다. 평균이 대표값이 된 이유는 무엇일까? 평균의 본질은 무엇일까?



48.3 / 5 = 9.6, 하루 평균 9.6시간을 일하는 직장인들..

 

 

 우선 평균과 비율은 기본적으로 완전히 동일한 개념이다. 수의 형태로 표현할 수 없는 질적변수에 대해 각 분류마다 1이나 0이라는 형태로 '해당하는 정도'라는 양적변수를 생각하여 계산한 것이 평균이다. 예를 들어 총 학생이 100명인 A학급의 남성 학생수가 80명이라고 할 때 남성 '비율'은 80%이다. 남성 수의 '평균' 값을 구하기 위해 남성은 1, 그렇지 않으면 0으로 계산하면 (1*80 + 0*20) / 100 = 0.8로 아까 계산한 비율과 동일하게 나온다. 즉, 어떤 질적 변수가 '해당하는 정도'가 '평균'이며 이는 '비율'과 동일한 개념인 것이다. 

 

 

 이러한 평균에도 함정은 있다. 어느 회사 직원의 평균 연봉이 5억이라고 할 때 '그 회사에 다니면 누구라도 5억을 받을 수 있겠구나'라고 생각할 수 있으나 만약 실제 직원들의 연봉은 5천만원이고, 임원 연봉이 30억이라면 그 집단을 대표한다고 하기 어렵다. 그래서 이런 경우 평균 대신 중앙값이나 최빈수를 사용하기도 한다. 그러나 '통찰'을 위한 통계학에서는 중앙값과 최빈수를 쓰는 일이 거의 없다. 그 이유는 무엇일까?

 

 

 첫째, 인과 관계를 통찰할 때는 어떤 결과를 나타내는 값의 총량을 최대화하거나 최소화하는 쪽으로 관심이 쏠리는데(예를 들면 매출을 극대화 하기 위해 특정 행동을 한 A그룹과 하지 않은 B그룹을 비교하는 등) 요인이 바뀌어 총량이 변화했음에도 중앙값은 이를 대변하지 못하는 경우가 있다. 예를 들어 A 마트에서 경품추첨 행사를 했는데 평소 많이 사던 우량 고객들만 참여율이 높아 전체 매출이 올랐다면 평균은 올라갔으나 중앙값은 그대로 일 것이다. 즉, 집단의 분포가 어떻던 간에 전체적으로 매출이 얼마나 변했는가를 측정하는데는 평균값이 더 적절하다는 것이다. 

 

 

 둘째, 가우스가 수학적으로 밝혀낸 바에 따르면 데이터가 정규분포를 따르고 있으면 최소제곱법이 가장 좋은 추정방법이고 그 결과 평균값이 가장 좋은 추정값이 된다는 것이다. 일단 현대 통계학의 중요한 개념인 '중심극한정리'에 따르면 대부분의 데이터는 정규분포를 따른다. 실제로 동전을 던져 앞면이 나오는 확률을 구하는 실험을 할 때, 여러 번 시행할수록 결과는 정규분포를 따르게 된다. 심지어 앞면이 나올 확률이 75% 라는 가정을 하더라도 여러 번 시행하면 정규분포를 따르게 된다. 데이터가 정규분포를 따를 경우 전체 데이터의 오차가 최소가 될수록 참 값에 가깝기 때문에 즉 평균값이 가장 좋은 추정값이라고 할 수 있다.

 

 

 거듭 이야기 하지만 '현상 파악'을 위해 특정 집단의 이미지를 잡는게 목적이라면 평균 외 다양한 대표값을 살펴야겠지만, '인과관계 통찰'이 목적이라면 평균값을 사용하는 것이 합리적이다. 

 

 

 + 데이터를 점이 아닌 구간으로 보는 것도 데이터 리터러시를 높일 수 있는 좋은 방법이다. 흔히 데이터의 분포를 '사분위점'으로 파악하곤 하는데 이는 두 그룹 간의 총량의 차이를 계산하기 어렵다. 또 '벗어난 값의 제곱의 평균'인 '분산'도 자주 쓰이는데 두 그룹 간의 비교는 용이하나 그 의미를 바로 알기가 어렵다. 분산에 루트를 씌운 '표준 편차'는 이 두 문제를 모두 해결해준다. 수학적으로 증명된 바에 따르면 데이터의 불규칙성이 어떠하든 평균값의 +- 2SD(표준편차의 2배) 범위에는 전체 데이터의 3/4 이상이 존재한다. 게다가 정규분포를 따른다면 95% 이상이 해당 범위에 존재함을 알 수 있다. 즉, 두 그룹 간의 평균과 표준편차를 구했을 때 평균이 더 높은 그룹의 -2SD 범위 안에 평균이 더 낮은 그룹의 +2SD가 속하는 부분이 없다면 두 그룹 간의 차이는 명확하고 특정 설명변수가 두 그룹 간의 차이를 설명할 수 있다고 볼 수 있는 것이다.

 

 

 

가우스 분포