Statics / 정규성, 그리고 비모수검정.md

정규성, 그리고 비모수검정

조회

여기 글을 꾸준히 보신 분들이라면(특히 통계쪽) t-test나 어노바같은거 할 때 정규성 어쩌고 하는 걸 보셨을것이다. 표본의 크기가 충분히 크기 않으면서 정규성 등분산성을 위반하면 티테스트 말고 비모수로 빠지라고 했잖아요. 아니 근데 정규성이 뭔데? 비모수검정은 뭔데?

 

정규성

데이터가 정규분포를 따르는 특성이 정규성이다. 정규분포 그 종모양 아시죠?

이게 평균(뮤)이 0, 표준편차(시그마)가 1이면 표준정규분포임다. 어떤 데이터가 정규성을 띤다는 건 분포가 저 모양이라는 얘기예요.

 

정규성을 확인하는 방법

일단 내가 Python에서 쓰는 방법은 샤피로-윌크 검정이고 콜모고로프-스미노브 검정이나 앤더슨-달링 검정도 있다. 근데 가끔 그럴때 있음. 아니 샤피로 윌크 돌렸는데 피밸류가 0.06이예요. 그러면 통계상으로는 정규성을 위반하지 않잖아요? 그런데 하 이거 애매한데... 그러면 큐큐플롯 그려보세요.

 

큐큐 그렸는데 일직선이면 그 데이터는 정규성을 갖고 있는겁니다. 큐큐 그렸는데 점 분포가 일직선이 아니고 개판이다? 정규성 위반임.

 

근본적인 질문: 왜 정규성을 확인하나요?

어노바는 조건이 뭔지 모르겠는데 일단 티테스트는 표본 수가 30개가 안되면 정규성 등분산성 확인해보라고 했잖아요? 일단 왜 t-test에서 그 마지노선이 30이냐면... 그 중심극한정리에 따라 정규성 가정을 만족할 수 있는(그리고 신뢰할만한 결과를 얻을 수 있는) 최소 표본 수가 30입니다. 그래서 30개가 안되면 정규성, 등분산성을 따져보고 하라는거임. 왜죠? 티테스트 돌리는 조건에 '데이터가 정규 분포를 따라야 한다 (정규성)'가 있습니다. 독립 표본 t-test는 등분산성도 같이 따져봐야되지만.

 

비모수검정

모수검정?

일단 여기에 대해 설명하기 전에 모수검정에 대해 알아보자. 모수검정은 뭐냐면 티테스트나 어노바, 피어슨 상관계수 같은 애들이다. 얘네들의 공통적인 특징은 모집단이 정규분포를 따른다는 가정 하에 모평균, 분산 등 특정 매개변수를 이용하여 가설을 검정하는 통계 방법이라는 것이다.

 

모수검정에는 다음과 같은 전제조건이 있다.

 

1. 표본의 모집단이 정규분포를 이루어야 한다. (정규성씨 앞으로)

2. 집단내의 분산은 같아야 한다. (등분산성)

3. 변인은 등간척도나 비율척도로 측정되어야 한다.

 

저 두개는 나중에 설명드리겠지만 일단 둘 다 수치형이다. 그래서 내가 MSA 한 거에 대해서 통계분석 매길때 비모수로 빠진거임. DNA 염기는 숫자가 아니기때문에 숫자로 변환은 할 수 있어도 평균이나 분산같은 통계량이 1도 의미가 없습니다.

 

비모수검정?

비모수검정은 모집단의 분포 형태를 가정하지 않고 순위나 중앙값 등을 이용해 차이를 검정하는 통계 방법이다. 그래서 표본의 수가 충분하지 않거나 정규성을 위반할 경우 이쪽으로 빠지라고 하는거다. 모수 검정은 데이터의 중심이 평균에 있지만 이쪽은 중앙값이나 순위에 있어서 서열형 데이터일때, 혹은 정규성을 위반할때도 통계 검정이 가능하다.

'Statics' 카테고리의 다른 글

통계는 실전이야: ANOVA(feat. Tukey HSD)  (0) 2026.02.03
통계는 실전이야: Chi-square(카이제곱검정)  (0) 2026.02.02
통계는 실전이야: t-test  (0) 2026.01.30
PCA, MCA, FAMD  (0) 2026.01.29
섀넌 엔트로피  (0) 2026.01.28

댓글

홈으로 돌아가기

검색 결과

"search" 검색 결과입니다.