T-test와 정규성을 따르지 않는 자료에 대한 강건함(Robustness)

2018. 4. 21. 21:46

* 이 글은

http://thestatsgeek.com/2013/09/28/the-t-test-and-robustness-to-non-normality/

의 글을 보고 참고한 내용을 작성한 포스트입니다.

* 항상 T-test를 할 때 궁금한 점이 있었다.

1) 대표본인 경우 sample의 정규성을 고려하지 않아도 좋은가? (중심극한정리에 의해)

2) 중심극한정리는 sample의 수가 많을 때, 표본평균의 분포가 근사적으로 정규분포를 따른다는 것을 의미한다. 하지만, T분포의 경우 표준정규분포와 sqrt(S/df)의 비의 분포이므로 카이제곱분포를 또한 근사적으로 sample mean으로 만들 수 있는지를 살펴봐야 한다.

내가 생각한 바로는 카이제곱 분포의 경우 sample mean 뿐만이 아니라 각각의 Xi들 또한 필요하기 때문에 t분포가 중심극한정리에 의해 대표본 근사하기 어렵다고 생각한다.

이러한 의문을 해결하지 못해서, 검색하던 중 발견한 포스팅이다.

===================================================

- T-test는 기본적으로 두 집단의 평균이 같은지에 대해서 검증할 수 있는 방법이다.

이 때 기본적인 가정이 필요하다.

1) 두 집단은 각각 정규분포를 따른다.

2) 두 집단은 분산이 동일하다.

가정을 만족하지 않는 경우, 귀무가설이 사실임에도 이를 잘못 기각할 여지가 생긴다.

- 이 가정에 대한 확장을 고려해볼 수 있다.

왜냐하면, 기본적으로 raw data는 완전한 정규성이나 등분산성을 만족하기 어렵기 때문이다.

- 실제로, 이 포스팅은 대표본일 때 t-test가 타당하다는 것을 지지한다.

(즉, the type 1 error rate 가 0.05로 통제되어진다는 것을 지지한다.)

이에 대한 근거로 t-test는 각 그룹의 sample mean에 기반한 검정이라는 것을 들고있다.(중심극한정리)

또한, 표본평균의 표준 오차에 사용하는 추정량이 X의 분포에 관계 없이 일관성이 있고, 그에 따라 자료의 정규성에 영향을 받지 않는다고 말한다.

- 위 포스팅의 결론 :

sample size가 너무 작지 않다면, 데이터의 정규성에 대해서 심하게 걱정할 필요가 없다.(신뢰구간을 구할 때도 마찬가지)

물론 sample size가 아주 작거나 highly skewed distributions인 경우에는 고려해야한다.

===================================================

* 이에 다른 이의 댓글이 달린다.

- 엄격한 정규성에 대한 제한은 효율성을 낮춘다?

- 비모수적인 검정방법은 교호작용에 대한 검정을 수행할 수 없다?

- 다른 논문을 언급하며 해당 댓글을 지지한다.

(https://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546)

< THE IMPORTANCE OF THE NORMALITY ASSUMPTION IN LARGE PUBLIC HEALTH DATA SETS - Thomas Lumley, Paula Diehr, Scott Emerson, and Lu Chen >

대표본인 경우 정규성이 대해 크게 걱정할 필요가 없다는 결과를 지지한다.

===================================================

* 결론은 아직도 뭐가 맞는지 정확하게 모르겠음...

+) 다음은 미니탭 trainer의 포스팅이다.

http://blog.minitab.com/blog/understanding-statistics-and-its-application/what-should-i-do-if-my-data-is-not-normal-v2

- 시뮬레이션을 통해 non-normal data에 대한 처리를 이야기한다.

어떤 test는 non-normal에 대해 어느정도 robust하며, 다른 test는 그렇지 않다.

그중 t-test나 ANOVA는 non-normal에 대해 비교적 robust한 test라고 한다.

+) 회귀분석에 대한 reponse variable의 normaliy

https://stats.stackexchange.com/questions/75054/how-do-i-perform-a-regression-on-non-normal-data-which-remain-non-normal-when-tr

- LSE 회귀계수를 추정하고, 그것의 유용성을 밝혀낼 때(BLUE, Gauss-Markov theorem) 정규성에 대한 가정이 존재하지 않는다.

- 이러한 가정은 오직 회귀계수의 추정값이 MLE임을 밝히는데 필요한 것이다.

- 따라서, 반응 변수의 정규성은 회귀분석에 있어 필수가 아니다.

- 또한, 독립성이나 등분산성이 훨씬 중요한 가정이며

위에서 t-test의 경우에도 그렇듯 robust하다.

적합 후에 residual plot을 확인하는 것이 훨씬 도움된다.

'분석 > 통계' 카테고리의 다른 글

[회귀분석] F-통계량은 유의하지만 R-squared가 작다...? (0)	2018.05.05
결측치값 처리에 대하여 (0)	2018.05.04
[회귀분석 실습] 단순 선형회귀 분석에 대한 시뮬레이션 (0)	2018.04.10
[스크랩] 딥러닝 연습을 위한 여러가지 데이터 셋 (0)	2018.04.05
learning statistics on YouTube (0)	2018.04.03

STAT_art

T-test와 정규성을 따르지 않는 자료에 대한 강건함(Robustness)

'분석 > 통계' 카테고리의 다른 글

+ Recent posts

티스토리툴바