필요한 변수 정리 및 BMI 자료의 정규성 검정

2018. 4. 21. 18:08

국민건강영양조사에는 커피와 비만 이외의 많은 변수가 존재하기 때문에, 내가 원하는 변수만 추출해올 필요가 있다.

- 제7기 1차년도 원시자료 이용지침서를 확인하고 필요할만한 데이터를 요약했다.

번호	변수코드	변수명	내용
1	HE_BMI	체질량지수	수치형
2	HE_OBE	비만 여부	1. 저체중
			2. 정상
			3. 비만
3	FF_COFFEE	[커피]의 최근 1년간 평균섭취빈도	1. 거의 안 먹음
			2. 월1회
			3. 월2-3회
			4. 주1회
			5. 주2-4회
			6. 주5-6회
			7. 일1회
			8. 일2회
			9. 일3회
			99. 무응답
4	FA_COFFEE	[커피]의 1회 평균 섭취량	1. 1ts
			2. 2ts
			3. 3ts
			88. 비해당 (월 1회 미만)
			99. 무응답
5	FS_COFFEE	[커피]의 하루 3회 초과 섭취 시 하루 평균 섭취 회수	단위 : 회/일
6	FF_CREAM	[프림]의 최근 1년간 평균섭취빈도	위의 커피와 동일
7	FA_CREAM	[프림]의 1회 평균 섭취량
8	FF_SUGAR	[설탕]의 최근 1년간 평균섭취빈도
9	FA_SUGAR	[설탕]의 1회 평균 섭취량
10	FQ_COFFEE	[커피]의 주당섭취빈도	단위 : 회/주
11	FQ_CREAM	[프림]의 주당섭취빈도	단위 : 회/주
12	FQ_SUGAR	[설탕]의 주당섭취빈도	단위 : 회/주

서로 다른 테이블(HN16_ALL.sas7bdat , HN16_FFQ.sas7bdat ) 대상에 대한 변수 정보와 커피와 관련한 변수를 추출하여 inner join한 최종 데이터셋을 형성했다.

이러한 과정에서 체질량지수인 HE_BMI 변수는 만 19세 이상을 대상으로 측정하기 때문에 나이가 어려서 대상이 아닌 관측값들은 모두 제외했다.

> dim(X)

[1] 3371 21

> X <- X[ !is.na(X$HE_BMI),]

> dim(X)

[1] 3226 21

# 145개의 결측값을 제외한 결과 총 3226개의 관측값을 보유

t.test와 ANOVA 등의 통계적인 평균 검정 방법은 모집단에 대한 정규성이 가정된다.

따라서 관심있는 변수인 HE_BMI에 대한 정규성을 살펴보자.

우선 변수 HE_BMI를 시각화해서 살펴보았다.

히스토그램은 정규분포라고 하기엔 왼쪽으로 조금 치우친 것으로 보이며, 이에 따라 QQplot 또한 이론적인 정규분포에서 떨어진 곳에 위치했음을 알 수 있다.

HE_BMI가 정규성을 만족하도록 하기 위해 로그 변환을 시도해보자.

로그 변환한 데이터는 비교적 정규분포에 가까운 형태를 띄고있다.

수리적으로 계산한 값을 보자.

* 정규성에 대한 test

1) shapiro wilks test

> shapiro.test(log(HE_BMI))

Shapiro-Wilk normality test

data: log(HE_BMI)

W = 0.99549, p-value = 2.422e-08

2) AD test

> ad.test(log(HE_BMI))

Anderson-Darling normality test

data: log(HE_BMI)

A = 2.3618, p-value = 5.62e-06

3) K-S test

> ks.test(unique(log(HE_BMI)), "rnorm")

One-sample Kolmogorov-Smirnov test

data: unique(log(HE_BMI))

D = 4.4523, p-value < 2.2e-16

alternative hypothesis: two-sided

3가지 정규성 검정의 결과 모두 p-value가 아주 작아 귀무가설을 기각한다.

즉, 해당 자료의 log값은 정규성을 따른다고 할 수 없다.

- 앞으로의 진행 방향

1) 대표본이므로 정규성을 따른다고 생각하고 t.test, ANOVA 등을 수행할 수 있다. (가장 편한 방법)

2) 안타깝게도 가정을 만족하지 않아 모수적인 검정방법을 사용할 수 없다. 따라서 비모수적은 Wilcoxon Rank Sum test or Kruskal 등의 방법을 사용한다.

- 이 때, 표본 수에 따른 비모수적 검증 방법의 효율을 생각해봐야한다.

+) 모형식을 구상할 수 있는 방법에 대해서 생각해보자.

+) 다른 차시로의 확장은 7차시의 방법론이 정리가 되었을 때 시행해도 될 듯

>>>> t-test의 경우 표본의 크기가 크다면 정규성에 크게 영향을 받지 않는다.

등분산 가정의 경우도 s.e의 식을 고려하면 sqrt( s1/n1 + s2/n2 )인데 n의 크기가 커질수록 s1과 s2의 차이에 덜 민감하다.

통계 모형의 경우 결국 exact하게 정규성을 따를때만 그러하다를 말하는 것이 아님을 기억하자.

'분석 > 비만과 커피' 카테고리의 다른 글

[비만과커피] 회귀분석 (0)	2018.05.05
[비만과커피] 빈도에 따른 그룹 만들기와 그에 대한 검정 (0)	2018.05.01
[ 진행 방향 논의 ] (0)	2018.04.28
분산분석(ANOVA) (0)	2018.04.25
개요 (0)	2018.04.18

STAT_art

필요한 변수 정리 및 BMI 자료의 정규성 검정

'분석 > 비만과 커피' 카테고리의 다른 글

+ Recent posts

티스토리툴바