국민건강영양조사에는 커피와 비만 이외의 많은 변수가 존재하기 때문에, 내가 원하는 변수만 추출해올 필요가 있다.
- 제7기 1차년도 원시자료 이용지침서를 확인하고 필요할만한 데이터를 요약했다.
번호 | 변수코드 | 변수명 | 내용 |
1 | HE_BMI | 체질량지수 | 수치형 |
2 | HE_OBE | 비만 여부 | 1. 저체중 |
2. 정상 | |||
3. 비만 | |||
3 | FF_COFFEE | [커피]의 최근 1년간 평균섭취빈도 | 1. 거의 안 먹음 |
2. 월1회 | |||
3. 월2-3회 | |||
4. 주1회 | |||
5. 주2-4회 | |||
6. 주5-6회 | |||
7. 일1회 | |||
8. 일2회 | |||
9. 일3회 | |||
99. 무응답 | |||
4 | FA_COFFEE | [커피]의 1회 평균 섭취량 | 1. 1ts |
2. 2ts | |||
3. 3ts | |||
88. 비해당 (월 1회 미만) | |||
99. 무응답 | |||
5 | FS_COFFEE | [커피]의 하루 3회 초과 섭취 시 하루 평균 섭취 회수 | 단위 : 회/일 |
6 | FF_CREAM | [프림]의 최근 1년간 평균섭취빈도 | 위의 커피와 동일 |
7 | FA_CREAM | [프림]의 1회 평균 섭취량 | |
8 | FF_SUGAR | [설탕]의 최근 1년간 평균섭취빈도 | |
9 | FA_SUGAR | [설탕]의 1회 평균 섭취량 | |
10 | FQ_COFFEE | [커피]의 주당섭취빈도 | 단위 : 회/주 |
11 | FQ_CREAM | [프림]의 주당섭취빈도 | 단위 : 회/주 |
12 | FQ_SUGAR | [설탕]의 주당섭취빈도 | 단위 : 회/주 |
서로 다른 테이블(HN16_ALL.sas7bdat , HN16_FFQ.sas7bdat ) 대상에 대한 변수 정보와 커피와 관련한 변수를 추출하여 inner join한 최종 데이터셋을 형성했다.
이러한 과정에서 체질량지수인 HE_BMI 변수는 만 19세 이상을 대상으로 측정하기 때문에 나이가 어려서 대상이 아닌 관측값들은 모두 제외했다.
> dim(X)
[1] 3371 21
> X <- X[ !is.na(X$HE_BMI),]
> dim(X)
[1] 3226 21
# 145개의 결측값을 제외한 결과 총 3226개의 관측값을 보유
t.test와 ANOVA 등의 통계적인 평균 검정 방법은 모집단에 대한 정규성이 가정된다.
따라서 관심있는 변수인 HE_BMI에 대한 정규성을 살펴보자.
우선 변수 HE_BMI를 시각화해서 살펴보았다.
히스토그램은 정규분포라고 하기엔 왼쪽으로 조금 치우친 것으로 보이며, 이에 따라 QQplot 또한 이론적인 정규분포에서 떨어진 곳에 위치했음을 알 수 있다.
HE_BMI가 정규성을 만족하도록 하기 위해 로그 변환을 시도해보자.
로그 변환한 데이터는 비교적 정규분포에 가까운 형태를 띄고있다.
수리적으로 계산한 값을 보자.
* 정규성에 대한 test
1) shapiro wilks test
> shapiro.test(log(HE_BMI))
Shapiro-Wilk normality test
data: log(HE_BMI)
W = 0.99549, p-value = 2.422e-08
2) AD test
> ad.test(log(HE_BMI))
Anderson-Darling normality test
data: log(HE_BMI)
A = 2.3618, p-value = 5.62e-06
3) K-S test
> ks.test(unique(log(HE_BMI)), "rnorm")
One-sample Kolmogorov-Smirnov test
data: unique(log(HE_BMI))
D = 4.4523, p-value < 2.2e-16
alternative hypothesis: two-sided
3가지 정규성 검정의 결과 모두 p-value가 아주 작아 귀무가설을 기각한다.
즉, 해당 자료의 log값은 정규성을 따른다고 할 수 없다.
- 앞으로의 진행 방향
1) 대표본이므로 정규성을 따른다고 생각하고 t.test, ANOVA 등을 수행할 수 있다. (가장 편한 방법)
2) 안타깝게도 가정을 만족하지 않아 모수적인 검정방법을 사용할 수 없다. 따라서 비모수적은 Wilcoxon Rank Sum test or Kruskal 등의 방법을 사용한다.
- 이 때, 표본 수에 따른 비모수적 검증 방법의 효율을 생각해봐야한다.
+) 모형식을 구상할 수 있는 방법에 대해서 생각해보자.
+) 다른 차시로의 확장은 7차시의 방법론이 정리가 되었을 때 시행해도 될 듯
>>>> t-test의 경우 표본의 크기가 크다면 정규성에 크게 영향을 받지 않는다.
등분산 가정의 경우도 s.e의 식을 고려하면 sqrt( s1/n1 + s2/n2 )인데 n의 크기가 커질수록 s1과 s2의 차이에 덜 민감하다.
통계 모형의 경우 결국 exact하게 정규성을 따를때만 그러하다를 말하는 것이 아님을 기억하자.
'분석 > 비만과 커피' 카테고리의 다른 글
[비만과커피] 회귀분석 (0) | 2018.05.05 |
---|---|
[비만과커피] 빈도에 따른 그룹 만들기와 그에 대한 검정 (0) | 2018.05.01 |
[ 진행 방향 논의 ] (0) | 2018.04.28 |
분산분석(ANOVA) (0) | 2018.04.25 |
개요 (0) | 2018.04.18 |