- 지난 번에 회의한 내용을 토대로 집단을 규정하고 그에 대한 검정을 실시할 것이다.
- 데이터 구성
1) 원시자료 : 전과 동일하게 제7기 1차년도 국민건강영양조사 데이터를 활용
2) 변수는 다음 게시글과 같다.
http://statart.tistory.com/29 - 그룹 규정 & 새로운 데이터 셋 소개
1) 새로운 그룹변수 지정
구분 |
내용 |
코딩 |
control |
커피를 거의 마시지 않는 집단 |
FF_COFFEE==1 |
coffee |
프림과 설탕을 추가하지 않은 커피만 마시는 집단 |
FF_COFFEE > 1 FF_CREAM == 1 FF_SUGAR == 1 |
mixed |
프림과 설탕이 모두 포함되어있는 커피만 마시는 집단 |
FF_COFFEE == FF_CREAM FF_COFFEE == FF_SUGAR |
위의 조건을 모두 만족하지 않는 관측값들(discard)은 대상에서 모두 제외한다.
- 빈도 수는 다음과 같다.
- coffee control mixed discard
- 942 401 1203 680
- 해당 그룹의 변수명을 그룹을 뜻하는 grp로 둔다.
- 2) 데이터 셋 소개
- - 검정을 위해 추려낸 데이터 셋은 다음과 같다.
- HE_BMI HE_obe FF_COFFEE FF_CREAM FF_SUGAR grp
- 2 21.25836 2 8 8 8 mixed
- 3 26.76157 3 7 1 1 coffee
- 4 23.26214 2 7 7 7 mixed
- 5 18.54905 2 9 1 1 coffee
- 6 21.05693 2 9 1 1 coffee
- 7 28.43173 3 9 1 1 coffee
3. 데이터 살펴보기
1) boxplot
- Y축은 HE_BMI를 나타낸다.
- control 집단은 coffee와 mixed집단에 대해 차이가 있어보인다.
2) histogram
- 각 집단은 비슷한 분포를 따르는 것으로 보인다.
- 또한, 정규성에서 크게 벗어나지 않는 것으로 보인다.
4. 검정
1) ANOVA
(1) 등분산검정
- 집단별 분산의 차이가 유의미하다면 분산분석의 결과를 신뢰할 수 없다.
따라서 bartlett의 등분산 검정을 실시한다.
> bartlett.test(HE_BMI~grp, data)
Bartlett test of homogeneity of variances
data: HE_BMI by grp
Bartlett's K-squared = 0.77593, df = 2, p-value = 0.6784
- p-value가 0.6784로 귀무가설을 기각할 수 없다.
따라서 집단별 등분산 가정을 만족한다. 이제 분산분석을 실시한다.
(2) ANOVA
> summary(anova)
Df Sum Sq Mean Sq F value Pr(>F)
grp 2 299 149.30 11.02 1.72e-05 ***
Residuals 2543 34453 13.55
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
- F-값이 11.02이고 p-value는 0에 아주 가까운 값을 갖는 것을 확인할 수 있다.
따라서 집단 별 HE_BMI의 평균차이가 유의미하다.
(3) 사후 검정
> scheffe.test(anova, "grp", group=TRUE, alpha=0.05, console=TRUE)
Study: anova ~ "grp"
Scheffe Test for HE_BMI
Mean Square Error : 13.54831
grp, means
HE_BMI std r Min Max
coffee 23.87418 3.728651 942 14.72621 39.54818
control 23.03551 3.594389 401 15.21665 37.07538
mixed 24.02228 3.671507 1203 15.78353 41.41637
Alpha: 0.05 ; DF Error: 2543
Critical Value of F: 2.999264
Groups according to probability of means differences and alpha level( 0.05 )
Means with the same letter are not significantly different.
HE_BMI groups
mixed 24.02228 a
coffee 23.87418 a
control 23.03551 b
- 통제집단은 커피를 마신 집단과 유의미한 차이가 있다.
- 하지만 커피만 마신 집단과 프림과 설탕을 모두 마신 집단 간의 차이는 유의미하지 않다.
2) 적합도 검정
(1) 카이제곱 적합도 검정
- 카이제곱 적합도 검정은 두 범주형 변수 사이의 연관성을 파악하는 통계적 기법이다.
이를 위해서 HE_BMI 변수 대신 HE_obe 변수를 사용할 것이다.
HE_obe 변수는 HE_BMI 변수를 일정한 기준에 대해 구간화한 변수이다.
검정의 결과는 다음과 같다.
1 | HE_BMI < 18.5 | 저체중 |
2 | 18.5 < HE_BMI < 25 | 정상 체중 |
3 | 25 < HE_BMI | 비만 |
> chisq.test(data$HE_obe, data$grp)
Pearson's Chi-squared test
data: data$HE_obe and data$grp
X-squared = 20.376, df = 4, p-value = 0.0004209
- p-value가 0.05보다 작기 때문에 귀무가설을 기각한다.
따라서 집단과 비만 여부는 관련이 있다.
위의 ANOVA를 통해 통제집단과 그 외의 집단의 차이가 유의미함을 확인했다.
동일한 결과를 지지함을 확인할 수 있다.
이제 통제집단을 제외한 coffee와 mixed 두 집단을 비교해볼 것이다.
> chisq.test(data$HE_obe[w], data$grp[w])
Pearson's Chi-squared test
data: data$HE_obe[w] and data$grp[w]
X-squared = 4.5854, df = 2, p-value = 0.101
- p-value가 0.101로 0.05보다 크다. 즉, 귀무가설을 기각할 수 없다.
통제집단을 제외했을 때, 집단과 비만 여부는 관련이 있다고 할 수 없다.
(2) 빈도표와 모자이크 플랏을 이용한 시각화
- 빈도표
coffee control mixed
1 34 30 54
2 603 265 717
3 305 106 432
- mosaicplot
a. 통제집단의 관측도수는 다른 집단에 비해 적다.
b. 통제집단은 비교적 저체중이 많다.
c. coffee집단과 mixed 집단은 정상과 과체중을 합한 비율은 거의 비슷한다.
d. 과체중인 관측값의 수는 통제집단, coffee, mixed 순으로 점점 증가하는 것처럼 보인다.
5. 결론
- 검정의 결과, 커피의 섭취가 비만도에 영향을 미치는 것을 확인할 수 있다.
즉, 커피를 섭취한 집단은 통제집단에 비해 체중이 높은 것을 확인할 수 있다.
- 하지만 커피만 섭취하는 집단과 프림 및 설탕을 함께 섭취하는 집단 간의 차이가 있다고 할 근거는 없다.
- 마지막의 mosaic plot을 보면 어느정도 증가하는 추세는 확인할 수 있으나, 이는 엄밀한 근거가 되기는 힘들어보인다.
'분석 > 비만과 커피' 카테고리의 다른 글
[비만과커피] 커피 섭취 빈도가 비만에 미치는 영향(로지스틱회귀분석) (2) | 2018.05.10 |
---|---|
[비만과커피] 회귀분석 (0) | 2018.05.05 |
[ 진행 방향 논의 ] (0) | 2018.04.28 |
분산분석(ANOVA) (0) | 2018.04.25 |
필요한 변수 정리 및 BMI 자료의 정규성 검정 (0) | 2018.04.21 |