* 커피 섭취는 우리가 생각하는 비만도(BMI 지수) 에 영향을 미칠까?



1. 데이터 형성

- 원시자료 : 국민건강영양조사 제7기 1차년도 조사자료 


- 필요한 변수 선택 : 


names(data)

 [1] "ID"        "HE_BMI"    "HE_obe"    "FF_COFFEE" "FA_COFFEE" "FS_COFFEE"

 [7] "FF_CREAM"  "FA_CREAM"  "FF_SUGAR"  "FA_SUGAR"  "FQ_COFFEE"

  # ID 변수는 제거해도 상관 없음.



- 변수 처리와 결측치 파악(sas data file을 불러왔기 때문에 결측치에 대한 입력이 필요하다.)

> data$FF_COFFEE <- ifelse(FF_COFFEE==99, NA, FF_COFFEE)

> data$FA_COFFEE <- ifelse(FA_COFFEE==99 | FA_COFFEE==88, NA, FA_COFFEE)

> data$FF_CREAM <- ifelse(FF_CREAM==99, NA, FF_CREAM)

> data$FA_CREAM <- ifelse(FA_CREAM==99 | FA_CREAM==88, NA, FA_CREAM)

> data$FF_SUGAR <- ifelse(FF_SUGAR==99, NA, FF_SUGAR)

> data$FA_SUGAR <- ifelse(FA_SUGAR==99 | FA_SUGAR==88, NA, FA_SUGAR)


# 결측치 파악하기

> apply(data, 2, function(x) sum(is.na(x)))

       ID    HE_BMI    HE_obe FF_COFFEE FA_COFFEE FS_COFFEE  FF_CREAM  FA_CREAM 

        0       145       145         0       424      3065         0      1301 

 FF_SUGAR  FA_SUGAR FQ_COFFEE 

        0      1278         0


FF_ : (커피, 프림, 설탕 등을) 마시는 주기

FA_ : (커피, 프림, 설탕 등을) 1회 마실 때 첨가하는 양

FS_COFFEE : 하루에 커피를 몇 잔 마시는가? (3잔 이상인 대상자만)

  * 각 변수의 의미를 보면 FA와 FS는 결측이 존재할 수 있음을 알 수 있다.

  * 다행히 FF_에는 결측이 전혀 존재하지 않는다.






2. 탐색


  1) 상자그림을 보고 수준이 올라갈수록 중심위치의 이동이 있을거라고 예상해볼 수 있다.


  2) 정규성을 확인


      ANOVA test는 정규성에 대해 꽤 robust한 분석이다. 

      따라서, ANOVA를 수행하는데 큰 문제는 없을 거라고 생각해볼 수 있다.


  3) 등분산성 확인

> bartlett.test(HE_BMI~FF_COFFEE, data)


Bartlett test of homogeneity of variances


data:  HE_BMI by FF_COFFEE

Bartlett's K-squared = 7.3375, df = 8, p-value = 0.5007


> bartlett.test(HE_BMI~FF_CREAM, data)


Bartlett test of homogeneity of variances


data:  HE_BMI by FF_CREAM

Bartlett's K-squared = 7.0387, df = 8, p-value = 0.5325


> bartlett.test(HE_BMI~FF_SUGAR, data)


Bartlett test of homogeneity of variances


data:  HE_BMI by FF_SUGAR

Bartlett's K-squared = 8.9488, df = 8, p-value = 0.3466


      등분산성을 확인하기 위해 bartlett.test를 수행했다.

      이 때의 귀무가설 H0는 "자료가 등분산을 따른다." 이다.

      유의수준이 0.05라고 했을 때, 세 종류 모두 귀무가설을 기각할 수 없다.

      즉, 등분산의 문제 없이 ANOVA를 수행할 수 있다.






3. 분산분석


> aov_coffee <- aov(HE_BMI~FF_COFFEE, data)

> aov_cream <- aov(HE_BMI~FF_CREAM, data)

> aov_sugar <- aov(HE_BMI~FF_SUGAR, data)


> summary(aov_coffee)

              Df Sum Sq Mean Sq F value   Pr(>F)    

FF_COFFEE      8    518   64.73   4.845 5.92e-06 ***

Residuals   3217  42980   13.36                     

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

145 observations deleted due to missingness


> summary(aov_cream)

              Df Sum Sq Mean Sq F value Pr(>F)  

FF_CREAM       8    239   29.93   2.226  0.023 *

Residuals   3217  43258   13.45                 

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

145 observations deleted due to missingness


> summary(aov_sugar)

              Df Sum Sq Mean Sq F value   Pr(>F)    

FF_SUGAR       8    353   44.14   3.291 0.000954 ***

Residuals   3217  43144   13.41                     

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

145 observations deleted due to missingness

     세 가지 결과 모두 귀무가설을 기각한다.

     ANOVA의 귀무가설 H0는 "각 집단의 모평균이 동일하다."를 지지하기 때문에 커피, 프림, 설탕은 각각 BMI 지수에 영향을 끼친다고 할 수 있다.





4. 사후분석

     

* 집단 수가 많고, 집단별 표본 수가 동일하지 않기 때문에 Scheffe의 방법을 사용해 사후분석을 실시해보자.


  1) FF_COFFEE

> scheffe.test(aov_coffee, "FF_COFFEE", group=TRUE, alpha = 0.05, console = TRUE)


Study: aov_coffee ~ "FF_COFFEE"


Scheffe Test for HE_BMI 


Mean Square Error  : 13.36014 


FF_COFFEE,  means


    HE_BMI      std   r      Min      Max

1 23.03551 3.594389 401 15.21665 37.07538

2 23.51493 4.059175  73 16.92901 36.08853

3 23.73982 3.939739  87 17.73744 35.37101

4 23.18744 3.649865 113 14.72621 38.37715

5 23.84708 3.875124 291 15.87577 38.11602

6 23.89695 3.900598 127 16.73081 39.54818

7 23.65714 3.585331 642 15.78353 38.22888

8 24.09519 3.608761 816 16.29307 41.99118

9 24.27338 3.584534 676 16.11203 37.81432


Alpha: 0.05 ; DF Error: 3217 

Critical Value of F: 1.94128 


Groups according to probability of means differences and alpha level( 0.05 )


Means with the same letter are not significantly different.


    HE_BMI groups

9 24.27338      a

8 24.09519      a

6 23.89695     ab

5 23.84708     ab

3 23.73982     ab

7 23.65714     ab

2 23.51493     ab

4 23.18744     ab

1 23.03551      b

     - 3가지 그룹으로 유의한 차이를 분류할 수 있다.

     - 전반적으로 더 많은 양의 커피를 섭취할 수록 BMI 지수는 증가하는 것을 확인할 수 있다.



  2) FF_CREAM

> scheffe.test(aov_cream, "FF_CREAM", group=TRUE, alpha = 0.05, console = TRUE)


Study: aov_cream ~ "FF_CREAM"


Scheffe Test for HE_BMI 


Mean Square Error  : 13.44667 


FF_CREAM,  means


    HE_BMI      std    r      Min      Max

1 23.70397 3.672077 1241 14.72621 39.54818

2 23.42212 3.888203  141 16.38891 36.08853

3 23.91030 3.934407  153 16.29307 41.99118

4 23.72214 3.534492  183 16.23205 38.37715

5 23.88857 3.898432  252 15.87577 38.11602

6 23.36210 3.715863   60 17.39854 33.34422

7 23.59222 3.526478  428 15.78353 41.54292

8 24.15068 3.588591  399 16.89932 41.41637

9 24.38576 3.584984  369 16.35906 36.48608


Alpha: 0.05 ; DF Error: 3217 

Critical Value of F: 1.94128 


Groups according to probability of means differences and alpha level( 0.05 )


Means with the same letter are not significantly different.


    HE_BMI groups

9 24.38576      a

8 24.15068      a

3 23.91030      a

5 23.88857      a

4 23.72214      a

1 23.70397      a

7 23.59222      a

2 23.42212      a

6 23.36210      a

      - group을 분류할 수 없다.

      - ANOVA의 결론은 평균 차이가 유의하다는 것을 지지하지만 사후검정의 결과 그 차이가 크지 않은 것으로 보인다.


      - 일반적으로 프림의 섭취가 많아 질수록 비만도가 높아질 것이라는 통념을 고려해보면, 이에 대해서는 자료의 구성과 분석의 타당성을 다시 한 번 생각해볼 필요가 있다. *



  3) FF_SUGAR

> scheffe.test(aov_sugar, "FF_SUGAR", group=TRUE, alpha = 0.05, console = TRUE)


Study: aov_sugar ~ "FF_SUGAR"


Scheffe Test for HE_BMI 


Mean Square Error  : 13.41135 


FF_SUGAR,  means


    HE_BMI      std    r      Min      Max

1 23.56415 3.726787 1218 15.21665 39.54818

2 23.31761 3.828601  128 16.73081 36.08853

3 23.93112 4.010568  137 16.23205 41.99118

4 23.90935 3.329878  146 14.72621 35.13736

5 24.06747 3.675423  248 15.87577 38.11602

6 23.88976 3.626571   60 17.39854 33.34422

7 23.61175 3.495242  449 15.78353 37.28467

8 24.20216 3.696068  432 16.89932 41.54292

9 24.40664 3.543703  408 16.35906 36.48608


Alpha: 0.05 ; DF Error: 3217 

Critical Value of F: 1.94128 


Groups according to probability of means differences and alpha level( 0.05 )


Means with the same letter are not significantly different.


    HE_BMI groups

9 24.40664      a

8 24.20216     ab

5 24.06747     ab

3 23.93112     ab

4 23.90935     ab

6 23.88976     ab

7 23.61175     ab

1 23.56415      b

2 23.31761      b

      - FF_COFFEE와 유사하게 세 가지 그룹이 형성되었으며, 설탕의 섭취가 많은 집단이 BMI 지수 또한 높은 것을 확인할 수 있다.







1) factor의 수준이 많아질수록 검정은 불완전해진다.

    - 9개의 수준을 다른 기준에 의하여 묶어보고, 더 작은 수준을 가지고 다시 분석해볼 필요가 있다.


2) scheffe 검정 

   - FF_CREAM 변수의 경우 분산분석의 결과는 유의했지만, 사후 검정에서 집단을 분류할 수 있었다. 그 이유에 대해서 다시 살펴볼 필요가 있다.

   참고) http://gofood.tistory.com/424 *


3) 범주형태의 자료(HE_OBE)를 사용한 독립성 검정을 실시하는 것도 방법일 수 있다.


+ Recent posts