- 지난 번에 회의한 내용을 토대로 집단을 규정하고 그에 대한 검정을 실시할 것이다.




  1. 데이터 구성

    1) 원시자료 : 전과 동일하게 제7기 1차년도 국민건강영양조사 데이터를 활용

    2) 변수는 다음 게시글과 같다.
        http://statart.tistory.com/29 





  2. 그룹 규정 & 새로운 데이터 셋 소개

    1) 새로운 그룹변수 지정

  3. 구분 

    내용 

    코딩 

     control

    커피를 거의 마시지 않는 집단 

     FF_COFFEE==1

     coffee

    프림과 설탕을 추가하지 않은 커피만 마시는 집단 

     FF_COFFEE > 1

     FF_CREAM == 1

     FF_SUGAR == 1

     mixed

    프림과 설탕이 모두 포함되어있는 커피만 마시는 집단 

     FF_COFFEE == FF_CREAM

     FF_COFFEE == FF_SUGAR 


    위의 조건을 모두 만족하지 않는 관측값들(discard)은 대상에서 모두 제외한다.
    빈도 수는 다음과 같다.
       coffee control   mixed discard 
          942     401    1203     680 
    해당 그룹의 변수명을 그룹을 뜻하는 grp로 둔다.

    2) 데이터 셋 소개
      - 검정을 위해 추려낸 데이터 셋은 다음과 같다.
         HE_BMI  HE_obe FF_COFFEE FF_CREAM FF_SUGAR    grp
      2 21.25836      2         8               8        8         mixed
      3 26.76157      3         7               1        1         coffee
      4 23.26214      2         7               7        7         mixed
      5 18.54905      2         9               1        1         coffee
      6 21.05693      2         9               1        1         coffee
      7 28.43173      3         9               1        1         coffee





3. 데이터 살펴보기
  1) boxplot 
     - Y축은 HE_BMI를 나타낸다.
     - control 집단은 coffee와 mixed집단에 대해 차이가 있어보인다.



  2) histogram
     - 각 집단은 비슷한 분포를 따르는 것으로 보인다.
     - 또한, 정규성에서 크게 벗어나지 않는 것으로 보인다.







4. 검정

  1) ANOVA
    (1) 등분산검정
       - 집단별 분산의 차이가 유의미하다면 분산분석의 결과를 신뢰할 수 없다.
         따라서 bartlett의 등분산 검정을 실시한다.

> bartlett.test(HE_BMI~grp, data)

        Bartlett test of homogeneity of variances

data:  HE_BMI by grp
Bartlett's K-squared = 0.77593, df = 2, p-value = 0.6784

       - p-value가 0.6784로 귀무가설을 기각할 수 없다.
         따라서 집단별 등분산 가정을 만족한다. 이제 분산분석을 실시한다.


    (2) ANOVA

> summary(anova)

              Df Sum Sq Mean Sq F value   Pr(>F)    
grp            2    299  149.30   11.02 1.72e-05 ***
Residuals   2543  34453   13.55                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

       - F-값이 11.02이고 p-value는 0에 아주 가까운 값을 갖는 것을 확인할 수 있다.
         따라서 집단 별 HE_BMI의 평균차이가 유의미하다.


    (3) 사후 검정

> scheffe.test(anova, "grp", group=TRUE, alpha=0.05, console=TRUE)

Study: anova ~ "grp"

Scheffe Test for HE_BMI 

Mean Square Error  : 13.54831 

grp,  means

          HE_BMI      std    r      Min      Max
coffee  23.87418 3.728651  942 14.72621 39.54818
control 23.03551 3.594389  401 15.21665 37.07538
mixed   24.02228 3.671507 1203 15.78353 41.41637

Alpha: 0.05 ; DF Error: 2543 
Critical Value of F: 2.999264 

Groups according to probability of means differences and alpha level( 0.05 )

Means with the same letter are not significantly different.

          HE_BMI groups
mixed   24.02228      a
coffee  23.87418      a
control 23.03551      b

      - 통제집단은 커피를 마신 집단과 유의미한 차이가 있다.
      - 하지만 커피만 마신 집단과 프림과 설탕을 모두 마신 집단 간의 차이는 유의미하지 않다.





  2) 적합도 검정
    (1) 카이제곱 적합도 검정
        - 카이제곱 적합도 검정은 두 범주형 변수 사이의 연관성을 파악하는 통계적 기법이다.
          이를 위해서 HE_BMI 변수 대신 HE_obe 변수를 사용할 것이다.
          HE_obe 변수는 HE_BMI 변수를 일정한 기준에 대해 구간화한 변수이다.
          검정의 결과는 다음과 같다.

 1

 HE_BMI < 18.5

 저체중 

 2

 18.5 < HE_BMI < 25 

 정상 체중

 3

 25 < HE_BMI

 비만


> chisq.test(data$HE_obe, data$grp)

        Pearson's Chi-squared test

data:  data$HE_obe and data$grp
X-squared = 20.376, df = 4, p-value = 0.0004209
        - p-value가 0.05보다 작기 때문에 귀무가설을 기각한다.
          따라서 집단과 비만 여부는 관련이 있다.
          위의 ANOVA를 통해 통제집단과 그 외의 집단의 차이가 유의미함을 확인했다.
          동일한 결과를 지지함을 확인할 수 있다.

         이제 통제집단을 제외한 coffee와 mixed 두 집단을 비교해볼 것이다.

> chisq.test(data$HE_obe[w], data$grp[w])

        Pearson's Chi-squared test

data:  data$HE_obe[w] and data$grp[w]
X-squared = 4.5854, df = 2, p-value = 0.101

        - p-value가 0.101로 0.05보다 크다. 즉, 귀무가설을 기각할 수 없다.
          통제집단을 제외했을 때, 집단과 비만 여부는 관련이 있다고 할 수 없다.


    (2) 빈도표와 모자이크 플랏을 이용한 시각화
        - 빈도표
    coffee control mixed
  1     34      30    54
  2    603     265   717
  3    305     106   432








        - mosaicplot

       a. 통제집단의 관측도수는 다른 집단에 비해 적다.

       b. 통제집단은 비교적 저체중이 많다.

       c. coffee집단과 mixed 집단은 정상과 과체중을 합한 비율은 거의 비슷한다.

       d. 과체중인 관측값의 수는 통제집단, coffee, mixed 순으로 점점 증가하는 것처럼 보인다.






5. 결론

    - 검정의 결과, 커피의 섭취가 비만도에 영향을 미치는 것을 확인할 수 있다.

       즉, 커피를 섭취한 집단은 통제집단에 비해 체중이 높은 것을 확인할 수 있다.


    - 하지만 커피만 섭취하는 집단과 프림 및 설탕을 함께 섭취하는 집단 간의 차이가 있다고 할 근거는 없다.


    - 마지막의 mosaic plot을 보면 어느정도 증가하는 추세는 확인할 수 있으나, 이는 엄밀한 근거가 되기는 힘들어보인다.

+ Recent posts