앞선 분석을 살펴보면 프림(FF_CREAM)의 섭취가 BMI지수(HE_BMI)에 영향을 미치는 것으로 보인다.



- 아래의 그림은 프림 섭취 빈도와 BMI지수의 상자그림을 표현한 것이다.

그림만으로는 추세의 여부를 확인하기 힘들어 보인다.



따라서 프림의 섭취 빈도가 BMI지수에 미치는 영향에 대한 회귀분석을 실시한다.


> summary(mdl)


Call:

lm(formula = HE_BMI ~ FF_CREAM, data = x)


Residuals:

    Min      1Q  Median      3Q     Max 

-8.9189 -2.5522 -0.4539  2.1444 18.2344 


Coefficients:

            Estimate Std. Error t value Pr(>|t|)    

(Intercept) 23.58922    0.10966 215.114  < 2e-16 ***

FF_CREAM     0.05587    0.02065   2.705  0.00686 ** 

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 3.669 on 3224 degrees of freedom

Multiple R-squared:  0.002265, Adjusted R-squared:  0.001955 

F-statistic: 7.318 on 1 and 3224 DF,  p-value: 0.006861




1) 회귀계수의 검정 및 추정

- 회귀계수의 t검정 결과 p-value가 0.00686이기 때문에 BMI 지수에 대해 프림의 섭취빈도는 유의미한 영향을 미친다.

회귀계수의 추정값은 0.05587로 섭취빈도가 한 수준 증가할수록 BMI지수는 양 0.056만큼 증가한다. 이에 대해 산점도를 살펴보자.



- 위의 그림에서 빨간색 선은 추정한 회귀직선이다. 유의미한 선형추세를 가지지만 추정된 회귀계수는 아주 완만하다.


- 또한, 단순 선형회귀분석에서 설명변수에 대한 계수의 추정이 유의미하기 때문에 모형또한 유의미하다고 할 수 있다.(F값과 그 p-value 참고) 







2) 추정한 모형이 자료의 변동을 얼마나 설명하는가?(R-squared)

- R-squared 값이 0.002265로 아주 작은 것을 확인할 수 있다. 

만약 위의 산점도에서 모든 관측값이 추정한 회귀 직선(빨간 선) 위에 놓인다면 R-squared 값은 1이고 모형은 자료의 변동을 잘 설명한다고 할 수 있을 것이다.

하지만 위의 산점도를 보면 직선에서 많이 떨어져있는 값이 존재한다. 위에서 모형은 유의하지만 R-squared 값이 낮게 나온 이유는 이것 때문이다.







3) 잔차분석

(이미지를 클릭하면 확대해서 볼 수 있습니다.)



 - 왼쪽의 그림은 추정한 BMI지수와 잔차 사이의 산점도를 나타낸 것이다. 특정한 패턴을 보인다면 모형이 적절하지 않음을 나타낸다. 설명변수의 특성상 추정값은 단 9개의 범주로 나타날 수 밖에 없는 점을 고려하면 특정한 패턴을 보이지 않는다는 것을 확인할 수 있다. 단, 2786, 3028, 839에 해당하는 관측치들은 이상치일 수도 있음을 유의하자.


 - 오른쪽 그림은 수정된 잔차의 QQ plot을 나타낸 것이다. 정규성을 따르지 않는 것처럼보인다. 이는 앞선 분석에서도 고려했던 것이다. 모형해석에 주의를 요한다.



   만약 BMI지수의 log를 취한 값을 반응변수로 사용한다면 더 개선된 모형을 가질 수 있을 것이다. 이 경우 log(HE_BMI)에 대한 FF_CREAM의 계수의 추정값은 0.002464007이고 이 값을 다시 바꾸어주면 


> exp(mdl3$coefficients[2])

FF_CREAM 

1.002467 

  즉, 프림섭취빈도가 한 단위 증가할 수록 BMI지수는 1.002467만큼 증가한다는 것을 알 수 있다.







4) 결론

 - 프림 섭취여부는 BMI지수에 유의미한 영향을 미친다. 즉, 프림 섭취가 많을 수록 BMI지수가 증가하는 경향이 있다.

하지만 자료의 특성 상 각 섭취 빈도에서 BMI의 변동이 크다. 따라서 프림 섭취를 통한 BMI지수의 예측은 무의미할 것으로 예상할 수 있다.


 - 빈도수에 대해 정확한 회수로 재코딩하여 모형을 세우는 것 또한 한 가지 방법일 것이다. 두 모형 모두 유의할 것이므로 여기서는 다루지 않았다.

+ Recent posts