[비만과커피] 회귀분석

2018. 5. 5. 18:36

* 앞선 분석을 살펴보면 프림(FF_CREAM)의 섭취가 BMI지수(HE_BMI)에 영향을 미치는 것으로 보인다.

- 아래의 그림은 프림 섭취 빈도와 BMI지수의 상자그림을 표현한 것이다.

그림만으로는 추세의 여부를 확인하기 힘들어 보인다.

따라서 프림의 섭취 빈도가 BMI지수에 미치는 영향에 대한 회귀분석을 실시한다.

> summary(mdl)

Call:
lm(formula = HE_BMI ~ FF_CREAM, data = x)

Residuals:
Min 1Q Median 3Q Max
-8.9189 -2.5522 -0.4539 2.1444 18.2344

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 23.58922 0.10966 215.114 < 2e-16 ***
FF_CREAM 0.05587 0.02065 2.705 0.00686 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.669 on 3224 degrees of freedom
Multiple R-squared: 0.002265, Adjusted R-squared: 0.001955
F-statistic: 7.318 on 1 and 3224 DF, p-value: 0.006861

1) 회귀계수의 검정 및 추정

- 회귀계수의 t검정 결과 p-value가 0.00686이기 때문에 BMI 지수에 대해 프림의 섭취빈도는 유의미한 영향을 미친다.

회귀계수의 추정값은 0.05587로 섭취빈도가 한 수준 증가할수록 BMI지수는 양 0.056만큼 증가한다. 이에 대해 산점도를 살펴보자.

- 위의 그림에서 빨간색 선은 추정한 회귀직선이다. 유의미한 선형추세를 가지지만 추정된 회귀계수는 아주 완만하다.

- 또한, 단순 선형회귀분석에서 설명변수에 대한 계수의 추정이 유의미하기 때문에 모형또한 유의미하다고 할 수 있다.(F값과 그 p-value 참고)

2) 추정한 모형이 자료의 변동을 얼마나 설명하는가?(R-squared)

- R-squared 값이 0.002265로 아주 작은 것을 확인할 수 있다.

만약 위의 산점도에서 모든 관측값이 추정한 회귀 직선(빨간 선) 위에 놓인다면 R-squared 값은 1이고 모형은 자료의 변동을 잘 설명한다고 할 수 있을 것이다.

하지만 위의 산점도를 보면 직선에서 많이 떨어져있는 값이 존재한다. 위에서 모형은 유의하지만 R-squared 값이 낮게 나온 이유는 이것 때문이다.

3) 잔차분석

(이미지를 클릭하면 확대해서 볼 수 있습니다.)

- 왼쪽의 그림은 추정한 BMI지수와 잔차 사이의 산점도를 나타낸 것이다. 특정한 패턴을 보인다면 모형이 적절하지 않음을 나타낸다. 설명변수의 특성상 추정값은 단 9개의 범주로 나타날 수 밖에 없는 점을 고려하면 특정한 패턴을 보이지 않는다는 것을 확인할 수 있다. 단, 2786, 3028, 839에 해당하는 관측치들은 이상치일 수도 있음을 유의하자.

- 오른쪽 그림은 수정된 잔차의 QQ plot을 나타낸 것이다. 정규성을 따르지 않는 것처럼보인다. 이는 앞선 분석에서도 고려했던 것이다. 모형해석에 주의를 요한다.

만약 BMI지수의 log를 취한 값을 반응변수로 사용한다면 더 개선된 모형을 가질 수 있을 것이다. 이 경우 log(HE_BMI)에 대한 FF_CREAM의 계수의 추정값은 0.002464007이고 이 값을 다시 바꾸어주면

> exp(mdl3$coefficients[2])
FF_CREAM
1.002467

즉, 프림섭취빈도가 한 단위 증가할 수록 BMI지수는 1.002467만큼 증가한다는 것을 알 수 있다.

4) 결론

- 프림 섭취여부는 BMI지수에 유의미한 영향을 미친다. 즉, 프림 섭취가 많을 수록 BMI지수가 증가하는 경향이 있다.

하지만 자료의 특성 상 각 섭취 빈도에서 BMI의 변동이 크다. 따라서 프림 섭취를 통한 BMI지수의 예측은 무의미할 것으로 예상할 수 있다.

- 빈도수에 대해 정확한 회수로 재코딩하여 모형을 세우는 것 또한 한 가지 방법일 것이다. 두 모형 모두 유의할 것이므로 여기서는 다루지 않았다.

'분석 > 비만과 커피' 카테고리의 다른 글

[비만과커피] 커피 섭취 빈도가 비만에 미치는 영향(로지스틱회귀분석) (2)	2018.05.10
[비만과커피] 빈도에 따른 그룹 만들기와 그에 대한 검정 (0)	2018.05.01
[ 진행 방향 논의 ] (0)	2018.04.28
분산분석(ANOVA) (0)	2018.04.25
필요한 변수 정리 및 BMI 자료의 정규성 검정 (0)	2018.04.21

STAT_art

[비만과커피] 회귀분석

'분석 > 비만과 커피' 카테고리의 다른 글

+ Recent posts

티스토리툴바