- 우리는 특정 변수에 중요한 영향을 미치는 변수들을 찾고, 그들이 각각 목표로하는 변수에 어떻게 영향을 미치는지 파악하고, 나아가 이를 예측하기 위해서 회귀분석을 사용한다.


   하지만 만약 우리가 비만의 정도인 BMI 지수에 영향을 미치는 요인과 그 정도를 파악하고자 하는데 "BMI 지수는 커피를 마신 양의 세제곱을 한 값에 크림을 마신 양의 제곱을 한 것과 미약한 정도의 관련이 있습니다." 라고 이야기한다면 말하는 자신도 그것이 의미하는 것을 이해하기 힘들 것이다.


   그래서 가장 단순하게 생각할 수 있는 것은 단순한 선형 관계이다.

   단순한 선형 관계는 변수들 사이의 관계를 이해하기 쉽게 나타낼 수 있기 때문에 다소 정밀한 예측이 아니라도 많이 사용된다. (정밀도 또한 그렇게 나쁘지 않은 경우가 많다.)


   그렇게 해서 회귀분석을 수행하면 패키지에서 필요한 값들을 출력해준다. 남은 것은 이 값들을 해석하는 것이다. 여기서 어떤 변수가 유의한지, 그 변수에 대한 추정값은 무엇이며 추정값에 대한 표준오차는 어느정도인지, 모형은 적절한지 등을 확인할 수 있다.


   그 중에서 모형이 잘 적합되었는지 판단할 때 R-squared 또는 adjusted R-squared를 사용하고, 모형이 통계적으로 적절한지 판단할 때 F-통계량을 사용한다고 알려져있다.


   사실 이 내용으로 보았을 때, 그 의미가 잘 구분이 되지 않는다. 그냥 보면 R제곱 값이나 F값이나 다 모형이 적절한지 보는 것 같은데 왜 둘을 따로 쓸까? 

   특히 F값은 유의한 정도로 크지만 R-squared 값은 작은 경우는 무엇을 의미할까?


  결론부터 말하자면 두 값은 모형이 적절한지를 말해주는 값이지만 각각 의미하는 바가 다르다.  

  • F-통계량 값은 자유도로 조정된 설명된 변동과 설명되지 않는 변동의 비를 나타낸 것이다. 이 값은 결국 이 관계를 선형으로 볼수 있는가 없는가를 의미한다(즉, 회귀 계수가 유의한가?).
  • R-squared 값은 전체 변동에 대해 모형이 설명하는 변동의 비를 나타낸다. 이 값은 자료들이 우리가 설정한 회귀 직선 주위에 얼마나 밀집되어 있는지를 의미하는 것이다. 이 값이 낮다는 것은 선형에서 많이 퍼져있는 것이다.


   그래서 F값은 유의하지만, R-squared 값이 아주 낮은 경우에는 

1) X가 Y에 미치는 영향은 여전히 유의하다. 


2) 하지만 우리가 추정한 회귀식에서 각 값들의 분산이 커서 예측에 대해서는 신뢰하기 힘들다.

   라고 결론 지을 수 있겠다.



참고) 

http://blog.minitab.com/blog/adventures-in-statistics-2/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values

+ Recent posts