회귀문제는 가지고 있는 자료로 표현할수 있는 부분(신호)과 그렇지 못한 부분(소음, 오차)을 구분하는 좋은 방법이다.
이상적으로 표현하고 싶은 현상을 주어진 자료로만 표현하고자 하는 경우 신호에 접근할 수 있는 상한은 존재할 것이다.
예를 들어 카드사 콜센터에 인입되는 통화량을 예측할 때 고객의 결제일은 중요한 변수이다. 하지만 결제일이 중요한 변수라는 것을 모르고 있다면 이 부분의 신호를 파악하기 어렵다.
회귀모델을 만들때 오차항에 대한 가정을 하고 신호와 오차를 분리한다. 주어진 자료로 우리가 가정한 오차만큼을 제외한 부분을 잘 설명할 수 있다면, 우리가 만들어낸 모델은 적합하다고 할 수 있다. 이를 평가하기 위해 모델을 만든 후 잔차의 패턴으로 모델의 적합성을 진단한다.
시계열 자료를 분석하는 회귀모형을 만들때도 잔차의 패턴을 보고 모형적합성을 진단할 수 있다. 관측된 값을 시간순으로 정렬한 후 잔차의 패턴을 살펴보았을때 일정한 주기성, 트렌드를 보인다면 오차를 잘 구분해낸 모형이라고 할 수 없다.
1) 구분해내지 못한 오차를 표현할 수 있는 변수를 찾는다면 이러한 문제가 해결될 것인가?
-> 그렇다고 생각함. 이러한 문제가 발생하는 것은 시계열 자료의 특수성이라기 보다 타겟값에 영향을 미치는 추가적인 요인을 발견하지 못한 것이다. 이런 관점에서 시계열 자료라는 특수성은 문제를 다른 관점에서 해결할 수 있는 힌트가 된다.
2) 힌트란 무엇인가?
-> 우리가 확보하지 못한 중요한 변수를 새롭게 발견하는 것은 어렵다. 하지만 오차가 직전의 값에 일정한 영향을 받는다는 정보만으로 이 현상을 나타내는 변수를 생성할 수 있다. 물론 이 변수가 어떤 곳에 기인하는지는 확인이 어려운 경우가 많을 것이다.
직전 오차에 일정한 값(r)을 곱한 값과 새롭게 정의할 오차의 합으로 현재 시기의 오차를 정의할 수 있다. 이 정의를 바탕으로 기존의 회귀식을 변형한 새로운 회귀식을 표현할 수 있다. 새로 만들어진 회귀식의 오차는 정규성, 등분산성, 독립성 등을 따를 것으로 가정하고 모수를 추정할 때 r도 추가로 추정할 수 있다.
이렇게 우리는 가지고 있지 않은 변수이지만, 시간(또는 순서)에 영향을 받을 것이라는 믿음으로 개선된 회귀모형을 추정할 수 있다. 즉 우리가 원하는 가정에 만족하는 만큼 소음과 신호를 분리할 수 있다.
'분석 > 통계' 카테고리의 다른 글
최종 머신러닝 모형에서 variance를 줄이는 방법 (0) | 2019.03.09 |
---|---|
추세선의 증가하는 정도를 아는 방법 : 선형회귀분석 (0) | 2019.03.05 |
통화수요예측을 위한 자료수집 (0) | 2019.02.25 |
통계란 무엇일까? (0) | 2019.02.24 |
머신러닝 관련 나중에 볼 것 (0) | 2018.05.06 |