통계학은 오차의 과학이다.

회귀문제는 가지고 있는 자료로 표현할수 있는 부분(신호)과 그렇지 못한 부분(소음, 오차)을 구분하는 좋은 방법이다.

이상적으로 표현하고 싶은 현상을 주어진 자료로만 표현하고자 하는 경우 신호에 접근할 수 있는 상한은 존재할 것이다.

예를 들어 카드사 콜센터에 인입되는 통화량을 예측할 때 고객의 결제일은 중요한 변수이다. 하지만 결제일이 중요한 변수라는 것을 모르고 있다면 이 부분의 신호를 파악하기 어렵다.

회귀모델을 만들때 오차항에 대한 가정을 하고 신호와 오차를 분리한다. 주어진 자료로 우리가 가정한 오차만큼을 제외한 부분을 잘 설명할 수 있다면, 우리가 만들어낸 모델은 적합하다고 할 수 있다. 이를 평가하기 위해 모델을 만든 후 잔차의 패턴으로 모델의 적합성을 진단한다.

시계열 자료를 분석하는 회귀모형을 만들때도 잔차의 패턴을 보고 모형적합성을 진단할 수 있다. 관측된 값을 시간순으로 정렬한 후 잔차의 패턴을 살펴보았을때 일정한 주기성, 트렌드를 보인다면 오차를 잘 구분해낸 모형이라고 할 수 없다.

1) 구분해내지 못한 오차를 표현할 수 있는 변수를 찾는다면 이러한 문제가 해결될 것인가?
-> 그렇다고 생각함. 이러한 문제가 발생하는 것은 시계열 자료의 특수성이라기 보다 타겟값에 영향을 미치는 추가적인 요인을 발견하지 못한 것이다. 이런 관점에서 시계열 자료라는 특수성은 문제를 다른 관점에서 해결할 수 있는 힌트가 된다.

2) 힌트란 무엇인가?
-> 우리가 확보하지 못한 중요한 변수를 새롭게 발견하는 것은 어렵다. 하지만 오차가 직전의 값에 일정한 영향을 받는다는 정보만으로 이 현상을 나타내는 변수를 생성할 수 있다. 물론 이 변수가 어떤 곳에 기인하는지는 확인이 어려운 경우가 많을 것이다.

직전 오차에 일정한 값(r)을 곱한 값과 새롭게 정의할 오차의 합으로 현재 시기의 오차를 정의할 수 있다. 이 정의를 바탕으로 기존의 회귀식을 변형한 새로운 회귀식을 표현할 수 있다. 새로 만들어진 회귀식의 오차는 정규성, 등분산성, 독립성 등을 따를 것으로 가정하고 모수를 추정할 때 r도 추가로 추정할 수 있다.

이렇게 우리는 가지고 있지 않은 변수이지만, 시간(또는 순서)에 영향을 받을 것이라는 믿음으로 개선된 회귀모형을 추정할 수 있다. 즉 우리가 원하는 가정에 만족하는 만큼 소음과 신호를 분리할 수 있다.

4년간 통계학을 공부했다.


누군가에겐 짧고, 또 누군가에겐 긴 시간인 4년은 무의식 중에 여러가지 철학을 안겨주었을 것이다.


고작 이정도로 학문을 논한다는 반발이 조금 두렵지만, 


지금까지 내 인생에 약 15%를 할애한 곳에서 어떠한 철학도 말할 수 없다는 그게 더 두려운 일이 아닐까?




본질적으로 통계학은 의사결정을 위한 학문이다.


주장에 대한 근거를 정량화(측정)하기 위해 사용한다.


현재 우리가 측정할 수 있다고 생각하는 것들은 그들을 측정하고자 했던 사람들의 노력에 의한 것이다.


수리통계에서 '어떻게 조금이라도 합리적으로 측정할 것인가?' 를 논의한다.


  - 먼저 event를 어떻게 수에 대응할지를 고민하고, 측정한 여러 대상을 어떻게 요약할지 고민한다.


    요약한 값을 바탕으로 현상의 이상여부를 확률(분포)적으로 판단한다.

    (확률이 낮다고 반드시 아니라고 할 순 없지만, 합리적인 의사결정을 위해 기준을 마련한다.)


    이 모든 과정은 합리적이라고 판단되는 어떤 의도에 의해 시도되며, 그것은 합리적으로 받아들여진다.




위의 의견을 말했지만 학업기간은 이 내용에 충실하지 않았다.


오히려 알고리즘 등 기술적인 부분에 대해서 중요하다고 생각해서 여기에 더욱 관심을 가졌다.


반년 이상 통계를 공부에서 멀어진 후 생각해보니 


알고리즘과 예측력을 공부하는 것보다 중요한 것은 본질적으로 측정에 대한 것이지 않을까? 하는 생각을 하게 된다.


'어떻게 측정할 것인가?'가 결국 이 학문을 아우르는 본질적인 질문이 아닐까 생각해본다.



다시 말하지만, 이것은 사실이 아닌 개인의 의견이다.



+ Recent posts