□ Trend, Seasonal, Cyclic

  Trend : 전반적으로 감소하거나, 증가하는 경향(changing direction)

  Seasonal : 일정하고 알려진 주기성

  Cyclic : 일정하지 않은 변동(ex. business cycle)


□ 비교군으로서의 some simple forecasting methods

  1. Average method : 기간의 평균으로 예측값

  2. Naive method : 마지막 값으로 예측값

  3. Seasonal naive method : 가장 최근의 주기에 해당하는 예측값

  4. Drift method : 마지막 값 + 트렌드


□ Transformations and adjustments

  - 목적 : 알려진 변동을 제거함으로서 패턴을 단순화, 더욱 일관성있는 패턴 생성

             → 패턴의 단순화는 더 정교한 예측을 이끈다.

    1. Calendar adjustments : 월들 간 보유한 날짜 수의 차이로 발생하는 변동(variation)

                                      → 월별 예측시 영입일수를 보정한 예측을 하는 것이 적절할 수 있음

    2. Population adjustments :  모집단의 수가 지속적으로 변할 때, 인당 예측을 활용 가능

                                      → 이용가능고객수의 변화가 콜수에 영향을 미치는 양을 고려할 수 있을 것

    3. Inflation adjustments : 돈에 영향을 받는 데이터라면 인플레이션에 대한 보정이 필요하다.


    4. Mathematical transformations : log, power, box-cox

                                                 → transformation이 예측값 자체에는 큰 변화를 주지 못하더라도, 

                                                     prediction interval에 큰 영향을 주는 경우가 있으니 참고.


    5. Bias adjustments : 기존에 back-transformation에서 median 대신에 mean을 사용 ?

                                → Box-Cox transformation에 대해 자세히 학습할 필요가 있을 듯?


□ Residual diagnostics

  1) 독립성 : 잔차 간의 상관관계가 존재한다면, 이용했어야할 정보가 아직 잔차에 남아있다.(해결이 쉽진 않음)

  2) 잔차의 합이 0이 아니다 → 그 만큼 예측값에 bias가 존재할 것이다.

                                     → 간단히 예측모델에 그 만큼을 더하면 bias를 처리할 수 있다.

  3) 등분산성, 정규분포 : prediction intervals의 계산을 쉽게 만들어준다.


  - 잔차의 특성을 확인하는 것은 이용가능한 정보를 모두 사용하고 있는가에 대한 점검 방법으로 가치가 있다.

    → 단, 예측 기법을 선택하는 좋은 방법은 아니다.


  - Autocorrelation 측정 방법 (portmanteau test)

    (1) Box-Pierce test

    (2) Ljung-Box test

    → 둘다 통계량은 white noise와 autocorrelation을 구분할 수 없다는 가정하에 카이제곱 분포를 따름

        이 차이가 클 수록 autocorrelation이 존재한다고 볼 수 있음.


□ Evaluating forecast accuracy

  - test set의 size는 보통 total sample의 20% 수준으로 정한다.

  - 완벽한 적합은 충분한 파라미터를 사용하면 언제나 얻어질 수 있다.



□ Prediction Interval
  - 예측의 신뢰성을 대변하기 위해 점 뿐만아니라 구간추정또한 제공한다.
    이를 구하기 위해 표준편차의 추정값이 필요한데,
    One step 의 경우 residuals의 표준편차는 좋은 추정치를 제공한다.
    Multi step의 경우 그렇게 간단하지 않다. 보통 잔차들이 uncorrelated 임을 가정한채로 구해진다.

  - 붓스트랩을 사용해 prediction interval을 정교화할 수 있다.

□ Judgement forecast
  1. 사용가능한 데이터가 없을 때
  2. 통계적 예측의 추가 보완


□ Regression in TS

  1. Autocorrelation : TS 데이터에선 보통 존재한다.

                            존재하는 경우 unbiased는 유지되지만, prediction interval을 과대추정하는 경향 있음

     1) ACF plot of the residuals

     2) Breusch-Godfrey test(Lagrange Multiplier) : small p-value → significant autocorrelation

        →  ACF plot으로 가장 자기상관이 존재할 것 같은 lag를 찾고, BG test 수행

             Chap.9 에서 잔차에 남아있는 정보를 더 잘 포착하는 방법에 대해 고민할 예정


  2. Residual vs predictor

     : 잔차는 어떠한 패턴을 보이지 않고 랜덤하게 퍼져있을 것이다.

       간단히 확인할 수 있는 방법은 predictors와 residuals를 비교하는 것이다.

       이 때, 모형에 포함하지 않은 변수에 대해서도 확인할 필요가 있고, 이들이 관계를 보이면(비선형이더라도) 모형에 추가 및 수정할 필요가 있음.

 

  3. Residual vs fitted values

     : 관계가 보이면 등분산 가정을 만족하지 않을 가능성이 높음

       log 등으로 transformation 고려


  4. Outliers and influential observations


□ Some useful predictors

  1. Trend : 시간을 변수로 추가하면, 쉽게 trend의 계수를 추정할 수 있다.

     - tslm( ) 함수에서 trend 를 이용해 구현 가능 

  2. dummy variable : outlier를 special event 변수로 두고 모델링 할 수 있다.

  3. Seasonal dummy variables 

  4. Intervention(개입) variables : 경쟁사 활동, 광고, 산업 내 이벤트 등

     - spike variable : 이벤트 기간 동안만 1의 값을 갖는 더미변수

     - step variable : 이벤트 개입으로 영구적인 변화가 생겼을 경우, 이벤트 발생 이전/이후로 더미 코딩

     - change of slope : 나중에 다룸

  5. Trading days : 월별 영업일이 다를 수 있다.

     1) 월별 영업일수를 예측변수에 추가

     2) 7개의 변수를 사용해 해당 월이 각 요일별로 포함한 일수를 예측변수에 추가

  6. Distributed lags : 광고비용을 포함

                            단, 광고효과는 나중에 나타나므로 월별로 나누어서 변수를 지정

                              ex) x1 : 한달 전 광고, x2 : 두달전 광고  ...

                            lag가 증가할 수록 계수는 감소할 것을 기대한다.

  7. Easter(부활절) : 날짜 말고 요일로 지정되는 휴일 고려

                          기간을 잘 찾아서, 기간동안 더미화

  8. Fourier Series : long seasonal period에 사용

                         파형에서 데이터를 끌어내는 방법?


□ Selecting variables

  1. 산점도, multiple linear regression의 결과로 계수의 p-value만 보고 일부 변수를 선정하는 것은 추천하지 않음.

  2. 대신, predictive accuracy에 대한 측정을 활용 : cv( )으로 계산됨

               - CV, AIC, AICc, BIC, AdjR2

    1) AdjR2 : 너무 많은 변수를 선택하는 경향이 있고, 예측엔 적절하지 않은 듯

    2) BIC : 트루 모델이 존재하면, 가장 가깝게 예측하는 경향이 있으나 실제론 그렇지 않음

    3) AICc, AIC, CV를 추천함 : 관측값의 수가 커질 수록 세 값은 같은 결론을 지지함

       - AICc : AIC는 관측값의 수가 적을 때, 너무 많은 변수를 선택하는 경향이 있어 Bias를 보정한 기준치

  3. Best subset regression

  4. Stepwise regression

  → 이 방법들은 각 변수가 예측값에 미치는 영향을 확인하기엔 좋지 않음.

      단지 예측을 위한 것일 뿐임에 유의


□ Forecasting with regression

  1. Ex-ante vs Ex-post

     - EX-ante : 미리 이용가능한 정보만 사용하여 예측 / 실제 예측 활용 가능

     - EX-post : 나중에 이용할 정보로 예측 / 실제 예측엔 활용 불가(변수에 대한 이해를 위함)

     → 이 둘의 비교를 통해 예측력이 변수 선택 때문인지, 모형 때문인지 알 수 있다.

         Ex-post에 의해 사용 불가해 보이지만, 추가로 예측하는 scenario에 기반하여 변수로 사용할 수 도 있음(가정 추가)

         시나리오 기반 예측은 다른 변수 또한 예측해야한다는 단점이 존재

         → h-step ahead forecast로 Ex-ante(미리 이용가능한 정보에 의한 예측)으로 미래 시점 예측 가능

             이 과정에서 정책 변화로 인해 드러나는 효과 등이 직관적으로 드러날 수 있다.

+ Recent posts