□ Trend, Seasonal, Cyclic
Trend : 전반적으로 감소하거나, 증가하는 경향(changing direction)
Seasonal : 일정하고 알려진 주기성
Cyclic : 일정하지 않은 변동(ex. business cycle)
□ 비교군으로서의 some simple forecasting methods
1. Average method : 기간의 평균으로 예측값
2. Naive method : 마지막 값으로 예측값
3. Seasonal naive method : 가장 최근의 주기에 해당하는 예측값
4. Drift method : 마지막 값 + 트렌드
□ Transformations and adjustments
- 목적 : 알려진 변동을 제거함으로서 패턴을 단순화, 더욱 일관성있는 패턴 생성
→ 패턴의 단순화는 더 정교한 예측을 이끈다.
1. Calendar adjustments : 월들 간 보유한 날짜 수의 차이로 발생하는 변동(variation)
→ 월별 예측시 영입일수를 보정한 예측을 하는 것이 적절할 수 있음
2. Population adjustments : 모집단의 수가 지속적으로 변할 때, 인당 예측을 활용 가능
→ 이용가능고객수의 변화가 콜수에 영향을 미치는 양을 고려할 수 있을 것
3. Inflation adjustments : 돈에 영향을 받는 데이터라면 인플레이션에 대한 보정이 필요하다.
4. Mathematical transformations : log, power, box-cox
→ transformation이 예측값 자체에는 큰 변화를 주지 못하더라도,
prediction interval에 큰 영향을 주는 경우가 있으니 참고.
5. Bias adjustments : 기존에 back-transformation에서 median 대신에 mean을 사용 ?
→ Box-Cox transformation에 대해 자세히 학습할 필요가 있을 듯?
□ Residual diagnostics
1) 독립성 : 잔차 간의 상관관계가 존재한다면, 이용했어야할 정보가 아직 잔차에 남아있다.(해결이 쉽진 않음)
2) 잔차의 합이 0이 아니다 → 그 만큼 예측값에 bias가 존재할 것이다.
→ 간단히 예측모델에 그 만큼을 더하면 bias를 처리할 수 있다.
3) 등분산성, 정규분포 : prediction intervals의 계산을 쉽게 만들어준다.
- 잔차의 특성을 확인하는 것은 이용가능한 정보를 모두 사용하고 있는가에 대한 점검 방법으로 가치가 있다.
→ 단, 예측 기법을 선택하는 좋은 방법은 아니다.
- Autocorrelation 측정 방법 (portmanteau test)
(1) Box-Pierce test
(2) Ljung-Box test
→ 둘다 통계량은 white noise와 autocorrelation을 구분할 수 없다는 가정하에 카이제곱 분포를 따름
이 차이가 클 수록 autocorrelation이 존재한다고 볼 수 있음.
□ Evaluating forecast accuracy
- test set의 size는 보통 total sample의 20% 수준으로 정한다.
- 완벽한 적합은 충분한 파라미터를 사용하면 언제나 얻어질 수 있다.
□ Prediction Interval
- 예측의 신뢰성을 대변하기 위해 점 뿐만아니라 구간추정또한 제공한다.
이를 구하기 위해 표준편차의 추정값이 필요한데,
One step 의 경우 residuals의 표준편차는 좋은 추정치를 제공한다.
Multi step의 경우 그렇게 간단하지 않다. 보통 잔차들이 uncorrelated 임을 가정한채로 구해진다.
- 붓스트랩을 사용해 prediction interval을 정교화할 수 있다.
□ Judgement forecast
1. 사용가능한 데이터가 없을 때
2. 통계적 예측의 추가 보완
□ Regression in TS
1. Autocorrelation : TS 데이터에선 보통 존재한다.
존재하는 경우 unbiased는 유지되지만, prediction interval을 과대추정하는 경향 있음
1) ACF plot of the residuals
2) Breusch-Godfrey test(Lagrange Multiplier) : small p-value → significant autocorrelation
→ ACF plot으로 가장 자기상관이 존재할 것 같은 lag를 찾고, BG test 수행
Chap.9 에서 잔차에 남아있는 정보를 더 잘 포착하는 방법에 대해 고민할 예정
2. Residual vs predictor
: 잔차는 어떠한 패턴을 보이지 않고 랜덤하게 퍼져있을 것이다.
간단히 확인할 수 있는 방법은 predictors와 residuals를 비교하는 것이다.
이 때, 모형에 포함하지 않은 변수에 대해서도 확인할 필요가 있고, 이들이 관계를 보이면(비선형이더라도) 모형에 추가 및 수정할 필요가 있음.
3. Residual vs fitted values
: 관계가 보이면 등분산 가정을 만족하지 않을 가능성이 높음
log 등으로 transformation 고려
4. Outliers and influential observations
□ Some useful predictors
1. Trend : 시간을 변수로 추가하면, 쉽게 trend의 계수를 추정할 수 있다.
- tslm( ) 함수에서 trend 를 이용해 구현 가능
2. dummy variable : outlier를 special event 변수로 두고 모델링 할 수 있다.
3. Seasonal dummy variables
4. Intervention(개입) variables : 경쟁사 활동, 광고, 산업 내 이벤트 등
- spike variable : 이벤트 기간 동안만 1의 값을 갖는 더미변수
- step variable : 이벤트 개입으로 영구적인 변화가 생겼을 경우, 이벤트 발생 이전/이후로 더미 코딩
- change of slope : 나중에 다룸
5. Trading days : 월별 영업일이 다를 수 있다.
1) 월별 영업일수를 예측변수에 추가
2) 7개의 변수를 사용해 해당 월이 각 요일별로 포함한 일수를 예측변수에 추가
6. Distributed lags : 광고비용을 포함
단, 광고효과는 나중에 나타나므로 월별로 나누어서 변수를 지정
ex) x1 : 한달 전 광고, x2 : 두달전 광고 ...
lag가 증가할 수록 계수는 감소할 것을 기대한다.
7. Easter(부활절) : 날짜 말고 요일로 지정되는 휴일 고려
기간을 잘 찾아서, 기간동안 더미화
8. Fourier Series : long seasonal period에 사용
파형에서 데이터를 끌어내는 방법?
□ Selecting variables
1. 산점도, multiple linear regression의 결과로 계수의 p-value만 보고 일부 변수를 선정하는 것은 추천하지 않음.
2. 대신, predictive accuracy에 대한 측정을 활용 : cv( )으로 계산됨
- CV, AIC, AICc, BIC, AdjR2
1) AdjR2 : 너무 많은 변수를 선택하는 경향이 있고, 예측엔 적절하지 않은 듯
2) BIC : 트루 모델이 존재하면, 가장 가깝게 예측하는 경향이 있으나 실제론 그렇지 않음
3) AICc, AIC, CV를 추천함 : 관측값의 수가 커질 수록 세 값은 같은 결론을 지지함
- AICc : AIC는 관측값의 수가 적을 때, 너무 많은 변수를 선택하는 경향이 있어 Bias를 보정한 기준치
3. Best subset regression
4. Stepwise regression
→ 이 방법들은 각 변수가 예측값에 미치는 영향을 확인하기엔 좋지 않음.
단지 예측을 위한 것일 뿐임에 유의
□ Forecasting with regression
1. Ex-ante vs Ex-post
- EX-ante : 미리 이용가능한 정보만 사용하여 예측 / 실제 예측 활용 가능
- EX-post : 나중에 이용할 정보로 예측 / 실제 예측엔 활용 불가(변수에 대한 이해를 위함)
→ 이 둘의 비교를 통해 예측력이 변수 선택 때문인지, 모형 때문인지 알 수 있다.
Ex-post에 의해 사용 불가해 보이지만, 추가로 예측하는 scenario에 기반하여 변수로 사용할 수 도 있음(가정 추가)
시나리오 기반 예측은 다른 변수 또한 예측해야한다는 단점이 존재
→ h-step ahead forecast로 Ex-ante(미리 이용가능한 정보에 의한 예측)으로 미래 시점 예측 가능
이 과정에서 정책 변화로 인해 드러나는 효과 등이 직관적으로 드러날 수 있다.
'분석 > 통계' 카테고리의 다른 글
Time Series 3 (0) | 2019.03.14 |
---|---|
Time Series study2 (0) | 2019.03.11 |
최종 머신러닝 모형에서 variance를 줄이는 방법 (0) | 2019.03.09 |
추세선의 증가하는 정도를 아는 방법 : 선형회귀분석 (0) | 2019.03.05 |
자기상관(Autocorrelation) (0) | 2019.03.02 |