Time Series study

2019. 3. 9. 23:47

□ Trend, Seasonal, Cyclic

Trend : 전반적으로 감소하거나, 증가하는 경향(changing direction)

Seasonal : 일정하고 알려진 주기성

Cyclic : 일정하지 않은 변동(ex. business cycle)

□ 비교군으로서의 some simple forecasting methods

1. Average method : 기간의 평균으로 예측값

2. Naive method : 마지막 값으로 예측값

3. Seasonal naive method : 가장 최근의 주기에 해당하는 예측값

4. Drift method : 마지막 값 + 트렌드

□ Transformations and adjustments

- 목적 : 알려진 변동을 제거함으로서 패턴을 단순화, 더욱 일관성있는 패턴 생성

→ 패턴의 단순화는 더 정교한 예측을 이끈다.

1. Calendar adjustments : 월들 간 보유한 날짜 수의 차이로 발생하는 변동(variation)

→ 월별 예측시 영입일수를 보정한 예측을 하는 것이 적절할 수 있음

2. Population adjustments : 모집단의 수가 지속적으로 변할 때, 인당 예측을 활용 가능

→ 이용가능고객수의 변화가 콜수에 영향을 미치는 양을 고려할 수 있을 것

3. Inflation adjustments : 돈에 영향을 받는 데이터라면 인플레이션에 대한 보정이 필요하다.

4. Mathematical transformations : log, power, box-cox

→ transformation이 예측값 자체에는 큰 변화를 주지 못하더라도,

prediction interval에 큰 영향을 주는 경우가 있으니 참고.

5. Bias adjustments : 기존에 back-transformation에서 median 대신에 mean을 사용 ?

→ Box-Cox transformation에 대해 자세히 학습할 필요가 있을 듯?

□ Residual diagnostics

1) 독립성 : 잔차 간의 상관관계가 존재한다면, 이용했어야할 정보가 아직 잔차에 남아있다.(해결이 쉽진 않음)

2) 잔차의 합이 0이 아니다 → 그 만큼 예측값에 bias가 존재할 것이다.

→ 간단히 예측모델에 그 만큼을 더하면 bias를 처리할 수 있다.

3) 등분산성, 정규분포 : prediction intervals의 계산을 쉽게 만들어준다.

- 잔차의 특성을 확인하는 것은 이용가능한 정보를 모두 사용하고 있는가에 대한 점검 방법으로 가치가 있다.

→ 단, 예측 기법을 선택하는 좋은 방법은 아니다.

- Autocorrelation 측정 방법 (portmanteau test)

(1) Box-Pierce test

(2) Ljung-Box test

→ 둘다 통계량은 white noise와 autocorrelation을 구분할 수 없다는 가정하에 카이제곱 분포를 따름

이 차이가 클 수록 autocorrelation이 존재한다고 볼 수 있음.

□ Evaluating forecast accuracy

- test set의 size는 보통 total sample의 20% 수준으로 정한다.

- 완벽한 적합은 충분한 파라미터를 사용하면 언제나 얻어질 수 있다.

□ Prediction Interval
- 예측의 신뢰성을 대변하기 위해 점 뿐만아니라 구간추정또한 제공한다.
이를 구하기 위해 표준편차의 추정값이 필요한데,
One step 의 경우 residuals의 표준편차는 좋은 추정치를 제공한다.
Multi step의 경우 그렇게 간단하지 않다. 보통 잔차들이 uncorrelated 임을 가정한채로 구해진다.

- 붓스트랩을 사용해 prediction interval을 정교화할 수 있다.

□ Judgement forecast
1. 사용가능한 데이터가 없을 때
2. 통계적 예측의 추가 보완

□ Regression in TS

1. Autocorrelation : TS 데이터에선 보통 존재한다.

존재하는 경우 unbiased는 유지되지만, prediction interval을 과대추정하는 경향 있음

1) ACF plot of the residuals

2) Breusch-Godfrey test(Lagrange Multiplier) : small p-value → significant autocorrelation

→ ACF plot으로 가장 자기상관이 존재할 것 같은 lag를 찾고, BG test 수행

Chap.9 에서 잔차에 남아있는 정보를 더 잘 포착하는 방법에 대해 고민할 예정

2. Residual vs predictor

: 잔차는 어떠한 패턴을 보이지 않고 랜덤하게 퍼져있을 것이다.

간단히 확인할 수 있는 방법은 predictors와 residuals를 비교하는 것이다.

이 때, 모형에 포함하지 않은 변수에 대해서도 확인할 필요가 있고, 이들이 관계를 보이면(비선형이더라도) 모형에 추가 및 수정할 필요가 있음.

3. Residual vs fitted values

: 관계가 보이면 등분산 가정을 만족하지 않을 가능성이 높음

log 등으로 transformation 고려

4. Outliers and influential observations

□ Some useful predictors

1. Trend : 시간을 변수로 추가하면, 쉽게 trend의 계수를 추정할 수 있다.

- tslm( ) 함수에서 trend 를 이용해 구현 가능

2. dummy variable : outlier를 special event 변수로 두고 모델링 할 수 있다.

3. Seasonal dummy variables

4. Intervention(개입) variables : 경쟁사 활동, 광고, 산업 내 이벤트 등

- spike variable : 이벤트 기간 동안만 1의 값을 갖는 더미변수

- step variable : 이벤트 개입으로 영구적인 변화가 생겼을 경우, 이벤트 발생 이전/이후로 더미 코딩

- change of slope : 나중에 다룸

5. Trading days : 월별 영업일이 다를 수 있다.

1) 월별 영업일수를 예측변수에 추가

2) 7개의 변수를 사용해 해당 월이 각 요일별로 포함한 일수를 예측변수에 추가

6. Distributed lags : 광고비용을 포함

단, 광고효과는 나중에 나타나므로 월별로 나누어서 변수를 지정

ex) x1 : 한달 전 광고, x2 : 두달전 광고 ...

lag가 증가할 수록 계수는 감소할 것을 기대한다.

7. Easter(부활절) : 날짜 말고 요일로 지정되는 휴일 고려

기간을 잘 찾아서, 기간동안 더미화

8. Fourier Series : long seasonal period에 사용

파형에서 데이터를 끌어내는 방법?

□ Selecting variables

1. 산점도, multiple linear regression의 결과로 계수의 p-value만 보고 일부 변수를 선정하는 것은 추천하지 않음.

2. 대신, predictive accuracy에 대한 측정을 활용 : cv( )으로 계산됨

- CV, AIC, AICc, BIC, AdjR2

1) AdjR2 : 너무 많은 변수를 선택하는 경향이 있고, 예측엔 적절하지 않은 듯

2) BIC : 트루 모델이 존재하면, 가장 가깝게 예측하는 경향이 있으나 실제론 그렇지 않음

3) AICc, AIC, CV를 추천함 : 관측값의 수가 커질 수록 세 값은 같은 결론을 지지함

- AICc : AIC는 관측값의 수가 적을 때, 너무 많은 변수를 선택하는 경향이 있어 Bias를 보정한 기준치

3. Best subset regression

4. Stepwise regression

→ 이 방법들은 각 변수가 예측값에 미치는 영향을 확인하기엔 좋지 않음.

단지 예측을 위한 것일 뿐임에 유의

□ Forecasting with regression

1. Ex-ante vs Ex-post

- EX-ante : 미리 이용가능한 정보만 사용하여 예측 / 실제 예측 활용 가능

- EX-post : 나중에 이용할 정보로 예측 / 실제 예측엔 활용 불가(변수에 대한 이해를 위함)

→ 이 둘의 비교를 통해 예측력이 변수 선택 때문인지, 모형 때문인지 알 수 있다.

Ex-post에 의해 사용 불가해 보이지만, 추가로 예측하는 scenario에 기반하여 변수로 사용할 수 도 있음(가정 추가)

시나리오 기반 예측은 다른 변수 또한 예측해야한다는 단점이 존재

→ h-step ahead forecast로 Ex-ante(미리 이용가능한 정보에 의한 예측)으로 미래 시점 예측 가능

이 과정에서 정책 변화로 인해 드러나는 효과 등이 직관적으로 드러날 수 있다.

'분석 > 통계' 카테고리의 다른 글

Time Series 3 (0)	2019.03.14
Time Series study2 (0)	2019.03.11
최종 머신러닝 모형에서 variance를 줄이는 방법 (0)	2019.03.09
추세선의 증가하는 정도를 아는 방법 : 선형회귀분석 (0)	2019.03.05
자기상관(Autocorrelation) (0)	2019.03.02

STAT_art

Time Series study

'분석 > 통계' 카테고리의 다른 글

+ Recent posts

티스토리툴바