Thursday 22 June 2017

Arima Gleitender Durchschnitt


Autoregressive Integrated Moving Average - ARIMA DEFINITION Autoregressive Integrated Moving Average - ARIMA Ein statistisches Analyse-Modell, das Zeitreihen-Daten verwendet, um zukünftige Trends vorherzusagen. Es ist eine Form der Regressionsanalyse, die künftige Bewegungen entlang der scheinbar zufälligen Wanderung von Aktien und dem Finanzmarkt vorhersagen will, indem sie die Unterschiede zwischen den Werten in der Reihe untersucht, anstatt die tatsächlichen Datenwerte zu verwenden. Lags der differenzierten Serien werden als autoregressiv bezeichnet und Verzögerungen innerhalb der prognostizierten Daten werden als gleitender Durchschnitt bezeichnet. BREAKING DOWN Autoregressive Integrated Moving Average - ARIMA Dieser Modelltyp wird im Allgemeinen als ARIMA (p, d, q) bezeichnet, wobei die Ganzzahlen sich auf den autoregressiven beziehen. Integrierte und gleitende Mittelteile des Datensatzes. ARIMA-Modellierung kann Trends berücksichtigen, Saisonalität. Zyklen, Fehler und nicht-stationäre Aspekte eines Datensatzes bei der Erstellung von Prognosen. Einführung in ARIMA: Nichtseasonale Modelle ARIMA (p, d, q) Prognose Gleichung: ARIMA Modelle sind in der Theorie die allgemeinste Klasse von Modellen für die Vorhersage einer Zeit Serien, die durch Differenzierung (falls nötig), vielleicht in Verbindung mit nichtlinearen Transformationen, wie zB Protokollierung oder Entleerung (falls nötig), hergestellt werden können. Eine zufällige Variable, die eine Zeitreihe ist, ist stationär, wenn ihre statistischen Eigenschaften alle über die Zeit konstant sind. Eine stationäre Serie hat keinen Trend, ihre Variationen um ihre Mittel haben eine konstante Amplitude, und es wackelt in einer konsistenten Weise. D. h. seine kurzzeitigen zufälligen Zeitmuster sehen immer in einem statistischen Sinn gleich aus. Die letztere Bedingung bedeutet, daß ihre Autokorrelationen (Korrelationen mit ihren eigenen vorherigen Abweichungen vom Mittelwert) über die Zeit konstant bleiben oder äquivalent, daß sein Leistungsspektrum über die Zeit konstant bleibt. Eine zufällige Variable dieses Formulars kann (wie üblich) als eine Kombination von Signal und Rauschen betrachtet werden, und das Signal (wenn man offensichtlich ist) könnte ein Muster der schnellen oder langsamen mittleren Reversion oder sinusförmigen Oszillation oder eines schnellen Wechsels im Zeichen sein , Und es könnte auch eine saisonale Komponente haben. Ein ARIMA-Modell kann als 8220filter8221 betrachtet werden, das versucht, das Signal vom Rauschen zu trennen, und das Signal wird dann in die Zukunft extrapoliert, um Prognosen zu erhalten. Die ARIMA-Prognosegleichung für eine stationäre Zeitreihe ist eine lineare (d. h. regressionstypische) Gleichung, bei der die Prädiktoren aus Verzögerungen der abhängigen Variablen und Verzögerungen der Prognosefehler bestehen. Das heißt: vorhergesagter Wert von Y eine Konstante undeiner gewichteten Summe von einem oder mehreren neueren Werten von Y und einer gewichteten Summe von einem oder mehreren neueren Werten der Fehler. Wenn die Prädiktoren nur aus verzögerten Werten von Y bestehen, ist es ein reines autoregressives Modell (8220 selbst-regressed8221), das nur ein Spezialfall eines Regressionsmodells ist und mit Standardregressionssoftware ausgestattet werden kann. Zum Beispiel ist ein autoregressives (8220AR (1) 8221) Modell erster Ordnung für Y ein einfaches Regressionsmodell, bei dem die unabhängige Variable nur Y um eine Periode (LAG (Y, 1) in Statgraphics oder YLAG1 in RegressIt hinterlässt). Wenn einige der Prädiktoren die Fehler der Fehler sind, ist es ein ARIMA-Modell, es ist kein lineares Regressionsmodell, denn es gibt keine Möglichkeit, 828last period8217s error8221 als unabhängige Variable anzugeben: Die Fehler müssen auf einer Periodenperiode berechnet werden Wenn das Modell an die Daten angepasst ist. Aus technischer Sicht ist das Problem bei der Verwendung von verzögerten Fehlern als Prädiktoren, dass die Vorhersagen des Modells8217 nicht lineare Funktionen der Koeffizienten sind. Obwohl sie lineare Funktionen der vergangenen Daten sind. So müssen Koeffizienten in ARIMA-Modellen, die verzögerte Fehler enthalten, durch nichtlineare Optimierungsmethoden (8220hill-climbing8221) geschätzt werden, anstatt nur ein Gleichungssystem zu lösen. Das Akronym ARIMA steht für Auto-Regressive Integrated Moving Average. Die Verzögerungen der stationärisierten Serien in der Prognosegleichung werden als quartalspezifische Begriffe bezeichnet, die Verzögerungen der Prognosefehler werden als quadratische Begrenzungsterme bezeichnet, und eine Zeitreihe, die differenziert werden muss, um stationär zu sein, wird als eine quotintegrierte Quotversion einer stationären Serie bezeichnet. Random-Walk - und Random-Trend-Modelle, autoregressive Modelle und exponentielle Glättungsmodelle sind alle Sonderfälle von ARIMA-Modellen. Ein Nicht-Seasonal-ARIMA-Modell wird als ein Quoten-Modell von quaremA (p, d, q) klassifiziert, wobei p die Anzahl der autoregressiven Terme ist, d die Anzahl der für die Stationarität benötigten Nichtseasondifferenzen und q die Anzahl der verzögerten Prognosefehler in Die Vorhersagegleichung. Die Prognosegleichung wird wie folgt aufgebaut. Zuerst bezeichne y die d-te Differenz von Y. Das bedeutet: Beachten Sie, dass die zweite Differenz von Y (der Fall d2) nicht der Unterschied von 2 Perioden ist. Vielmehr ist es der erste Unterschied zwischen dem ersten Unterschied. Welches das diskrete Analog einer zweiten Ableitung ist, d. h. die lokale Beschleunigung der Reihe und nicht deren lokaler Trend. In Bezug auf y. Die allgemeine Prognosegleichung lautet: Hier werden die gleitenden Durchschnittsparameter (9528217s) so definiert, dass ihre Zeichen in der Gleichung nach der von Box und Jenkins eingeführten Konventionen negativ sind. Einige Autoren und Software (einschließlich der R-Programmiersprache) definieren sie so, dass sie stattdessen Pluszeichen haben. Wenn tatsächliche Zahlen in die Gleichung gesteckt sind, gibt es keine Mehrdeutigkeit, aber it8217s wichtig zu wissen, welche Konvention Ihre Software verwendet, wenn Sie die Ausgabe lesen. Oft werden die Parameter dort mit AR (1), AR (2), 8230 und MA (1), MA (2), 8230 usw. bezeichnet. Um das entsprechende ARIMA-Modell für Y zu identifizieren, beginnen Sie mit der Bestimmung der Reihenfolge der Differenzierung (D) die Serie zu stationieren und die Brutto-Merkmale der Saisonalität zu entfernen, vielleicht in Verbindung mit einer abweichungsstabilisierenden Transformation wie Protokollierung oder Entleerung. Wenn Sie an dieser Stelle anhalten und vorhersagen, dass die differenzierte Serie konstant ist, haben Sie nur einen zufälligen Spaziergang oder ein zufälliges Trendmodell ausgestattet. Allerdings können die stationärisierten Serien immer noch autokorrelierte Fehler aufweisen, was darauf hindeutet, dass in der Prognosegleichung auch eine Anzahl von AR-Terme (p 8805 1) und einigen einigen MA-Terme (q 8805 1) benötigt werden. Der Prozess der Bestimmung der Werte von p, d und q, die am besten für eine gegebene Zeitreihe sind, wird in späteren Abschnitten der Noten (deren Links oben auf dieser Seite), aber eine Vorschau auf einige der Typen diskutiert werden Von nicht-seasonalen ARIMA-Modellen, die häufig angetroffen werden, ist unten angegeben. ARIMA (1,0,0) Autoregressives Modell erster Ordnung: Wenn die Serie stationär und autokorreliert ist, kann man sie vielleicht als Vielfaches ihres eigenen vorherigen Wertes und einer Konstante voraussagen. Die prognostizierte Gleichung in diesem Fall ist 8230which ist Y regressed auf sich selbst verzögerte um einen Zeitraum. Dies ist ein 8220ARIMA (1,0,0) constant8221 Modell. Wenn der Mittelwert von Y Null ist, dann wäre der konstante Term nicht enthalten. Wenn der Steigungskoeffizient 981 & sub1; positiv und kleiner als 1 in der Grße ist (er muß kleiner als 1 in der Grße sein, wenn Y stationär ist), beschreibt das Modell das Mittelwiederkehrungsverhalten, bei dem der nächste Periode8217s-Wert 981 mal als vorher vorausgesagt werden sollte Weit weg von dem Mittelwert als dieser Zeitraum8217s Wert. Wenn 981 & sub1; negativ ist, prognostiziert es ein Mittelrückkehrverhalten mit einem Wechsel von Zeichen, d. h. es sagt auch, daß Y unterhalb der mittleren nächsten Periode liegt, wenn es über dem Mittelwert dieser Periode liegt. In einem autoregressiven Modell zweiter Ordnung (ARIMA (2,0,0)) wäre auch ein Y-t-2-Term auf der rechten Seite und so weiter. Abhängig von den Zeichen und Größen der Koeffizienten könnte ein ARIMA (2,0,0) Modell ein System beschreiben, dessen mittlere Reversion in einer sinusförmig oszillierenden Weise stattfindet, wie die Bewegung einer Masse auf einer Feder, die zufälligen Schocks ausgesetzt ist . ARIMA (0,1,0) zufälliger Spaziergang: Wenn die Serie Y nicht stationär ist, ist das einfachste Modell für sie ein zufälliges Spaziergangmodell, das als Begrenzungsfall eines AR (1) - Modells betrachtet werden kann, in dem das autoregressive Koeffizient ist gleich 1, dh eine Serie mit unendlich langsamer mittlerer Reversion. Die Vorhersagegleichung für dieses Modell kann wie folgt geschrieben werden: wobei der konstante Term die mittlere Periodenänderung (dh die Langzeitdrift) in Y ist. Dieses Modell könnte als ein Nicht-Intercept-Regressionsmodell eingebaut werden, in dem die Die erste Differenz von Y ist die abhängige Variable. Da es (nur) eine nicht-seasonale Differenz und einen konstanten Term enthält, wird es als ein quotARIMA (0,1,0) Modell mit constant. quot eingestuft. Das random-walk-without - drift-Modell wäre ein ARIMA (0,1, 0) Modell ohne Konstante ARIMA (1,1,0) differenzierte Autoregressive Modell erster Ordnung: Wenn die Fehler eines zufälligen Walk-Modells autokorreliert werden, kann das Problem eventuell durch Hinzufügen einer Verzögerung der abhängigen Variablen zu der Vorhersagegleichung behoben werden - - ie Durch den Rücktritt der ersten Differenz von Y auf sich selbst um eine Periode verzögert. Dies würde die folgende Vorhersagegleichung ergeben: die umgewandelt werden kann Dies ist ein autoregressives Modell erster Ordnung mit einer Reihenfolge von Nicht-Seasonal-Differenzen und einem konstanten Term - d. h. Ein ARIMA (1,1,0) Modell. ARIMA (0,1,1) ohne konstante, einfache exponentielle Glättung: Eine weitere Strategie zur Korrektur autokorrelierter Fehler in einem zufälligen Walk-Modell wird durch das einfache exponentielle Glättungsmodell vorgeschlagen. Erinnern Sie sich, dass für einige nichtstationäre Zeitreihen (z. B. diejenigen, die geräuschvolle Schwankungen um ein langsam variierendes Mittel aufweisen), das zufällige Wandermodell nicht so gut wie ein gleitender Durchschnitt von vergangenen Werten ausführt. Mit anderen Worten, anstatt die jüngste Beobachtung als die Prognose der nächsten Beobachtung zu nehmen, ist es besser, einen Durchschnitt der letzten Beobachtungen zu verwenden, um das Rauschen herauszufiltern und das lokale Mittel genauer zu schätzen. Das einfache exponentielle Glättungsmodell verwendet einen exponentiell gewichteten gleitenden Durchschnitt von vergangenen Werten, um diesen Effekt zu erzielen. Die Vorhersagegleichung für das einfache exponentielle Glättungsmodell kann in einer Anzahl von mathematisch äquivalenten Formen geschrieben werden. Eine davon ist die so genannte 8220error Korrektur8221 Form, in der die vorherige Prognose in Richtung des Fehlers eingestellt wird, die es gemacht hat: Weil e t-1 Y t-1 - 374 t-1 per Definition, kann dies wie folgt umgeschrieben werden : Das ist eine ARIMA (0,1,1) - ohne Konstante Prognose Gleichung mit 952 1 1 - 945. Dies bedeutet, dass Sie eine einfache exponentielle Glättung passen können, indem Sie es als ARIMA (0,1,1) Modell ohne Konstant und der geschätzte MA (1) - Koeffizient entspricht 1-minus-alpha in der SES-Formel. Erinnern daran, dass im SES-Modell das Durchschnittsalter der Daten in den 1-Perioden-Prognosen 1 945 beträgt. Dies bedeutet, dass sie dazu neigen, hinter Trends oder Wendepunkten um etwa 1 945 Perioden zurückzukehren. Daraus folgt, dass das Durchschnittsalter der Daten in den 1-Periodenprognosen eines ARIMA (0,1,1) - without-constant-Modells 1 (1 - 952 1) beträgt. So, zum Beispiel, wenn 952 1 0.8, ist das Durchschnittsalter 5. Wenn 952 1 sich nähert, wird das ARIMA (0,1,1) - without-konstantes Modell zu einem sehr langfristigen gleitenden Durchschnitt und als 952 1 Nähert sich 0 wird es zu einem zufälligen Walk-ohne-Drift-Modell. Was ist der beste Weg, um Autokorrelation zu korrigieren: Hinzufügen von AR-Terme oder Hinzufügen von MA-Terme In den vorangegangenen zwei Modellen, die oben diskutiert wurden, wurde das Problem der autokorrelierten Fehler in einem zufälligen Walk-Modell auf zwei verschiedene Arten festgelegt: durch Hinzufügen eines verzögerten Wertes der differenzierten Serie Zur Gleichung oder Hinzufügen eines verzögerten Wertes des Prognosefehlers. Welcher Ansatz ist am besten Eine Faustregel für diese Situation, die später noch ausführlicher erörtert wird, ist, dass eine positive Autokorrelation in der Regel am besten durch Hinzufügen eines AR-Termes zum Modell behandelt wird und eine negative Autokorrelation wird meist am besten durch Hinzufügen eines MA Begriff. In geschäftlichen und ökonomischen Zeitreihen entsteht oftmals eine negative Autokorrelation als Artefakt der Differenzierung. (Im Allgemeinen verringert die Differenzierung die positive Autokorrelation und kann sogar einen Wechsel von positiver zu negativer Autokorrelation verursachen.) So wird das ARIMA (0,1,1) - Modell, in dem die Differenzierung von einem MA-Term begleitet wird, häufiger als ein ARIMA (1,1,0) Modell. ARIMA (0,1,1) mit konstanter, einfacher, exponentieller Glättung mit Wachstum: Durch die Implementierung des SES-Modells als ARIMA-Modell erhalten Sie gewisse Flexibilität. Zunächst darf der geschätzte MA (1) - Koeffizient negativ sein. Dies entspricht einem Glättungsfaktor größer als 1 in einem SES-Modell, was in der Regel nicht durch das SES-Modell-Anpassungsverfahren erlaubt ist. Zweitens haben Sie die Möglichkeit, einen konstanten Begriff im ARIMA-Modell einzubeziehen, wenn Sie es wünschen, um einen durchschnittlichen Trend ungleich Null abzuschätzen. Das ARIMA (0,1,1) - Modell mit Konstante hat die Vorhersagegleichung: Die Prognosen von einem Periodenvorhersage aus diesem Modell sind qualitativ ähnlich denen des SES-Modells, mit der Ausnahme, dass die Trajektorie der Langzeitprognosen typischerweise ein Schräge Linie (deren Steigung gleich mu ist) anstatt einer horizontalen Linie. ARIMA (0,2,1) oder (0,2,2) ohne konstante lineare exponentielle Glättung: Lineare exponentielle Glättungsmodelle sind ARIMA-Modelle, die zwei Nichtseason-Differenzen in Verbindung mit MA-Terme verwenden. Der zweite Unterschied einer Reihe Y ist nicht einfach der Unterschied zwischen Y und selbst, der um zwei Perioden verzögert ist, sondern vielmehr der erste Unterschied der ersten Differenz - i. e. Die Änderung der Änderung von Y in der Periode t. Somit ist die zweite Differenz von Y in der Periode t gleich (Y t - Y t - 1) - (Y t - 1 - Y t - 2) Y t - 2Y t - 1 Y t - 2. Eine zweite Differenz einer diskreten Funktion ist analog zu einer zweiten Ableitung einer stetigen Funktion: sie misst die quotaccelerationquot oder quotcurvaturequot in der Funktion zu einem gegebenen Zeitpunkt. Das ARIMA (0,2,2) - Modell ohne Konstante prognostiziert, dass die zweite Differenz der Serie gleich einer linearen Funktion der letzten beiden Prognosefehler ist: die umgeordnet werden kann: wobei 952 1 und 952 2 die MA (1) und MA (2) Koeffizienten Dies ist ein allgemeines lineares exponentielles Glättungsmodell. Im Wesentlichen das gleiche wie Holt8217s Modell, und Brown8217s Modell ist ein Sonderfall. Es verwendet exponentiell gewichtete Bewegungsdurchschnitte, um sowohl eine lokale Ebene als auch einen lokalen Trend in der Serie abzuschätzen. Die langfristigen Prognosen von diesem Modell konvergieren zu einer geraden Linie, deren Hang hängt von der durchschnittlichen Tendenz, die gegen Ende der Serie beobachtet wird. ARIMA (1,1,2) ohne konstante gedämpfte Trend-lineare exponentielle Glättung. Dieses Modell wird in den beiliegenden Folien auf ARIMA-Modellen dargestellt. Es extrapoliert den lokalen Trend am Ende der Serie, aber erhebt es bei längeren Prognosehorizonten, um eine Note des Konservatismus einzuführen, eine Praxis, die empirische Unterstützung hat. Sehen Sie den Artikel auf quotWhy der Damped Trend Workquot von Gardner und McKenzie und die quotGolden Rulequot Artikel von Armstrong et al. für Details. Es ist grundsätzlich ratsam, an Modellen zu bleiben, bei denen mindestens eines von p und q nicht größer als 1 ist, dh nicht versuchen, ein Modell wie ARIMA (2,1,2) zu passen, da dies wahrscheinlich zu Überfüllung führen wird Und quotcommon-factorquot-Themen, die ausführlicher in den Anmerkungen zur mathematischen Struktur von ARIMA-Modellen diskutiert werden. Spreadsheet-Implementierung: ARIMA-Modelle wie die oben beschriebenen sind einfach in einer Tabellenkalkulation zu implementieren. Die Vorhersagegleichung ist einfach eine lineare Gleichung, die sich auf vergangene Werte der ursprünglichen Zeitreihen und vergangene Werte der Fehler bezieht. So können Sie eine ARIMA-Prognosekalkulationstabelle einrichten, indem Sie die Daten in Spalte A, die Prognoseformel in Spalte B und die Fehler (Daten minus Prognosen) in Spalte C speichern. Die Prognoseformel in einer typischen Zelle in Spalte B wäre einfach Ein linearer Ausdruck, der sich auf Werte in vorangehenden Zeilen der Spalten A und C bezieht, multipliziert mit den entsprechenden AR - oder MA-Koeffizienten, die in anderen Zellen auf der Spreadsheet gespeichert sind. Hauptsaisonale ARIMA-Modelle: (0,1,1) x (0,1,1 ) Etc. Gliederung der saisonalen ARIMA-Modellierung: Der saisonale Teil eines ARIMA-Modells hat die gleiche Struktur wie der nicht-saisonale Teil: Es kann einen AR-Faktor, einen MA-Faktor und eine Reihenfolge der Differenzierung haben. Im saisonalen Teil des Modells arbeiten alle diese Faktoren über Vielfache von Lags (die Anzahl der Perioden in einer Saison). Ein saisonales ARIMA-Modell wird als ARIMA (p, d, q) x (P, D, Q) - Modell klassifiziert, wobei die Anzahl der saisonalen autoregressiven (SAR) - Konditionen, die Anzahl der saisonalen Unterschiede, Bei der Identifizierung eines saisonalen Modells ist der erste Schritt, um festzustellen, ob ein saisonaler Unterschied erforderlich ist, zusätzlich oder vielleicht statt einer nicht-saisonalen Differenz. Sie sollten Zeitreihenplots und ACF - und PACF-Plots für alle möglichen Kombinationen von 0 oder 1 nicht-saisonalen Unterschied und 0 oder 1 saisonalen Unterschied betrachten. Achtung: Dont verwenden Sie mehr als einen saisonalen Unterschied, noch mehr als ZWEI Gesamtdifferenzen (saisonale und nicht saisonale kombiniert). Wenn das saisonale Muster sowohl stark als auch stabil ist (z. B. im Sommer und niedrig im Winter oder umgekehrt), dann sollten Sie wahrscheinlich einen saisonalen Unterschied verwenden, unabhängig davon, ob Sie einen nicht-saisonalen Unterschied verwenden, da dies wird Verhindern, dass das saisonale Muster in den Langzeitprognosen Outquot ist. Fügen Sie dies zu unserer Liste der Regeln für die Identifizierung von Modellen hinzu Regel 12: Wenn die Serie ein starkes und konsequentes Saisonmuster hat, dann sollten Sie eine Reihenfolge der saisonalen Differenzierung verwenden - aber nie mehr als eine Reihenfolge der saisonalen Unterschiede oder mehr als 2 verwenden Aufträge der Gesamtdifferenzierung (saisonaleAnfrage). Die Signatur des reinen SAR - oder reinen SMA-Verhaltens ähnelt der Signatur des reinen AR - oder reinen MA-Verhaltens, mit der Ausnahme, dass das Muster über Vielfache von Verzögerungen im ACF und PACF erscheint. Zum Beispiel hat ein reines SAR (1) - Verfahren Spikes im ACF an den Verzögerungen s, 2s, 3s usw., während das PACF nach Verzögerung abschaltet. Umgekehrt hat ein reines SMA (1) - Verfahren Spikes in der PACF an den Ziffern s, 2s, 3s usw., während das ACF nach Verzögerung abschaltet. Eine SAR-Signatur tritt gewöhnlich auf, wenn die Autokorrelation in der Saisonperiode positiv ist, während eine SMA-Signatur gewöhnlich auftritt, wenn die saisonale Autokorrelation negativ ist. Folglich: Regel 13: Ist die Autokorrelation zum Saisonzeitpunkt positiv. Erwägen, dem Modell einen SAR-Term hinzuzufügen. Ist die Autokorrelation zum Saisonzeitraum negativ. Erwägen das Hinzufügen eines SMA-Begriffs zum Modell. Versuchen Sie zu vermeiden, Mischen SAR und SMA Begriffe in dem gleichen Modell, und vermeiden Sie die Verwendung von mehr als einer von beiden Arten. Normalerweise reicht ein SAR (1) oder SMA (1) Term aus. Sie werden selten einen echten SAR (2) oder SMA (2) Prozess begegnen, und noch seltener haben genügend Daten, um 2 oder mehr saisonale Koeffizienten zu schätzen, ohne dass der Schätzalgorithmus in eine quotfeedback loop. quot kommt. Obwohl ein saisonales ARIMA-Modell zu haben scheint Nur ein paar Parameter, denken Sie daran, dass Backforecasting erfordert die Schätzung von ein oder zwei Jahreszeiten im Wert von impliziten Parameter, um es zu initialisieren. Deshalb sollten Sie mindestens 4 oder 5 Jahreszeiten haben, um ein saisonales ARIMA-Modell zu passen. Wahrscheinlich ist das am häufigsten verwendete saisonale ARIMA-Modell das (0,1,1) x (0,1,1) Modell - d. h. Ein MA (1) xSMA (1) Modell mit saisonalen und nicht saisonalen Unterschied. Dies ist im Wesentlichen ein quadratisches exponentielles Glättungsmodell. Wenn saisonale ARIMA-Modelle an protokollierten Daten angepasst sind, können sie ein multiplikatives Saisonmuster verfolgen. Beispiel: AUTOSALE Serie revisited Erinnern Sie sich, dass wir vorher die Einzelhandelsautoverkäufungsserie vorhersagen, indem Sie eine Kombination von Deflation, saisonale Justage und exponentielle Glättung verwenden. Lets jetzt versuchen, die gleiche Serie mit saisonalen ARIMA-Modellen, mit der gleichen Stichprobe von Daten von Januar 1970 bis Mai 1993 (281 Beobachtungen). Wie vorher arbeiten wir mit deflationierten Autoverkäufen - d. h. Wir verwenden die Serie AUTOSALECPI als Eingangsvariable. Hier sind die Zeitreihenplots und ACF - und PACF - Plots der Originalreihe, die im Prognoseverfahren erhalten werden, indem man die Quersprache eines ARIMA (0,0,0) x (0,0,0) - Modells mit konstantem: Quotsuspension bridgequot Muster in der ACF ist typisch für eine Serie, die sowohl nonstationary und stark saisonal ist. Klar brauchen wir wenigstens eine Reihenfolge der Differenzierung. Wenn wir einen nicht-seasonalen Unterschied nehmen, sind die entsprechenden Plots wie folgt: Die differenzierte Reihe (die Reste eines zufälligen Walk-with-growth-Modells) sieht mehr oder weniger stationär aus, aber es gibt immer noch sehr starke Autokorrelation in der Saison (Lag 12). Weil das saisonale Muster stark und stabil ist, wissen wir (aus Regel 12), dass wir eine Reihenfolge der saisonalen Differenzierung im Modell verwenden wollen. Hier ist das, was das Bild nach einem saisonalen Unterschied aussieht (nur): Die saisonal differenzierte Serie zeigt ein sehr starkes Muster positiver Autokorrelation, wie wir uns von unserem früheren Versuch, ein saisonales zufälliges Wandermodell anzupassen, erinnern. Dies könnte ein Quarz-Signatur sein - oder es könnte die Notwendigkeit für einen anderen Unterschied signalisieren. Wenn wir sowohl einen saisonalen als auch einen nicht-seasonalen Unterschied nehmen, werden folgende Ergebnisse erzielt: Dies sind natürlich die Residuen aus dem saisonalen zufälligen Trendmodell, das wir früher an die Autoverkäufe angepasst haben. Wir sehen jetzt die verräterischen Zeichen der milden Überdifferenzierung. Die positiven Spikes im ACF und PACF sind negativ geworden. Was ist die richtige Reihenfolge der Differenzierung Eine weitere Information, die hilfreich sein könnte, ist eine Berechnung der Fehlerstatistiken der Serie auf jeder Ebene der Differenzierung. Wir können diese durch Anpassen der entsprechenden ARIMA-Modelle berechnen, bei denen nur Differenzierung verwendet wird: Die kleinsten Fehler sowohl in der Schätzperiode als auch in der Validierungsperiode werden durch das Modell A erhalten, das eine Differenz jedes Typs verwendet. Dies, zusammen mit dem Aussehen der oben genannten Pläne, deutet stark darauf hin, dass wir sowohl einen saisonalen als auch einen nicht-seasonalen Unterschied verwenden sollten. Beachten Sie, dass mit Ausnahme des gratuitiven Konstantenausdrucks das Modell A das saisonale zufällige Trendmodell (SRT) ist, während Modell B nur das saisonale zufällige Spaziergang (SRW) ist. Wie wir bereits beim Vergleich dieser Modelle festgestellt haben, scheint das SRT-Modell besser zu passen als das SRW-Modell. In der Analyse, die folgt, werden wir versuchen, diese Modelle durch die Hinzufügung von saisonalen ARIMA Begriffe zu verbessern. Zurück zum Anfang der Seite. Das häufig verwendete ARIMA (0,1,1) x (0,1,1) Modell: SRT Modell plus MA (1) und SMA (1) Begriffe Zurück zu den letzten Satz von Plots oben, beachten Sie, dass mit einem Unterschied von Jeder Typ gibt es einen negativen Spike in der ACF bei lag 1 und auch eine negative Spike in der ACF bei lag 12. Während die PACF in der Nähe dieser beiden Verzögerungen ein allmählicheres Deadcayquotmuster aufweist. Durch die Anwendung unserer Regeln für die Identifizierung von ARIMA-Modellen (insbesondere Regel 7 und Regel 13) können wir nun schließen, dass das SRT-Modell durch die Zugabe eines MA (1) Begriffs und auch eines SMA (1) Begriffs verbessert werden würde. Auch nach Regel 5 schließen wir die Konstante aus, da zwei Ordnungen der Differenzierung beteiligt sind. Wenn wir das alles tun, erhalten wir das ARIMA (0,1,1) x (0,1,1) Modell. Das ist das am häufigsten verwendete saisonale ARIMA-Modell. Die Prognosegleichung lautet: wobei 952 1 der MA (1) Koeffizient und 920 1 (Kapital Theta-1) der SMA (1) Koeffizient ist. Beachten Sie, dass dies nur das saisonale zufällige Trendmodell ist, das durch Hinzufügen von Vielfachen der Fehler bei den Verzögerungen 1, 12 und 13 gefasst wurde. Beachten Sie auch, dass der Koeffizient des Lag-13-Fehlers das Produkt des MA (1) und SMA (1) Koeffizienten Dieses Modell ist konzeptionell ähnlich dem Winters-Modell, insofern es effektiv eine exponentielle Glättung auf Ebene, Trend und Saisonalität auf einmal anwendet, obwohl es auf festeren theoretischen Grundlagen beruht, insbesondere im Hinblick auf die Berechnung von Konfidenzintervallen für Langzeitprognosen. Die restlichen Plots sind in diesem Fall wie folgt: Obwohl eine geringe Autokorrelation bei Verzögerung 12 bleibt, ist das Gesamtbild der Plots gut. Die Modellanpassungsergebnisse zeigen, dass die geschätzten MA (1) und SMA (1) Koeffizienten (erhalten nach 7 Iterationen) in der Tat signifikant sind: Die Prognosen des Modells ähneln denen des saisonalen zufälligen Trendmodells - d. h. Sie nehmen das saisonale Muster und den lokalen Trend am Ende der Serie auf - aber sie sind etwas glatter im Aussehen, da sowohl das saisonale Muster als auch der Trend effektiv gemittelt werden (in einer exponentiell-glatten Art von Weg) über dem letzten Wenige Jahreszeiten: Was ist dieses Modell wirklich tun Sie können es in der folgenden Weise denken. Zuerst berechnet es den Unterschied zwischen jedem Monat8217s Wert und einem 8220exponentiell gewichteten historischen Durchschnitt8221 für diesen Monat, der berechnet wird, indem eine exponentielle Glättung auf Werte angewendet wird, die im selben Monat in den vergangenen Jahren beobachtet wurden, wo die Glättungsmenge durch die SMA bestimmt wird (1 ) Koeffizient Dann wendet es eine einfache exponentielle Glättung auf diese Unterschiede an, um die Abweichung vom historischen Durchschnitt vorherzusagen, die im nächsten Monat beobachtet wird. Der Wert des SMA (1) - Koeffizienten in der Nähe von 1,0 deutet darauf hin, dass viele Jahreszeiten der Daten verwendet werden, um den historischen Durchschnitt für einen bestimmten Monat des Jahres zu berechnen. Erinnern Sie sich, dass ein MA (1) Koeffizient in einem ARIMA (0,1,1) Modell 1-minus-alpha im entsprechenden exponentiellen Glättungsmodell entspricht und dass das Durchschnittsalter der Daten in einer exponentiellen Glättungsmodellvorhersage 1alpha ist. Der SMA (1) Koeffizient hat eine ähnliche Interpretation in Bezug auf Mittelwerte über Jahreszeiten. Hier liegt der Wert von 0,91, dass das Durchschnittsalter der Daten, die für die Schätzung des historischen Saisonmusters verwendet wurden, etwas mehr als 10 Jahre beträgt (fast die Hälfte der Länge des Datensatzes), was bedeutet, dass ein fast konstantes Saisonmuster angenommen wird. Der viel kleinere Wert von 0,5 für den MA (1) - Koeffizienten deutet darauf hin, dass relativ wenig Glättung durchgeführt wird, um die aktuelle Abweichung vom historischen Durchschnitt für denselben Monat abzuschätzen, so dass nächstes Monat8217s vorhergesagte Abweichung von seinem historischen Durchschnitt in der Nähe der Abweichungen liegen wird Aus dem historischen Durchschnitt, die in den letzten Monaten beobachtet wurden. Das ARIMA (1,0,0) x (0,1,0) Modell mit konstantem: SRW Modell plus AR (1) Begriff Das Vorgängermodell war ein saisonales Random Trend (SRT) Modell, das durch den Zusatz von MA ( 1) und SMA (1) Koeffizienten. Ein alternatives ARIMA-Modell für diese Serie kann durch Ersetzen eines AR (1) Terms für die nicht-seasonale Differenz erhalten werden - d. h. Durch Hinzufügen eines AR (1) Begriffs zum Seasonal Random Walk (SRW) Modell. Dies ermöglicht es uns, das saisonale Muster im Modell zu bewahren, während die Gesamtmenge der Differenzierung gesenkt wird, wodurch die Stabilität der Trendprojektionen, falls gewünscht, erhöht wird. (Erinnern Sie sich, dass mit einer saisonalen Differenz allein die Serie eine starke AR (1) Signatur zeigte.) Wenn wir dies tun, erhalten wir ein ARIMA (1,0,0) x (0,1,0) Modell mit konstanten, Was den folgenden Ergebnissen ergibt: Der AR (1) - Koeffizient ist in der Tat sehr signifikant und der RMSE ist nur 2,06 im Vergleich zu 3,00 für das SRW-Modell (Modell B im Vergleichsbericht oben). Die Prognosegleichung für dieses Modell ist: Der zusätzliche Begriff auf der rechten Seite ist ein Vielfaches der saisonalen Differenz, die im letzten Monat beobachtet wurde, was die Korrektur der Prognose für die Wirkung eines ungewöhnlich guten oder schlechten Jahres bewirkt. Hier bezeichnet 981 1 den AR (1) - Koeffizienten, dessen Schätzwert 0,73 beträgt. So zum Beispiel, wenn Umsatz im vergangenen Monat waren X Dollar vor Umsatz ein Jahr zuvor, dann die Menge 0,73X würde hinzugefügt werden, um die Prognose für diesen Monat. 956 bezeichnet den KONSTANT in der Prognosegleichung, deren Schätzwert 0,20 ist. Die geschätzte MEAN, deren Wert 0,75 ist, ist der Mittelwert der saisonal differenzierten Serien, was der jährliche Trend in den Langzeitprognosen dieses Modells ist. Die Konstante ist (definitionsgemäß) gleich der mittleren Zeit 1 minus der AR (1) Koeffizient: 0,2 0,75 (1 8211 0,73). Die Prognose zeigt, dass das Modell in der Tat einen besseren Job als das SRW-Modell der Verfolgung zyklischer Veränderungen (dh ungewöhnlich gute oder schlechte Jahre) macht: Allerdings ist die MSE für dieses Modell noch deutlich größer als das, was wir für die ARIMA (0, 1,1) x (0,1,1) Modell. Wenn wir die Plätze der Residuen betrachten, sehen wir Raum für Verbesserungen. Die Residuen zeigen immer noch ein Zeichen der zyklischen Variation: Die ACF und PACF deuten auf die Notwendigkeit von MA (1) und SMA (1) Koeffizienten hin: Eine verbesserte Version: ARIMA (1,0,1) x (0,1,1) Mit konstant Wenn wir die angegebenen MA (1) und SMA (1) Begriffe zum vorangegangenen Modell addieren, erhalten wir ein ARIMA (1,0,1) x (0,1,1) Modell mit Konstante, dessen Prognosegleichung Dies ist Ist fast das gleiche wie das ARIMA (0,1,1) x (0,1,1) Modell, mit der Ausnahme, dass es die Nichtseasonddifferenz mit einem AR (1) Term (a quotale Differentialdifferenz) ersetzt und es einen konstanten Term enthält, der die Langfristiger Trend Daher nimmt dieses Modell einen stabileren Trend als das ARIMA (0,1,1) x (0,1,1) Modell an, und das ist der Hauptunterschied zwischen ihnen. Die modellbasierten Ergebnisse sind wie folgt: Beachten Sie, dass der geschätzte AR (1) Koeffizient (981 1 in der Modellgleichung) 0,96 ist, was sehr nahe bei 1,0 liegt, aber nicht so nahe, dass es unbedingt darauf hindeuten sollte Ein erster Unterschied: sein Standardfehler ist 0.02, also ist es ungefähr 2 Standardfehler von 1.0. Die anderen Statistiken des Modells (die geschätzten MA (1) und SMA (1) Koeffizienten und Fehlerstatistiken in den Schätz - und Validierungsperioden) sind ansonsten nahezu identisch mit denen der ARIMA (0,1,1) x (0,1 , 1) Modell. (Die geschätzten MA (1) und SMA (1) Koeffizienten sind 0,45 und 0,91 in diesem Modell gegenüber 0,48 und 0,91 in der anderen.) Die geschätzte MEAN von 0,68 ist der vorhergesagte langfristige Trend (durchschnittliche jährliche Zunahme). Dies ist im wesentlichen der gleiche Wert, der in dem (1,0,0) x (0,1,0) - with-konstanten Modell erhalten wurde. Der Standardfehler des geschätzten Mittels beträgt 0,26, so dass die Differenz zwischen 0,75 und 0,68 nicht signifikant ist. Wenn die Konstante nicht in diesem Modell enthalten wäre, wäre es ein gedämpftes Trendmodell: Der Trend in seinen sehr langfristigen Prognosen würde allmählich abflachen. Die Punktprognosen dieses Modells ähneln denen des (0,1,1) x (0,1,1) Modells, da der durchschnittliche Trend dem lokalen Trend am Ende der Serie ähnlich ist. Allerdings erweitern sich die Konfidenzintervalle für dieses Modell etwas weniger schnell aufgrund der Annahme, dass der Trend stabil ist. Beachten Sie, dass die Vertrauensgrenzen für die zweijährigen Prognosen nun in den horizontalen Rasterlinien bei 24 und 44 bleiben, während die des (0,1,1) x (0,1,1) Modells nicht: saisonale ARIMA Versus exponentielle Glättung und saisonale Anpassung: Jetzt können wir die Leistung der beiden besten ARIMA Modelle gegen einfache und lineare exponentielle Glättungsmodelle vergleichen, begleitet von multiplikativen saisonalen Anpassungen und dem Winters Modell, wie in den Folien auf Prognose mit saisonalen Anpassung gezeigt: Die Fehlerstatistik für Die Prognosen für die Prognosen für alle Modelle sind in diesem Fall äußerst eng. Es ist schwer, einen 8220winner8221 zu wählen, der auf diesen Zahlen allein basiert. Zurück zum Anfang der Seite. Was sind die Kompromisse unter den verschiedenen saisonalen Modellen Die drei Modelle, die multiplikative saisonale Anpassung verwenden, behandeln die Saisonalität in einer expliziten Art und Weise - d. h. Saisonale Indizes werden als expliziter Teil des Modells ausgebrochen. The ARIMA models deal with seasonality in a more implicit manner--we cant easily see in the ARIMA output how the average December, say, differs from the average July. Depending on whether it is deemed important to isolate the seasonal pattern, this might be a factor in choosing among models. The ARIMA models have the advantage that, once they have been initialized, they have fewer quotmoving partsquot than the exponential smoothing and adjustment models and as such they may be less likely to overfit the data. ARIMA models also have a more solid underlying theory with respect to the calculation of confidence intervals for longer-horizon forecasts than do the other models. There are more dramatic differences among the models with respect to the behavior of their forecasts and confidence intervals for forecasts more than 1 period into the future. This is where the assumptions that are made with respect to changes in the trend and seasonal pattern are very important. Between the two ARIMA models, one (model A) estimates a time-varying trend, while the other (model B) incorporates a long-term average trend. (We could, if we desired, flatten out the long-term trend in model B by suppressing the constant term.) Among the exponential-smoothing-plus-adjustment models, one (model C) assumes a flat trend, while the other (model D) assumes a time-varying trend. The Winters model (E) also assumes a time-varying trend. Models that assume a constant trend are relatively more confident in their long-term forecasts than models that do not, and this will usually be reflected in the extent to which confidence intervals for forecasts get wider at longer forecast horizons. Models that do not assume time-varying trends generally have narrower confidence intervals for longer-horizon forecasts, but narrower is not better unless this assumption is correct. The two exponential smoothing models combined with seasonal adjustment assume that the seasonal pattern has remained constant over the 23 years in the data sample, while the other three models do not. Insofar as the seasonal pattern accounts for most of the month-to-month variation in the data, getting it right is important for forecasting what will happen several months into the future. If the seasonal pattern is believed to have changed slowly over time, another approach would be to just use a shorter data history for fitting the models that estimate fixed seasonal indices. For the record, here are the forecasts and 95 confidence limits for May 1995 (24 months ahead) that are produced by the five models: The point forecasts are actually surprisingly close to each other, relative to the widths of all the confidence intervals. The SES point forecast is the lowest, because it is the only model that does not assume an upward trend at the end of the series. The ARIMA (1,0,1)x(0,1,1)c model has the narrowest confidence limits, because it assumes less time-variation in the parameters than the other models. Also, its point forecast is slightly larger than those of the other models, because it is extrapolating a long-term trend rather than a short-term trend (or zero trend). The Winters model is the least stable of the models and its forecast therefore has the widest confidence limits, as was apparent in the detailed forecast plots for the models. And the forecasts and confidence limits of the ARIMA(0,1,1)x(0,1,1) model and those of the LESseasonal adjustment model are virtually identical To log or not to log Something that we have not yet done, but might have, is include a log transformation as part of the model. Seasonal ARIMA models are inherently additive models, so if we want to capture a multiplicative seasonal pattern . we must do so by logging the data prior to fitting the ARIMA model. (In Statgraphics, we would just have to specify quotNatural Logquot as a modeling option--no big deal.) In this case, the deflation transformation seems to have done a satisfactory job of stabilizing the amplitudes of the seasonal cycles, so there does not appear to be a compelling reason to add a log transformation as far as long term trends are concerned. If the residuals showed a marked increase in variance over time, we might decide otherwise. There is still a question of whether the errors of these models have a consistent variance across months of the year . If they don8217t, then confidence intervals for forecasts might tend to be too wide or too narrow according to the season. The residual-vs-time plots do not show an obvious problem in this regard, but to be thorough, it would be good to look at the error variance by month. If there is indeed a problem, a log transformation might fix it. Return to top of page.

No comments:

Post a Comment