Friday, 3 March 2017

Sas Moving Average Regression

Der Beispielcode auf der Registerkarte Vollcode veranschaulicht, wie man den gleitenden Durchschnitt einer Variablen über einen ganzen Datensatz, über die letzten N Beobachtungen in einem Datensatz oder über die letzten N Beobachtungen innerhalb einer BY-Gruppe berechnet. Diese Beispieldateien und Codebeispiele werden von SAS Institute Inc. zur Verfügung gestellt, wie es ohne jegliche Gewährleistung, weder ausdrücklich noch stillschweigend, einschließlich, aber nicht beschränkt auf die implizierten Garantien der Marktgängigkeit und Eignung für einen bestimmten Zweck ist. Die Empfänger bestätigen und stimmen zu, dass das SAS-Institut nicht für irgendwelche Schäden haftbar ist, die sich aus der Verwendung dieses Materials ergeben. Darüber hinaus wird das SAS-Institut die hierin enthaltenen Materialien nicht unterstützen. Diese Beispieldateien und Codebeispiele werden von SAS Institute Inc. zur Verfügung gestellt, wie es ohne jegliche Gewährleistung, weder ausdrücklich noch stillschweigend, einschließlich, aber nicht beschränkt auf die implizierten Garantien der Marktgängigkeit und Eignung für einen bestimmten Zweck ist. Die Empfänger bestätigen und stimmen zu, dass das SAS-Institut nicht für irgendwelche Schäden haftbar ist, die sich aus der Verwendung dieses Materials ergeben. Darüber hinaus wird das SAS-Institut die hierin enthaltenen Materialien nicht unterstützen. Berechnen Sie den gleitenden Durchschnitt einer Variablen über einen ganzen Datensatz, über die letzten N Beobachtungen in einem Datensatz oder über die letzten N Beobachtungen innerhalb einer BY-Gruppe. Autoregressive gleitende durchschnittliche Fehlerprozesse (ARMA-Fehler) und andere Modelle, die involvieren Verzögerungen von Fehlerbegriffen können durch Verwendung von FIT-Anweisungen geschätzt und mit SOLVE-Anweisungen simuliert oder prognostiziert werden. ARMA-Modelle für den Fehlerprozess werden oft für Modelle mit autokorrelierten Resten verwendet. Das AR-Makro kann verwendet werden, um Modelle mit autoregressiven Fehlerprozessen festzulegen. Das MA-Makro kann verwendet werden, um Modelle mit gleitenden durchschnittlichen Fehlerprozessen zu spezifizieren. Autoregressive Fehler Ein Modell mit Autoregressivfehlern erster Ordnung, AR (1), hat die Form, während ein AR (2) Fehlerprozess die Form und so weiter für höherwertige Prozesse hat. Beachten Sie, dass die s unabhängig und identisch verteilt sind und einen erwarteten Wert von 0 haben. Ein Beispiel für ein Modell mit einer AR (2) - Komponente ist und so weiter für höherwertige Prozesse. Zum Beispiel können Sie ein einfaches lineares Regressionsmodell mit MA (2) gleitenden Durchschnittsfehlern schreiben, da MA1 und MA2 die gleitenden Durchschnittsparameter sind. Beachten Sie, dass RESID. Y automatisch von PROC MODEL definiert wird. Die ZLAG-Funktion muss für MA-Modelle verwendet werden, um die Rekursion der Verzögerungen abzuschneiden. Damit wird sichergestellt, dass die verzögerten Fehler in der Lag-Priming-Phase bei Null beginnen und bei fehlenden Fehlern keine fehlenden Werte ausbreiten, und es stellt sicher, dass die zukünftigen Fehler null sind, anstatt während der Simulation oder Prognose zu fehlen. Einzelheiten zu den Lag-Funktionen finden Sie im Abschnitt Lag Logic. Dieses Modell, das mit dem MA-Makro geschrieben wurde, lautet wie folgt: Allgemeines Formular für ARMA-Modelle Das allgemeine ARMA (p, q) - Verfahren hat folgendes Formular Ein ARMA (p, q) - Modell kann wie folgt angegeben werden: wobei AR i und MA j repräsentieren Die autoregressiven und gleitenden Durchschnittsparameter für die verschiedenen Verzögerungen. Sie können alle Namen, die Sie für diese Variablen wollen, und es gibt viele gleichwertige Möglichkeiten, dass die Spezifikation geschrieben werden könnte. Vektor-ARMA-Prozesse können auch mit PROC MODEL geschätzt werden. Beispielsweise kann ein zwei-variables AR (1) - Verfahren für die Fehler der beiden endogenen Variablen Y1 und Y2 wie folgt spezifiziert werden: Konvergenzprobleme mit ARMA-Modellen ARMA-Modelle können schwer abzuschätzen sein. Wenn die Parameterschätzungen nicht innerhalb des entsprechenden Bereichs liegen, wachsen ein gleitender Durchschnittsrestbestand exponentiell. Die berechneten Residuen für spätere Beobachtungen können sehr groß sein oder überlaufen. Dies kann entweder geschehen, weil falsche Startwerte verwendet wurden oder weil die Iterationen von vernünftigen Werten entfernt wurden. Bei der Auswahl von Startwerten für ARMA-Parameter sollte die Pflege verwendet werden. Startwerte von 0,001 für ARMA-Parameter funktionieren in der Regel, wenn das Modell die Daten gut passt und das Problem gut konditioniert ist. Beachten Sie, dass ein MA-Modell oft durch ein höheres AR-Modell angenähert werden kann und umgekehrt. Dies kann zu einer hohen Kollinearität in gemischten ARMA-Modellen führen, was wiederum eine ernsthafte Konditionierung in den Berechnungen und Instabilitäten der Parameterschätzungen verursachen kann. Wenn Sie Konvergenzprobleme haben, während Sie ein Modell mit ARMA-Fehlerprozessen abschätzen, versuchen Sie es in Schritten zu schätzen. Zuerst verwenden Sie eine FIT-Anweisung, um nur die strukturellen Parameter mit den ARMA-Parametern auf Null (oder vernünftige vorherige Schätzungen falls vorhanden) abzuschätzen. Als nächstes verwenden Sie eine andere FIT-Anweisung, um die ARMA-Parameter nur mit den strukturellen Parameterwerten aus dem ersten Lauf zu schätzen. Da die Werte der Strukturparameter wahrscheinlich nahe an ihren endgültigen Schätzungen liegen, können die ARMA-Parameter-Schätzungen nun konvergieren. Schließlich verwenden Sie eine andere FIT-Anweisung, um simultane Schätzungen aller Parameter zu erzeugen. Da die Anfangswerte der Parameter nun wahrscheinlich ganz nahe bei ihren endgültigen gemeinsamen Schätzungen liegen, sollten die Schätzungen schnell konvergieren, wenn das Modell für die Daten geeignet ist. AR Anfangsbedingungen Die anfänglichen Verzögerungen der Fehlerausdrücke von AR (p) - Modellen können auf unterschiedliche Weise modelliert werden. Die autoregressiven Fehlerstartmethoden, die von SASETS-Prozeduren unterstützt werden, sind die folgenden: bedingte kleinste Quadrate (ARIMA - und MODELL-Prozeduren) bedingungslose kleinste Quadrate (AUTOREG-, ARIMA - und MODELL-Prozeduren) maximale Wahrscheinlichkeit (AUTOREG-, ARIMA - und MODELL-Prozeduren) Yule-Walker (AUTOREG Vorgehensweise) Hildreth-Lu, der die ersten P-Beobachtungen löscht (nur MODEL-Verfahren) Siehe Kapitel 8, Das AUTOREG-Verfahren für eine Erläuterung und Diskussion der Vorzüge verschiedener AR (p) Startmethoden. Die CLS-, ULS-, ML - und HL-Initialisierungen können von PROC MODEL durchgeführt werden. Bei AR (1) Fehlern können diese Initialisierungen wie in Tabelle 18.2 gezeigt hergestellt werden. Diese Methoden sind in großen Proben äquivalent. Tabelle 18.2 Initialisierungen von PROC MODEL: AR (1) FEHLER Die anfänglichen Verzögerungen der Fehlerterme von MA (q) Modellen können auch auf unterschiedliche Weise modelliert werden. Die folgenden gleitenden durchschnittlichen Fehler-Start-up-Paradigmen werden von den ARIMA - und MODEL-Prozeduren unterstützt: bedingungslose kleinste Quadrate bedingte kleinste Quadrate Die bedingte Methode der kleinsten Quadrate, um gleitende durchschnittliche Fehlerbegriffe zu schätzen, ist nicht optimal, da sie das Start-Problem ignoriert. Dies verringert die Effizienz der Schätzungen, obwohl sie selbständig bleiben. Die anfänglichen verzögerten Residuen, die sich vor dem Start der Daten erstrecken, werden als 0 angenommen, ihr unbedingter Erwartungswert. Dies führt zu einem Unterschied zwischen diesen Residuen und den verallgemeinerten kleinsten Quadraten-Resten für die gleitende Durchschnittskovarianz, die im Gegensatz zum autoregressiven Modell durch den Datensatz bestehen bleibt. Normalerweise konvergiert diese Differenz schnell auf 0, aber für fast nicht umwandelbare gleitende Mittelprozesse ist die Konvergenz ziemlich langsam. Um dieses Problem zu minimieren, sollten Sie genügend Daten haben, und die gleitenden durchschnittlichen Parameterschätzungen sollten innerhalb des invertierbaren Bereichs liegen. Dieses Problem kann auf Kosten des Schreibens eines komplexeren Programms korrigiert werden. Unbedingte kleinste Quadrate Schätzungen für die MA (1) Prozess kann durch die Angabe des Modells wie folgt produziert werden: Moving-Average-Fehler können schwer abzuschätzen. Sie sollten eine AR (p) - Animation an den gleitenden Mittelprozess anwenden. Ein gleitender Durchschnittsprozess kann in der Regel durch einen autoregressiven Prozess gut angenähert werden, wenn die Daten nicht geglättet oder differenziert wurden. Das AR-Makro Das SAS-Makro AR erzeugt Programmieranweisungen für PROC MODEL für autoregressive Modelle. Das AR-Makro ist Teil der SASETS-Software und es sind keine speziellen Optionen erforderlich, um das Makro zu verwenden. Der autoregressive Prozess kann auf die strukturellen Gleichungsfehler oder auf die endogene Reihe selbst angewendet werden. Das AR-Makro kann für die folgenden Autoregressionstypen verwendet werden: uneingeschränkte Vektorautoregression eingeschränkte Vektorautoregression Univariate Autoregression Um den Fehlerterm einer Gleichung als autoregressiven Prozess zu modellieren, verwenden Sie nach der Gleichung die folgende Aussage: Angenommen, Y ist ein Lineare Funktion von X1, X2 und einem AR (2) Fehler. Sie würden dieses Modell wie folgt schreiben: Die Anrufe nach AR müssen nach allen Gleichungen kommen, auf die der Prozess zutrifft. Der vorangehende Makroaufruf, AR (y, 2), erzeugt die in der LIST-Ausgabe in Abbildung 18.58 dargestellten Anweisungen. Abbildung 18.58 LIST Option Ausgang für ein AR (2) - Modell Die PRED-vordefinierten Variablen sind temporäre Programmvariablen, so dass die Verzögerungen der Residuen die korrekten Residuen sind und nicht die durch diese Gleichung neu definierten. Beachten Sie, dass dies den Aussagen entspricht, die explizit im Abschnitt Allgemeine Formular für ARMA-Modelle geschrieben sind. Sie können die autoregressiven Parameter auch bei ausgewählten Lags auf Null setzen. Wenn Sie z. B. autoregressive Parameter bei den Ziffern 1, 12 und 13 wünschen, können Sie die folgenden Aussagen verwenden: Diese Aussagen erzeugen die in Abbildung 18.59 dargestellte Ausgabe. Abbildung 18.59 LIST Option Ausgang für ein AR-Modell mit Lags bei 1, 12 und 13 Das MODEL Procedure Listing von Compiled Program Code Statement als Parsed PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. Y PRED. Y - y OLDPRED. y PRED. y yl1 ZLAG1 (y - perdy) yl12 ZLAG12 (y - perdy) yl13 ZLAG13 (y - perdy) RESID. y PRED. y - ACTUAL. y ERROR. Y PRED. y - y Es gibt Variationen der bedingten Methode der kleinsten Quadrate, je nachdem, ob Beobachtungen zu Beginn der Serie zum Aufwärmen des AR-Prozesses verwendet werden. Standardmäßig verwendet die AR-bedingte Methode der kleinsten Quadrate alle Beobachtungen und nimmt Nullen für die anfänglichen Verzögerungen autoregressiver Begriffe an. Durch die Verwendung der M-Option können Sie anfordern, dass AR die unbedingte Methode der kleinsten Quadrate (ULS) oder Maximum-Likelihood (ML) verwendet. Zum Beispiel finden die Diskussionen dieser Methoden im Abschnitt AR Anfangsbedingungen. Mit der Option MCLS n können Sie anfordern, dass die ersten n Beobachtungen verwendet werden, um Schätzungen der ursprünglichen autoregressiven Verzögerungen zu berechnen. In diesem Fall beginnt die Analyse mit der Beobachtung n 1. Zum Beispiel: Mit dem AR-Makro können Sie mit der Option TYPEV ein autoregressives Modell an die endogene Variable anstelle des Fehlerbegriffs anwenden. Wenn Sie zum Beispiel die fünf vergangenen Verzögerungen von Y der Gleichung im vorherigen Beispiel hinzufügen möchten, können Sie mit AR die Parameter und Verzögerungen verwenden, indem Sie die folgenden Anweisungen verwenden: Die vorherigen Anweisungen erzeugen die in Abbildung 18.60 dargestellte Ausgabe. Abbildung 18.60 LIST Option Ausgang für ein AR-Modell von Y Dieses Modell prognostiziert Y als lineare Kombination von X1, X2, einem Intercept und den Werten von Y in den letzten fünf Perioden. Unbeschränkte Vektor-Autoregression Um die Fehlerterme eines Satzes von Gleichungen als autoregressiver Autorektor zu modellieren, verwenden Sie nach den Gleichungen die folgende Form des AR-Makros: Der Prozeßname-Wert ist ein beliebiger Name, den Sie für AR verwenden, um Namen für den autoregressiven zu verwenden Parameter. Sie können das AR-Makro verwenden, um mehrere verschiedene AR-Prozesse für verschiedene Sätze von Gleichungen zu modellieren, indem Sie für jeden Satz unterschiedliche Prozessnamen verwenden. Der Prozessname stellt sicher, dass die verwendeten Variablennamen eindeutig sind. Verwenden Sie einen kurzen Prozessnamenwert für den Prozess, wenn Parameterschätzungen in einen Ausgabedatensatz geschrieben werden sollen. Das AR-Makro versucht, Parameternamen zu erstellen, die kleiner oder gleich acht Zeichen sind, aber dies ist durch die Länge des Prozessnamens begrenzt. Die als Vorwahl für die AR-Parameternamen verwendet wird. Der Variablenwert ist die Liste der endogenen Variablen für die Gleichungen. Angenommen, dass Fehler für die Gleichungen Y1, Y2 und Y3 durch einen autoregressiven Prozess zweiter Ordnung erzeugt werden. Sie können die folgenden Aussagen verwenden, die für Y1 und einen ähnlichen Code für Y2 und Y3 generieren: Für die Vektorprozesse kann nur die Methode der bedingten kleinsten Quadrate (MCLS oder MCLS n) verwendet werden. Sie können auch das gleiche Formular mit Einschränkungen verwenden, dass die Koeffizientenmatrix bei ausgewählten Lags 0 ist. Zum Beispiel geben die folgenden Aussagen einen Vektorprozess dritter Ordnung an die Gleichungsfehler mit allen Koeffizienten bei Verzögerung 2, die auf 0 beschränkt ist, und mit den Koeffizienten bei Verzögerungen 1 und 3 uneingeschränkt: Sie können die drei Serien Y1Y3 als Vektor autoregressiven Prozess modellieren In den Variablen statt in den Fehlern mit der Option TYPEV. Wenn du Y1Y3 als Funktion von vergangenen Werten von Y1Y3 und einigen exogenen Variablen oder Konstanten modellieren möchtest, kannst du mit AR die Aussagen für die Verzögerungsbedingungen erzeugen. Schreiben Sie für jede Variable eine Gleichung für den nichtautoregressiven Teil des Modells und rufen Sie dann AR mit der Option TYPEV auf. Zum Beispiel kann der nichtautoregressive Teil des Modells eine Funktion von exogenen Variablen sein, oder es können Abschnittsparameter sein. Wenn es keine exogenen Komponenten für das Vektor-Autoregression-Modell gibt, einschließlich keine Abschnitte, dann ordnen Sie jeder der Variablen Null zu. Es muss eine Zuordnung zu jeder der Variablen geben, bevor AR aufgerufen wird. Dieses Beispiel modelliert den Vektor Y (Y1 Y2 Y3) als lineare Funktion nur seines Wertes in den vorherigen zwei Perioden und einen weißen Rauschfehlervektor. Das Modell hat 18 (3 3 3 3) Parameter. Syntax des AR-Makros Es gibt zwei Fälle der Syntax des AR-Makros. Wenn keine Beschränkungen für einen Vektor-AR-Prozess erforderlich sind, gibt die Syntax des AR-Makros das allgemeine Formular ein Präfix für AR, das beim Erstellen von Namen von Variablen verwendet wird, die benötigt werden, um den AR-Prozess zu definieren. Wenn der Endolist nicht angegeben ist, wird die endogene Liste standardmäßig benannt. Die der Name der Gleichung sein muss, auf die der AR-Fehlerprozess angewendet werden soll. Der Name Wert darf 32 Zeichen nicht überschreiten. Ist die Reihenfolge des AR-Prozesses. Gibt die Liste der Gleichungen an, auf die der AR-Prozess angewendet werden soll. Wenn mehr als ein Name gegeben ist, wird ein uneingeschränkter Vektorprozess mit den strukturellen Resten aller Gleichungen erzeugt, die als Regressoren in jeder der Gleichungen enthalten sind. Wenn nicht angegeben, wird endolist standardmäßig benannt. Gibt die Liste der Verzögerungen an, an denen die AR-Begriffe hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgeführt sind, werden auf 0 gesetzt. Alle aufgeführten Lags müssen kleiner oder gleich nlag sein. Und es muss keine Duplikate geben. Wenn nicht angegeben, wird die Laglist standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. Legt die zu implementierende Schätzmethode fest. Gültige Werte von M sind CLS (bedingte kleinste Quadrate Schätzungen), ULS (unbedingte kleinste Quadrate Schätzungen) und ML (Maximum Likelihood Schätzungen). MCLS ist die Voreinstellung. Nur MCLS ist erlaubt, wenn mehr als eine Gleichung angegeben ist. Die ULS - und ML-Methoden werden für AR-Modelle von AR nicht unterstützt. Dass der AR-Prozess auf die endogenen Variablen selbst anstatt auf die strukturellen Residuen der Gleichungen angewendet werden soll. Eingeschränkte Vektor-Autoregression Sie können steuern, welche Parameter in den Prozess aufgenommen werden, und beschränken auf 0 die Parameter, die Sie nicht enthalten. Zuerst verwenden Sie AR mit der Option DEFER, um die Variablenliste zu deklarieren und die Dimension des Prozesses zu definieren. Verwenden Sie dann zusätzliche AR-Aufrufe, um Begriffe für ausgewählte Gleichungen mit ausgewählten Variablen an ausgewählten Lags zu erzeugen. Zum Beispiel sind die erzeugten Fehlergleichungen wie folgt: Dieses Modell besagt, dass die Fehler für Y1 von den Fehlern von Y1 und Y2 (aber nicht Y3) an beiden Verzögerungen 1 und 2 abhängen und dass die Fehler für Y2 und Y3 davon abhängen Die vorherigen Fehler für alle drei Variablen, aber nur bei Verzögerung 1. AR-Makro-Syntax für eingeschränkte Vektor-AR Eine alternative Verwendung von AR erlaubt es, Einschränkungen für einen Vektor-AR-Prozess aufzuerlegen, indem man AR mehrmals aufruft, um verschiedene AR-Terme und Verzögerungen für verschiedene anzugeben Gleichungen. Der erste Aufruf hat das allgemeine Formular spezifiziert ein Präfix für AR, das beim Erstellen von Namen von Variablen verwendet wird, die benötigt werden, um den Vektor-AR-Prozess zu definieren. Gibt die Reihenfolge des AR-Prozesses an. Gibt die Liste der Gleichungen an, auf die der AR-Prozess angewendet werden soll. Gibt an, dass AR nicht den AR-Prozess generieren soll, sondern auf weitere Informationen warten muss, die in späteren AR-Aufrufen für denselben Namenswert angegeben sind. Die nachfolgenden Anrufe haben die allgemeine Form ist die gleiche wie im ersten Aufruf. Gibt die Liste der Gleichungen an, auf die die Spezifikationen dieses AR-Aufrufs angewendet werden sollen. Nur Namen, die im endolistischen Wert des ersten Aufrufs für den Namenswert angegeben sind, können in der Liste der Gleichungen in der eqlist erscheinen. Spezifiziert die Liste der Gleichungen, deren verzögerte strukturelle Residuen als Regressoren in den Gleichungen in eqlist aufgenommen werden sollen. Nur Namen im Endolisten des ersten Aufrufs für den Namenswert können in varlist erscheinen. Wenn nicht angegeben, varlist standardmäßig endolist. Gibt die Liste der Verzögerungen an, an denen die AR-Begriffe hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgeführt sind, werden auf 0 gesetzt. Alle aufgeführten Lags müssen kleiner oder gleich dem Wert von nlag sein. Und es muss keine Duplikate geben. Wenn nicht angegeben, wird die Laglist standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. Das MA-Makro Das SAS-Makro MA generiert Programmierungsanweisungen für PROC MODEL für gleitende Durchschnittsmodelle. Das MA-Makro ist Teil der SASETS-Software und es sind keine speziellen Optionen erforderlich, um das Makro zu verwenden. Der gleitende durchschnittliche Fehlerprozess kann auf die strukturellen Gleichungsfehler angewendet werden. Die Syntax des MA-Makros ist das gleiche wie das AR-Makro, außer es gibt kein TYPE-Argument. Wenn Sie die MA - und AR-Makros kombinieren, muss das MA-Makro dem AR-Makro folgen. Die folgenden SASIML-Anweisungen erzeugen einen ARMA (1, (1 3)) Fehlerprozess und speichern ihn im Datensatz MADAT2. Die folgenden PROC MODEL-Anweisungen werden verwendet, um die Parameter dieses Modells mit Hilfe der Maximum-Likelihood-Fehlerstruktur zu schätzen: Die Schätzungen der Parameter, die durch diesen Lauf erzeugt werden, sind in Abbildung 18.61 dargestellt. Abbildung 18.61 Schätzungen aus einem ARMA (1, (1 3)) Prozess Es gibt zwei Fälle der Syntax für das MA-Makro. Wenn Einschränkungen für einen Vektor-MA-Prozess nicht benötigt werden, gibt die Syntax des MA-Makros das allgemeine Formular ein Präfix für MA an, das beim Erstellen von Namen von Variablen verwendet wird, die benötigt werden, um den MA-Prozess zu definieren und ist der Standard-Endolist. Ist die Reihenfolge des MA-Prozesses. Gibt die Gleichungen an, auf die der MA-Prozess angewendet werden soll. Wenn mehr als ein Name angegeben ist, wird die CLS-Schätzung für den Vektorprozess verwendet. Gibt die Verzögerungen an, bei denen die MA-Bedingungen hinzugefügt werden sollen. Alle aufgeführten Lags müssen kleiner oder gleich nlag sein. Und es muss keine Duplikate geben. Wenn nicht angegeben, wird die Laglist standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. Legt die zu implementierende Schätzmethode fest. Gültige Werte von M sind CLS (bedingte kleinste Quadrate Schätzungen), ULS (unbedingte kleinste Quadrate Schätzungen) und ML (Maximum Likelihood Schätzungen). MCLS ist die Voreinstellung. Nur MCLS ist erlaubt, wenn im Endolisten mehr als eine Gleichung angegeben ist. MA Makro-Syntax für eingeschränkte Vektor-Moving-Average Eine alternative Verwendung von MA erlaubt es, Einschränkungen für einen Vektor-MA-Prozess aufzuerlegen, indem man MA mehrmals aufruft, um verschiedene MA-Terme anzugeben und für verschiedene Gleichungen zu verzögern. Der erste Aufruf hat das allgemeine Formular spezifiziert ein Präfix für MA, das beim Erstellen von Namen von Variablen verwendet wird, die benötigt werden, um den Vektor-MA-Prozess zu definieren. Gibt die Reihenfolge des MA-Prozesses an. Gibt die Liste der Gleichungen an, auf die der MA-Prozess angewendet werden soll. Gibt an, dass MA nicht den MA-Prozess generieren soll, sondern auf weitere Informationen warten muss, die in späteren MA-Aufrufen für denselben Namenswert angegeben sind. Die nachfolgenden Anrufe haben die allgemeine Form ist die gleiche wie im ersten Aufruf. Gibt die Liste der Gleichungen an, auf die die Spezifikationen dieses MA-Aufrufs angewendet werden sollen. Spezifiziert die Liste der Gleichungen, deren verzögerte strukturelle Residuen als Regressoren in den Gleichungen in eqlist aufgenommen werden sollen. Gibt die Liste der Verzögerungen an, bei denen die MA-Konditionen hinzugefügt werden sollen. Regression13 mit SAS13 Kapitel 2 8211 Regressionsdiagnose Kapitel Gliederung 2.0 Regressionsdiagnose 2.1 Ungewöhnliche und einflussreiche Daten 2.2 Tests auf die Normalität der Residuen 2.3 Tests auf nicht konstanter Fehler der Abweichung 2.4 Tests auf Multikollinearität 2.5 Tests auf Nichtlinearität 2.6 Modellspezifikation 2.7 Probleme der Unabhängigkeit 2.8 Zusammenfassung 2.9 Für weitere Informationen 2.0 Regressionsdiagnostik In unserem letzten Kapitel haben wir gelernt, wie man eine gewöhnliche lineare Regression mit SAS durchführt, mit Methoden zur Untersuchung der Verteilung von Variablen, Normal verteilte Variablen als erster Blick auf die Prüfung von Annahmen in der Regression. Ohne zu überprüfen, dass Ihre Daten die Regressionsannahmen erfüllt haben, können Ihre Ergebnisse irreführend sein. In diesem Kapitel wird untersucht, wie Sie SAS verwenden können, um zu testen, ob Ihre Daten die Annahmen der linearen Regression erfüllen. Insbesondere werden wir die folgenden Annahmen berücksichtigen. Linearität 8211 die Beziehungen zwischen den Prädiktoren und der Ergebnisvariablen sollten linear sein Normalität 8211 die Fehler sollten normal verteilt sein 8211 technisch Normalität ist nur notwendig, wenn die t-Tests gültig sind, die Schätzung der Koeffizienten erfordert nur, dass die Fehler identisch und unabhängig sind Verteilte Homogenität der Varianz (Homosedastizität) 8211 Die Fehlerabweichung sollte konstant sein Unabhängigkeit 8211 Die Fehler, die mit einer Beobachtung verbunden sind, sind nicht mit den Fehlern einer anderen Beobachtung korreliert. Fehler in Variablen 8211 Prädiktorvariablen werden ohne Fehler gemessen (wir werden dies in Kapitel 4 abdecken ) Modellspezifikation 8211 Das Modell sollte ordnungsgemäß spezifiziert werden (einschließlich aller relevanten Variablen und ohne irrelevante Variablen) Darüber hinaus gibt es Probleme, die während der Analyse auftreten können, dass, während streng genommen, keine Annahmen von Regression sind, sind dennoch von Große Sorge für Regressionsanalysten. Einflüsse 8211 einzelne Beobachtungen, die einen unangemessenen Einfluss auf die Koeffizienten ausüben Collinearity 8211 Prädiktoren, die hochkollinear sind, d. h. linear verwandt, können Probleme bei der Schätzung der Regressionskoeffizienten verursachen. Viele grafische Methoden und numerische Tests wurden im Laufe der Jahre für die Regressionsdiagnostik entwickelt. In diesem Kapitel werden wir diese Methoden erforschen und zeigen, wie man Regressionsannahmen überprüft und mögliche Probleme mit SAS erkennt. 2.1 Ungewöhnliche und einflussreiche Daten Eine einzige Beobachtung, die sich wesentlich von allen anderen Beobachtungen unterscheidet, kann einen großen Unterschied in den Ergebnissen Ihrer Regressionsanalyse machen. Wenn eine einzelne Beobachtung (oder eine kleine Gruppe von Beobachtungen) Ihre Ergebnisse wesentlich ändert, möchten Sie dies wissen und weiter untersuchen. Es gibt drei Möglichkeiten, dass eine Beobachtung ungewöhnlich sein kann. Ausreißer In der linearen Regression ist ein Ausreißer eine Beobachtung mit großem Rest. Mit anderen Worten, es ist eine Beobachtung, deren abhängiger Variablenwert aufgrund seiner Werte auf den Prädiktorvariablen ungewöhnlich ist. Ein Ausreißer kann auf eine Stichprobenmerkmal hinweisen oder einen Dateneingabefehler oder ein anderes Problem angeben. Hebelwirkung . Eine Beobachtung mit einem Extremwert auf einer Prädiktorvariable wird als Punkt mit hoher Hebelwirkung bezeichnet. Leverage ist ein Maß dafür, wie weit eine Beobachtung von dem Mittelwert dieser Variablen abweicht. Diese Hebelpunkte können sich auf die Schätzung der Regressionskoeffizienten auswirken. Einfluss . Eine Beobachtung soll einflussreich sein, wenn das Entfernen der Beobachtung die Schätzung der Koeffizienten wesentlich ändert. Einfluss kann als das Produkt der Hebelwirkung und Ausreißer gedacht werden. Wie können wir diese drei Arten von Beobachtungen identifizieren Let8217s betrachten einen Beispiel-Dataset namens Kriminalität. Dieser Datensatz erscheint in Statistical Methods for Social Sciences, Third Edition von Alan Agresti und Barbara Finlay (Prentice Hall, 1997). Die Variablen sind Staat id (sid), Staatsname (Staat), Gewaltverbrechen pro 100.000 Menschen (Kriminalität), Morde pro 1.000.000 (Mord), der Anteil der Bevölkerung in Metropolregionen (pctmetro), der Prozentsatz der Bevölkerung, die Ist weiß (pctwhite), Prozent der Bevölkerung mit einer High School Ausbildung oder über (pcths), Prozent der Bevölkerung unter Armutsgrenze (Armut) und Prozent der Bevölkerung, die Alleinerziehende sind (Single). Im Folgenden verwenden wir proc Inhalte und proc bedeutet, mehr über diese Datendatei zu erfahren. Let8217s sagen, dass wir das Verbrechen von pctmetro vorhersagen wollen. Armut Und einzeln Das heißt, wir wollen ein lineares Regressionsmodell zwischen dem Reaktionsverhalten und den unabhängigen Variablen pctmetro aufbauen. Armut und Single. Wir werden zuerst die Streuungspläne des Verbrechens gegen jede der Prädiktorvariablen vor der Regressionsanalyse betrachten, also werden wir einige Ideen über mögliche Probleme haben. Wir können eine Scatterplot-Matrix dieser Variablen wie unten gezeigt erstellen. Die Graphen des Verbrechens mit anderen Variablen zeigen einige mögliche Probleme. In jeder Handlung sehen wir einen Datenpunkt, der weit entfernt von den übrigen Datenpunkten liegt. Let8217s machen einzelne Graphen von Verbrechen mit Pktmetro und Armut und Single, so dass wir einen besseren Blick auf diese Scatterplots bekommen können. Wir werden die Option pointlabel (quotstatequot) in der Symbol-Anweisung hinzufügen, um den Statusnamen anstelle eines Punktes zu zeichnen. Alle Streudiagramme deuten darauf hin, dass die Beobachtung für den Zustand dc ein Punkt ist, der zusätzliche Aufmerksamkeit erfordert, da er sich von allen anderen Punkten abhebt. Wir werden es im Auge behalten, wenn wir unsere Regressionsanalyse durchführen. Jetzt will8217s versuchen die Regression Befehl Vorhersage Verbrechen aus pctmetro, Armut und Single. Wir werden Schritt für Schritt gehen, um alle potenziell ungewöhnlichen oder einflussreichen Punkte danach zu identifizieren. Wir werden mehrere Statistiken ausgeben, die wir für die nächsten Analysen zu einem Datensatz namens crime1res benötigen werden. Und wir werden jede Statistik nacheinander erklären. Diese Statistiken beinhalten den studentisierten Rest (genannt r), Hebel (Lev), Cook8217s D (genannt cd) und DFFITS (genannt dffit). Wir fordern alle diese Statistiken jetzt an, damit sie in einem einzigen Datensatz platziert werden können, den wir für die nächsten Beispiele verwenden werden. Ansonsten hätten wir das Proc Reg jedes Mal erneut ausführen müssen, wenn wir eine neue Statistik wünschen und diese Statistik auf eine andere Ausgabedatei speichern möchten. Let8217s untersuchen die studentisierten Residuen als erstes Mittel zur Identifizierung von Ausreißern. Wir haben die studentisierten Residuen in der oben genannten Regression in der Ausgabe-Anweisung angefordert und nannten sie r. Wir können einen beliebigen Namen wählen, den wir mögen, solange es ein rechtlicher SAS-Variablenname ist. Studentisierte Residuen sind eine Art von standardisierten Rest, die verwendet werden können, um Ausreißer zu identifizieren. Let8217s untersuchen die Residuen mit einem Stamm und Blatt Handlung. Wir sehen drei Reste, die herausragen, -3.57, 2.62 und 3.77. Die Stamm - und Blattdarstellung hilft uns, einige potenzielle Ausreißer zu sehen, aber wir können nicht sehen, welcher Zustand (welche Beobachtungen) potentielle Ausreißer sind. Let8217s sortieren die Daten über die Residuen und zeigen die 10 größten und 10 kleinsten Residuen zusammen mit dem Zustand id und Staat Namen. Wir sollten auf studentisierte Residuen achten, die 2 oder -2 übersteigen und noch mehr Sorgen über Residuen haben, die 2,5 oder -2,5 übersteigen und noch mehr Sorgen um Residuen haben, die 3 oder -3 übersteigen. Diese Ergebnisse zeigen, dass DC und MS die am meisten beunruhigenden Beobachtungen sind, gefolgt von FL. Let8217s zeigen alle Variablen in unserer Regression, wo der studierte Restwert 2 oder -2 übersteigt, dh wo der absolute Wert des Restwertes 2 übersteigt. Wir sehen die Daten für die drei potentiellen Ausreißer, die wir identifiziert haben, nämlich Florida, Mississippi und Washington DC Looking Sorgfältig bei diesen drei Beobachtungen konnten wir keine Dateneingabefehler finden, obwohl wir vielleicht eine andere Regressionsanalyse mit dem Extrempunkt wie DC gelöscht haben möchten. Wir werden später noch zu diesem Thema zurückkehren. Jetzt sehen sie die Leverage8217s, um Beobachtungen zu identifizieren, die einen großen Einfluss auf die Regressionskoeffizientenschätzungen haben werden. Im Allgemeinen sollte ein Punkt mit Hebelwirkung größer als (2k2) n sorgfältig untersucht werden, wobei k die Anzahl der Prädiktoren und n die Anzahl der Beobachtungen ist. In unserem Beispiel geht das auf (232) 51 .15686275. So können wir folgendes machen Wie wir gesehen haben, ist DC eine Beobachtung, dass beide eine große verbleibende und große Hebelwirkung hat. Solche Punkte sind potentiell die einflussreichsten. Wir können eine Handlung machen, die die Hebelwirkung durch den Restquadrat zeigt und nach Beobachtungen Ausschau hält, die bei beiden Maßnahmen gemeinsam hoch sind. Wir können dies mit einem Hebel-versus-Rest-Quadrat-Diagramm tun. Unter Verwendung von Restquadraten anstelle von Rest selbst ist der Graph auf den ersten Quadranten beschränkt und die relativen Positionen der Datenpunkte bleiben erhalten. Dies ist eine schnelle Möglichkeit, potenzielle einflussreiche Beobachtungen und Ausreißer gleichzeitig zu überprüfen. Beide Arten von Punkten sind für uns sehr wichtig. Der Punkt für DC fällt unsere Aufmerksamkeit mit dem höchsten Restquadrat und höchster Hebelwirkung, was darauf hindeutet, dass es sehr einflussreich sein könnte. Der Punkt für MS hat fast so große Reste quadriert, hat aber nicht die gleiche Hebelwirkung. Wir sehen diese Beobachtungen sorgfältiger an, indem wir sie unten auflisten. Nun geht es auf die Gesamtmaßnahme des Einflusses. Genauer gesagt, sehen sie sich bei Cook8217s D und DFITS. Diese Maßnahmen vereinen sowohl Informationen über die Rest - als auch die Hebelwirkung. Cook8217s D und DFITS sind sehr ähnlich, außer dass sie anders skalieren, aber sie geben uns ähnliche Antworten. Der niedrigste Wert, den Cook8217s D annehmen kann, ist null, und je höher der Cook8217s D ist, desto einflussreicher ist der Punkt. Der konventionelle Grenzpunkt ist 4n. Wir können jede Beobachtung über dem Cut-off-Punkt auflisten, indem wir folgendes tun. Wir sehen, dass der Cook8217s D für DC bei weitem der größte ist. Jetzt lass dich mal auf DFITS schauen. Der konventionelle Cut-off-Punkt für DFITS ist 2sqrt (kn). DFITS können entweder positiv oder negativ sein, wobei Zahlen nahe Null liegen, die den Punkten mit kleinem oder null Einfluss entsprechen. Wie wir sehen, zeigt DFITS auch an, dass DC bei weitem die einflussreichste Beobachtung ist. Die obigen Maßnahmen sind allgemeine Einflussfaktoren. Sie können auch spezifischere Einflussfaktoren berücksichtigen, die beurteilen, wie jeder Koeffizient durch das Löschen der Beobachtung verändert wird. Diese Maßnahme heißt DFBETA und wird für jeden der Prädiktoren erstellt. Anscheinend ist dies rechnerisch intensiver als Zusammenfassungsstatistiken wie Cook8217s D, weil je mehr Prädiktoren ein Modell hat, desto mehr Berechnung kann es sein. Wir können unsere Aufmerksamkeit nur auf jene Prädiktoren beschränken, mit denen wir uns am meisten beschäftigen und sehen, wie gut diese Prädiktoren sind. In SAS müssen wir die ods Ausgabe OutStatistics Anweisung verwenden, um die DFBETAs für jeden der Prädiktoren zu produzieren. Die Namen für die neu erstellten Variablen werden von SAS automatisch gewählt und beginnen mit DFB. Dies schuf drei Variablen, DFBpctmetro. DFBpoverty und DFBsingle. Let8217s betrachten die ersten 5 Werte. Der Wert für DFBsingle für Alaska ist 0,14, was bedeutet, dass Alaska, indem er in die Analyse einbezogen wird (im Vergleich zum Ausschluss), den Koeffizienten für Einzelne durch 0,14 Standardfehler erhöht, dh das 0,14-fache des Standardfehlers für BSingle oder um (0,14 15,5 ). Da die Einbeziehung einer Beobachtung entweder zu einer Erhöhung oder Abnahme eines Regressionskoeffizienten beitragen könnte, können DFBETAs entweder positiv oder negativ sein. Ein DFBETA-Wert über 2sqrt (n) verdient weitere Untersuchungen. In diesem Beispiel würden wir über absolute Werte über 2sqrt (51) oder 0,28 besorgt sein. Wir können alle drei DFBETA-Werte gegen die Zustands-ID in einem unten dargestellten Diagramm darstellen. Wir fügen eine Linie bei 0,28 und -0,28 hinzu, um uns zu helfen, potenziell lästige Beobachtungen zu sehen. Wir sehen den größten Wert ist etwa 3,0 für DFsingle. Wir können diesen Graphen mit der Option pointlabel (quotstatequot) auf der symbol1-Anweisung wiederholen, um die Punkte zu kennzeichnen. Mit der obigen Grafik können wir identifizieren, welche DFBeta ein Problem ist, und mit der folgenden Grafik können wir diese Beobachtung mit dem Zustand assoziieren, aus dem sie stammt. Nun läßt let8217 diese Beobachtungen mit DFBsingle größer als der Cutoff-Wert auf. Wieder sehen wir, dass DC die problematischste Beobachtung ist. Die folgende Tabelle fasst die allgemeinen Regeln des Daumens zusammen, die wir für diese Maßnahmen verwenden, um Beobachtungen zu identifizieren, die einer weiteren Untersuchung wert sind (wobei k die Anzahl der Prädiktoren und n die Anzahl der Beobachtungen ist). Washington D. C. ist als Ausreißer sowie ein einflussreicher Punkt in jeder Analyse erschienen. Weil Washington D. C. wirklich kein Staat ist, können wir dies benutzen, um es zu rechtfertigen, es aus der Analyse auszusenden, und sagen, dass wir wirklich nur die Staaten analysieren wollen. Erstens, let8217s wiederholen unsere Analyse einschließlich DC. Nun, let8217s führen die Analyse auslassen DC, indem sie eine where-Anweisung (hier ne steht für quotnot gleich toquot, aber Sie könnten auch verwenden, um die gleiche Sache bedeuten). Wie wir erwarten, hat das Löschen von DC eine große Änderung des Koeffizienten für Single gemacht. Der Koeffizient für Single sank von 132,4 auf 89,4. Nachdem wir DC gelöscht haben, würden wir den Prozess wiederholen, den wir in diesem Abschnitt dargestellt haben, um nach anderen äußeren und einflussreichen Beobachtungen zu suchen. In diesem Abschnitt haben wir eine Reihe von Methoden zur Identifizierung von Ausreißern und einflussreichen Punkten untersucht. In einer typischen Analyse würden Sie wahrscheinlich nur einige dieser Methoden verwenden. Im Allgemeinen gibt es zwei Arten von Methoden zur Bewertung von Ausreißern: Statistiken wie Residuen, Hebelwirkung, Cook8217s D und DFITS, die die Gesamtauswirkung einer Beobachtung auf die Regressionsergebnisse und Statistiken wie DFBETA beurteilen, die die spezifischen Auswirkungen eines Beobachtung über die Regressionskoeffizienten. In unserem Beispiel fanden wir, dass DC ein wichtiger Anliegen war. Wir haben eine Regression mit ihm und ohne sie durchgeführt und die Regressionsgleichungen waren sehr unterschiedlich. Wir können es rechtfertigen, es aus unserer Analyse zu entfernen, indem wir meinen, dass unser Modell die Kriminalitätsrate für Staaten vorherzusagen ist, nicht für Metropolregionen. 2.2 Tests für die Normalität der Residuen Eine der Annahmen der linearen Regressionsanalyse ist, dass die Residuen normalerweise verteilt sind. Diese Annahme stellt sicher, dass die p-Werte für die t-Tests gültig sind. Wie zuvor werden wir die Residuen (r) und vorhergesagte Werte (genannt fv) generieren und sie in einen Datensatz (genannt elem1res) setzen. Wir halten auch die Variablen api00. Mahlzeiten . Ell und emer in diesem Datensatz. Let8217s verwenden die elemapi2-Datei, die wir in Kapitel 1 für diese Analysen gesehen haben. Let8217s prognostizieren akademische Leistung (api00) von Prozent erhalten freie Mahlzeiten (Mahlzeiten), Prozent der englischen Sprache Lernenden (ell), und Prozent der Lehrer mit Notfall-Anmeldeinformationen (emer). Im Folgenden verwenden wir proc kde, um eine Kerndichte zu erzeugen. Kde steht für kernel dichte schätzung Es kann als Histogramm mit schmalen Bins und einem gleitenden Durchschnitt gedacht werden. Proc univariate wird ein normales Quantil-Diagramm erzeugen. Qqplot zeichnet die Quantile einer Variablen gegen die Quantile einer Normalverteilung auf. Qqplot ist am meisten empfindlich auf Nicht-Normalität in der Nähe von zwei Schwänze. Und probplot Wie Sie unten sehen, zeigt der Befehl qqplot eine leichte Abweichung vom Normalen am oberen Schwanz, wie man in der kde oben sehen kann. Wir können akzeptieren, dass die Residuen in der Nähe einer normalen Verteilung sind. Schwere Ausreißer bestehen aus jenen Punkten, die entweder 3 Inter-Quartil-Bereiche unterhalb des ersten Quartils oder 3 Inter-Quartil-Bereiche oberhalb des dritten Quartils sind. Das Vorhandensein von schweren Ausreißern sollte genügend Beweise sein, um die Normalität auf eine 5-signifikante Ebene zurückzuweisen. Milder Ausreißer sind bei Proben beliebiger Größe üblich. In unserem Fall haben wir keine schweren Ausreißer und die Verteilung scheint ziemlich symmetrisch zu sein. Die Residuen haben eine annähernd normale Verteilung. (Siehe die Ausgabe des proc univariate oben.) Im Shapiro-Wilk W-Test auf Normalität basiert der p-Wert auf der Annahme, dass die Verteilung normal ist. In unserem Beispiel ist der p-Wert sehr groß (0,51), was bedeutet, dass wir nicht ablehnen können, dass r normal verteilt ist. (Siehe die Ausgabe des Proc univariate oben.) 2.3 Tests für Heterosedastizität Eine der Hauptannahmen für die gewöhnliche Replikation der kleinsten Quadrate ist die Homogenität der Varianz der Residuen. Wenn das Modell gut passt, sollte es kein Muster für die Reste geben, die gegen die angepassten Werte aufgetragen wurden. Wenn die Varianz der Residuen nicht konstant ist, dann ist die Restvarianz als quotheteroscedastic. quot Es gibt grafische und nicht-grafische Methoden zum Nachweis von Heterosedastizität. Eine gängige grafische Methode besteht darin, die Residuen gegenüber den angepassten (vorhergesagten) Werten darzustellen. Im Folgenden verwenden wir eine Plot-Anweisung im Proc reg. Die r. und P. SAS berechnen, um die Residuen (r.) Und die vorhergesagten Werte (S.) für die Verwendung in der Handlung zu berechnen. Wir sehen, dass das Muster der Datenpunkte ein bisschen schmaler zum rechten Ende wird, was ein Hinweis auf leichte Heterosedastizität ist. Jetzt sehen wir einen Test für Heterosedastizität, den weißen Test. Der Weißtest prüft die Nullhypothese, dass die Varianz der Residuen homogen ist. Wenn also der p-Wert sehr klein ist, müssten wir die Hypothese ablehnen und die alternative Hypothese akzeptieren, dass die Varianz nicht homogen ist. Wir verwenden die Spec-Option auf der Modell-Anweisung, um den White-Test zu erhalten. Während der Weißtest signifikant ist, schien die Verteilung der Residuen in der Residual-Versus-Plot nicht übermäßig heteroscedastisch zu sein. Betrachten wir ein anderes Beispiel, wo wir die Einschreibung als Prädiktor verwenden. Erinnern wir uns, dass wir in Kapitel 1 nach rechts geschlagen haben. Wie Sie sehen können, zeigt dieses Beispiel viel ernstere Heterosedastizität. Wie wir in Kapitel 1 gesehen haben, wurde die Variablenregistrierung beträchtlich nach rechts verschoben, und wir fanden, dass durch eine Log-Transformation die transformierte Variable normaler verteilt wurde. Im Folgenden verwandeln wir die Einschreibung. Führen Sie die Regression und zeigen Sie die restlichen versus angepasstes Grundstück. Die Verteilung der Residuen ist deutlich verbessert. Sicherlich ist dies keine perfekte Verteilung der Residuen, aber es ist viel besser als die Verteilung mit der untransformierten Variablen. Schließlich, lass8217s das Modell, das wir zu Beginn dieses Abschnitts verwendet haben, noch einmal über die Vorhersage von api00 von den Mahlzeiten. Ell und emer. Mit diesem Modell sah die Verteilung der Residuen sehr schön und sogar über die angepassten Werte hinaus. Was passiert, wenn wir Einschreibung zu diesem Modell hinzufügen wird dies automatisch ruinieren die Verteilung der Residuen Let8217s addieren und sehen. Wie Sie sehen können, sieht die Verteilung der Residuen gut aus, auch nachdem wir die Variablen angemeldet haben. Als wir gerade die Variable in das Modell einschrieben, haben wir eine Log-Transformation durchgeführt, um die Verteilung der Residuen zu verbessern, aber wenn die Einschreibung Teil eines Modells mit anderen Variablen war, sahen die Residuen gut genug aus, so dass keine Transformation erforderlich war. Dies verdeutlicht, wie die Verteilung der Residuen, nicht die Verteilung des Prädiktors, der Leitfaktor war, um festzustellen, ob eine Transformation erforderlich war. 2.4 Tests für Collinearity Wenn es eine perfekte lineare Beziehung zwischen den Prädiktoren gibt, können die Schätzungen für ein Regressionsmodell nicht eindeutig berechnet werden. Der Begriff collinearity beschreibt zwei Variablen sind nahezu perfekte Linearkombinationen voneinander. Wenn mehr als zwei Variablen beteiligt sind, wird es oft als Multikollinearität bezeichnet, obwohl die beiden Begriffe oft austauschbar verwendet werden. Das Hauptanliegen ist, dass mit dem Anstieg der Multikollinearität die Regressionsmodellschätzungen der Koeffizienten instabil werden und die Standardfehler für die Koeffizienten wild aufgeblasen werden können. In diesem Abschnitt werden wir einige SAS-Optionen erforschen, die mit der Modell-Anweisung verwendet werden, die helfen, Multikollinearität zu erkennen. Wir können die vif-Option verwenden, um auf Multikollinearität zu überprüfen. Vif steht für Varianzinflationsfaktor. Als Faustregel gilt eine Variable, deren VIF-Werte größer als 10 sind, eine weitere Untersuchung. Toleranz, definiert als 1VIF, wird von vielen Forschern verwendet, um den Grad der Kollinearität zu überprüfen. Ein Toleranzwert kleiner als 0,1 ist vergleichbar mit einem VIF von 10. Es bedeutet, dass die Variable als eine lineare Kombination von anderen unabhängigen Variablen betrachtet werden könnte. Die tol-Option auf der Modell-Anweisung gibt uns diese Werte. Let8217s schauen zuerst auf die Regression, die wir aus dem letzten Abschnitt gemacht haben, das Regressionsmodell, das api00 von den Mahlzeiten vorhersagt, ell und emer. Und benutze die vif - und tol-Optionen mit der Modell-Anweisung. Die VIFs sehen hier gut aus. Hier ist ein Beispiel, wo die VIFs besorgniserregender sind. In diesem Beispiel sind die VIF - und Toleranz - (1VIF) - Werte für aved gradsch und colgrad besorgniserregend. Alle diese Variablen messen die Erziehung der Eltern und die sehr hohen VIF-Werte zeigen an, dass diese Variablen möglicherweise überflüssig sind. Zum Beispiel, nachdem Sie wissen, gradsch und colgrad. Sie können wahrscheinlich vorhersagen avged sehr gut. In diesem Beispiel entsteht Multikollinearität, weil wir zu viele Variablen gesetzt haben, die das Gleiche messen: Elternerziehung. Let8217s weglassen eine der Elternbildungsvariablen, avged. Beachten Sie, dass die VIF-Werte in der Analyse unten viel besser erscheinen. Beachten Sie auch, wie die Standardfehler für die Elternbildungsvariablen, gradsch und colgrad reduziert werden. Dies liegt daran, dass der hohe Grad der Kollinearität die Standardfehler verursacht hat. Mit der Multikollinearität eliminiert, ist der Koeffizient für gradsch. Die nicht signifikant war, ist jetzt bedeutsam. Let8217s stellen eine weitere Option zur Kollinearität vor. Die collinoint-Option zeigt mehrere verschiedene Maßnahmen der Kollinearität an. Zum Beispiel können wir auf die Kollinearität unter den Variablen testen, die wir in den beiden obigen Beispielen verwendet haben. Beachten Sie, dass bei Verwendung der Collin-Option der Intercept in die Berechnung der Collinearitätsstatistik einbezogen wird, was normalerweise nicht der Fall ist. Die collinoint-Option schließt den Intercept aus diesen Berechnungen aus, ist aber noch in der Berechnung der Regression enthalten. Wir entfernen jetzt avged und sehen die kollinearitätsdiagnostik erheblich. Die Bedingungszahl ist ein allgemein verwendete Index der globalen Instabilität der Regressionskoeffizienten 8212 eine große Bedingungszahl, 10 oder mehr, ist ein Hinweis auf Instabilität. 2.5 Tests auf Nichtlinearität Wenn wir eine lineare Regression durchführen, nehmen wir an, dass die Beziehung zwischen der Antwortvariablen und den Prädiktoren linear ist. Dies ist die Annahme der Linearität. Wenn diese Annahme verletzt wird, wird die lineare Regression versuchen, eine gerade Linie zu Daten zu passen, die nicht einer Geraden folgen. Die Überprüfung der linearen Annahme im Falle einer einfachen Regression ist einfach, da wir nur einen Prädiktor haben. Alles, was wir tun müssen, ist ein Streudiagramm zwischen der Antwortvariable und dem Prädiktor, um zu sehen, ob Nichtlinearität vorhanden ist, wie z. B. ein gekrümmtes Band oder eine große wellenförmige Kurve. Zum Beispiel, verwenden wir eine Datendatei namens nations. sav, die Daten über eine Reihe von Nationen auf der ganzen Welt hat. Im Folgenden sehen wir den Proc-Inhalt für diese Datei, um die Variablen in der Datei zu sehen (Beachten Sie, dass die Positionsoption SAS anzeigt, die Variablen in der Reihenfolge aufzulisten, in der sie sich in der Datendatei befinden.) Let8217s betrachtet die Beziehung zwischen GNP pro Kopf (Gnpcap) und Geburten (Geburt). Unten, wenn wir das Scatterplot zwischen Gnpcap und Geburt anschauen. Wir können sehen, dass die Beziehung zwischen diesen beiden Variablen ganz nicht linear ist. Wir haben eine Regressionslinie zum Diagramm hinzugefügt, und Sie können sehen, wie schlecht die Linie zu diesen Daten passt. Auch wenn wir die Residuen durch vorhergesagte Handlung betrachten, sehen wir, dass die Residuen nicht annähernd homoscedastic sind, aufgrund der Nichtlinearität in der Beziehung zwischen Gnpcap und Geburt. Jetzt werden wir das obige Scatterplot ändern, indem wir eine lowess (auch als noloessquot) Glättungslinie hinzufügen. Standardmäßig wird SAS vier Graphen machen, eine für die Glättung von 0,1, 0,2, 0,3 und 0,4. Wir zeigen nur den Graphen mit dem 0.4 glatt. Es gibt einige Ausgänge, die gt Die niedrige Linie passt viel besser als die OLS lineare Regression. Bei dem Versuch zu sehen, wie man diese beheben kann, bemerken wir, dass die Gnpcap-Scores ziemlich schief sind, wobei die meisten Werte nahe 0 sind und eine Handvoll Werte von 10.000 und höher. Dies deutet uns darauf hin, dass eine gewisse Transformation der Variablen nützlich sein kann. Eine der häufig verwendeten Transformationen ist eine Log-Transformation. Let8217s versuchen es unten. Wie Sie sehen, sieht das Scatterplot zwischen lgnpcap und Geburt viel besser mit der Regressionslinie durch das Herz der Daten. Auch die Handlung der Residuen nach vorhergesagten Werten sieht viel vernünftiger aus. Dieser Abschnitt hat gezeigt, wie Sie Scatterplots verwenden können, um Probleme der Nichtlinearität zu diagnostizieren, sowohl durch Betrachten der Scatterplots der Prädiktor - als auch der Outcome-Variablen sowie durch die Untersuchung der Residuen durch vorhergesagte Werte. Diese Beispiele haben sich auf einfache Regression konzentriert, aber ähnliche Techniken wären bei mehreren Regression nützlich. Bei der Verwendung mehrerer Regression wäre es jedoch sinnvoller, partielle Regressionsdiagramme anstelle der einfachen Scatterplots zwischen den Prädiktorvariablen und der Ergebnisvariablen zu untersuchen. 2.6 Modellspezifikation Ein Modellspezifikationsfehler kann auftreten, wenn eine oder mehrere relevante Variablen aus dem Modell weggelassen werden oder eine oder mehrere irrelevante Variablen im Modell enthalten sind. Wenn relevante Variablen aus dem Modell weggelassen werden, kann die gemeinsame Varianz, die sie mit den enthaltenen Variablen teilen, falsch diesen Variablen zugerechnet werden, und der Fehlerterm ist aufgeblasen. Auf der anderen Seite, wenn irrelevante Variablen in das Modell aufgenommen werden, kann die gemeinsame Varianz, die sie mit den enthaltenen Variablen teilen, ihnen zu Unrecht zugeschrieben werden. Modellspezifikationsfehler können die Schätzung der Regressionskoeffizienten wesentlich beeinflussen. Betrachten Sie das Modell unten. Diese Regression deutet darauf hin, dass, wie die Klassengröße erhöht die akademische Leistung steigt. Bevor wir veröffentlichen Ergebnisse sagen, dass erhöhte Klassengröße mit höheren akademischen Leistung verbunden ist, let8217s überprüfen die Modellspezifikation. Es gibt ein paar Methoden, um Spezifikationsfehler zu erkennen. Ein Link-Test führt einen Modellspezifikationstest für Single-Equation-Modelle durch. Es basiert auf der Idee, dass, wenn eine Regression richtig spezifiziert ist, man nicht in der Lage sein wird, irgendwelche zusätzlichen unabhängigen Variablen zu finden, die signifikant sind, außer durch Zufall. Um diesen Test durchzuführen, musst du die passenden Werte aus deiner Regression und den Quadraten dieser Werte erhalten. Das Modell wird dann mit diesen beiden Variablen als Prädiktoren umbenannt. Der passende Wert sollte signifikant sein, weil es der vorhergesagte Wert ist. Einerseits sollten die angepassten Werte quadriert sein, wenn es sich hierbei um eindeutig handelt, denn wenn unser Modell korrekt angegeben ist, sollten die quadratischen Vorhersagen nicht viel von erläuternder Kraft haben. Das heißt, wir würden nicht erwarten, dass der passende Wert quadriert ein signifikanter Prädiktor ist, wenn unser Modell korrekt angegeben ist. So werden wir den p-Wert für den passenden Wert quadrieren. Let8217s versuchen, eine weitere Variable hinzuzufügen, Mahlzeiten. Auf das obige Modell und dann den Link-Test erneut ausführen. Der Link-Test ist nochmals nicht signifikant. Beachten Sie, dass nach Einbeziehung der Mahlzeiten und voll. Der Koeffizient für die Klassengröße ist nicht mehr signifikant. Während acsk3 eine positive Beziehung zu api00 hat, wenn keine anderen Variablen im Modell sind, wenn wir auch andere wichtige Variablen einschließen und damit kontrollieren, ist acsk3 nicht mehr signifikant mit api00 verwandt und seine Beziehung zu api00 ist nicht mehr positiv. 2.7 Unabhängigkeitsaussagen Die Aussage dieser Annahme ist, dass die Fehler, die mit einer Beobachtung verbunden sind, nicht mit den Fehlern einer anderen Beobachtung korreliert sind, decken mehrere verschiedene Situationen ab. Betrachten Sie den Fall des Sammelns von Daten von Studenten in acht verschiedenen Grundschulen. Es ist wahrscheinlich, dass die Schüler in jeder Schule dazu neigen, mehr wie einander zu sein, dass Studenten aus verschiedenen Schulen, das heißt, ihre Fehler sind nicht unabhängig. Wir werden uns mit dieser Art von Situation in Kapitel 4 beschäftigen. Eine andere Art und Weise, in der die Annahme der Unabhängigkeit gebrochen werden kann, ist, wenn Daten über dieselben Variablen über die Zeit gesammelt werden. Let8217s sagen, dass wir sammeln Truancy Daten jedes Semester für 12 Jahre. In dieser Situation ist es wahrscheinlich, dass die Beobachtungsfehler zwischen benachbarten Semestern stärker korreliert sind als für Beobachtungen, die in der Zeit mehr getrennt sind. Dies wird als Autokorrelation bezeichnet. Wenn Sie Daten haben, die als Zeitreihen angesehen werden können, sollten Sie die Option dw verwenden, die einen Durbin-Watson-Test für korrelierte Residuen durchführt. Wir haben keine Zeitreihen-Daten, so dass wir den elemapi2-Datensatz verwenden und vorgeben, dass snum die Zeit angibt, zu der die Daten gesammelt wurden. Wir werden die Daten auf snum sortieren, um die Daten nach unserer gefälschten Zeitvariable zu bestellen und dann können wir die Regressionsanalyse mit der Option dw ausführen, um den Durbin-Watson-Test anzufordern. Die Durbin-Watson-Statistik hat einen Bereich von 0 bis 4 mit einem Mittelpunkt von 2. Der beobachtete Wert in unserem Beispiel ist weniger als 2, was nicht verwunderlich ist, da unsere Daten nicht wirklich Zeitreihen sind. In diesem Kapitel haben wir eine Reihe von Werkzeugen in SAS verwendet, um festzustellen, ob unsere Daten den Regressionsannahmen entsprechen. Im Folgenden stellen wir die Hauptbefehle auf, die wir nach der Annahme organisiert haben, dass der Befehl gezeigt wurde. Erkennung von ungewöhnlichen und einflussreichen Daten-Scatterplots der abhängigen Variablen gegenüber der unabhängigen Variablen mit Blick auf die größten Werte der studentisierten Residuen, Hebelwirkung, Cook8217s D, DFFITS und DFBETAs Tests für Normalität von Residualtests für Heteroscedasity Kernel Dichte Plot Quantil-Quantil Plots standardisierte normale Wahrscheinlichkeit plots Shapiro-Wilk W test scatterplot of residuals versus predicted (fitted) values White test Tests for Multicollinearity looking at VIF looking at tolerance Tests for Non-Linearity scatterplot of independent variable versus dependent variable Tests for Model Specification time series Durbin-Watson test 2.9 For more information


No comments:

Post a Comment