Erklärung des Verhaltens der zu prognostizierenden Zeitreihe durch das Verhalten anderer Zeitreihen, von denen man annimmt, dass sie die zu prognostizierende Zeitreihe beeinflussen. Die beeinflussenden Grössen werden unabhängige oder exogene Variablen, die zu prognostizierende Zeitreihe abhängige oder endogene Variable genannt. Bezeichnet man mit y die abhängige Variable, mit Xj (i = 1, ..., n) die unabhängigen Variablen und mit u eine nicht vorhersehbare Störvariable, so gilt folgende allgemeine Regressionsgleichung: Die Funktion t kann in der Praxis nichtlinear und von komplexer Struktur sein, wird aber häufig als linear angenommen, um den mathematischen Aufwand zu begrenzen. Liegen T Zeitreihenwerte aus der Vergangenheit vor, so nimmt die Regressionsgleichung folgende Form an: Man spricht bei dieser Funktion auch von einem Eingleichungsmodell, weil es nur eine abhängige Variable gibt. Bei Mehrglei- chungsmodellen tritt die abhängige Variable in anderen Gleichungen als unabhängige Variable auf, so dass interdependente Systeme entstehen, die für gesamtwirtschaftliche Modelle (mit den Variablen Volkseinkommen, Konsum, Investitionen usw.) typisch sind. Die Parameter bj (i = 1, ..., n) der Regressionsgleichung werden mit der Kleinste-Qua- drate-Methode aus dem Datenmaterial geschätzt und gestatten somit eine quantitative Prognose von y, falls die Werte der unabhängigen Variablen x, (i = 0, ..., n) bekannt sind oder bereits anderweitig prognostiziert wurden. Auf diese Weise kann man z.B. den Aktienkursindex des Statistischen Bundesamtes (abhängige Variable) mit Hilfe der unabhängigen Variablen "Rendite festverzinslicher Wertpapiere", "Zuwachsrate des Mindestre- servesolls", "Geschäftsklimaindex des Ifo-In- stituts" und "Dollarkurs" prognostizieren.
mit y_ dem Vektor der abhängigen Variablen y gemessen bei J Beobachtungen mit k der Anzahl der Variablen und N der Anzahl der Personen in der Stichprobe. Die Nullhypothese des Tests ist = ß3 . . . = ßk =
0. Bei Werten von F größer als F k-i,N-k bei einem vorgegebenen Signifikanzniveau oder kompakter: Bezieht man die einzelnen Beobachtungen mit ein und geht zur Matrixschreibweise über, dann ergibt sich (bei Einführung einer Scheinvariablen: x0j=l) folgendes Gleichungssystem: Die multiple lineare Regressionsanalyse ist der wichtigste Modellansatz der Depend- enzanalyse in der Multivariatenanalyse. Er erfaßt Modellsituationen, in denen eine metrisch skalierte abhängige Variable durch zwei oder mehrere, ebenfalls metrisch skalierte unabhängige Variablen erklärt wird und stellt damit die multiple Erweiterung der einfachen Regressionsanalyse dar. Eine abhängige Variable (y) wird durch mehrere unabhängige Variablen jxi) bestimmt. Die multiple Regressionsanalyse wird zum einen für Absatzprognosen einer abhängigen Vari- ablen eingesetzt (über Querschnittsdaten- oder Längsschnittdaten), zum anderen zur Diagnose, d. h. der Frage nach der relativen Bedeutung der unabhängigen Variablen bei der Erklärung einer abhängigen Variablen. Das Modell der multiplen Regression hat in der Skalarschreibweise die folgende Struktur: X der (KXJ) Matrix der unabhängigen Vari- ablen gemessen bei J Beobachtungen ]3 der Vektor der K Regressionskoeffizienten e der Vektor der J Residuen. Es werden wie in der einfachen Regression die Nicht-Singularität von XX’ sowie die Annahme unabhängiger Residuen £i mit Mittelwert Null und der Varianz er2 getroffen und Normalverteilung von e bei gegebenem x, d.h. mit der Kovarianzmatrix vone Das Schätzproblem bei der Kleinste-Qua- drate Methode ist dann die Minimierung der Summe der quadratischen Abweichungen der Residuen wobei sich durchUmformen die Lösungsgleichung für den Vektor der Parameterschätzerergibt: Nach dem Gauss-Markov-Theorem sind bei Annahme von multivariat normalverteilten Residuen die Schätzwerte b ebenfalls normalverteilt mit Mittelwert ß und Varianz a2(X’X) . Das Schätzverfahren erzeugt sog. „best linear unbiased“ Schätzwerte (BLUE). Die Schätzung erlaubt es, wenn die Annahmen über die Residuen (N ormalität, Fiomos- kedastizität etc.) erfüllt sind, t-Tests über die Parameterwerte durchzuführen. Der empirische t-Wert ergibt sich als Schätzwert für br geteilt durch seinen Standardfehler S br. Der DeterminationskoeffizientR2 gibt an, wie groß der Anteil der Varianz in y ist, der durch das Regressionsmodell erklärt wird. Auf seiner Grundlage lassen sich auch Signifianztests über die Beiträge der unabhängigen Variablen zur Erklärung in einem Regressionsmodell durchführen. R2 ist in eine F-Statistik überführbar. a ist der Test zurückzuweisen. Die Probleme der multiplen Regression sind die Verletzung der Annahmen und das Auftreten von Nichtlinearität, Autokorrelation, Heteroskedastizität und Multikolli- nearität.
Literatur: Kmenta,}., Elements of Econometric, New York 1986. Pindyck, R. S.; Rubinfeld, D. L., Econometric Models and Economic Forecasts, 2. Aufl., New York 1981.
Vorhergehender Fachbegriff: multiple Regression | Nächster Fachbegriff: Multiple Regressionsprognose
Diesen Artikel der Redaktion als fehlerhaft melden & zur Bearbeitung vormerken
|
|