Bei der Inferenz- oder schließenden Statistik, auch als Induktiv- und beurteilende Statistik bezeichnet, geht es - im Unterschied zur beschreibenden Statistik (Datenanalyse) - um den Schluß von der Stichprobe auf die Grundgesamtheit („Repräsentationsschluß“). Dies setzt das Vorliegen einer Zufalls- oder Wahrscheinlichkeits-Stichprobe voraus (Auswahlverfahren und -techni- ken). Dabei können, in einer gewissen „Drehung“ des Problems, zwei Aufgaben unterschiedenwerden: 1) das Schätzen der Parameter der Grundgesamtheit, 2) die Hypothesenprüfung über Gegebenheiten in der Grundgesamtheit. Zu 1: Zum Schätzen der - unbekannten - „wahren Werte“ der Grundgesamtheit werden Schätzer (estimators) benötigt, die auf Daten aus der Stichprobe beruhen. Im Laufe der Zeit sind sehr viele verschiedene solcher „Schätzer“ entwickelt worden. Dabei stehen nicht selten für einen Parameter der Grundgesamtheit mehrere davon zur Verfügung (so für das arithmetische Mittel der Grundgesamtheit das arithmetische Mittel der Stichprobe, aber auch z. B. deren Median). Es bedarf deshalb gewisser Kriterien, etwa: - Erwartungstreue („Unverzerrtheit“); der Schätzer soll keinen „systematischen Fehler“ (bias) aufweisen (Stichprobe) - Effizienz (möglichst kleine Varianz) - Konsistenz (mit zunehmendem Stichprobenumfang geringer werdender Zufallsfehler) - Suffizienz (möglichst alle relevante Informationen der Stichprobe nutzend) - Robustheit bzw. Resistenz: „Unempfindlichkeit“ gegenüber Ausreißern. Es ist leicht ersichtlich, dass diese Kriterien nicht widerspruchsfrei sind: So ist das arithmetische Mittel x der Stichprobe zwar z.B. ein erwartungstreuer und auch effizienter Schätzer für den Parameter n der Grundgesamtheit (Stichprobe und das dort entwickelte Beispiel für die Intervallschätzung), aber sehr empfindlich gegenüber Ausreißern; der Median ist i. d. S. „robust“ (und auch erwartungstreu), aber nicht effizient. Damit hängt es letztlich von der Gewichtung der Kriterien ab, welche Stichproben-Kenn- werte für die Parameterschätzung Verwendung finden (sollen). Während die traditionelle Inferenzstatistik sehr großen Wert auf die „Erwartungstreue“ legte, tritt in neuerer Zeit das letzte Kriterium in den Vordergrund: ständig neue „robuste Schätzer“ werden entwickelt. Zu 2: In Übereinstimmung mit modernen wissenschaftstheoretischen Auffassungen mag die „Definition und Klärung des Problems“ in der Weise, dass Schätzungen für die „wahren Werte“ der Grundgesamtheit erfolgen (und diese den weiteren Analysen zugrunde gelegt werden), als nicht hinreichend erscheinen; vielmehr wird man das Aufstellen und Testen von Hypothesen fordern (Hypothesenprüfung). Das Ziel der Hy- pothesen-Tests ist es, eine Entscheidung darüber herbeizuführen, ob die aufgestellte Hypothese abzulehnen (zu „verwerfen“) ist oder nicht. Diese Entscheidung kann wegen des Zufallsfehlers aber nicht mit „Sicherheit“ erfolgen, sondern nur mit einer gewissen Wahrscheinlichkeit. Diese ist, genau wie bei der Parameter-Schätzung, vorher aufgrund von außerstatistischen Erwägungen festzulegen. Im Unterschied zur Parameter-Schätzung verwendet man hierfür jedoch üblicherweise nicht die Vertrauens-, sondern die Irrtumswahrscheinlichkeit.
In diesem Sinne sind alle statistischen Tests Hypothesen-Tests (und i. w.S. auch Signifi- kanz-Tests). Es hat sich jedoch eingebürgert - schon wegen der unterschiedlichen Anlage in bezug auf das Interesse an der Verwerfung der Nullhypothese - zwischen Anpassungstests einerseits und Signifikanztests andererseits zu unterscheiden. Letztere beziehen sich vielfach auf die Prüfung der Signifikanz von Parametern; sie sollen eine Entscheidung darüber ermöglichen, ob Unterschiede zwischen dem postulierten „wahren Wert“ und dem Stichprobenergebnis nur „dem Zufall geschuldet“ oder aber - mit einer bestimmten Wahrscheinlichkeit - „überzufällig“, statistisch gesichert, signifikant sind; man spricht dann auch von Parametertests. Allerdings können sich Tests auch - „bivariat“ - auf die Unterschiede zwischen zwei oder - multivariat - mehreren Stichproben beziehen (verbundene Stichproben, unabhängige Stichproben). Dabei bedient man sich gewisser Prüfverteilungen und kommt so zu verschiedenen bekannten Tests (t-Test, F-Test), die sich aber jeweils auf verschiedene Maßzahlen beziehen können (So gibt es eben einen „t-Test“ für das arithmetische Mittel, aber auch z. B. den Regressionskoeffizienten). Sind keine Verteilungsannahmen erforderlich, so spricht man auch von nonparametrischenTestverfahren. Die angedeutete Unklarheit über die verschiedenen Arten von Tests wird dadurch verschärft, dass sich die Testtheorie, speziell bezüglich der Signifikanztests, aus verschiedener Richtung entwickelt hat: durch R. A. Fisher einerseits und Neymann/Pearson andererseits. Letztere ist mehr „entscheidungsorientiert“ und formal dadurch charakterisiert, dass es sich bei der alternativen Hypothese um einen bestimmten Wert handelt („einfache Hypothese“). So kann z.B. der Behauptung des Herstellers, der Schlechtanteil der gesamten Lieferung betrage 3%, die des Abnehmers, er sei 5%, gegenüberstehen; die „Entscheidung“ soll aufgrund der Entnahme einer Stichprobe erfolgen. Diese Form - in der Abbildung als „Entscheidungs-Alternativen-Test“ bezeichnet - erlaubt zwar die exakte Berechnung des „Fehlers
2. Art“ (Signifikanzniveau), ist in der Praxis aber (Ausnahme: Statistische Qualitätskontrolle bzw. Abnahmeprüfung) eher selten. Meist wird als Alternative eine zusammengesetzte Hypothese - im Beispiel etwa, der Schlechtanteil sei größer als 3% (ohne dies zu spezifizieren), vielfach aber: der „wahre Wert“ sei nicht 0, sondern entweder größer bzw. kleiner oder einfach „ungleich“ 0 - verwandt und dies als „Signifikanztest“ (quasi im engsten Sinne) bezeichnet. -
Literatur: Hartung,].\', Elpelt, B.; Klösener, K.-H., Statistik, 7. Aufl., München 1989. Hüttner, M., Grundzüge der Marktforschung, 4. Aufl., Berlin Sachs, L., Angewandte Statistik, 6. Aufl., Berlin 1984.
Vorhergehender Fachbegriff: Infektionstheorie | Nächster Fachbegriff: Inferiore Güter
Diesen Artikel der Redaktion als fehlerhaft melden & zur Bearbeitung vormerken
|
|