Annahmen für statistische Tests

Für statistische Tests, wie der Regressionsanalyse, dem t-Test oder der ANOVA werden bestimmte Annahmen vorausgesetzt.

Es ist wichtig, diese Annahmen zu überprüfen. Du kannst nur dann richtige Schlüsse aus den Ergebnissen deiner statistischen Analysen ziehen, wenn sie eingehalten werden.

Annahme 1: Lineare Beziehung zwischen Variablen

Wenn du eine lineare Regression durchführst ist es wichtig, dass die Beziehung zwischen der erklärenden und der abhängigen Variable linear ist. Das bedeutet, dass der Einfluss der erklärenden Variable sowohl für niedrige als auch für hohe Werte derselbe sein muss.

Beispiel
Die erklärende Variable Größe beeinflusst die abhängige Variable Gewicht. Eine lineare Beziehung bedeutet, dass das Gewicht für die Werte zwischen 150 cm bis 160 cm genauso ansteigt wie für die Werte 180 cm bis 190 cm.

Lineare Beziehung überprüfen

Um zu testen, ob sich zwei Variablen linear aufeinander beziehen, erstellst du ein Streudiagramm. Wenn du zwischen den Datenpunkten eine beinah gerade Linie ziehen kannst, besteht ein linearer Zusammenhang.

Um in SPSS ein Streudiagramm zu erstellen, klicke auf:

  • Grafik
  • Diagrammerstellung
  • Streu-/Punktdiagramm

linearer-zusammenhang

Im linken Streudiagramm liegen die Datenpunkte annähernd auf einer geraden Linie. Der Einfluss der Größe auf das Gewicht ist für alle Datenpunkte konstant. Es besteht eine lineare Beziehung.

Im rechten Streudiagramm kann keine gerade Linie die Punktewolke miteinander verbinden. Es besteht kein linearer Zusammenhang.

Beispiel
Der Einfluss des durchschnittlichen Einkommens auf die Lebenserwartung scheint abzunehmen, wenn das durchschnittliche Einkommen zunimmt.

Vorgehensweise bei nicht bestätigter linearer Beziehung

Wenn es keine lineare Beziehung zwischen den Variablen gibt, kannst du das Quadrat oder den Logarithmus einer Variable in die Regression einbeziehen. Du machst das, indem du die Variable transformierst.

Der Vorteil davon ist, dass der Effekt der erklärenden Variable auf die abhängige Variable besser geschätzt werden kann. Die Interpretation der Regressionskoeffizienten wird dadurch aber etwas schwieriger.

Beispiel
Im linken Diagramm wird klar, dass der Zusammenhang zwischen Einkommen und Lebenserwartung nicht linear ist. Nach Anwendung einer logarithmischen Transformation auf die Einkommensdaten kann gesehen werden, dass es einen linearen Effekt zwischen Einkommen und Lebenserwartung gibt.

nicht-linearer-zusammenhang

Annahme 2: Zufallsstichprobe

Wenn du empirische Forschung durchführst, sammelst du häufig Daten im Rahmen einer Stichprobe. Du möchtest dann die Resultate der Stichprobe für die Grundgesamtheit generalisieren. Damit das möglich wird, ist es wichtig, dass deine Stichprobe zufällig ausgewählt wurde und dieselben Eigenschaften wie die Grundgesamtheit aufweist.

Beispiel
Du möchtest Aussagen über die Größe eines durchschnittlichen Deutschen machen. Wenn deine Stichprobe nur aus Basketballspielern besteht wird dies zu einem falschen Eindruck führen.

Unabhängige Beobachtungen

Die Personen müssen zufällig gewählt werden, aber auch unabhängig voneinander sein. Das bedeutet, dass eine Beobachtung nicht eine weitere beeinflussen darf.

Beispiel
Du hast Befragte, die miteinander verwandt sind. Deren Größe steht in Beziehung, also sind sie nicht unabhängig voneinander.

Im Vergleich zu den anderen Annahmen in diesem Artikel kann die Voraussetzung der Zufallsstichprobe nicht getestet werden. Stattdessen musst du kritisch hinterfragen, wie du deine Stichprobe ausgewählt hast.

Fällt dir akademischer Schreibstil schwer?

Unsere Scribbr-Korrektoren korrigieren für dich:

  • den akademischen Ausdruck
  • Sprach- und Grammatikfehler
  • Interpunktion
  • den roten Faden
  • Quellenangaben

Beispiel anschauen

Annahme 3: Keine Multikollinearität

Wenn es eine starke lineare Beziehung zwischen den erklärenden Variablen gibt, spricht man von Multikollinearität.

Multikollinearität kann dazu führen, dass deine Regressionskoeffizienten in deinem Regressionsmodell unzureichend geschätzt werden.

Denn die erklärenden Variablen sagen einander voraus und dadurch kann keine zusätzliche Varianz in deinem Regressionsmodell erklärt werden.

Beispiel
Du fügst sowohl Größe in Zentimetern als auch Größe in Zoll als erklärende Variablen zu deiner Regressionsgleichung hinzu. Diese beiden Variablen sagen einander vorher, da Größe in Zentimeter 2.54 mal die Länge in Zoll beträgt und daher perfekt linear korreliert. Zwei Regressionskoeffizienten können daher nicht berechnet werden.

Du kannst auch nicht eine Kombination aus verschiedenen Variablen verwenden, die sich aufeinander beziehen.

Beispiel
Du fügst sowohl Noten für die finalen Prüfungen und Schulprüfungen sowie die finalen Noten beim Abschluss des Gymnasiums als erklärende Variablen zu deinem Regressionsmodell hinzu. Da die finalen Noten der Durchschnitt der beiden anderen Variablen sind, erhältst du keine zuverlässigen Ergebnisse.

Auf Multikollinearität in SPSS testen

Wenn du eine Regressionsanalyse in SPSS durchführst, kannst du unter StatistikenKollinearitätsdiagnose auswählen. Der VIF (engl. Variance Inflation Factor) wird in der SPSS-Ausgabe unter KoeffizientenKollinearitätsstatistik angezeigt.

Als Faustregel gilt, dass ab einem VIF-Wert von 5 ein Problem im Zusammenhang mit dem Abschätzen des Regressionskoeffizienten der relevanten Variable besteht.

Der VIF-Wert ist nur wichtig für die erklärenden Variablen in deinem Modell. Ein hoher VIF-Wert ist kein Problem für die Kontrollvariablen.

Vorgehensweise bei Multikollinearität

Wenn Multikollinearität besteht, ist es sinnvoll, die korrelierenden Variablen in einem übergeordneten Konzept zu kombinieren. Du kannst dafür Cronbach’s Alpha verwenden oder eine Faktorenanalyse durchführen.

Annahme 4: Exogenität

Exogenität bedeutet, dass die abhängige Variable von der erklärenden Variable und der Störgröße abhängt.

Das Gegenteil zu Exogenität ist Endogenität, die vermieden werden muss, wenn du Aussagen über den Effekt der Variable A auf die Variable B (Kausalität) machen möchtest.

Der Effekt der erklärenden Variable auf deine abhängige Variable wird mittels dem Regressionskoeffizienten geschätzt. Bei vorliegender Endogenität kann der Regressionskoeffizient nicht korrekt geschätzt werden.

Ursachen für Endogenität

Es gibt drei Ursachen für Endogenität.

  1. Fehlende (engl. omitted) Variable

Es gibt eine weitere (fehlende) Variable, die mit der erklärenden Variable korreliert und das beeinflusst auch die abhängige Variable. Das kann gelöst werden, indem diese fehlende Variable in die Regressionsgleichung einbezogen wird.

Beispiel
Angenommen du möchtest den Stundenlohn von Angestellten in einem Unternehmen anhand ihres Bildungsabschlusses vorhersagen. Du gehst davon aus, dass ein höherer Bildungsabschluss zu einem höheren Stundenlohn führt.

Da aber noch andere Faktoren einen Einfluss auf den Stundenlohn der Angestellten haben, wird der geschätzte Regressionskoeffizient höher als der eigentliche Regressionskoeffizient sein.

Erst wenn du mögliche fehlende Variablen (wie z. B. das Alter und die Anstellungsdauer der Mitarbeitenden) in dein Regressionsmodell mit aufnimmst, erhältst du eine zuverlässige Abschätzung des Stundenlohns.

  1. Umgekehrte Kausalität

Wenn die abhängige Variable auch die erklärende Variable beeinflusst, dann besteht eine umgekehrte Kausalität.

Beispiel
Angenommen du möchtest Kriminalität mit dem Aufgebot von Polizeikräften erklären. Dann gibt es eindeutig eine umgekehrte Kausalität, denn mehr Kriminalität führt zu einem höheren Polizeiaufgebot.
  1. Messfehler in der erklärenden Variable

Wenn die erklärende Variable nicht reliabel gemessen wurde, dann ist der Regressionskoeffizient geschätzt näher an 0, als er es tatsächlich ist. Es ist daher wichtig, dass du zuverlässige Daten verwendest.

Vorgehensweise bei Endogenität

Der beste Weg um Endogenität zu verhindern ist experimentelle Forschung durchzuführen in der du die erklärende Variable selbst manipulieren kannst.

Auf Grundlage deiner Daten kannst du nicht sagen, ob es möglicherweise Endogenität gibt. Du kannst allerdings einen kritischen Blick auf dein konzeptuelles Modell werfen.

Schau, ob die Pfeile in die korrekte Richtung zeigen und, ob es keine fehlenden Variablen gibt, die sowohl deine erklärende, als auch deine abhängige Variable beeinflussen.

Annahme 5: Homoskedastizität

Die Regressionsgerade verbindet Datenpunkte. Da nicht alle Datenpunkte auf einer Geraden liegen, werden deren Abweichungen zur Gerade als Störgrößen oder Residuen bezeichnet. Wenn diese Störgrößen alle dieselbe Varianz aufweisen, spricht man von Homoskedastizität oder Varianzhomogenität.

Weisen die Störgrößen nicht dieselbe Varianz auf, ergibt eine Regressionsanalyse keine brauchbaren Ergebnisse. Es besteht Heteroskedastizität.

Wenn du einen t-Test oder eine ANOVA durchführst, dann analysierst du die Varianz zwischen mehreren Gruppen. Das kann mit dem Levene’s Test überprüft werden.

Heteroskedastizität in der Regression mit SPSS überprüfen

Es ist sinnvoll ein Streudiagramm zu erstellen um zu sehen ob die Varianz der Störgröße gleich ist. In SPSS klickst du auf Speichern, wenn du eine Regression durchführst und markierst Nicht standardisiert unter dem Feld Vorhergesagte Werte und unter dem Feld Residuen.

Das erzeugt zwei neue Variablen, den vorhergesagten Wert und das Residuum. In einem Streudiagramm überträgst du die Variable für das Residuum auf die Y-Achse und die Variable für den vorhergesagten Wert auf die X-Achse.

Die Streudiagramme unten zeigen, dass die Beobachtungen ungefähr dieselbe Distanz zur Regressionslinie für jeden Wert von Größe aufweisen. Es besteht daher keine Heteroskedastizität.
homodastizitaet

Vorgehensweise bei Heteroskedastizität

Wenn Heteroskedastizität besteht, hast du verschiedene Optionen diese zu verhindern.

  1. Variablen transformieren

Es ist möglich, dass eine Transformation der Variablen, die Heteroskedastizität verschwinden lässt. Heteroskedastizität kann vorkommen wenn es keine lineare Beziehungen zwischen den erklärenden und abhängigen Variablen gibt.

In diesem Fall ist es notwendig, die erklärende Variable zu transformieren, um eine lineare Beziehung herzustellen, in der sich die Störgröße nicht für höhere oder niedrigere Werte der erklärenden Variable verändert.

  1. Eine andere Regressionsanalyse verwenden

Zusätzlich zur linearen Regressionsanalyse ist es auch möglich eine gewichtete oder generalisierte Regression zu verwenden. Diese Formen von Regressionsanalysen setzen keine Homoskedastizität voraus.

Die Verwendung einer Logistischen Regression ist eine Option, wenn eine Variable nicht intervall- oder ratioskaliert ist.

Beispiel
Eine Prüfung bestehen oder durchfallen.
War dieser Artikel hilfreich?
Priska Flandorfer

Priska arbeitet im Bereich Content Writing. Sie ist promovierte Sozialwissenschaftlerin und hilft gerne anderen Studierenden beim Bestehen ihrer Abschlussarbeiten.

1 Kommentar

Priska Flandorfer
Priska Flandorfer (Scribbr-Team)
19. April 2019 um 16:45

Danke fürs Lesen! Ich hoffe dieser Artikel hat dir weitergeholfen. Hast du noch eine Frage? Hinterlasse einen Kommentar und ich werde mich so schnell wie möglich bei dir zurückmelden.

Hinterlasse einen Kommentar oder eine Frage