Annahmen für statistische Tests

Für statistische Tests wie die Regressionsanalyse, den t-Test oder die ANOVA werden bestimmte Annahmen vorausgesetzt.

Es ist wichtig, diese Annahmen zu überprüfen. Du kannst nur richtige Schlüsse aus den Ergebnissen deiner statistischen Analysen ziehen, wenn diese Annahmen eingehalten werden.

Annahme 1: Lineare Beziehung zwischen Variablen

Wenn du eine lineare Regression durchführst, ist es wichtig, dass die Beziehung zwischen der erklärenden und der abhängigen Variable linear ist. Das bedeutet, dass der Einfluss der erklärenden Variable sowohl für niedrige als auch für hohe Werte derselbe sein muss.

Beispiel
Die erklärende Variable Größe beeinflusst die abhängige Variable Gewicht. Eine lineare Beziehung bedeutet, dass das Gewicht für die Werte zwischen 150 cm bis 160 cm genauso steigt wie für die Werte 180 cm bis 190 cm.

Lineare Beziehung überprüfen

Um zu testen, ob sich 2 Variablen linear aufeinander beziehen, erstellst du ein Streudiagramm. Wenn du zwischen den Datenpunkten eine beinahe gerade Linie ziehen kannst, besteht ein linearer Zusammenhang.

Um in SPSS ein Streudiagramm zu erstellen, klicke auf:

  • Grafik
  • Diagrammerstellung
  • Streu-/Punktdiagramm

linearer-zusammenhang

Im linken Streudiagramm liegen die Datenpunkte annähernd auf einer geraden Linie. Der Einfluss der Größe auf das Gewicht ist für alle Datenpunkte konstant. Es besteht eine lineare Beziehung.

Im rechten Streudiagramm kann keine gerade Linie die Punktewolke miteinander verbinden. Es besteht kein linearer Zusammenhang.

Beispiel
Der Einfluss des durchschnittlichen Einkommens auf die Lebenserwartung scheint abzunehmen, wenn das durchschnittliche Einkommen zunimmt.

Vorgehensweise bei nicht bestätigter linearer Beziehung

Wenn keine lineare Beziehung zwischen den Variablen existiert, kannst du das Quadrat oder den Logarithmus einer Variable in die Regression einbeziehen, indem du die Variable transformierst.

Der Vorteil davon ist, dass der Effekt der erklärenden Variable auf die abhängige Variable besser geschätzt werden kann. Die Interpretation der Regressionskoeffizienten wird dadurch aber etwas schwieriger.

Beispiel
Im linken Diagramm wird klar, dass der Zusammenhang zwischen Einkommen und Lebenserwartung nicht linear ist. Doch nach Anwendung einer logarithmischen Transformation auf die Einkommensdaten lässt sich erkennen, dass ein linearer Effekt zwischen Einkommen und Lebenserwartung existiert.

nicht-linearer-zusammenhang

Annahme 2: Zufallsstichprobe

Wenn du empirische Forschung durchführst, sammelst du häufig Daten über deine Stichprobe. Du möchtest dann die Resultate der Stichprobe für die Grundgesamtheit generalisieren. Damit das möglich wird, ist es wichtig, dass deine Stichprobe zufällig ausgewählt wurde und dieselben Eigenschaften wie die Grundgesamtheit aufweist.

Beispiel
Du möchtest Aussagen über die Größe eines durchschnittlichen Deutschen machen. Wenn deine Stichprobe nur aus Basketballspielern besteht, wird dies zu einem falschen Eindruck führen.

Unabhängige Beobachtungen

Die Personen müssen zufällig gewählt werden, aber auch unabhängig voneinander sein. Das bedeutet, dass eine Beobachtung nicht eine weitere beeinflussen darf.

Beispiel
Die von dir Befragten sind miteinander verwandt. In Bezug auf ihre Größe sind sie also nicht unabhängig voneinander.

Anders als die anderen Annahmen in diesem Artikel kann die Voraussetzung der Zufallsstichprobe nicht getestet werden. Stattdessen musst du kritisch hinterfragen, wie du deine Stichprobe ausgewählt hast.

Annahme 3: Keine Multikollinearität

Eine starke lineare Beziehung zwischen den erklärenden Variablen wird als Multikollinearität bezeichnet.

Multikollinearität kann dazu führen, dass deine Regressionskoeffizienten in deinem Regressionsmodell unzureichend geschätzt werden.

Denn die erklärenden Variablen sagen einander voraus, und dadurch kann keine zusätzliche Varianz in deinem Regressionsmodell erklärt werden.

Beispiel
Du fügst sowohl Größe in Zentimetern als auch Größe in Zoll als erklärende Variablen deiner Regressionsgleichung hinzu. Diese beiden Variablen sagen einander vorher, da Größe in Zoll 2.54 mal die Länge in Zentimeter beträgt und daher perfekt linear korreliert. Doch zwei Regressionskoeffizienten lassen sich so nicht berechnen.

Ebenso wenig kannst du eine Kombination aus verschiedenen Variablen verwenden, die sich aufeinander beziehen.

Beispiel
Du fügst die Noten für die finalen Prüfungen und die Schulprüfungen sowie die finalen Noten beim Abschluss des Gymnasiums als erklärende Variablen deinem Regressionsmodell hinzu. Da die finalen Noten der Durchschnitt der beiden anderen Variablen sind, erhältst du keine zuverlässigen Ergebnisse.

Auf Multikollinearität in SPSS testen

Wenn du eine Regressionsanalyse in SPSS durchführst, kannst du unter StatistikenKollinearitätsdiagnose auswählen. Der VIF (engl. Variance Inflation Factor) wird in der SPSS-Ausgabe unter KoeffizientenKollinearitätsstatistik angezeigt.

Als Faustregel gilt, dass ab einem VIF-Wert von 5 ein Problem im Zusammenhang mit dem Abschätzen des Regressionskoeffizienten der relevanten Variable besteht.

Der VIF-Wert ist nur für die erklärenden Variablen in deinem Modell wichtig. Ein hoher VIF-Wert für die Kontrollvariablen ist kein Problem.

Vorgehensweise bei Multikollinearität

Wenn Multikollinearität besteht, ist es sinnvoll, die korrelierenden Variablen in einem übergeordneten Konzept zu kombinieren. Du kannst dafür Cronbach’s Alpha verwenden oder eine Faktorenanalyse durchführen.

Annahme 4: Exogenität

Exogenität bedeutet, dass die abhängige Variable von der erklärenden Variable und der Störgröße abhängt.

Das Gegenteil zu Exogenität ist Endogenität, die vermieden werden muss, wenn du Aussagen über den Effekt der Variable A auf die Variable B (Kausalität) machen möchtest.

Der Effekt der erklärenden Variable auf deine abhängige Variable wird mit dem Regressionskoeffizienten geschätzt. Im Fall von Endogenität lässt sich der Regressionskoeffizient nicht korrekt schätzen.

Ursachen für Endogenität

Es gibt 3 Ursachen für Endogenität.

  1. Fehlende (engl. omitted) Variable

Es gibt eine weitere (fehlende) Variable, die mit der erklärenden Variable korreliert, und das beeinflusst auch die abhängige Variable. Das kann gelöst werden, indem diese fehlende Variable in die Regressionsgleichung integriert wird.

Beispiel
Angenommen, du möchtest den Stundenlohn von Angestellten in einem Unternehmen anhand ihres Bildungsabschlusses vorhersagen. Du nimmst an, ein höherer Bildungsabschluss führe zu einem höheren Stundenlohn.

Da aber noch andere Faktoren den Stundenlohn der Angestellten beeinflussen, wird der geschätzte Regressionskoeffizient höher sein als der eigentliche Regressionskoeffizient.

Erst, wenn du mögliche fehlende Variablen (wie z. B. das Alter und die Anstellungsdauer der Mitarbeitenden) in dein Regressionsmodell integrierst, erhältst du eine zuverlässige Abschätzung des Stundenlohns.

  1. Umgekehrte Kausalität

Wenn die abhängige Variable auch die erklärende Variable beeinflusst, dann besteht eine umgekehrte Kausalität.

Beispiel
Angenommen, du möchtest Kriminalität mit dem Aufgebot von Polizeikräften erklären, dann gibt es eindeutig eine umgekehrte Kausalität, denn mehr Kriminalität führt zu einem höheren Polizeiaufgebot.
  1. Messfehler in der erklärenden Variable

Wenn die erklärende Variable nicht reliabel gemessen wurde, dann ist der Regressionskoeffizient geschätzt näher an 0, als er es tatsächlich ist. Es ist daher wichtig, dass du zuverlässige Daten verwendest.

Vorgehensweise bei Endogenität

Am besten kannst du Endogenität vermeiden, indem du experimentelle Forschung durchführst, in der du die erklärende Variable selbst manipulieren kannst.

Auf Grundlage deiner Daten kannst du nicht sagen, ob womöglich Endogenität besteht. Du kannst allerdings einen kritischen Blick auf dein konzeptuelles Modell werfen.

Schau, ob die Pfeile in die korrekte Richtung zeigen und ob die Variablen vollständig sind, die sowohl deine erklärende, als auch deine abhängige Variable beeinflussen.

Annahme 5: Homoskedastizität

Die Regressionsgerade verbindet Datenpunkte. Da nicht alle Datenpunkte auf einer Geraden liegen, werden ihre Abweichungen von der Geraden als Störgrößen oder Residuen bezeichnet. Wenn diese Störgrößen alle dieselbe Varianz aufweisen, spricht man von Homoskedastizität oder Varianzhomogenität.

Fehlt diesen Störgrößen dieselbe Varianz, wird eine Regressionsanalyse keine brauchbaren Ergebnisse bringen. Das wird als Heteroskedastizität bezeichnet.

Wenn du einen t-Test oder eine ANOVA durchführst, dann analysierst du die Varianz zwischen mehreren Gruppen. Das Resultat kannst du mit dem Levene’s Test überprüfen.

Heteroskedastizität in der Regression mit SPSS überprüfen

Es ist sinnvoll, ein Streudiagramm zu erstellen, um zu sehen, ob die Varianz der Störgröße gleich ist. In SPSS klickst du auf Speichern, wenn du eine Regression durchführst und markierst Nicht standardisiert unter dem Feld Vorhergesagte Werte und unter dem Feld Residuen.

Das erzeugt zwei neue Variablen, den vorhergesagten Wert und das Residuum. In einem Streudiagramm überträgst du die Variable für das Residuum auf die Y-Achse und die Variable für den vorhergesagten Wert auf die X-Achse.

Die Streudiagramme unten zeigen, dass die Beobachtungen ungefähr dieselbe Distanz zur Regressionslinie für jeden Wert von Größe aufweisen. Es besteht daher keine Heteroskedastizität.
homodastizitaet

Vorgehensweise bei Heteroskedastizität

Wenn Heteroskedastizität besteht, hast du verschiedene Optionen diese zu verhindern.

  1. Variablen transformieren

Es ist möglich, dass eine Transformation der Variablen die Heteroskedastizität verschwinden lässt. Heteroskedastizität kann vorkommen, wenn lineare Beziehungen zwischen den erklärenden und abhängigen Variablen nicht bestehen.

Dann ist die erklärende Variable zu transformieren, um eine lineare Beziehung herzustellen, in der sich die Störgröße nicht für höhere oder niedrigere Werte der erklärenden Variable verändert.

  1. Eine andere Regressionsanalyse verwenden

außer der linearen Regressionsanalyse lässt sich auch eine gewichtete oder generalisierte Regression verwenden. Diese Formen der Regressionsanalysen verlangen keine Homoskedastizität.

Eine logistische Regression lässt sich verwenden, wenn eine Variable nicht intervall- oder ratioskaliert ist.

Beispiel
Eine Prüfung bestehen oder durchfallen.
War dieser Artikel hilfreich?
Priska Flandorfer

Priska arbeitet im Bereich Content Writing. Sie ist promovierte Sozialwissenschaftlerin und hilft gerne anderen Studierenden beim Bestehen ihrer Abschlussarbeiten.

1 Kommentar

Priska Flandorfer
Priska Flandorfer (Scribbr-Team)
19. April 2019 um 16:45

Danke fürs Lesen! Ich hoffe dieser Artikel hat dir weitergeholfen. Hast du noch eine Frage? Hinterlasse einen Kommentar und ich werde mich so schnell wie möglich bei dir zurückmelden.

Hinterlasse einen Kommentar oder eine Frage