Statistik Interaktiv

Inferenz

Gruppenvergleich mit eigenen Daten

15 Min.
Lernziele
  • Sie können zwei Gruppen mit dem Welch-Test korrekt vergleichen und die Ergebnisse interpretieren.
  • Sie können Cohen's d, Hedges' g, Glass's Δ und Common Language Effect Size unterscheiden.
  • Sie können anhand von Box-, Dichte- und QQ-Plots entscheiden, welches Verfahren für ihre Daten geeignet ist.
Deskriptive Statistik
Zwei-Gruppen-Vergleich: Koffein vs. Placebo
GruppenMSDSEMedianQ1Q3MinMax
Koffein25253.288.431.69253.00247.00260.00239.00267.00
Placebo25285.049.611.92285.00278.00292.00269.00302.00
Diagnostik
Wie sehen die Daten wirklich aus?
Box- und Streupunkt-Plot
Dichteschätzung (KDE)
Normal-QQ-Plot pro Gruppe
Teststatistiken
Die Welch-Zeile ist hervorgehoben – die anderen dienen dem Vergleich.
TestStatistikdfp-Wert95 %-KI (M₁ − M₂)
Welch-t
Empfehlung – keine Gleichheit der Varianzen vorausgesetzt
t = -12.4247.2< .001[-36.90, -26.62]
Student-t
Klassischer Zwei-Stichproben-t-Test mit gepoolter Varianz
t = -12.4248< .001[-36.90, -26.62]
Mann-Whitney-U
Rangtest – robust gegen Ausreisser, aber sensibel gegenüber Formunterschieden
z = -6.05< .001
Yuen-t (20 %)
t auf 20 %-getrimmten Mittelwerten, robust gegen Heavy-Tails und Heteroskedastizität
t = -9.5627.9< .001
Effektgrössen
Standardisierte Unterschiede, unabhängig von der Skala der Daten.
Cohen's d
-3.51
95 %-KI: [-4.40, -2.63]
gross (zugunsten von Gruppe 2)
Hedges' g
-3.46
95 %-KI: [-4.33, -2.59]
Cohen's d mit Kleinstichproben-Korrektur
Glass's Δ
-3.30
95 %-KI: [-4.39, -2.22]
Bezogen nur auf die SD von Gruppe 2 (als Kontrolle angenommen)
P(X > Y) – Common Language
0.0 %
Wahrscheinlichkeit, dass eine zufällig aus Koffein gezogene Beobachtung über einer aus Placebo liegt.
Was fällt auf?
  • Welch und Student liefern hier sehr ähnliche Ergebnisse – die Varianzen sind offenbar vergleichbar. Trotzdem ist Welch der empfohlene Default.