Inferenz
Gruppenvergleich mit eigenen Daten
15 Min.
Lernziele
- •Sie können zwei Gruppen mit dem Welch-Test korrekt vergleichen und die Ergebnisse interpretieren.
- •Sie können Cohen's d, Hedges' g, Glass's Δ und Common Language Effect Size unterscheiden.
- •Sie können anhand von Box-, Dichte- und QQ-Plots entscheiden, welches Verfahren für ihre Daten geeignet ist.
Deskriptive Statistik
Zwei-Gruppen-Vergleich: Koffein vs. Placebo
| Gruppe | n | M | SD | SE | Median | Q1 | Q3 | Min | Max |
|---|---|---|---|---|---|---|---|---|---|
| Koffein | 25 | 253.28 | 8.43 | 1.69 | 253.00 | 247.00 | 260.00 | 239.00 | 267.00 |
| Placebo | 25 | 285.04 | 9.61 | 1.92 | 285.00 | 278.00 | 292.00 | 269.00 | 302.00 |
Diagnostik
Wie sehen die Daten wirklich aus?
Box- und Streupunkt-Plot
Dichteschätzung (KDE)
Normal-QQ-Plot pro Gruppe
Teststatistiken
Die Welch-Zeile ist hervorgehoben – die anderen dienen dem Vergleich.
| Test | Statistik | df | p-Wert | 95 %-KI (M₁ − M₂) |
|---|---|---|---|---|
Welch-t Empfehlung – keine Gleichheit der Varianzen vorausgesetzt | t = -12.42 | 47.2 | < .001 | [-36.90, -26.62] |
Student-t Klassischer Zwei-Stichproben-t-Test mit gepoolter Varianz | t = -12.42 | 48 | < .001 | [-36.90, -26.62] |
Mann-Whitney-U Rangtest – robust gegen Ausreisser, aber sensibel gegenüber Formunterschieden | z = -6.05 | – | < .001 | – |
Yuen-t (20 %) t auf 20 %-getrimmten Mittelwerten, robust gegen Heavy-Tails und Heteroskedastizität | t = -9.56 | 27.9 | < .001 | – |
Effektgrössen
Standardisierte Unterschiede, unabhängig von der Skala der Daten.
Cohen's d
-3.51
95 %-KI: [-4.40, -2.63]
gross (zugunsten von Gruppe 2)
Hedges' g
-3.46
95 %-KI: [-4.33, -2.59]
Cohen's d mit Kleinstichproben-Korrektur
Glass's Δ
-3.30
95 %-KI: [-4.39, -2.22]
Bezogen nur auf die SD von Gruppe 2 (als Kontrolle angenommen)
P(X > Y) – Common Language
0.0 %
Wahrscheinlichkeit, dass eine zufällig aus Koffein gezogene Beobachtung über einer aus Placebo liegt.
Was fällt auf?
- →Welch und Student liefern hier sehr ähnliche Ergebnisse – die Varianzen sind offenbar vergleichbar. Trotzdem ist Welch der empfohlene Default.