Inferenz

Gruppenvergleich mit eigenen Daten

15 Min.

Lernziele

•Sie können zwei Gruppen mit dem Welch-Test korrekt vergleichen und die Ergebnisse interpretieren.
•Sie können Cohen's d, Hedges' g, Glass's Δ und Common Language Effect Size unterscheiden.
•Sie können anhand von Box-, Dichte- und QQ-Plots entscheiden, welches Verfahren für ihre Daten geeignet ist.

Deskriptive Statistik

Zwei-Gruppen-Vergleich: Koffein vs. Placebo

Gruppe	n	M	SD	SE	Median	Q1	Q3	Min	Max
Koffein	25	253.28	8.43	1.69	253.00	247.00	260.00	239.00	267.00
Placebo	25	285.04	9.61	1.92	285.00	278.00	292.00	269.00	302.00

Diagnostik

Wie sehen die Daten wirklich aus?

Box- und Streupunkt-Plot

Dichteschätzung (KDE)

Normal-QQ-Plot pro Gruppe

Teststatistiken

Die Welch-Zeile ist hervorgehoben – die anderen dienen dem Vergleich.

Test	Statistik	df	p-Wert	95 %-KI (M₁ − M₂)
Welch-t Empfehlung – keine Gleichheit der Varianzen vorausgesetzt	t = -12.42	47.2	< .001	[-36.90, -26.62]
Student-t Klassischer Zwei-Stichproben-t-Test mit gepoolter Varianz	t = -12.42	48	< .001	[-36.90, -26.62]
Mann-Whitney-U Rangtest – robust gegen Ausreisser, aber sensibel gegenüber Formunterschieden	z = -6.05	–	< .001	–
Yuen-t (20 %) t auf 20 %-getrimmten Mittelwerten, robust gegen Heavy-Tails und Heteroskedastizität	t = -9.56	27.9	< .001	–

Effektgrössen

Standardisierte Unterschiede, unabhängig von der Skala der Daten.

Cohen's d

-3.51

95 %-KI: [-4.40, -2.63]

gross (zugunsten von Gruppe 2)

Hedges' g

-3.46

95 %-KI: [-4.33, -2.59]

Cohen's d mit Kleinstichproben-Korrektur

Glass's Δ

-3.30

95 %-KI: [-4.39, -2.22]

Bezogen nur auf die SD von Gruppe 2 (als Kontrolle angenommen)

P(X > Y) – Common Language

0.0 %

Wahrscheinlichkeit, dass eine zufällig aus Koffein gezogene Beobachtung über einer aus Placebo liegt.

Was fällt auf?

→Welch und Student liefern hier sehr ähnliche Ergebnisse – die Varianzen sind offenbar vergleichbar. Trotzdem ist Welch der empfohlene Default.