Datenerhebung und Darstellung in der Statistik


In der Statistik werden Daten erhoben, aufbereitet und analysiert, mit anderen Worten Datenerhebung. Damit man einen Überblick über große Datenmengen bekommt, kann man sie mit verschiedenen Methoden darstellen und analysieren.

In diesem Beitrag gebe ich eine Einführung in die beschreibende Statistik. Dabei geht es um das Sammeln und darstellen der Daten. Zuerst definiere ich die Begriffe Stichprobe, Urliste, Rohdaten, Erhebungsumfang, Merkmale,  Merkmalsausprägung und Klasseneinteilung. Danach stelle ich die Aufbereiten der Daten und ihre Darstellung vor. Dazu muss man die Häufigkeit bestimmter Merkmalsausprägungen ermitteln. Anschließend stelle ich die verschiedenen grafischen Darstellung vor: Punktdiagramm (Streudiagramm), Säulendiagramm und Doppelsäulendiagramm und vergleiche sie.

Beispiel für die Datenerhebung:

Wenn man z. B. wissen will, ob die Jugend wird immer dicker wird, kann man nicht alle Jugendlichen befragen. Sondern man befragt nur einen Teil der Gesamtheit.

Definition Datenerhebung per Stichprobe:

Wenn man einen Teil einer Gesamtheit befragt, dann spricht man bei der Datenerhebung von einer Stichprobe.

Definition Urliste:

Das Ergebnis der Stichprobe wird dann in einer Urliste festgehalten.
Zum Beispiel in dieser Urliste:

Schüler

Nr.

Ge-schlecht Körper-

größe in cm

Gewicht

in kg

Rau-

cher

Sport-

art

w m
01 x 160 52 x Hand-

ball

 02 x 172  67 x Fuß-

ball

 03 x 180 60 x Golf
 …  …  …  …  …  …  …  …
 xx  x  170  65  x  Judo

Dabei sollte man eine solche Urliste anonym erstellen.

Definition Rohdaten:

Damit sind alle in der Urliste enthaltenen Daten gemeint.

Definition Erhebungsumfang:

Dabei handelt es sich um die Anzahl der untersuchten Objekte (hier Schüler).
Werden z. B. 27 Schüler befragt, so sagt man, „Die Anzahl der Merkmalsträger ( n = 27 ) bildet den Erhebungsumfang“.

Definition Merkmale:

Mit anderen Worten die Eigenschaften der Objekte. (z.B. Geschlecht, Körpergröße, Gewicht, Raucher, Sportart, …)

Definition Merkmalsausprägung xi:

Ein Merkmal kann dabei in verschiedenen Ausprägungen vorkommen (z. B. Geschlecht m oder w).

Zum Beispiel:

Merkmal Merkmalsausprägung xi
Geschlecht männlich, weiblich
Körpergröße 160 cm, 182 cm, 154 cm, 163 cm, …
Körpergewicht 52 kg, 81 kg, 71 kg , …..
Raucher ja, nein
Sportart Judo, Tischtennis, Fußball, …

Vorgehen bei statistischen Datenerhebungen

Wenn man Daten erhebt, will man feststellen, wie die verschiedenen Ausprägungen eines Merkmals in einer Stichprobe verteilt sind.
Vor der Erhebung muss man deshalb einige Fragen klären.
Zum Beispiel: Wonach soll gefragt werden?
Welche Antworten sind möglich?
Welchen Umfang soll die Stichprobe haben?


Aufbereiten der Daten und ihre Darstellung

Ermittlung der Häufigkeit bestimmter Merkmalsausprägungen

In einer Strichliste werden Merkmalsträger mit gleichen Merkmalsausprägungen für ein bestimmtes Merkmal zusammengefasst.

Bearbeitung des Merkmals Sportart

Z. B. bei sehr vielen Sportarten sind diese in Klassen zusammenfassen.

Strichliste:
f_0059
Der Merkmalsausprägung z. B. Fußball wird hier die absolute Häufigkeit 9 zugeordnet.

excel_001


Grafische Darstellung durch ein Säulendiagramm

f_0060
Wertung:
f_0061

Auszug aus der Urliste einer Erhebung mit Berechnung des BMI:

Schüler
Nr.
Ge-

schlecht

Körper-

größe
in cm

Gewicht
in kg
BMI Wertung
w m
01 x 160 52 20,3 normal
02 x 172 67 22,6 normal
03 x 180 60 18,5 Untergewicht
04 x 167 55 19,7 Untergewicht
05 x 178 63 19,9 Untergewicht
06 x 175 63 20,6 normal
07 x 183 70 20,9 normal
08 x 188 78 22,1 normal
09 x 181 84 25,6 Übergewicht
10 x 183 68 20,3 normal
11 x 162 63 24,0 normal
12 x 171 57 19,5 Untergewicht
13 x 177 67 21,4 normal
14 x 165 58 21,3 normal
15 x 174 70 23,1 normal
16 x 179 73 22,8 normal
17 x 175 55 18,0 Untergewicht
18 x 183 72 21,5 normal
19 x 163 51 19,2 Untergewicht
20 x 163 60 22,6 normal
21 x 165 64 23,5 normal
22 x 171 51 17,4 Untergewicht
23 x 175 54 17,6 Untergewicht
24 x 176 68 22,0 normal
25 x 184 75 22,2 normal
26 x 185 76 22,2 normal
27 x 169 59 20,7 normal

BMI – Auswertung:
f_0062
excel_002

Bearbeitung des Merkmals Gewicht.

Auszug aus der Urliste: (Wertetabelle)
f_0063

Darstellung im Punktdiagramm (Streudiagramm)
excel_003

Wenn man Schüler den Gewichten zuordent, erhöht man die Übersichtlichkeit nicht wesentlich.
Man kann jedoch sofort ablesen, dass das Gewicht aller Schüler zwischen 40 kg und 100 kg liegt.
Eine Strichliste zur Bestimmung der Häufigkeit einer bestimmten Merkmalsausprägung macht hier also keinen Sinn.

Danach teilen wir die Merkmalsausprägungen in Klassen ein. Wir wählen 4 Klassen mit einer Klassenbreite von 10 kg. In jeder davon ordnen wir die Körpergewichte ein.
Für das Merkmal Gewicht haben wir nun als Ausprägungen die Klassen I bis IV.

f_0064

Definition  Klasseneinteilung:

Wenn man verschiedene Merkmalsausprägungen zu einer neuen Ausprägung zusammenfasst, spricht man von einer Klasseneinteilung der Stichprobenwerte.
Dies kann man dann in einem Säulendiagramm ohne Lücken darstellen.

Häufigkeitstabelle:
f_0065

Grafische Darstellung der Häufigkeitsverteilung der Klassen
excel_004

Wir haben die Klassenbreite (10 kg) willkürlich festgelegt.
Nun halbieren wir die Klassenbreite.
Damit vergrößert sich die Anzahl der Klassen.

Häufigkeitstabelle:
f_0066
excel_005

Grafiken im Vergleich:

Je geringer die Anzahl der Klassen, desto besser ist die Übersichtlichkeit.
Der Informationsgehalt wird aber geringer (Hier kann man manipulieren).
Es gibt keine allgemein gültige Festlegung der Klassenbreite, deshalb muss man eine sinnvolle Klassenbreite für die Häufigkeitstabelle wählen.
Üblich ist ein Wert zwischen 5 und 10.

Weitere Darstellungsarten im Säulendiagramm:

Um die Unterschiede der Körpergewichte von Schülern und Schülerinnen aufzuzeigen, listet man die Häufigkeitstabelle mit der Klassenbreite 10 kg nach männlich und weiblich auf.

Häufigkeitstabelle:
f_0067

Säulendiagramm für zwei Verteilungen:
excel_006

Doppelsäulendiagramm:
excel_007

Die Körpergewichte der Schülerinnen verteilen sich nur auf die ersten beiden Klassen, während 6 von 13 Schülern ein Gewicht von mehr als 70 kg haben.
f_0068

Weiteres Beispiel zur Klasseneinteilung

In einer Klasse mit 32 Schülern misst jeder Schüler seine Pulsfrequenz.
Die Erhebungsdaten tragen wir danach in eine Urliste ein.
Zur Bestimmung der Klassenbreite und damit der Anzahl der Klassen ist es sinnvoll, in der Urliste den kleinsten und den größten Wert zu markieren.

f_0069

Klassenbreite 4 ergibt 10 Klassen.
f_0070

excel_008

Klassenbreite 8 ergibt 5 Klassen.
f_0071

excel_009

Im nächsten Beitrag werden wir näher betrachten, wie man von einer Urliste zu einer Grafik kommt und einen Überblick über die verschiedenen Darstellungsformen in der Statistik kennenlernen.

Hier findest du Aufgaben hierzu: Merkmale.

Alle Formeln zur beschreibenden Statistik sind hier übersichtlich zusammengestellt.

Hier findest du eine Übersicht über alle Beiträge zum Thema Statistik, dort auch Links zu weiteren Aufgaben.