Statistik der Geburten

Andreas Unterrainer, Wilfried Rohm, HTBL Saalfelden

Statistik der Geburten

Mathematische Inhalte:

Elementare Wahrscheinlichkeitsrechnung, Binomialverteilung, Normalverteilung, Grundlagen der Testtheorie, c ²-Test.

Anwendung:

Exemplarische Anwendung der Testtheorie auf alltägliche Phänomene des Lebens.

Kurzzusammenfassung:

"Geburten" und alles was damit zusammenhängt (Geschlecht, zeitliche Verteilung ,...) sind eines der wichtigsten "Zufallsexperimente" der Natur. Schätzungsweise wurde seit dem Auftreten des Menschen dieses "Experiment" etwa 10¹¹-mal durchgeführt. Es liegt daher auf der Hand, daß dieses Thema (neben dem Glücksspiel) eine der ersten und interessantesten Fragestellungen in der Entwicklung der Wahrscheinlichkeitsrechnung und Statistik darstellte. In diesem Sinne mischt dieser Artikel "alt" mit "neu". Es werden alte Fragestellungen und ihre Lösungsansätze ebenso wie eine vor 2 Jahren im Rahmen des Unterrichts durchgeführte Schülerarbeit (bzw. Ausschnitte daraus) vorgestellt.

Lehrplanbezug:

Wahrscheinlichkeitsrechnung und Statistik, je nach Abteilung im 3. - 5. Jahrgang

Zeitaufwand:

Nach Belieben können Teile dieses Artikels stundenweise übernommen werden. In erster Linie soll aber auch eine Anregung für Schülerprojekte gegeben werden.

Mediales Umfeld:

DERIVE 4.0 wurde für Abschnitt 1 und 2 verwendet, die Tabellenkalkulation (EXCEL) für Abschnitt 3.

1. Ein bekanntes Geburtstagsproblem

Wer der Entdecker des bekannten Phänomens ist, daß die Wahrscheinlichkeit für gleiche Geburtstage (ohne Berücksichtigung des Geburtsjahres) bereits bei 23 Personen in einem Raum größer als 50% ist, entzieht sich meiner Kenntnis. Bei BERGAMINI (1965) findet man folgende Textstelle:

"Der bedeutende Mathematiker Warren Weaver erklärte einmal die Aussichten für einen Doppelgeburtstag einer Abendgesellschaft von zweiundzwanzig hohen Militärs und machte dann die Runde um den Eßtisch, um Daten zu vergleichen. Zu seiner Enttäuschung ergab sich auch beim letzten der Offiziere kein gleichzeitiger Tag, aber die 24ste Person im Saal rettete die Lage. Die Serviererin hatte zugehört und verkündete nun, daß sie am selben Tag wie einer der Offiziere geboren sei."

Diese Textstelle hat mich zu einem Eigenexperiment animiert, das ich seit dem Beginn meiner Lehrerlaufbahn in jedem 1.Jahrgang, den ich in Mathematik hatte, durchgeführt habe. Ich wette, daß in der Klasse (praktisch immer 35 oder 36 Schüler) zumindest 2 Schüler am selben Tag Geburtstag haben. Verliere ich, gibt es 100 Schilling für die Klassenkassa. Das bisher erzielte Ergebnis paßt verblüffend genau zur Theorie: In bisher 11 "Versuchen" habe ich nur 2-mal wirklich die 100 Schilling verloren. An dieses 1.Statistik-Experiment können sich die Schüler auch bei der Matura noch erinnern ...

Doch wie berechnet man die Wahrscheinlichkeit, daß von n Personen in einem Raum mindestens zwei am selben Tag Geburtstag haben? Die Lösung des Problems gelingt entweder mit Hilfe der elementaren Wahrscheinlichkeitsrechnung

oder (wie hier) mit dem Multiplikationssatz der Wahrscheinlichkeitsrechnung bzw. mit Hilfe der Gegenwahrscheinlichkeit (1):

p(zumindest 2 von n Personen haben am selben Tag Geburtstag) =

= 1 - p(keine 2 der n Personen haben am selben Tag Geburtstag) =

Diese Funktion kann mit Hilfe eines Computeralgebrasystems leicht gezeichnet werden (siehe obenstehende Abbildung). Für den Unterricht reizvoll ist dabei die Tatsache, daß man eine allgemein formulierte Produktbildung durchführen muß, die ja im Gegensatz zur Summenbildung sonst im Unterricht eher selten vorkommt. Praktisch jedes Computeralgebrasystem sieht aber diese Möglichkeit vor.

Die Lösung lautet z.B. in DERIVE (bzw. für den TI-92) (2):

Für n=23 Personen gilt: p(23) = 0,507

Interessant ist die Frage, warum die Intuition bei dieser Fragestellung (nicht nur bei den Schülern) versagt. ENGEL(1973) glaubt, daß das Problem mit folgender Fragestellung verwechselt wird: Wie groß ist die Wahrscheinlichkeit, daß von n anwesenden Personen mindestens eine den gleichen Geburtstag wie "ich" habe ? Man erhält:

Erst für n=253 Personen ist p₂(n) 0,5, genauer: p₂(253) = 0,5005.

Wenn außer mir 253 Personen in einem Raum sind, dann gibt es 253 Gelegenheiten für meinen Geburtstag. Sind nur 23 Personen anwesend, so sind dies .
Dies sind also 253 Gelegenheiten für gleiche Geburtstage. Damit sollte das Geburtstagsparadoxon auch intuitiv erklärt sein!

2. Gilt p(Mädchen) = p(Bub) = 0,5 ?

Der Engländer John Arbuthnot (1667-1735) hat als erster diese Frage statistisch untersucht. Er überprüfte die Geburtenregister von London über einen Zeitraum von 82 Jahren und stellte fest, daß in jedem Jahr mehr Knaben als Mädchen geboren wurden (siehe untenstehender Ausschnitt des Artikels aus dem Jahre 1710).

Seine Argumentation lautete nun etwa so:

Angenommen die Wahrscheinlichkeit einer Knabengeburt sei p = 0,5, so wäre die Wahrscheinlichkeit für dieses Ereignis

Auf Grund dieser extrem kleinen Wahrscheinlichkeit nahm er als "bewiesen" an, daß p(Knabe) 0,5 gilt!

Modern gesprochen war dies der erste statistische Signifikanztest. Die Nullhypothese p = 0,5 wurde verworfen zugunsten der Alternativhypothese p 0,5.

Unsere heutige statistische Schließweise erlaubt es, mit sehr viel geringeren Datenmengen auszukommen, was eigentlich doch recht erstaunlich ist.

BEISPIEL: Im Bundesland Salzburg wurden 1994 3299 Buben und 3039 Mädchen geboren. Kann daraus geschlossen werden, daß generell Knabengeburten eine höhere Wahrscheinlichkeit haben?

Wir wollen uns die Situation zuerst veranschaulichen:

Die Nullhypothese H₀ lautet: p(Knabe) = 0,5
Wie wahrscheinlich ist dann ein Ergebnis ähnlich dem 1994 beobachteten, nämlich, daß von n=6338 Geburten 3299 oder mehr Knabengeburten darunter sind.
Wegen der Größe von n kann die Binomialverteilung BI(n=6338; p= 0,5 ) durch die Normalverteilung mit und

ersetzt werden. Folglich liegt folgende Situation vor:

Hinweis: Die obige Zeichnung wurde in DERIVE gezeichnet. Man erhält sie über die Dichtefunktion der Normalverteilung, indem man und setzt.

Schon die Zeichnung zeigt, daß das in Salzburg beobachtete Ergebnis recht unwahrscheinlich ist, wenn man p(Knabe) = 0,5 annimmt.

Rechnerisch wird dies mit Hilfe der üblichen Transformation auf die normierte Normalverteilung bestätigt:

Anmerkung: Rechnet man z.B. mit Arbuthnot´s Werten aus dem Jahre 1710 (7640 Buben und 7288 Mädchen), so erhält man auf analogem Weg u = 2,88 und .

Die Ergebnisse zeigen also, daß die Wahrscheinlichkeit für eine Knabengeburt signifikant größer als ½ ist. Interessant sind nun weitergehende Überlegungen über die Größe von p(Knabe). Zum Beispiel zeigt ENGEL (1973, S.134) über die Berechnung des 95%-Vertrauensbereiches, daß die Wahrscheinlichkeiten für eine Knabengeburt in verschiedenen Ländern unterschiedlich sein dürften, was mit verschiedenen Heiratsgewohnheiten zusammenhängen könnte. Denn auch der hohe Knabenüberschuß nach dem 2.Weltkrieg wird heute auf die relative Überalterung der Ehepaare zurückgeführt. Arbuthnot hingegen sah den Grund für p(Knabe) in der göttlichen Vorsehung, welche die höhere Sterberate der Männer durch Arbeitsunfälle und Kriege ausgleichen will. Er leitete daraus auch eine Begründung für die von Gott vorgesehene Monogamie her.

Hier die Daten von ENGEL (1973):

Land / Zeitraum	Knabengeburten	Mädchengeburten	(Knabe)
Schweiz (1871-1900)	1 359 671	1 285 086	0,5141
Polen (1927-1932)	3 032 452	2 833 422	0,51696
USA (1950)	1 823 555	1 730 594	0,5131

Obige Kurven wurden mit und gezeichnet (Normalverteilung)

3. Verteilung der Geburten auf Monate und Wochentage

Von Herrn Dr. Ferdinand ÖSTERREICHER (Universität Salzburg) wurde mir freundlicherweise umfangreiches Datenmaterial über die Geburten im Bundesland Salzburg im Jahr 1994 zur Verfügung gestellt. Im Schuljahr 1995/96 habe ich im Rahmen von Mathematik-Projektarbeiten (siehe auch der Artikel "Neue Wege in der Leistungsbeurteilung ?" in AMMU-7) dieses Datenmaterial dem Schüler Andreas UNTERRAINER (IV. Jahrgang Elektrotechnik) zur Verfügung gestellt. Seine Aufgabe war es, das Datenmaterial in Form von verschiedenen Histogrammen aufzuarbeiten und auch einige ihm sinnvoll erscheinende statistische Tests durchzuführen. Der Schüler, dessen Arbeit im folgenden auszugsweise wiedergegeben wird, benützte dazu die Tabellen-kalkulation EXCEL.

Anmerkung zum Chiquadrattest und zur Umsetzung in EXCEL

Mit Hilfe des c ²-Testes kann allgemein ermittelt werden, ob sich beobachtete Werte B_i von (unter der Hypothese H₀) erwarteten Werten E_i signifikant unterscheiden (3).

Nullhypothese H₀ : Die Abweichungen sind nur zufällig

Die Prüfgröße ist c ²-verteilt mit f = n-1 Freiheitsgraden.

Wie in der technischen Statistik üblich, wird in den folgenden Beispielen die Prüfgröße mit drei kritischen Werten verglichen. Diese drei kritischen Werte entsprechen den Vertrauensniveaus 95%, 99% und 99,9 %. Eine Ablehnung der Nullhypothese erfolgt daher jeweils mit der Irrtumswahrscheinlichkeit a < 5%, 1% oder 0,1%.

Sprechweise: signifikante Abweichung; a <5% (auch: indifferentes Verhalten)

signifikante Abweichung mit a <1%

hochsignifikante Abweichungen mit a <0,1%

Die folgende Abbildung zeigt die kritischen Werte einer c ²-Verteilung mit Freiheitsgrad f=6. Eingezeichnet sind die kritischen Werte = 12,6 ,= 16,8 und ,= 22,5. (Diese Verteilung begegnet uns im ersten Beispiel auf der nächsten Seite.)

Die Tabellenkalkulation EXCEL stellt uns folgende Funktionen zur Verfügung:

CHIINV(a ,f) liefert den kritischen Wert der Chiquadratverteilung mit f Freiheitsgraden.

Mit Hilfe der Funktion CHITEST(Bereich B_i ; Bereich E_i) kann ohne weitere Berechnungen die Wahrscheinlichkeit des Auftretens der Prüfgröße ermittelt werden kann. Von dieser Vorgangsweise ist jedoch abzuraten. Die tabellarische Berechnung, wie sie auf den folgenden Seiten durchgeführt wird, ist wesentlich anschaulicher und lehrreicher. Außerdem liefert sie gegebenenfalls Hinweise, welche Abweichungen im Fall einer Ablehnung der Nullhypothese für den großen Prüfwert verantwortlich sein könnten.

ANMERKUNGEN zu den Tests bzw. den Ergebnissen

1.Test (Häufigkeiten der Geburten an verschiedenen Wochentagen)

Überraschend scheint mir die extrem deutliche Ablehnung der Nullhypothese zu sein. Die geringere Geburtenrate am Sonntag könnte psychologische Gründe haben (eine "schlechtere" Betreuung wurde von einer von mir dazu befragten Hebamme strikt in Abrede gestellt). Sozusagen etwas verzögert wird das Geburtenminus am Dienstag "wieder aufgeholt".

3.Test (Häufigkeiten innerhalb eines Monats)

Das Testergebnis für den Jänner 1994 deckt sich mit den Beobachtungen von Hebammen, denen es ganz "selbstverständlich" erscheint, daß der Mond die Geburtenrate beeinflußt. Der Schüler hat den Test für mehrere Monate durchgeführt und nicht immer - aber meist - eine Ablehnung der Nullhypothese ("alle Tage gleich wahrscheinlich") zumindest auf dem Niveau a =5% gefunden. Der Schüler beobachtete, daß die Ablehnung noch deutlicher und die Darstellung übersichtlicher wird, wenn jeweils 3 Tage zusammengefaßt werden und die Auswertung über mehrere Monate erfolgt. Dies ist in diesem Artikel allerdings aus Platzgründen nicht mehr dargestellt.

LITERATURVERZEICHNIS

BERGAMINI, D.: Die Mathematik, Reihe Life - Wunder der Wissenschaft, TIME-LIFE International (Nederland) N.V., 1965.

ENGEL, A.: Wahrscheinlichkeitsrechnung und Statistik, Band 1, Klett Studienbücher, Ernst Klett Verlag, Stuttgart 1973.

ÖSTERREICHER, F.: Vorlesungsunterlagen zur "Mathematik für Naturwissenschaften", Universität Salzburg, WS 84/85.