Oberstufe
W.11 | Allgemeine Erläuterungen
In diesem Hauptkapitel kämpfen wir uns durch ein paar trockene Begriffe und Definitionen durch. Also: Was für Begriffe gibt es in der Stochastik, was ist ein Mittelwert, eine Standardabweichung, wie zeichnet man die wichtigsten Diagrammtypen ein (z.B. ein Venn-Diagramm), …
Stochastik ist der Oberbegriff für Statistik und Wahrscheinlichkeitsrechnung.
Die Statistik befasst sich eher mit dem Sammeln und der Auswertung von Daten. In der Statistik macht man Umfragen, überlegt natürlich wie man die Umfrage startet um repräsentative Ergebnisse zu erhalten. Dann berechnet man Durchschnitte, Standardabweichungen, etc.. um aus den Unmenge von Daten etwas herauslesen zu können. Die Häufigkeiten für die verschiedenen Fragestellungen verwendet man um Voraussagen für größere Bevölkerungsgruppen zu machen. Damit beschäftigt sich dann die Wahrscheinlichkeitsrechnung.
Die Wahrscheinlichkeitsrechnung verwendet also Daten [die die Statistik gesammelt hat] und erstellt daraus Prognosen für unbekannte bzw. zukünftige Ereignisse.
Beispiel: Sie möchten wissen, wie viele Frauen Hosen bzw. Röcke tragen.
Sie können nun alle Hundert Millionen Frauen anrufen und fragen, oder sie machen eine Umfrage [unter sagen wir mal: Tausend Frauen] und berechnen davon Durchschnitt und sonstige Daten.
Sie haben nun also eine statistische Erhebung durchgeführt.
Der Witz ist nun der, dass man automatisch davon ausgeht, dass die Durchschnittswerte, die man aus seiner Umfrage errechnet hat, für alle Frauen gelten, man überträgt die Werte aus der befragten Gruppe auf die ganze Bevölkerung (obwohl das ja eigentlich nicht sicher ist).
Verwendet man die Daten der Erhebung nun weiterhin für die gesamte Bevölkerung, ist der Sprung von der Statistik zur Wahrscheinlichkeitsrechnung vollzogen.
W.11.01 | Begriffe der Stochastik
Symbole | Bedeutung | Venn-Diagramm (ggf.)
Grundraum, Ereignisraum, Ergebnismenge. Alle Elemente, die prinzipiell vorkommen können. [z.B. beim Würfel gilt: ={1;2;3;4;5;6} | ||
A | Ein einzelnes gewünschtes Ereignis [=Elementarereignis] oder eine Menge von mehreren gewünschten Ereignissen. | |
Gegenereignis. Alle Elemente, die nicht in A vorkommen. Die Wahrscheinlichkeiten von A und A ergeben addiert 100%. Es gilt: P(A)=1–P(A). | ||
Erwartungswert [siehe Kapitel W.11.03] | ||
Median [siehe Kapitel W.11.03] | ||
∩ | Schnittmenge. Das sind die gemeinsamen Elemente beider Mengen. |
Schnittmenge: A∩B |
∪ | Vereinigung. Das alle Elemente, die in mindestens einer der beiden Mengen vorkommt. |
Vereinigung: A∪B |
∅ oder { } |
Die leere Menge. Sie enthält natürlich kein Element und es gilt immer: P(∅) = P({ }) = 0 |
Differenz: A\B |
\ | Differenz. A\B ist die Menge aller Elemente von A, die jedoch nicht in B enthalten sind. | |
Erwartungswert [siehe Kapitel W.11.03] | ||
Standardabweichung [siehe Kapitel W.11.05] |
Begriffe:
„disjunkt“: Zwei Mengen sind disjunkt, wenn sie keine gemeinsamen Elemente besitzen. Die Schnittmenge dieser beiden Mengen ist also leer.
„Erwartungswert“ ist ein Mittelwert bzw. ein Durchschnitt. Man bezeichnet ihn mit E(x), mit? oder mit .
„Klassen“ haben in der Statistik nichts mit Schulklassen zu tun, sondern eher mit einer Gruppeneinteilung. Man kann die Klasseneinteilung einfach machen, man
kann jedoch auch eine Wissenschaft daraus machen.
„Signifikanzniveau“ ist das gleiche wie eine Irrtumswahrscheinlichkeit. Gehört beides zum Hypothesentest.
„Venn-Diagramme“ sind Grafiken, mit denen man Zusammenhänge zwischen zwei Mengen beschreibt [siehe rechte obere Hälfte der ersten Kapitelseite]
„Zentralwert“ ist ein Oberbegriff für die Begriffe: „Mittelwert = Erwartungswert“ und „Median“ und „Modus“. [Kap.W.11.03]
„Zufallsvariable“ kann alles Mögliche sein. Eine Zufallsvariable ist in der Stochastik das, was im Alltag ein „Ding“ ist. Eigentlich alles.
Schreibweisen:
Ein einzelnes Element steht in runden Klammern. | (A) |
Eine Menge von mehreren Elementen wird in geschlungene Klammern geschrieben. |
{(A);(B);(C);...} |
Eine Wahrscheinlichkeit wird mit „P“ bezeichnet. Dahinter steht das Ereignis in runder Klammer. |
P(A) |
Eine interessante Schreibweise entsteht z.B., wenn man die Wahrscheinlichkeit von einer Menge von mehreren Ereignissen hat.
Meist kürzt man diese Schreibweise jedoch „salopp“ ab zu: P(A; B; C; ...) |
P({(A);(B);(C);...})
|
Eine Beziehung / zwei alternative Formen [die Sie vermutlich selten brauchen]: |
Beispiel a.
Gegeben seinen die beiden Menge A und B mit: A = { 1; 3; 5; 6; 7; 8 } und B = { 0; 1; 2; 4; 6; 8 }
Es gilt:
A ∩ B = { 1; 6; 8 }
A ∪ B = { 0; 1; 2; 3; 4; 5; 6; 7; 8 }
kann man so nicht angeben. Man müsste erst wissen was ist. Nehmen wir also an, sei die Menge aller Zahlen von 0 bis 10. ⇒ = { 0; 2; 4; 9; 10 }
A\B = { 3; 5; 7 } B\A = { 0; 2; 4 }
Beispiel b.
Knecht Ruprecht bereitet für den 6.Dez. zwei Säcke vor: Im ersten Sack befinden sich Äpfel, Walnüsse, Mandarinen und Haselnüsse. Im zweiten Sack befinden sich Orangen, Äpfel, getrocknete Bananen und ebenfalls Haselnüsse. Abgesehen von den genannten Früchten verfügt er noch über Pfirsiche und Kartoffeln.
Sein drittes Rentier heißt Mathilde und hat eine Vorliebe für Mengenlehre.
a) Bestimmen Sie für Mathilde die Vereinigungsmenge, die Schnittmenge und die Differenzmenge der beiden Sack-Mengen.
b) Sei S1 der erste Sack und S2 der zweite Sack.
Bestimmen Sie
Lösung
[Wir kürzen alle Früchte mit ihren Anfangsbuchstaben ab.]
W.11.02 | Absolute, relative und kumulierte Häufigkeit
Eine absolute Häufigkeit ist eine Anzahl. Es handelt sich daher immer um eine natürliche Zahl [0; 1; 2; …]. Als Bezeichnung verwendet man häufig den Kleinbuchstaben „h“.
Eine relative Häufigkeit ist ein prozentualer Anteil, also eine Wahrscheinlichkeit. Es handelt sich daher immer um eine Zahl zwischen 0 und 1 [bzw. wenn sie in Prozent angegeben ist, dann zwischen 0% und 100%]. Als Bezeichnung verwendet man häufig den Kleinbuchstaben „f“. Wahrscheinlichkeiten werden eigentlich immer mit „p“ oder „P“ bezeichnet. [Das Wort „Wahrscheinlichkeit“ kürzen wir hier meist mit „W.S.“ ab.]
Eine kumulierte Häufigkeit ist eine Summe von Häufigkeiten und heißt daher manchmal auch Summenhäufigkeit [sie kann eine absolute oder eine relative Häufigkeit sein]. Im Normalfall addiert man immer die Häufigkeiten von der betreffenden Zahl bis zu Null runter. Als Bezeichnung verwendet man häufig die Großbuchstaben „F“ oder „H“ [bei einer absoluten kumulierten Häufigkeit „H“, bei einer relativen kumulierten Häufigkeit „F“].
Beispiel c.
Gegeben sei eine Urne mit zwölf bunten und ganz tollen Kugeln. Fünf tragen die Nummer „1“, vier tragen die Nummer „2“ und drei tragen die Nummer „3“.
Geben Sie die absoluten, die relativen und die zugehörigen kumulierten Häufigkeiten an.
Lösung:
Die absoluten Häufigkeiten sind eine Anzahl. Also: h(1)=5, h(2)=4, h(3)=3
Die relativen Häufigkeiten sind prozentuale Anteile:
Die absolute kumulierte Häufigkeiten sind:
H(1)=h(1)=5
H(2)=h(1)+h(2)=5+4=9
H(3)=h(1)+h(2)+h(3)=5+4+3=12
Die relative kumulierte Häufigkeiten sind:
Beispiel d.
Bei einer Umfrage unter 12400 Personen meinen 15%, maximal 25€ monatlich für Süßigkeiten auszugeben, 40% geben bis zu 50€ aus, 70% geben bis 75€ aus, der Rest gibt bis zu 100€ aus.
Geben Sie sinnvolle Klassen an, sowie deren absolute, relative und die zugehörigen kumulierten Häufigkeiten an.
Lösung:
Die Klasseneinteilung ist indirekt ja schon gegeben.
Klasse1: 0-25€; Klasse2: 25,01-50€; Klasse3: 50,01-75€; Klasse4: 75,01-100€
In der Aufgabenstellung sind die relativen kumulierten Häufigkeiten gegeben. [Bedenken Sie: „ 70% geben bis 75€ aus“ bedeutet, dass 70% 0€-75€ ausgeben, da sind die Häufigkeiten der drei ersten Klassen drin].
Wir wissen also:
relative kumulierte Häufigkeiten der vier Klassen: F(1)=0,15 F(2)=0,40 F(3)=0,70 F(4)=1,00
Die nicht kumulierten (relativen) Häufigkeiten kann man sich logisch herleiten.
f(1)=F(1)=0,15 f(2)=F(2)–F(1)=0,25
f(3)=F(3)–F(2)=0,30 f(4)=F(4)–F(3)=0,30
Die absoluten Häufigkeiten sind eine Anzahl. Da man Anzahlen erhält, in dem man die Gesamtanzahl mit den entsprechenden Häufigkeiten multipliziert, ergibt sich:
absolute Häufigkeiten:
h(1)=N·f(1)=12.400·0,15=1.860 h(3)=N·f(3)=12.400·0,30=3.720
h(2)=N·f(2)=12.400·0,25=3.100 h(4)=N·f(4)=12.400·0,30=3.720
absolute kumulierte Häufigkeiten:
H(1)=N·F(1)=12.400·0,15=1.860 H(3)=N·F(3)=12.400·0,70=8.680
H(2)=N·F(2)=12.400·0,40=4.960 H(4)=N·F(4)=12.400·1,0=12.400
W.11.03 | Mittelwert, Median, Modus
Mittelwert, Median und Modus sind sogenannte Zentralwerte. Eine treffende [wenn auch mathematisch blöde] Formulierung wäre: sie liegen „in der Mitte“ der Datenreihe. Je nachdem, wie man jedoch die „Mitte“ definiert, verwendet man den ein oder anderen Wert.
Bei der Berechnung muss man unterscheiden, ob man:
=> eine Liste von einzelnen Daten gegeben hat, oder
=> ob Klassen [=Gruppen] mit deren prozentualer Häufigkeit gegeben sind
Zu beiden Fällen machen wir später Beispiele.
Mittelwert
Der „Mittelwert“ oder auch „Durchschnitt“ oder auch „arithmetisches Mittel“ ist das, was man klassisch tatsächlich unter Mittelwert versteht. Man zählt alle vorhandenen Werte zusammen und teilt durch deren Anzahl. Man bezeichnet den Mittelwert mit oder . [Manchmal sieht man auch den englischen Begriff „mean“.] In der Wahrscheinlichkeitsrechnung verwendet man statt dessen eher den Begriff „Erwartungswert“, der mit E(x) bezeichnet wird. [Es gibt zwar minimale Unterschiede zwischen „Mittelwert“ und „Erwartungswert“, die sind aber für die Grundlagen der Stochastik nicht von Bedeutung]. Ist nicht die absolute Häufigkeit der einzelnen Daten gegeben, sondern nur deren prozentuale Häufigkeit, so multipliziert man jeden auftauchenden Wert mit seiner Häufigkeit und addiert diese Zwischenergebnisse. Der Mittelwert ist der wichtigste Zentralwert |
.
Median
Für den „Median“ sortiert man alle gegebenen Daten der Größe nach [egal ob aufsteigend oder absteigend] und wählt nachher den Wert aus, der in der Mitte liegt. Für den Median gibt keine gängige Bezeichnung. Eine, die man ab und zu sieht, ist: „“ oder „med“. Da der Median gleichzeitig auch das zweite Quartil ist, hat er auch die Bezeichnung: Q2. Hat man eine gerade Anzahl von Daten gegeben, so liegen zwei Werte in der Mitte. Von diesen beiden bildet man den Mittelwert. Sind die Werte mit ihren prozentualen Häufigkeiten gegeben, ist die Vorgehensweise ein bisschen umständlicher. Zuerst sortiert man die Werte der Größe nach, danach berechnet man die kumulierten Häufigkeiten. Der erste Wert dessen kumulierte Häufigkeit „0,5“ überschreitet, ist der Median. [Sie werden in der Literatur hierzu leider unterschiedliche Definitionen finden]. Sind die Werte als Klassen gegeben, ist das Ganze noch ein bisschen hässlicher. Zuerst wählt man die Klasse aus, in welcher sich der Median befindet. Das geschieht indem man die Klasse der Größe nach sortiert, die kumulierten Häufigkeiten berechnet und dann diejenige Klasse auswählt, deren kum. Häuf. erstmals den Wert „0,5“ erreicht. Nun setzt man die untere und obere Grenze dieser Klasse in nebenstehende Formel ein, um den Median zu erhalten. |
Median: bei Datenreihen: bei Werte mit deren Häufigkeiten: bei Klassen:
liefert den Median F(xun): kumulierte Häufigkeit der unteren(!) [=vorhergehenden] Klasse. f(xi): Häufigkeit der ausgesuchten (interessanten) Klasse. xun: untere Grenze der interessanten Klasse xob: obere Grenze der interessanten Klasse |
Modus
Der „Modus“ oder „Modalwert“ ist einfach nur der Wert, der am häufigsten auftaucht. Bei Klassen oder bei gegebenen prozentualen Häufigkeiten ist es der Wert mit der größten prozentualen Häufigkeit. Hat eine Datenreihe mehr als einen Modus, heißt sie „bimodal“. [Wir gehen nicht weiter darauf ein.] |
Modus: bei Datenreihen: bei Werte mit deren Häufigkeiten: bei Klassen: |
Beispiel e.
Die Notaufnahme einer Klinik untersucht 15 Nächte lang die Anzahl der eingehenden Notfälle.
Folgende Anzahl von Notfällen werden notiert: 3, 7, 5, 5, 1, 5, 2, 1, 3, 6, 5, 4, 2, 0, 2
a) Bestimmen Sie die durchschnittliche Anzahl von Notfällen je Nacht.
b) Was ist der Median der Datenreihe?
c) Geben Sie den Modus an.
Lösung:
a) Für den Durchschnitt zählt man alle Anzahlen zusammen und teilt durch die Anzahl.
b) Für den Median sortieren wir erst die Daten der Größe nach:
Beispiel f.
Familie Günther besitzt eine kleine Farm. 20% der Tiere sind Ziegen, 35% sind Schafe und 45% sind Hunde. Eine Ziege wiegt 40kg, ein Schaf 30kg und ein Hund wiegt 20kg.
a) Bestimmen Sie das durchschnittliche Gewicht aller Farmtiere.
b) Bestimmen Sie den Median an.
c) Geben Sie den Modus an.
Lösung:
a) Es geht um das durchschnittliche Gewicht der Tiere, daher sind die Werte, um die es geht, x1=20, x2=30, x3=40 [ich habe die Werte gleich der Größe nach sortiert].
Die Häufigkeiten davon sind: f(x1)=0,45 f(x2)=0,35 f(x3)=0,20.
= μ = x1·f(x1)+x2·f(x2)+x3·f(x3) = 20·0,45+30·0,35+40·0,20 = 27,5kg.
b) Für den Median benötigen wir die kumulierte Häufigkeit.
x1=20: f(20)=0,45 ⇒ F(20)=0,45
x2=30: f(30)=0,35 ⇒ F(30)=0,45+0,35=0,8
x3=40: f(40)=0,20 ⇒ F(40)=0,45+0,35+0,2=1
Der erste Wert, dessen kumulierte Häufigkeit zum ersten Mal „0,5“ erreicht [und überschreitet], ist der zweite Wert: x2=30
⇒ Der Median ist „30“.
c) Der Modus ist der Wert mit größten Häufigkeit. Die größte Häufigkeit ist 0,45 und gehört zum Wert x1=20.
Der Modus ist „20“.
Beispiel g.
Eine unglaublich wichtige biologische Untersuchung fördert zu Tage, dass 20% der Maikäfer maximal 0,6 Gramm wiegen, 25% der Maikäfer wiegen 0,6–0,8 Gramm, 40% wiegen 0,8–1,1 Gramm, der Rest wiegt 1,1–1,5 Gramm.
a) Bestimmen Sie den Durchschnitt des Gewichts.
b) Bestimmen Sie den Median der Maikäfer-Daten.
c) Geben Sie den Modalwert an.
Lösung:
Wir haben vier Klassen.
Nr.1: 0–0,6g Klassenmitte: x1=0,3g Häufigkeit: f(x1)=0,20 kumulierte Häuf. F(x1)=0,20
Nr.2: 0,6–0,8g Klassenmitte: x2=0,7g Häufigkeit: f(x2)=0,25 kumulierte Häuf. F(x2)=0,45
Nr.3: 0,8–1,1g Klassenmitte: x3=0,95g Häufigkeit: f(x3)=0,40 kumulierte Häuf. F(x3)=0,85
Nr.4: 1,1–1,5g Klassenmitte: x4=1,3g Häufigkeit: f(x4)=0,15 kumulierte Häuf. F(x4)=1,00
a) Die Maikäfer wiegen durchschnittlich:
= μ = x1·f(x1)+x2·f(x2)+x3·f(x3)+x4·f(x4) =
= 0,3·0,20+0,7·0,25+0,95·0,40+1,3·0,15 = 0,81 Gramm.
b) Um den Median zu erhalten, müssen wir die kumulierten Häufigkeiten betrachten. Die dritte Klasse ist die erste, deren Häufigkeit erstmalig über 0,5 liegt. Für die folgende Formel ist die dritte Klasse für uns interessant.
Median =
Der Median beträgt 0,8375.
c) Der Modus ist die Klassenmitte der Klasse mit der größten Häufigkeit.
Die dritte Klasse hat die größte Häufigkeit, nämlich „0,4“. Daher ist die Klassenmitte der dritten Klasse der Modus. Der Modus ist 0,95 Gramm!
W.11.04 | Einzeichnen von Diagrammen
Es gibt unzählige Typen von Diagrammen, ungefähr so viele, wie Graffiti in Madrid und die meisten Diagramme sind auch genau so wichtig.
An dieser Stelle werden wir nur drei Typen von Diagrammen betrachten, die die Ehre haben, unsere huldvolle Beachtung zu finden:
a) Histogramme
b) Kreisdiagramme
c) Boxplot-Diagramme
„Histogramme“ sind vermutlich die wichtigsten [und häufigsten] Diagramme zur Veranschaulichung der Stochastik. [„Balkendiagramme“ oder „Stabdiagramme“ sind fast das Gleiche].
Es gibt schier unendlich viele Möglichkeiten und Regeln ein Histogramm zu zeichnen.
Eine einfache Möglichkeit ist, die Breite der Balken immer gleich breit zu zeichnen und auf der y-Achse die absolute oder relative Häufigkeit aufzutragen. [siehe auch Beispiel h.]
Eine andere Möglichkeit wäre, auf der x-Achse die Werte der Daten einzutragen, auf der y-Achse den Quotient zwischen der eingetragenen Balkenbreite und der relative Häufigkeit. Also y=f(x)/x. [ siehe auch Beispiel i.]
[Bei dieser Variante würde die relative Häufigkeit als Fläche des Rechtecks auftauchen.]
In Beispiel j. wenden wir ein Zwischending zwischen beiden eben genannten Varianten an.
Ihnen bleibt also leider nichts anders übrig, als nachzuschlagen, welche Variante Ihr Lehrer / Professor / Mentor verwendet und dann ebenfalls diese Methode anzuwenden.
„Kreisdiagramme“ sind sehr einfache Diagramme.
Jedem Ereignis wird ein Kreisausschnitt zugeordnet, wobei der Winkel durch die prozentuale Häufigkeit festgelegt ist [Winkel=Häufigkeit*360°].
Ein „Boxplotdiagramm“ zeigt keine prozentuale Häufigkeit von Merkmalen auf [im Gegensatz zu den letzten beiden Diagrammarten], sondern zeigt in welchem Bereich die Daten liegen [also von welchem Wert bis zu welchem Wert] und zeigt auch noch auf in welchem Bereich die häufigsten Werte liegen.
Man benötigt für das Boxplott auf jeden Fall das Thema „Quartile“, [siehe Kapitel W.11.06].
Leider ist die Darstellung eines Boxplotdiagramms nicht standarisiert, d.h. es gibt kleine, aber viele Unterschiede [je nach Lehrer oder Buch].
Wir zeichnen das Boxplotdiagramm folgendermaßen:
Auf der y-Achse gibt es keine Einheiten.
In die Zeichnung wird ein Rechteck gezeichnet, welches links beim ersten Quartil, rechts beim dritten Quartil endet. Im Inneren des Rechtecks zeichnen wir den Mittelwert ein.
Am linken und rechten Ende des Rechtecks wird jeweils ein liegendes „T“ drangesetzt, welche beim kleinsten bzw. beim größten Wert der Datenreihe endet.
Beispiel h.
Die Notaufnahme einer Klinik untersucht 15 Nächte lang die Anzahl der eingehenden Notfälle. Folgende Anzahl von Notfällen werden notiert:
3, 7, 5, 5, 1, 5, 2, 1, 3, 6, 5, 4, 2, 0, 2
a) Zeichnen Sie ein Histogramm des Datensatzes.
b) Veranschaulichen Sie die Daten in einem Kreisdiagramm.
c) Zeichnen Sie ein Boxplotdiagramm.
Lösung
a) Es tauchen die Werte „0“ bis „7“ auf, mit folgenden absoluten [h(x)] und relativen [f(x)] Häufigkeiten:
Die auftauchenden Werte tragen wir als Rechtecke ein. Die Breite der Rechtecke ist beliebig, als Höhe der Rechtecke wird die Häufigkeit [=Wahrscheinlichkeit] eingetragen. Andere Möglichkeiten für das Histogramm sind auch möglich.
b) Die Häufigkeiten der Werte „0“ bis „7“ haben wir bereits berechnet. Daraus bestimmen wir die zugehörigen Winkel.
Natürlich kann man die Kreissektoren auch einfärben
oder sonstwie verschönern.
c) Für das Boxplotdiagramm benötigen wir die Quartile Q1 und Q3, und den Median , die wir weiter unten in Kapitel W.11.06 berechnen werden.
Man erhält daraus: Q1=2, Q2= =3, Q3=5.
Den Mittelwert haben wir in Kap.W.11.03, Bsp.5a) berechnet. Wir erhielten =3,4. Der kleinste auftauchende Wert ist „0“, der größte ist „7“.
Beispiel i.
Familie Günther besitzt eine kleine Farm. 20% der Tiere sind Ziegen, 35% sind Schafe und 45% sind Hunde. Eine Ziege wiegt 40kg, ein Schaf 30kg und ein Hund wiegt 20kg.
a) Zeichnen Sie ein Histogramm des Datensatzes.
b) Veranschaulichen Sie die Daten in einem Kreisdiagramm.
[Ein Boxplotdiagramm macht bei einer Menge von 3 Daten keinen Sinn, daher ist nicht danach gefragt]
Lösung:
Zum Verständnis: Was sind überhaupt unsere Daten? Sind es die Namen der Tiere, also „Ziege“, „Schaf“ und „Hund“ oder sind es deren Gewichte 40, 30 und 20?
Theoretisch ist beim Histogramm und beim Kreisdiagramm beides möglich. Beim Boxplotdiagramm wären Namen natürlich nicht möglich [oder wie möchten einen Durchschnitt oder ein Quartil von „Ziege“, „Schaf“ und „Hund“ berechnen? ]
Beispiel j.
Eine unglaublich wichtige biologische Untersuchung fördert zu Tage, dass 20% der Maikäfer maximal 0,6 Gramm wiegen, 25% der Maikäfer wiegen 0,6–0,8 Gramm, 40% wiegen 0,8–1,1 Gramm, der Rest wiegt 1,1–1,5 Gramm.
a) Zeichnen Sie ein Histogramm der Maikäfer-Daten.
b) Veranschaulichen Sie die Daten in einem Kreisdiagramm.
c) Zeichnen Sie ein Boxplotdiagramm.
Lösung:
a) Wir notieren die wichtigen Daten der vier Klassen:
Wir zeichnen in dieser Aufgabe [willkürlich] ein Histogramm, in welchem auf der x-Achse die Klassenbreite aufgetragen wird und auf der y-Achse der Quotient aus der Häufigkeit und der Klassenbreite. [vierte Zeile der Tabelle]
b) Die Mittelpunktswinkel der Klassen bestimmen...
Dann das Kreisdiagramm so oder so ähnlich wie dieses rechts eingezeichnete erstellen.
W.11.05 | Erwartungswert, Varianz, Standardabweichung
Der Erwartungswert ist ein Durchschnitt bzw. Mittelwert. In Kapitel W.11.03 haben wir das bereits ausführlich durchgekaut.
Die Varianz hat keine anschauliche Bedeutung, sie ist nur das Quadrat der Streuung. Streng genommen bräuchte man also den Begriff „Varianz“ in der Mathematik nicht, man könnte alles über die Streuung berechnen.
Die Streuung heißt auch Standardabweichung und gibt die Breite der Verteilung an.
Den Erwartungswert bezeichnet man meist mit E(x), μ oder .
Die Varianz bezeichnet man meist mit V(x) oder Var(x).
Die Standardabweichung bezeichnet man meist mit σ oder mit s.
Stellen Sie sich mal folgende Situation vor:
Sie verkaufen hauptberuflich in einer Imbissbude gebratene Hähnchen. Ihr Lieferant meint, die Hähnchen hätten ein durchschnittliches Gewicht von 700g. Das ist zwar schön und gut, aber theoretisch könnte es sein, dass die Hälfte der Hähnchen 300g wiegt und die andere Hälfte wiegt 1100g [der Durchschnitt von 300 und 1100 ist 700g]. Das wäre natürlich blöd, denn die Hälfte Ihrer Kunden würden ein unterernährtes Hähnchen bekommen und wären dann selber unterernährt. Die andere Hälfte der Kundschaft würde an Fettsucht sterben.
Es könnte auch sein, dass ALLE Hähnchen 700g wiegen. Dann wären alle glücklich.
Daher brauchen wir außer dem Durchschnittswert einen zweiten Wert, der uns sagt, wie weit die Werte auseinander liegen.
Dieser Wert ist die „Streuung“ oder auch „Standardabweichung“.
Eine richtig gute anschauliche Bedeutung gibt es für die Standardabweichung nicht, aber für die grobe Orientierung reicht Folgendes:
Stellen Sie sich von einer Verteilung alle Werte vor, die oberhalb des Mittelwerts liegen und alle Werte, die unterhalb des Mittelwerts liegen. [In unserem Beispiel wäre das einerseits die Menge aller Hähnchen unterhalb 700g bzw. die Menge aller Hähnchen oberhalb 700g]. Die Hälfte der größeren Werte ist im Schnitt eine Standardabweichung größer als der Durchschnitt, die Hälfte der kleineren Werte ist eine Standardabweichung kleiner als der Durchschnitt.
Beispiel: Stellen Sie sich vor, der Hähnchenlieferant meint, die Hähnchen hätten ein Durchschnittgewicht von μ=700g bei einer Standardabweichung von 100g. Nun können Sie ganz grob überschlagen, dass die schwerere Hälfte der Hühnchen ca. 800g wiegen wird [μ+σ=700+100], die leichtere Hälfte wiegt im Schnitt 600g [μ–σ=700–100]. (Das stimmt zwar, wie gesagt nicht ganz, aber es reicht für eine erste, grobe Vorstellung der Verteilung).
Ebenfalls hilfreich ist die Eigenschaft, dass bei jeder beliebigen Verteilung ca. 2/3 der Werte im Bereich liegen, der höchstens eine Standardabweichung vom Mittelwert entfernt sind, 95% aller Werte liegen in einem Bereich, der höchstens zwei Standardabweichungen vom Mittelwert entfernt sind. [In unserem Hähnchenbeispiel mit μ=700 und σ=100 würde das bedeuten, dass ca. 2/3 der Hähnchen ein Gewicht von 600g bis 800g haben. 95% aller Hähnchen hätten ein Gewicht von 500g bis 900g.]
Genau gesagt gilt:
Ca. 68% aller Werte liegen im Bereich [μ–σ ; μ+σ].
Ca. 95% aller Werte liegen im Bereich [μ–2σ;μ+2σ].
Ca. 99% aller Werte liegen im Bereich [μ–3σ;μ+3σ].
[Siehe auch W.18.01 Beispiel 2]
Richtig genial ist, dass man jede Verteilung komplett mit den beiden Werten μ und σ vorhersagen kann, sprich: man kann die Wahrscheinlichkeitsfunktion nur über μ und σ aufstellen und somit jede gewünschte Wahrscheinlichkeit errechnen. Wie das im Detail geht, ist nicht überlebenswichtig, wir sehen das im Kapitel W.18 Normalverteilung.
Genug herumgeredet. Jetzt die Formeln:
Nehmen wir mal an, es gibt mehrere Ereignisse, die wir x1, x2, x3, … nennen.
[In unserem Fall mit den Brathähnchen könnte das das Gewicht der Hähnchen sein.]
Jedes der Ereignisse hat die Häufigkeit bzw. Wahrscheinlichkeit
p(x1), p(x2), p(x3), ...
Den Erwartungswert berechnet man wie folgt:
|
Die Varianz berechnet man wie folgt:
|
Die Standardabweichung ist die Wurzel aus der Varianz: |
Beispiel k.
Die Notaufnahme einer Klinik untersucht 15 Nächte lang die Anzahl der eingehenden Notfälle. Folgende Anzahl von Notfällen werden notiert:
3, 7, 5, 5, 1, 5, 2, 1, 3, 6, 5, 4, 2, 0, 2
a) Bestimmen Sie den Erwartungswert der Notfälle.
b) Bestimmen Sie die Varianz und die Standardabweichung.
Lösung:
Sowohl für den Erwartungswert als auch für die Standardabweichung brauchen wir die relativen Häufigkeiten. Also bestimmen wir zuerst die absoluten, dann die relativen Häufigkeiten (was die Wahrscheinlichkeiten sind).
a) Der Erwartungswert hat die Formel:
μ=x1·p(x1)+x2·p(x2)+...
= 0·0,067+1·0,133+2·0,2+3·0,133+4·0,067+5·0,267+6·0,067+7·0,067 ≈ 3,41
[beachten Sie das (fast) gleiche Ergebnis wie der Durchschnitt aus Beispiel e.]
b) Die Varianz berechnet man mit der Formel:
Var = σ² = p(x1)·(x1–)²+p(x2)·(x2–)²+p(x3)·(x3–)²+...
= 0,067·(0–3,41)2+0,133·(1–3,41)2+0,2·(2–3,41)2+0,133·(3–3,41)2 + 0,067·(4–3,41)2+0,267·(5–3,41)2+0,067·(6–3,41)2+0,067·(7–3,41)2 ≈ 3,983
Die Standardabweichung ist:
Beispiel m.
Familie Günther besitzt eine kleine Farm. 20% der Tiere sind Ziegen, 35% sind Schafe und 45% sind Hunde. Eine Ziege wiegt 40kg, ein Schaf 30kg und ein Hund wiegt 20kg.
a) Bestimmen Sie den Erwartungswert des Gewichts eines zufällig ausgesuchten Tieres.
b) Bestimmen Sie die Varianz und die Standardabweichung für das Gewicht.
Lösung:
a) Wir brauchen den Erwartungswert [die Formulierung „zufällig ausgesucht“ ist zweitrangig].
= μ = x1·f(x1)+x2·f(x2)+x3·f(x3) = 20·0,45+30·0,35+40·0,20 = 27,5kg.
b) Die Varianz berechnet man mit der Formel:
Var = σ² = p(x1)·(x1–x)²+p(x2)·(x2–x)²+p(x3)·(x3–x)²
= 0,20·(40–27,5)2+0,35·(30–27,5)2+0,45·(20–27,5)2 ≈ 58,75
Die Standardabweichung ist daher:
Beispiel n.
Eine unglaublich wichtige biologische Untersuchung fördert zu Tage, dass 20% der Maikäfer maximal 0,6 Gramm wiegen, 25% der Maikäfer wiegen 0,6–0,8 Gramm, 40% wiegen 0,8–1,1 Gramm, der Rest wiegt 1,1–1,5 Gramm.
a) Bestimmen Sie den Erwartungswert des Maikäfergewichts.
b) Bestimmen Sie die Varianz und die Standardabweichung.
Lösung:
Mit den Klassen können wir in der Form, wie sie gegeben sind, nichts anfangen.
Wir brauchen für jede Klasse nur einen Wert und das ist die Klassenmitte.
Nr.1: 0–0,6g Klassenmitte: x1=0,3g Häufigkeit: f(x1)=0,20
Nr.2: 0,6–0,8g Klassenmitte: x2=0,7g Häufigkeit: f(x2)=0,25
Nr.3: 0,8–1,1g Klassenmitte: x3=0,95g Häufigkeit: f(x3)=0,40
Nr.4: 1,1–1,5g Klassenmitte: x4=1,3g Häufigkeit: f(x4)=0,15
a) Den Erwartungswert berechnet man wie den Durchschnitt:
= μ = x1·f(x1)+x2·f(x2)+x3·f(x3)+x4·f(x4) = 0,3·0,20+0,7·0,25+0,95·0,40+1,3·0,15 = 0,81 Gramm
b) Die Varianz berechnet man mit der Formel:
Var = σ² = p(x1)·(x1–x)²+p(x2)·(x2–x)²+p(x3)·(x3–x)²+p(x4)·(x4–x)² =
= 0,2·(0,3–0,81)2+0,25·(0,7–0,81)2+0,4·(0,95–0,81)2+0,15·(1,3–0,81)2 ≈ 0,0989
Die Standardabweichung ist daher:
W.11.06 | Quartile
Ein Quartil ist ein Viertel.
Das erste Quartil ist also derjenige Wert, der beim ersten Viertel der Datenreihe liegt.
Das zweite Quartil ist derjenige Wert, der beim zweiten Viertel der Datenreihe liegt. Da das zweite Viertel die Hälfte ist, ist das zweite Quartil der Median. Kein normaler Mensch verwendet daher den Begriff „zweites Quartil“, sondern spricht vom Median.
Will man die Datenreihe nicht in Viertel, sondern Drittel, Fünftel, Zehntel, etc.. aufteilen, spricht man nicht von Quartilen, sondern von Quantilen.
Terzile sind Drittel, Quintile sind Fünftel, Dezile sind Zehntel, Perzentile sind Hundetstel.
Quartile und Quantile sind sogenannte Lagemaße.
Quartile / Quantile Für Quartile und Quantile Das erste Quartil ist der Wert, dessen Das zweite Quartil [=Median] ist der Das dritte Quartil ist der Wert, dessen Bei Klassen ist das Ganze etwas |
Es gibt leider, leider (wie bei Vielem
in der Stochastik) auch zu Quartilen
unterschiedliche Definitionen ?
Beispiel o.
Die Notaufnahme einer Klinik untersucht 15 Nächte lang die Anzahl der eingehenden Notfälle. Folgende Anzahl von Notfällen werden notiert: 3, 7, 5, 5, 1, 5, 2, 1, 3, 6, 5, 4, 2, 0, 2
Bestimmen den Median, sowie das erste uns dritte Quartil.
Lösung:
Zur Erinnerung: Für den Median und die Quartile braucht man die kumulierten Häufigkeiten. Das erste Quartil ist der erste Wert, dessen kumulierte Häufigkeit den Wert 0,25 erreicht oder überschreitet. Der Median ist der erste Wert, dessen kumulierte Häufigkeit den Wert 0,5 erreicht oder überschreitet. Das dritte Quartal ist der erste Wert, dessen kumulierte Häufigkeit den Wert 0,75 erreicht über überschreitet.
Der Wert 0,25 wird zum ersten Mal von der „2“ erreicht. ⇒ Das erste Quartil ist: Q1=2
Der Wert 0,5 wird zum ersten Mal von der „3“ erreicht. ⇒ Der Median ist: =3.
[Natürlich kann man den Median auch wie oben in Kapitel W.11.03, Beispiel e. bestimmen, da man es mit einer Datenreihe zu tun hat.]
Der Wert 0,75 wird zum ersten Mal von der „5“ erreicht. ⇒ Das dritte Quartil ist: Q3=5
Quartile bei Klassen Formel für erstes Quartil: 1. Man sucht zuerst die Klasse aus, 2. innerhalb dieser Klasse wird nun das
Hierbei ist xun die untere Grenze der
Klasse, xob ist die obere Grenze. Fun ist die kumulierte W.S. der vorhergehenden(!!) Klasse, f(xi) ist die Häufigkeit der Klasse. 3. Sucht man das zweite oder dritte Quartil, ersetzt man in der Formel die Zahl 0,25 durch 0,50 bzw. 0,75. |
Beispiel p. (hier geht es um Quartile bei Klassen und die Formel für erstes Quartil)
Eine unglaublich wichtige biologische Untersuchung fördert zu Tage, dass 20% der Maikäfer maximal 0,6 Gramm wiegen, 25% der Maikäfer wiegen 0,6–0,8 Gramm, 40% wiegen 0,8–1,1 Gramm, der Rest wiegt 1,1–1,5 Gramm.
Bestimmen den Median, das erste und dritte Quartil.
Lösung:
Die Häufigkeit der 4.Klasse beträgt natürlich: 1–0,20–0,25–0,40=0,15
Q1: Das erste Quartil liegt in jener Klasse, deren kumulierte Häufigkeit 0,25 erreicht oder überschreitet. Das in der zweiten Klasse der Fall.
Die untere Grenze dieser Klasse ist xun=0,6; die obere Grenze dieser Klasse ist xob=0,8; die Häufigkeit der Klasse ist fi=0,25; die kumulierte der nächstunteren(!) Klasse ist Fun=0,20.
Diese Werte setzen wir in die Formel für das erste Quartil ein:
: Der Median liegt in jener Klasse, deren kumulierte Häufigkeit 0,5 erreicht oder überschreitet. Das in der dritten Klasse der Fall.
Die untere Grenze dieser Klasse ist xun=0,8; die obere Grenze dieser Klasse ist xob=1,1; die Häufigkeit der Klasse ist fi=0,4; die kumulierte der nächstunteren Klasse ist Fun=0,45.
Diese Werte setzen wir in die Formel für das erste Quartil ein:
Q3: Das dritte Quartil liegt in jener Klasse, deren kumulierte Häufigkeit 0,75 erreicht oder überschreitet. Das in der dritten Klasse der Fall.
Die untere Grenze dieser Klasse ist xun=0,8; die obere Grenze dieser Klasse ist xob=1,1; die Häufigkeit der Klasse ist fi=0,4; die kumulierte der nächstunteren Klasse ist Fun=0,45.
Diese Werte setzen wir in die Formel für das erste Quartil ein:
W.11.07 | Dichtefunktion
Eine Dichtefunktion ist eine Wahrscheinlichkeitsfunktion, also eine Funktion, mit deren Hilfe man Wahrscheinlichkeiten berechnen kann.
Die bekanntesten Wahrscheinlichkeitsfunktionen sind die Normalverteilung [Kapitel W.18] und die Binomialverteilung [Kapitel W.16]. Meistens verwendet man jedoch beliebige andere Funktionen.
Eine Funktion muss nur zwei Bedingungen erfüllen, um die große Ehre zu haben, zu einer Wahrscheinlichkeitsfunktion ernannt zu werden:
1. Sie darf nur positive Werte annehmen. [es gibt schließlich nur positive Wahrscheinlichkeiten]
2. Die Fläche zwischen der Funktion und der x-Achse im Bereich von -∞ bis +∞ muss 1 ergeben, also
[Weil die gesamte Wahrscheinlichkeit 1 ergeben muss!]
Eine Dichtefunktion muss zwei Bedingungen erfüllen: 1. es werden nur positive Funktionswerte angenommen. 2. das Integral zwischen Funktion und x-Achse im Bereich von -∞ bis +∞ beträgt 1. Die Wahrscheinlichkeit, dass ein Ereignis zwischen zwei Werten a und b liegt, berechnet man mit dem Integral: |
Beispiel q
Ein Getränkehersteller testet ein neues Erfrischungsprodukt, welches den neuartigen Geschmackstoff HX71 enthalten soll. Leider verdunstet HX71 sehr leicht. Eine Forschungsgruppe untersucht, welcher prozentuale Anteil von HX71 im Laufe der Zeit bei Zimmertemperatur verdunstet und erhält folgendes Ergebnis:
a) Bei welcher Temperatur verdunstet HX71 vollständig?
b) Begründen Sie, dass die Annahme b=-10a sinnvoll ist.
c) Bestimmen Sie a.
d) Welcher prozentuale Anteil verdunstet in den ersten zehn Minuten?
e) Welcher Anteil verdunstet von der 15. bis zur 30. Minute?
f) Welcher Anteil verdunstet zum Zeitpunkt 830 ?
Lösung:
Interpretation von p(t): Wenn man sich die [zusammengesetzte] Funktion p(t) anschaut, stellt man fest, dass bis zu einem Zeitpunkt von t=0 nichts verdunstet [p(t)=0 für t<0], was irgendwie auch logisch ist. Im Zeitraum von t=0 bis t=20 verdunstet ein bisschen was [wird durch „30a·t–a·t²“ beschrieben], ab t=20 wird die Verdunstung durch „b·(t–40)“ beschrieben. Ab t=40 ist die Verdunstung wieder „0“, d.h. ab t=40 verdunstet nichts mehr. Damit wäre Teilaufgabe a) beantwortet.
a) Ab dem Zeitpunkt t=40 verdunstet nichts mehr, d.h. zum Zeitpunkt t=40 ist HX71 vollständig verdunstet.
b) Die Funktion p(t) hat mehrere Sprungstellen. Bei t=0 springt p(t) vom Term „0“ zu „30a·t–a·t²“. Betrachtet man die y-Werte, bedeutet dass, das p(t) von „0“ zu „30a·0–a·0²“=0 springt. Die y-Werte der Funktion springen bei t=0 also gar nicht, p(t) wechselt kontinuierlich von „0“ zu „30a·t–a·t²“. Das gleiche ist bei der letzten Sprungstelle, bei t=40. Setzt man in den Term „b·(t–40)“ den Wert t=40 ein, erhält man „0“, der Übergang an der Stelle t=40 vom Term „b·(t–40)“ zum nächsten Term „0“ ist also kontinuierlich.
Betrachten wir den Übergang bei t=20: p(t) wechselt vom Term „30a·t–a·t²“ zum Term „b·(t–40)“ Es wäre zu erwarten, dass die y-Werte hier auch kontinuierlich in einander übergehen, dass also zum Zeitpunkt t=20 gilt: 30a·t–a·t²=b·(t–40) [Es ist zwar nicht zwingend notwendig, dass das gilt, aber die Aufgabenstellung lautet auch nur zu begründen, dass es sinnvoll wäre]
Sinnvoll wäre, wenn die Übergänge an den drei Übergangsstellen t=0, t=20 und t=40 ohne Sprungstellen in der Funktion p(t) stattfinden würden.
An der Stelle t=20 würde daher gelten:
30a·t–a·t²=b·(t–40) bzw 30a·20–a·20²=b·(20–40) ⇔ 600a–400a=-20b ⇔ 200a=-20b ⇔ -10a=b.
Dadurch erhält p(t) die Form:
d) Den Anteil, der in den ersten 10 Minuten verdunstet, berechnet man über das Integral mit t=0 und t=10 als Grenzen.
e) Der Anteil, der von der 15. bis zur 30. Minute verdunstet, ist natürlich wieder das Integral mit den Grenzen t=15 bis t=30. Der Unterschied zu Teilaufgabe c) ist nur der, dass wir das Integral aufteilen müssen, da p(t) bei t=20 vom einen Term zu einem anderen wechselt.
f) Einen prozentualen Anteil [eine Wahrscheinlichkeit] berechnet man immer über ein Intervall mit zwei Grenzen. Wenn man, wie in dieser Aufgabe nur eine Grenze gegeben hat, geht das nicht. Das Ergebnis ist Null.
Die anschauliche Begründung wäre die, dass zum Zeitpunkt 830 nichts verdunsten kann, weil es sich hier ja um einen unendlich kurzen Zeitpunkt handelt und nicht um eine Zeitspanne von .. bis ..