„Habe nun ach! Philosophie, Juristerei und Medizin, und leider auch Theologie! durchaus studiert mit heißem Bemühn. Da steh ich nun, ich armer Tor! und bin so klug als wie zuvor; heiße Magister, heiße Doktor gar, und ziehe schon an die zehen Jahr herauf, herab und quer und krumm meine Schüler an der Nase herum – und sehe, dass wir nichts wissen können!

Das will mir schier das Herz verbrennen!“ 

- Faust I, S. 354–365

Wahrscheinlichkeitstheorie

Die Wahrscheinlichkeitstheorie (auch: Wahrscheinlichkeitsrechnung) ist ein Teilgebiet der Mathematik, das aus der Formalisierung, Modellierung und Untersuchung zufallsabhängiger Entitäten hervorgegangen ist. Gemeinsam mit der mathematischen Statistik bildet sie das weite Feld der Stochastik.

1. Allgemeines

Die Grundbegriffe der Wahrscheinlichkeitstheorie sind Zufall und Wahrscheinlichkeit. Sie lässt dabei offen, wie man diese Begriffe näher, philosophisch interpretiert. Hierzu gibt es verschiedene Auffassungen, die im Prinzip alle mit den Grundsätzen der sehr formalistischen Wahrscheinlichkeitstheorie vereinbar sind. Aber nicht nur in der Mathematik, auch in der Logik, Psychologie, Philosophie, Physik etc. und in den Wirtschaftswissenschaften sind die Bezeichnungen Zufall und Wahrscheinlichkeit von großer Bedeutung. Und nicht zuletzt auch in der Alltagssprache: „Es ist sehr wahrscheinlich, dass ich die Monopoly-Partie gegen dich gewinne. Jetzt kann dir nur noch der Zufall helfen.“

Solche Würfel-, Münz- und Kartenspiele sind prima geeignet das Kerngebiet der Wahrscheinlichkeitstheorie darzustellen. Wir wollen uns dafür zunächst einen fairen Würfel vorstellen. Ein fairer (oder: idealer) Würfel ist zum Zwecke der mathematischen Handhabbarkeit idealisiert, d.h. alle sechs Ergebnisse werden von ihm mit derselben Wahrscheinlichkeit 1/6 ausgegeben. Er landet weder mal auf einer Kante, noch privilegiert er eine Seite vor einer anderen. Was glaubt ihr, mit welcher Wahrscheinlichkeit wird beim nächsten Wurf eine 1,2,3,4,5 oder 6 gewürfelt? Offenbar mit einer sechsmal so großen wie 1/6, also mit einer Wahrscheinlichkeit von 1.

Und wie groß ist die Wahrscheinlichkeit, dass man beim nächsten Wurf eine 10 würfelt? Auch das ist einfach, die richtige Antwort lautet offensichtlich 0. Natürlich könnte man die Wahrscheinlichkeiten für Ereignisse auch in Prozentzahlen zwischen 0 und 100 angeben, in der Wahrscheinlichkeitstheorie hat sich jedoch die Schreibweise in reellen Zahlenwerten von 0 bis 1 durchgesetzt. Schlussendlich läuft beides auf dasselbe hinaus und negative Wahrscheinlichkeiten oder Wahrscheinlichkeiten größer 1 bzw. 100% werden jedesmal kategorisch ausgeschlossen.

Wahrscheinlichkeiten lassen sich Propositionen zuordnen. Z.B. der Proposition, dass der nächste Wurf eine 3 ergibt, dass es morgen schneit, dass Bernie Sanders die nächsten US-Wahlen, oder, dass Sebastian Vettel die nächste F1-Weltmeisterschaft gewinnt. Das wird dann so geschrieben:

  • P(p) = x,

Wobei "P(p)" für die Wahrscheinlichkeit P der Proposition p steht. "X" steht für den entsprechenden reellen Zahlenwert. P ist folglich eine Funktion, die Propositionen Zahlen- bzw. Wahrscheinlichkeitswerte zuordnet. Bspw. lässt sich sagen P(der nächste Wurf ergibt eine gerade Zahl) = 0,5. Oder: Vorabumfragen besagen, dass Bernie Sanders mit einer 0,25%-Chance US-Präsident wird: P(Bernie Sanders wird US-Präsident) = 0,0025.

Auf diese und ausgeklügeltere Weisen behandelt die Wahrscheinlichkeitstheorie das Phänomen der Wahrscheinlichkeit bzw. des Zufalls. Die W. liefert damit ein präzises, mathematisches Instrumentarium zur Analyse der Eigenschaften und Gesetzmäßigkeiten zufallsabhängiger Ereignisse und zufallsabhängiger Entwicklungen (stochastischer Prozesse). Sie spielt damit eine zentrale Rolle, sobald es irgendwo um die vernünftige Quantifizierung von Wahrscheinlichkeiten und Zufälle geht. 

2. Axiomatisierung

Wie jedes Teilgebiet der modernen Mathematik wird auch die Wahrscheinlichkeitstheorie mengentheoretisch formuliert und auf einer axiomatischen Grundlegung aufgebaut.

Die mengentheoretische Formulierung der W.:

#Wahrscheinlichkeitstheorie #Mengentheorie

Zweiteres, die Axiomatisierung der Wahrscheinlichkeitstheorie, wurde in den 1930ern vom russischen Mathematiker Andrei Nikolajewitsch Kolmogorow geleistet. In seinem Werk "Grundbegriffe der Wahrscheinlichkeitsrechnung " fordert er drei notwendige Axiome ein, die ein Wahrscheinlichkeitsmaß erfüllen muss. Diese drei konstituierenden Axiome der Wahrscheinlichkeitstheorie und einige interessante, zugehörige Theoreme, die sich aus den Axiomen ableiten lassen, möchte ich Ihnen im Folgenden gerne vorstellen. Und keine Angst, es ist unkomplizierter als es sich anhört.

2.1. Axiome

2.1.1. Erstes Axiom

Das erste Axiom wurde implizit bereits erwähnt:

(1) 0 ≤ P(p) ≤ 1.

Für jede Proposition (jedes Ereignis im weitesten Sinne) p beträgt die Wahrscheinlichkeit einen numerischen Wert von 0 bis 1. In vielen Einführungen liest man, Wahrscheinlichkeiten lägen zwischen 0 und 1. Das ist falsch, Wahrscheinlichkeiten reichen (zumindest in der Theorie) von 0 bis einschließlich 1. Steht die Wahrscheinlichkeit für ein Ereignis gleich 0, so wird das Ereignis garantiert nicht eintreten. Man spricht von einem unmöglichen Ereignis. Am anderen Ende ist die Wahrscheinlichkeit für ein sicheres Ereignis gleich 1, es tritt garantiert ein. Wahrscheinlichkeiten von P <0 oder P > 1 sind auf keinen Fall möglich. Eine Proposition kann nicht unwahrscheinlicher sein als unmöglich (0) und auch nicht wahrscheinlicher als sicher (1).

2.1.2. Zweites Axiom

Das zweite Axiom haben wir nun auch schon vorweggenommen:

(2) P(T) = 1.

Die sichere Proposition hat die Wahrscheinlichkeit 1. Je näher eine Wahrscheinlichkeit an der Zahl 1 liegt, desto eher wird die von ihr beschriebene Proposition eintreten und bei einer Wahrscheinlichkeit von 1 ist ihr Eintritt sicher. "T" steht hierbei für eine völlig sichere Proposition. Nun kann man sich fragen, ob es überhaupt hundertprozentig sichere Propositionen gibt. Selbst das sehr sichere: P(morgen früh geht wieder die Sonne auf) ist nicht ganz sicher, da rein theoretisch Aliens kommen und die Erde oder die Sonne zerstören könnten o.ä. Die Wahrscheinlichkeit für P ist sehr hoch, aber sie ist nicht 1! Gleichwohl gibt es sichere Propositionen mit der Wahrscheinlichkeit 1.

Solche sichere Propositionen sind bspw. logische Tautologien ("Wenn es regnet, dann regnet es"), die immer wahr sind, egal welchen Wahrscheinlichkeitswert die einzelnen Aussagen, aus denen sie bestehen, besitzen. Sie sind somit mit einer sicheren Wahrscheinlichkeit von P(T) = 1 wahr. Weiterhin sind Propositionen sicher, deren Verneinung ein logischer Widerspruch ergeben würde ("Alle Frauen sind weiblich"), oder die mit allen möglichen Ergebnissen vereinbar sind ("Der nächste Wurf bringt eine 1,2,3,4,5,6, oder er landet auf einer Kante"). Auch die erkenntnistheoretische Proposition „Ich existiere in diesem Augenblick“ ist ein guter Kandidat für eine sichere Proposition.

Aus der Umkehrung dieser sicheren Propositionen ergibt sich, dass auch unmögliche Propositionen existent sind: "Wenn es regnet, dann regnet es nicht", ist ein Beispiel für eine unmögliche Proposition. Oder: "Es regnet und es regnet nicht", "Der nächste Wurf bringt eine 0" und "mich gibt es gegenwärtig nicht".

Aus all diesen Beispielen lässt sich Folgendes erkennen: Propositionen mit der Wahrscheinlichkeit 0 sind zwingend falsch und Propositionen mit der Wahrscheinlichkeit 1 sind zwingend wahr. Der umgekehrte Zusammenhang besteht indes nicht: Nur weil sich eine Proposition als wahr oder falsch herausstellt, kann man deshalb noch nicht rückschließen, dass ihre Wahrscheinlichkeit 1 oder 0 beträgt. Ich heiße Johannes, das ist wahr, aber die Wahrscheinlichkeit hierfür ist ungleich 1.

2.1.3. Drittes Axiom

Das dritte Axiom ("Additions-Axiom") kennen wir noch nicht:

(3) P(a1 v a2 v …) = P(a1) + P(a2) …, falls a1, a2 … paarweise disjunkt sind.

Die Wahrscheinlichkeit, dass eine von endlich oder abzählbar unendlich vielen, inkompatiblen Propositionen eintritt, ist gleich der Summe der Wahrscheinlichkeiten dieser Propositionen. Paarweise disjunkt bzw. inkompatibel zu sein heißt in unserem Fall also nicht mehr, als dass a1, a2… sich gegenseitig ausschließen. Diese Eigenschaft wird auch σ-Additivität genannt.

"v" ist das Disjunktionszeichen und bedeutet ausgelesen so viel wie "oder", und zumindest hier in einem ausschließenden Sinne. Folgerichtig ist unser "a1 v a2" (a1 oder a2) in nur zwei Fällen wahr: Wenn a1 wahr ist, aber nicht a2 und wenn nicht a1, aber a2 wahr ist. Der dritte Fall, dass a1 und a2 wahr sind, ist ausgeschlossen, da a1 und a2 sich gegenseitig ausschließen. Axiom (3) besagt nun, dass die Wahrscheinlichkeit, dass eine von den beiden (oder von 3, 4, 5..) Propositionen zutreffen, genauso hoch ist wie die Summe der Wahrscheinlichkeiten der beiden (oder der 3, 4, 5…) Propositionen.

Die Bedeutung dieses Axioms wollen wir uns an einem Würfel-Beispiel verdeutlichen:

P(Der nächste Wurf ergibt eine 4, 5 oder 6)
= P(Der nächste Wurf ergibt eine 4) + P(Der nächste Wurf ergibt eine 5) + P(Der nächste Wurf ergibt eine 6)
= 1/6 + 1/6 + 1/6 = 1/2.

Das waren die drei grundlegenden Axiome der Wahrscheinlichkeitstheorie. Auf diese Axiome lassen sich alle Sätze der Wahrscheinlichkeitstheorie zurückführen. Oder andersherum ausgedrückt: Die drei von Kolmogorow definierten Axiome (und die Gesetze der Mengenlehre) ermöglichen es uns, alle weiteren Sätze der Wahrscheinlichkeitstheorie aus ihnen abzuleiten.

Nun können zwar alle Sätze der Wahrscheinlichkeitstheorie aus nur drei Axiomen abgeleitet werden, herleiten lassen sich diese Axiome innerhalb der Wahrscheinlichkeitstheorie indes aber nicht. Das haben Axiome nämlich so an sich, sie ergeben sich nicht aus anderen den Sätzen (desselben Systems), sondern werden zu Beginn festgelegt, um überhaupt erst ein vernünftiges System entwerfen zu können. Jetzt kann man natürlich nicht hingehen und sagen "Das und das sind die Axiome und Basta", das wäre beliebig und so auch das System, das aus jenen Axiomen erwächst. Gute Axiome müssen vielmehr intuitiv einleuchten, sie müssen plausibel sein. Das sind die Axiome (1)-(3) und so auch das von ihnen begründete System – die Wahrscheinlichkeitstheorie. 

2.2. Theoreme

2.2.1. Erstes Theorem

Weiter wollen wir uns einigen Theoremen aus der W. widmen, die sich aus den vorhergegangenen Axiomen folgern lassen. Für das nachstehende Theorem gehen wir davon aus, dass jede Proposition entweder wahr oder falsch ist. Es gibt kein "Zwischending". Gemäß "(2) P(T) = 1" muss also gelten:

(A) P(p v ¬p) = 1.

"¬" ist das Negationszeichen und nach unserer oben getroffenen Annahme ist "¬p" genau dann wahr, wenn "p" falsch ist und genau dann falsch, wenn "p" wahr ist. Daraus ergibt sich, dass (A) eine Tautologie ("Entweder die Straße ist nass, oder sie ist nicht nass") ist. Umgeformt ergibt sich aus (A) das folgende Theorem:

(4) P(p) = 1-P(¬p).

Die Wahrscheinlichkeit, dass p, ist gleich die Differenz von 1 minus p. Es ist klar, dass dieser Satz nur richtig sein kann, wenn "p" und "¬p" die einzigen Möglichkeiten darstellen und es bspw. keine nur "angefeuchtete", d.h. weder nasse noch nicht-nasse Straßen geben kann. Die Gültigkeit dieses Theorems lässt sich dann wieder ganz einfach an einem Würfelbeispiel illustrieren: P(Der nächste Wurf ergibt eine 4) = 1 – P(Der nächste Wurf ergibt keine 4). Nachdem man die entsprechenden Werte eingesetzt hat, liest man die folgende mathematische Wahrscheit: 1/6 = 1 – (5x1/6).

2.2.2. Zweites Theorem

Das Gegenteil von Tautologien wie "(A) p v ¬p" sind Widersprüche bzw. Kontradiktionen:

(B) P(p ¬p) = 0.

"" ist das Konjunktionszeichen (ausgelesen: "und") und gemäß unserer Prämisse, dass jede Proposition nur entweder wahr oder falsch sein kann, beträgt die Wahrscheinlichkeit für (B) gleich 0. Denn niemals kann etwas zugleich wahr und falsch sein. Daraus ergibt sich, dass (B) eine Kontradiktion ("Die Straße ist nass und sie ist nicht nass") ist. Ziehen wir nun "(2) P(T) = 1" und "(4) P(p) = 1-P(¬p)" zusammen, so gilt:

(2) sagt uns:
P(T) = P(p v
¬p) = 1.
Und (4) und (B), dass:
P(K) = 1 - P(T)
(Kontraktionen sind die Negationen von Tautologien)
ausgerechnet:

(5) P(K) = 0,

Die Wahrscheinlichkeit der Proposition, dass etwas sowohl eintritt, als auch nicht eintritt (bzw. für eine widersprüchliche Proposition) beträgt 0. Die Proposition K steht dabei für bzw. ist eine Kontraktion. Was für eine Kontraktion bzw. eine Negation einer logischen Tautologie gilt, gilt auch für alle anderen Negationen von Propositionen mit der Wahrscheinlichkeit = 1.

2.2.3. Drittes Theorem

Ein drittes Theorem geht so:

(6) P(p) ≤ P(q), falls "p" "q" impliziert.

Die Wahrscheinlichkeit für das Ereignis p ist höchstens die Wahrscheinlichkeit für das Ereignis q, gegeben Ereignis p beinhaltet das Ereignis q. Man spricht von einer logischen Implikation, gdw. ein Konditional aus logischen Gründen wahr gemacht wird. So ein Konditional hat die Form "wenn p, dann q" bzw. "p à q" und drückt aus, dass immer wenn p wahr ist, automatisch auch q wahr ist.

Eine Beispiel für eine logische Implikation ist: (I) Entweder der Gärtner (q) oder der Sohn ist der Mörder (p). (II) Der Sohn ist nicht der Mörder (¬p). (III) Also ist der Gärtner der Mörder (à q).

Nun verstehen wir, was Theorem (6) besagt, sein Beweis aus (1)-(3) steht aber noch aus. Das wollen wir jetzt nachholen. Zunächst gilt, wenn "p" "q" logisch impliziert, dann ist q eine sichere Proposition gemäß (2), immer wenn p. Das lässt sich ausschreiben:

P(p à q) = 1.

Ob andersherum "q" auch "p" logisch impliziert, wird dabei offen gelassen. Dementsprechend können wir über das umgekehrte Konditional auch nur sagen, dass:

P(q à p) ≤ 1.

Erinnern wir uns, was wir über die Wahrheitsbedingungen von "v" und "à" gelernt haben, so können wir "p à q" durch "(¬p) v (q)" bzw. "q à p" durch (¬q) v p" ersetzen. Und sommit ist der obige Ausdruck äquivalent zu:

P ((¬p) v q) = 1,

respektive,
P ((¬q) v p)
≤ 1.

Mit anderen Worten:

P ((¬q) v p) ≤ P ((¬p) v q).

Weiterhin wissen wir, dass sich "¬p" und "q" bzw. "¬q" und "p" wechselseitig ausschließen, schließlich impliziert "p" ja "q". Entsprechend Axiom (3) dürfen wir zu Folgendem übergehen:

P(¬q) + P(p) ≤ P(¬p) + P(q).

Und (4) erlaubt uns zusätzlich die Umformung in:

1 – P(q) + P(p) ≤ 1-P(p) + P(q),

was letztendlich das anfangs angebrachte Theorem (6) bestätigt:

(6) P(p) P(q), falls "p" "q" impliziert.

2.2.4. Viertes Theorem

Es ist kein großer Schritt mehr von (6) auf:

(7) P(p) = P(q), falls "p" und "q" logisch äquivalent sind.

Die Wahrscheinlichkeiten zweier Propositionen sind gleich hoch, wenn sie logisch äquivalent sind. Eine logische Äquivalenz zwischen zwei Propositionen besteht genau dann, wenn jede der beiden Propositionen die jeweils andere impliziert. Es kann also nicht "p", ohne dass "q" und nicht "q", ohne dass "p". Ist dies bei "p" und "q" der Fall, so gilt laut (6) sowohl:

P(p)  P(q),

als auch

P(q) ≤ P(p).

Daraus ergibt sich, wie leicht zu sehen ist, (7).

2.2.5. Fünftes Theorem

Axiom (3) steht ja unter der Prämisse, dass "p" und "q" einander ausschließen müssen. Es gibt aber auch einen allgemeineren Satz, der nicht auf diesen speziellen Fall beschränkt ist und ausnahmslos für alle "p" und "q" gilt. Irrelevant, ob sie sich widersprechen oder nicht. Er lautet:

(8) P(p v q) = P(p) + P(q) - P(p q).

Die Wahrscheinlichkeiten der Propositionen, dass erstens "p" oder "q" - und dass zweitens die Wahrscheinlichkeit von "p" und dann noch der Wahrscheinlichkeit von "q", minus der Wahrscheinlichkeit, dass "p" und q,- sind ebenbürtig. "" ist dabei das Konjunktionszeichen(ausgelesen: "und"), wir haben es bereits unter (B) kennengelernt. Waren Propositionen der Form P(p v q) noch stets wahr, sobald mindestens einer der beiden wahr ist, so entspricht eine Proposition à la P (p q) nur der Wahrheit, wenn "p" und "q" beide wahr sind.

(8) ist kein Wunder, wenn man sich vor Augen führt, was das Theorem aussagen will. Die Disjunktion am Anfang "p v q" ist in drei möglichen Fällen wahr:

(a) wenn "p", aber nicht "q" wahr ist,
(b) wenn "q", aber nicht "p" wahr ist und
(c) wenn sowohl "p" als auch "q" wahr sind.

Es bedarf nicht mehr als ein Blick auf Axiom (3), um Folgendes zu sehen: Zieht man jetzt von der Wahrscheinlichkeit von "p", was der Wahrscheinlichkeit von "(p ¬q) v (p  q)" bzw. den beiden Fällen (a) und (c) entspricht, die Wahrscheinlichkeit des Falles (c) ab:

(X) P(p) – P(p q),

so bleibt die Wahrscheinlichkeit des Falles (a) über. Die Wahrscheinlichkeiten der anderen beiden Fälle ergeben addiert hingegen nichts anders als die Wahrscheinlichkeit von "q". Legt man diese beiden Erkenntnisse in Reihe, so gelangt man zu der Wahrscheinlichkeit aller drei Fälle (a) bis (c):

P(p) – P(p q) + P(q)

Das entspricht dem oben stehenden Fall (X) plus der Wahrscheinlichkeit von (a). Und gleichzeitig dem, was unter (8) nach dem Gleichheitszeichen steht. Die Wahrscheinlichkeit der Fälle (a) – (c) ist nicht mehr als die Wahrscheinlichkeit der Disjunktion "p v q", die vor dem Gleichheitszeichen zu lesen ist. Damit ist die Gültigkeit von (8) bewiesen. Locker formuliert muss man vermeiden, dass der Fall (c) doppelt zählt und daher die Wahrscheinlichkeiten von "p" und von "q" abziehen.

Immer noch zu kompliziert? Stellen Sie sich zur Veranschaulichung ein stinknormales Kartenspiel mit 52 Karten vor. Wie hoch ist hier die Wahrscheinlichkeit, dass man aus einem vollständigen Stapel eine rote Karte oder ein Ass zieht? Nun, es sind 26 rote Karten und 4 Asse im Spiel. Also liegt die Wahrscheinlichkeit, mit der eine rote Karte gezogen wird, bei 26/52 (bzw. 1/2) und die Wahrscheinlichkeit für ein Ass bei 4/52 (bzw. 1/13). Weil genau zwei rote Asse im Spiel sind, ist die Wahrscheinlichkeit ein rotes Ass zu ziehen, 2/52. Wir müssen jetzt aber aufpassen und dürfen die Möglichkeit, ein rotes Ass zu ziehen, nicht doppelt gewichten! Weder bei der Möglichkeit, eine rote Karte zu ziehen, noch bei der ein Ass zu bekommen darf dies vorkommen. Um diesen Fehler zu vermeiden, müssen wir die entsprechende Wahrscheinlichkeiten von der Summe der beiden anderen Wahrscheinlichkeiten (P(rote Karte), P(Ass)) abziehen: 26/52 + 4/52 - 2/52 = 28/52 = 7/13.


Nichts anderes besagt (8).

2.2.6. Sechstes Theorem: Bedingte Wahrscheinlichkeit

Kein Aufsatz über die Wahrscheinlichkeitstheorie ohne auf den Begriff der bedingten Wahrscheinlichkeit (auch: konditionale Wahrscheinlichkeit) zu Sprechen zu kommen. Eine bedingte Wahrscheinlichkeit gibt die Wahrscheinlichkeit der Proposition A an, vorausgesetzt die Proposition B ist bereits eingetreten.

Bislang haben wir es nur mit "unbedingten" Wahrscheinlichkeiten zu tun gehabt: Mit der Wahrscheinlichkeit, dass es regnet, dass eine oder dass zwei Aussagen wahr sind, dass ich eine Sechs würfle oder eine rote Karte ziehe usw. Dabei haben wir auch schon die Schreibform für unbedingte Wahrscheinlichkeiten kennengelernt: "P(p)", wobei "P" für das Englische probability, zu Deutsch: Wahrscheinlichkeit, und "p" für eine einfache Proposition oder eine beliebig komplexe Verknüpfung von Propositionen steht.

Was ist jetzt eine bedingte Wahrscheinlichkeit? Zum Beispiel die Wahrscheinlichkeit, dass die Straße nass wird, vorausgesetzt es regnet. Formal ausgedrückt sind bedingte Wahrscheinlichkeiten also die Wahrscheinlichkeit, dass p, unter der Voraussetzung dass q. Noch formaler drückt man dies so aus:

"P(p/q)".

Kommen wir auf unser Straßenbeispiel zurück. Es ist für die allermeisten Straßen wahr, dass die unbedingte Wahrscheinlichkeit P(die Straße wird nass), geringer ist als die bedingte Wahrscheinlichkeit P(die Straße wird nass, gegeben, dass es regnet). Es kann aber auch genauso gut sein, dass die bedingte Wahrscheinlichkeit unwahrscheinlicher ist als die unbedingte. Die Wahrscheinlichkeit P(die Straße wird nass) ist i.d.R. beispielsweise höher, als die Wahrscheinlichkeit P(die Straße wird nass, gegeben es herrscht Trockenzeit).

Oder, um unser Kartenbeispiel zu nehmen: Die unbedingte Wahrscheinlichkeit, aus einem Kartendeck ein Pik Ass zu ziehen, also eine bestimmte Karte aus 52 Karten, beträgt logischerweise 1/52. Dahingegen beträgt die bedingte Wahrscheinlichkeit, ein Ass zu ziehen, gegeben man zieht ein Herz, 1/13.

Wie lässt sich eine bedingte Wahrscheinlichkeit bestimmen? Glücklicherweise gibt es auch hierzu ein Satz, der manchmal auch als Axiom bzw. Definition betrachtet wird:

(9) P(p/q) = P(p q)/P(q), falls P(q) > 0*
*schließlich ist eine Division, mit einem Nenner = 0, nicht definiert.

Die bedingte Wahrscheinlichkeit, dass "p", vorausgesetzt dass "q" ist gleich die Wahrscheinlichkeit, dass "q" und "p" zugleich wahr sind (Fall I), geteilt durch die die Wahrscheinlichkeit, dass "q" wahr ist, ganz gleich ob "p" wahr ist oder nicht (Fall II). Dabei hängt die bedingte Wahrscheinlichkeit P(p / q) von dem Verhältnis der Wahrscheinlichkeit von Fall I gegenüber der Wahrscheinlichkeit von Fall II ab. Sobald die Wahrscheinlichkeit von Fall I im Verhältnis zur Wahrscheinlichkeit von Fall II wächst (oder fällt), wächst (oder fällt) auch die entsprechende bedingte Wahrscheinlichkeit P(p / q).

Am Kartenbeispiel: Die bedingte Wahrscheinlichkeit, ein Ass zu ziehen, gegeben dass man ein Herz zieht, ist gleich der (unbedingten) Wahrscheinlichkeit ein Pik Ass zu ziehen, geteilt durch die (unbedingte) Wahrscheinlichkeit, ein Herz zu ziehen – nämlich 1/13.

Bei all dem sollte man übrigens nicht die (bedingte) konditionale Wahrscheinlichkeit P(p / q) und die (unbedingte) Wahrscheinlichkeit eines Konditionals P(q à p) durcheinander bringen. Das sind zweierlei paar Schuhe, wie der Volksmund so schön sagt. Gemäß (9) beträgt die konditionale Wahrscheinlichkeit P(p / q) = P(p ∧ 1) / P(q). Wohingegen die Wahrscheinlichkeit eines Konditionals "q à p" gleich P((¬q) v p) ist. Und es wäre falsch, diese beiden Wahrscheinlichkeitstypen zu vertauschen, als hätten sie immer denselben Wert. Zum Beispiel ist die konditionale Wahrscheinlichkeit, ein Kreuz zu ziehen, gegeben, dass man eine schwarze Karte zieht, ½. Aber die Wahrscheinlichkeit des Konditionals "Wenn man eine schwarze Karte zieht, dann zieht man ein Kreuz" bzw. der Disjunktion "Man zieht ein Kreuz und keine schwarze Karte" gemäß (3) ½ plus ¼, also ¾ und ungleich ½.

Eigentlich ist es auch klar, dass P(p/q) nicht immer gleich P(q/p) sein kann. Die erste der beiden Wahrscheinlichkeiten beträgt entsprechend (9):

P(p  q) / P(q),

wohingegen Wahrscheinlichkeit Nummer Zwei:

P(p / q) / P(p)

beträgt. Die konditionale Wahrscheinlichkeit und die Wahrscheinlichkeit eines Konditionals sind sich sonach dann und nur dann gleich, wenn: P(p) = P(q). Was sicherlich nur in Ausnahmefällen der Fall ist. So liegt bspw. die Wahrscheinlichkeit, ein Pik zu ziehen, gegeben, dass man ein Ass zieht, bei ¼. Die andere Wahrscheinlichkeit, ein Ass zu ziehen, gegeben, dass man ein Herz zieht, jedoch nur bei 1/13. Und auch die Wahrscheinlichkeit, dass die Straße nass wird, gegeben, dass es regnet, ist in den meisten der vorstellbaren Szenarien verschieden von der Wahrscheinlichkeit, dass es regnet, gegeben, dass die Straße nass wird.

Man benutzt die Verwechslung von P(p / q) und P(q / p) auch gerne in der Werbung. Damit soll ein Produkt attraktiver gemacht werden, als es in Wirklichkeit ist: Ein Unternehmen, dass sich auf Abnehmkurse spezialisiert hat, schaltet zwischen "The Biggest Loser" eine Anzeige. Darin wirbt sie damit, dass 70% derjenigen, die im Laufe der Show mindestens 20 Kilogramm abgenommen haben, in der Zeit den Abnehmkurs des Unternehmens absolviert haben. Klingt vielversprechend, was aber eigentlich viel mehr interessieren sollte, ist, wie viel Prozent von denen, die am Abnehmkurs teilgenommen haben, am Ende auch mindestens 20 Kilogramm, oder überhaupt etwas abgenommen haben. Möglicherweise ist die Zahl mit den 70% ja richtig, jedoch haben ganze 98% aller Teilnehmer, die den Kurs belegt haben, sogar noch zugenommen haben. Das würde heißen, dass das Unternehmen einfach nahezu alle Kandidaten dazu gebracht hatte, an ihrem Abnehmkurs mitzumachen und am Ende nur die herausgepickt hat, die wirklich abgenommen hätten. Herauskommen ist dann sicher eine verführende Werbung. In Wahrheit ist der von ihnen angebotene Kurs aber höchst ineffizient, wenn nicht gar kontraproduktiv.

2.2.7. Siebtes Theorem: Multiplikationssatz

Ein weiteres Theorem ergibt sich direkt aus der Umformung von (9). Sofern P(p) > 0 und P(q) > 0, gilt Für alle "p" und "q":

(10) P(p q) = P(p / q) x P(q).

Und weil "p & q" logisch äquivalent zu "q & p" ist, gilt auch:

(10') P(p  q) = P(q / p) x P(p).

(10) bzw. (10') wird auch Multiplikationssatz oder Produktregel genannt. Er besagt, dass die Wahrscheinlichkeit dafür, dass sowohl "p" als auch "q" eintritt, gleich dem Produkt aus der bedingten Wahrscheinlichkeit und der Wahrscheinlichkeit für die Bedingung ist. Man könnte (10) bzw. (10') auch nochmal gleichsetzen und natürlich auch als Axiom betrachten und dann (9) daraus ableiten. Es ist im Allgemeinen sehr hilfreich, die Wahrscheinlichkeiten von Konjunktionen errechnen zu können. Weil sich (10) und (9) so ähnlich sind, kann man sich den Gehalt von (10) bzw. (10') gut an den für (9) angeführten Beispielen plausibel machen.

Nachher werden wir für den speziellen Fall, dass zwei Propositionen probabilistisch unabhängig voneinander sind, auch einen speziellen Multiplikationssatz (11) herleiten. Bis dahin wollen wir uns aber noch vergegenwärtigen, was mit "probabilistischer Unabhängigkeit" überhaupt gemeint ist. Auch das ist wieder einfacher, als es sich zunächst anhört: Eine Proposition ist probabilistisch unabhängig von einer Proposition q, gdw. P(p) nicht von P(q) abhängt. Formaler lässt sich das wieder so definieren:

Eine Proposition p ist genau dann probabilistisch unabhängig von einer Proposition q, wenn

P(p / q) = P(p), vorausgesetzt P(q) > 0, 

oder wenn:

P(q) = 0.

Was zur Folge hat, dass die Wahrscheinlichkeit einer Proposition "p" auch dann probabilistisch unabhängig von "q" ist, wenn "q" mit Sicherheit falsch ist - bspw. weil es sich bei "q" um eine Kontradiktion handelt.

Bei unserem Würfelbeispiel ist ob ich eine Eins würfele probabilistisch unabhängig davon, ob ich mit einem anderen, separaten Würfel eine Sechs oder irgendeine andere Zahl würfele. Die Wahrscheinlichkeit liegt jedes Mal aufs Neue wieder bei 1/6. Ob ich aber aus einem Kartendeck ein Pik ziehe, ist nicht probabilistisch unabhängig davon, ob ich eine rote Karte ziehe oder bereits eine Karte vom Deck genommen habe.

Prinzipiell kann eine probabilistische Abhängigkeit zwischen "p" und "q" zwei Formen annehmen: Die Wahrscheinlichkeit bzgl. "p" kann steigen, sobald "q" gegeben ist – dann ist: (p / q) > P(p). Und die Wahrscheinlichkeit bzgl. "p" kann fallen, sobald "q" gegeben ist – dann ist: P(p / q) < P(q). Die Wahrscheinlichkeit abzunehmen, gegeben, man macht eine passende Diät, ist höher als die unbedingte Wahrscheinlichkeit, ein paar Pfund zu verlieren. Aber die Wahrscheinlichkeit ein paar Pfund zu verlieren, gegeben, man isst künftig nur noch bei McDonald's, ist geringer als die unbedingte Wahrscheinlichkeit, abzunehmen.

Probabilistische (Un-)Abhängigkeit ist weder mit logischer noch mit kausaler Abhängigkeit zu verwechseln! Eine logische Unabhängigkeit von "p" gegenüber "q" besteht darin, dass weder "p" logisch aus "q" folgt, noch andersherum. Eine kausale Abhängigkeit zwischen "p" und "q" existiert, wenn die beiden Propositionen miteinander in einer Kausalbeziehung stehen (z.B. wenn das Eintreten von "p" (ich stoße mir das Knie) das Eintreten von "q" (mir schmerzt das Knie) verursacht). "p" und "q" können sehr wohl logisch unabhängig, aber probabilistisch abhängig voneinander sein: Rauchen oder der Verzehr bestimmter Nahrungsmittel und Lungen- oder andere Krebsarten sind bspw. probabilistisch, aber nicht logisch abhängig voneinander. Gleichsam können "p" und "q" kausal unabhängig, aber probabilistisch miteinander korreliert sein. Fieber z.B. mag sowohl Schweißausbrüche als auch wirres Gerede hervorrufen, aber auch wenn beide Symptome statistisch miteinander zusammenhängen (viele Schwitzende reden wirr und umgekehrt), so ist das Schwitzen weder eine Ursache des wirren Redens noch das wirre Reden eine Ursache des Schwitzens.

2.2.8. Achtes Theorem: Spezieller Multiplikationssatz

Mit Verständnis des Begriffes der probabilistischen Unabhängigkeit können wir nun den schon erwähnten speziellen Multiplikationssatz (bzw. das spezielle Multiplikationstheorem) deduzieren:

(11) P(p  q) = P(p) x P(q), falls "p" und "q" probabilistisch unabhängig voneinander sind.

Die Wahrscheinlichkeit, dass zwei Propositionen, die probabilistisch nicht voneinander abhängen, eintreten, ist gleich dem Produkt der Einzelpropositionen. Wenn z.B. die Wahrscheinlichkeit, dass morgen die Straßen nass sind, 1/5 beträgt, und wenn weiter davon unabhängig die Wahrscheinlichkeit, dass jemand aus Bayern den nächsten Lottojackpot knackt, 1/10 beträgt, dann beträgt die Wahrscheinlichkeit, dass sowohl morgen die Straßen nass sein werden als auch jemand aus Bayern den nächsten Lottojackpot knackt, 1/50. Oder wenn bei einem idealen Würfel die Wahrscheinlichkeit eine bestimmte Zahl zu würfeln per definitonem 1/6 beträgt, so beträgt die Wahrscheinlichkeit mit zwei idealen Würfeln zwei bestimmte Zahlen zu erzielen 1/6 x 1/6 = 1/36.

Der spezielle Multiplikationssatz ist uns von unseren Alltagsrechnungen recht vertraut. Weniger vertraut ist uns eine nicht uninteressante Implikation des Beschriebenen: Die Wahrscheinlichkeit einer gesamten Konjunktion kann niemals größer sein als die Wahrscheinlichkeiten der Glieder der Konjunktion. In manchen Fällen ist dies unmittelbar einleuchtend, die Wahrscheinlichkeit etwa, beim ersten und beim zweiten Wurf eine Fünf zu würfeln ist immer geringer als die Wahrscheinlichkeit beim ersten oder beim zweiten Mal eine Fünf zu würfeln. Bei anderen Fällen kommt oben besagte Erkenntnis aber auch ungemein überraschender. Besonders interessant ist hierbei, wenn sowohl P(p) als auch P(q) als auch die entsprechenden bedingten Wahrscheinlichkeiten (P(q / p) bzw. P(p / q)) größer als 0 und kleiner als 1 sind. Für diesen Fall ist es P(p q) durch (10) untersagt, größer zu sein als P(p). Folglich kann die Wahrscheinlichkeit der der Konjunktion nicht größer sein als die Wahrscheinlichkeit der Konjuktionsglieder. Für gewöhnlich ist die Wahrscheinlichkeit der Konjunktion ja aber auch geringer als die Wahrscheinlichkeit ihrer einzelnen Konjunktionsglieder.

Wir sehen gerne probabilistische Abhängigkeiten, wo in Wahrheit gar keine vorliegen. Betrachten wir ein ganz einfaches Münzbeispiel: Für das Werfen einer idealen Münze gilt, dass die Wahrscheinlichkeit von "Kopf" genau so groß ist wie die Wahrscheinlichkeit von "Zahl", nämlich je 1/2. Es gilt somit für jeden einzelnen Wurf: P(Kopf) = P(Zahl) = 1/2. Trotz dieser Gleichgewichtung der Wahrscheinlichkeiten kann es ohne weiteres mal vorkommen, dass 11 aufeinanderfolgende Münzwürfe jedes Mal "Kopf" ergeben. Die Wahrscheinlichkeit hierfür beträgt wohlgemerkt jedoch nur 1/2^(10), also 1/1024. Gefühlsmäßig wollen wir alle glauben, dass die Wahrscheinlichkeit einmal "Zahl" zu werfen desto mehr ansteigt, je häufiger nacheinander "Kopf" kam. Dementsprechend haben wir das Gefühl, dass die Wahrscheinlichkeit für "Zahl" nach elfmal "Kopf" höher ist als am Anfang bzw. als 1/2: "Jetzt muss langsam mal Zahl kommen!"


Diese Auffassung hat den Namen "Spieler-Fehlschluss" bekommen und ist, wie der Name schon andeutet, falschDie Wahrscheinlichkeit eine "Zahl" zu werfen ist auch nach elf oder einer Million "Zahl"-Würfen immer noch 1/2, d.h. der einzelne Wurf ist probabilistisch unabhängig von den vorherigen und überhaupt allen anderen Würfen. Die immer gleichbleibende Wahrscheinlichkeit beim zwölften Mal wieder eine "Zahl" zu werfen darf derweils auf keinen Fall mit der Wahrscheinlichkeit, elfmal hintereinander "Zahl" zu werfen, verwechselt werden – diese beträgt nämlich tatsächlich nur 1/1024 und sinkt mit der Höhe der Wurfanzahl stetig. Man darf, mit anderen Worten, die Wahrscheinlichkeit eines einzelnen Ereignisses nicht mit der Wahrscheinlichkeit einer Serie von solchen einzelnen Ereignissen verwechseln. Der Spieler-Fehlschluss wird übrigens oft von Glücksspielern begangen, deshalb der Name.

2.2.9. Neuntes Theorem: Satz von Bayes

Der Satz von Bayes (auch: Formel von Bayes, Bayes-Theorem) ist der letzte Satz aus der Wahrscheinlichkeitstheorie, den ich Ihnen vorstellen möchte und eigentlich trivial:

(12) P(p / q) = P(p) x P(q / p) / P(q), wenn P(q) > 0.

(12) erschließt sich direkt aus (9). Was dieser Satz genau besagt, wie mit ihm gerechnet wird und in welchen Fällen er zu tragen kommt, ist ein wenig komplizierter und wird im zugehörigen Blogeintrag ausführlich erörtert:

Satz von Bayes

3. Verweise

Meteorologie: Die Wahrscheinlichkeitstheorie lehrt uns nur, wie man mit Wahrscheinlichkeiten rechnet. Was eine Wahrscheinlichkeit ist und wie man sie bestimmt, lernen wir von ihr nicht. Die erste dieser beiden "offenen Fragen" gehört in den kontrovers diskutierten Bereich der Metaphysik und auch die zweite Hälfte der Doppelfrage fällt u.U. sehr kompliziert aus: Wie bestimmt man eine Wahrscheinlichkeit? Nicht jeder mögliche Fall ist so einfach gelagert, wie der mit einem idealen Würfel und den per Definition festgelegten Wahrscheinlichkeiten von je 1/6. Manchmal lassen sich Wahrscheinlichkeiten auch nur grob angeben und schon das kann dann hochkompliziert sein. Ein Meteorologe bspw. mag die Wahrscheinlichkeit von Regen in der Innenstadt zwischen 0,7 und 0,8 eingrenzen können. Aber es wäre sicherlich überambitioniert von ihm, die Wahrscheinlichkeit auf einen exakteren Wert wie z.B. 0,72945 festlegen zu wollen. Weil Wetter nun mal ein chaotisches System ist und gar die Frage im Raum steht, inwiefern die Proposition, dass es in der Innenstadt regnet, überhaupt einen exakten Wert zukommt. Nun könnte man einwenden, dass chaotische Systeme, wie das Wetter, zwar nicht praktisch, zumindest aber theoretisch vorherberechenbar sind und ihnen deshalb schon eine feste, wenngleich auch nicht bestimmbare Wahrscheinlichkeit zukommen muss. Ok, aber selbst dann ist es noch schwer die Wahrscheinlichkeit eines so vagen Begriffes wie dem des Wetters zu bestimmen: Was gilt denn als Regen? Sicher gibt es klare Fälle von Regen und klare Fälle von "Nicht-Regen", aber auch Fälle wie "leichtes Tröpfeln", in denen es unklar ist, ob es sich um Regen handelt oder nicht. Die Wahrscheinlichkeit von Regen oder Nicht-Regen kann man also, solange die möglichen Ereignisse nicht ausdifferenziert werden, nur in Intervallen angeben. In anderen Fällen scheint eine Wahrscheinlichkeiten sogar völlig unbestimmbar und nicht mal in Intervallen angebbar und es ist fraglich, ob es sich dann überhaupt noch um (quantitativ feststellbare) Wahrscheinlichkeiten handelt: Wie groß ist z.B. die Wahrscheinlichkeit dafür, dass in 500 Jahren in den USA eine Inflation > 2 herrscht und der Nachname des US-Präsidenten mit "S" beginnt?

Notwendige und Hinreichende Bedingungen: Wenn A eine hinreichende Bedingung für B und A bereits eingetreten ist, dann liegt die Wahrscheinlichkeit für B, zumindest rein formal, bei 1. Es handelt sich somit bei B, sofern A, um ein sicheres Ereignis.

Wahrheit: Unter "2.1.2." habe ich behauptet, dass wahre Propositionen nicht zwingend die Wahrscheinlichkeit 1 und falsche Propositionen nicht zwingend die Wahrscheinlichkeit 0 haben müssen. Nehmen wir bspw. an, ein Mann macht eine Prognose über den Ausgang des nächsten Würfelwurfs: Der nächste Wurf wird eine Drei bringen. Wie wir gelernt haben, kommt dieser Propositionen die Wahrscheinlichkeit 1/6 zu. Nehmen wir weiterhin an, der nächste Wurf bringe tatsächlich eine Drei, dass die Prognose des Mannes also wahr ist. Wir haben es also mit einer wahren Proposition mit der Wahrscheinlichkeit 1/6 zu tun. Also besitzt nicht jede wahre Proposition die Wahrscheinlichkeit 1. Gegen diese Auffassung könnte man einwenden, dass die Prognose zu dem Zeitpunkt, an dem sie getroffen wurde, weder wahr noch falsch war, weil sie die ausstehende Zukunft betraf und die "Würfel noch nicht gefallen waren". Laut dieser Interpretation wäre die Prognose vor dem von ihr beschriebenen Ereignis noch gar nicht wahr und mit einer Wahrscheinlichkeit von 1/6 bedacht und danach wäre sie zwar wahr, da bereits eingetreten, aber auch ein sicheres Ereignis mit der Wahrscheinlichkeit 1. Klingt zwar bestechend, diese alternative Interpretation, ist aber ebenso mit Fragen und Problemen versehen.

Stand: 2015

Kommentare: 4
  • #4

    WissensWert (Dienstag, 06 Juni 2017 23:00)

    Hey!

    Eine bedingte Wahrscheinlichkeit P(A/B) (lies: die Wahrscheinlichkeit von A gegeben, dass B) ist die Wahrscheinlichkeit, dass ein Ereignis A eintritt unter der Voraussetzung, dass das Ereignis B schon eingetreten ist.

    Beispiel: Die bedingte Wahrscheinlichkeit P(E/E), dass ich erfolgreich sein werde, wenn ich ehrgeizig bin, ist höher als die bedingte Wahrscheinlichkeit P(E/F), dass ich erfolgreich sein werde, wenn ich faul bin.

    Ich hoffe, das hilft dir ein wenig weiter. Wenn nicht, einfach noch melden! :)

    Grüße, WissensWert aka Johannes

  • #3

    Besucher (Dienstag, 06 Juni 2017 22:52)

    wir hatten es in der vorlesung und es wurde gesagt es kann in der klausur drankommen deshalb wollte ich dich fragen was eine "bedingte Wahrscheinlichkeit" ist?

  • #2

    WissensWert (Freitag, 19 Mai 2017 03:55)

    https://de.wikibooks.org/wiki/Mathematik:_Wahrscheinlichkeitstheorie

  • #1

    Seelenlachen (Donnerstag, 10 September 2015 20:36)

    „Die maximale Anzahl von 200 Inhalten ist mit 200 auf dieser Unterseite erreicht.“

    Vermerk: http://www.sapereaudepls.de/was-darf-ich-hoffen/glaubenskritik/glaubensgrund/

    Ist es nicht ein unheimlicher Zufall, dass Gott genauso so sein soll, wie wir ihn uns auch wünschen würden: Er schenkt uns ein ewiges Leben, gibt unserem Leben einen Sinn, hat uns unendlich lieb, kann uns vor allem beschützen (Allmacht), hört uns immer zu und versteht uns, ... manchen verspricht er sogar noch ein paar Jungfrauen im Himmel.

    Aber dass in unserer Welt nichts auf solch einen Gott hindeutet: Es gibt unheimlich viel Elend (wo war der unendlich liebende und beschützende Gott beim Holocaust?), niemand antwortet dir
    unmissverständlich auf deine Fragen, wenn du betest, und das mit dem ewigen Leben und den Jungfrauen ist auch ganz geschickt eingefädelt: Wenn es ein großer Blöf ist, wird es niemand bemerken, weil er nach dem Tod rein Garnichts mehr bemerken wird, und jede Generation kann wieder von Neuen darauf reinfallen.

    Vielleicht gibt es doch einen Gott und er hat so viel Humor, dass er uns einen solch absurden Gottesglauben mit auf den Weg gegeben hat?


Impressum | Datenschutz | Sitemap
Es darf kein Inhalt dieser Seite weiterverbreitet werden, sofern nicht mein Einverständnis dafür vorliegt.