Vue d'ensemble
Les probabilités conditionnelles formalisent une idée intuitive mais piégeuse : « sachant
qu'un événement B s'est produit, quelle est la probabilité de A ? ». Elles ouvrent
la voie aux deux théorèmes les plus utilisés du chapitre — la formule des probabilités
totales et la formule de Bayes — et conduisent à la notion d'indépendance,
cœur du raisonnement probabiliste. Cette fiche regroupe les 5 théorèmes incontournables,
les 4 démonstrations à savoir refaire et les pièges (notamment la confusion
indépendance 2 à 2 vs mutuelle) qui font perdre des points en colle comme à l'écrit.
Au programme MPSI (officiel) — Probabilité conditionnelle d'un événement A
sachant B (avec P(B)>0). PB est une probabilité sur Ω. Formule des
probabilités composées. Système complet d'événements. Formule des probabilités totales. Formule
de Bayes. Indépendance de deux événements, indépendance mutuelle d'une famille d'événements.
Cadre univers fini.
Prérequis
- Espace probabilisé fini (Ω,P) : axiomes P(Ω)=1 et additivité finie
- Manipulation des événements : réunion A∪B, intersection A∩B, complémentaire A
- Système complet d'événements : partition (Bi) de Ω avec P(Bi)>0
🎯 Accompagnement Majorant
Tu confonds P(A∣B) et P(B∣A) une fois sur deux ? C'est le piège
n°1 du chapitre : il fait chuter 1 élève de MPSI sur 2 sur le test diagnostic médical et
les exos de Bayes. Nos mentors alumni X · Centrale · Mines remettent les fondations en
place en cours particuliers, avec arbres de probabilités et exos sur-mesure tirés de tes propres DS.
Trouver un mentor MPSI →
1. Définitions essentielles
Définition 1.1 — Probabilité conditionnelle
Soient A et B deux événements d'un espace probabilisé fini (Ω,P) tels que
P(B)>0. On appelle probabilité conditionnelle de A sachant B
le réel :
PB(A)=P(A∣B)=P(B)P(A∩B).
Les deux notations PB(A) et P(A∣B) sont rigoureusement équivalentes ; la première
met en avant le fait que PB est elle-même une probabilité (cf. Théorème 2.1).
⚠ Piège #1 du chapitre — confondre P(A∣B) et P(B∣A).
Ce sont deux quantités différentes, liées par la formule de Bayes mais
jamais égales en général. Exemple culte : test diagnostic. Si M = « être
malade » et T = « test positif », alors P(T∣M) est la sensibilité du test
(souvent élevée, ≈0,99) tandis que P(M∣T) est la valeur prédictive
positive (souvent bien plus faible quand la maladie est rare). Lis toujours la condition
après la barre : P(A∣B) = « A sachant B ».
Définition 1.2 — Système complet d'événements
Une famille finie (B1,B2,…,Bn) d'événements de Ω est un système
complet d'événements si elle forme une partition de Ω, c'est-à-dire :
- les Bi sont deux à deux incompatibles : ∀i=j, Bi∩Bj=∅,
- leur réunion couvre Ω : i=1⋃nBi=Ω.
On suppose en général que P(Bi)>0 pour tout i, afin que les conditionnements
PBi soient bien définis.
📝 Cas particulier ultra-classique. Pour tout événement B avec
0<P(B)<1, la famille (B,B) est un système complet d'événements. C'est
le cas d'usage le plus fréquent de la formule des probabilités totales en exo.
Définition 1.3 — Indépendance de deux événements
Deux événements A et B sont indépendants (pour la probabilité P) si :
P(A∩B)=P(A)⋅P(B).
Lorsque P(B)>0, cette condition équivaut à PB(A)=P(A) (cf. Proposition 4.1) :
savoir que B est réalisé ne modifie pas la probabilité de A.
Définition 1.4 — Indépendance mutuelle d'une famille
Une famille finie (A1,A2,…,An) d'événements est mutuellement
indépendante si pour toute sous-partie I⊂{1,2,…,n} non
vide, on a :
P(i∈I⋂Ai)=i∈I∏P(Ai).
Cette condition doit être vérifiée pour toutes les sous-intersections — pas seulement
pour l'intersection totale.
Définition 1.5 — Indépendance deux à deux
Une famille (A1,…,An) est indépendante deux à deux si pour tout
couple i=j, les événements Ai et Aj sont indépendants : P(Ai∩Aj)=P(Ai)⋅P(Aj).
⚠ Piège #2 — Indépendance 2 à 2 vs indépendance mutuelle.
L'indépendance mutuelle implique l'indépendance deux à deux (prends ∣I∣=2 dans la
définition), mais la réciproque est FAUSSE. Contre-exemple canonique (Bernstein) :
on lance deux pièces équilibrées, A = « 1re pile », B = « 2e pile »,
C = « les deux résultats sont identiques ». Les trois sont indépendants deux à deux mais
P(A∩B∩C)=1/4=P(A)P(B)P(C)=1/8. Quand un exo dit « les Ai sont
indépendants », c'est mutuellement — pas 2 à 2.
2. Théorèmes fondamentaux
2.1 — P_B est une probabilité sur Ω
Théorème 2.1 — P_B est une probabilité sur Ω
★ À savoir démontrer
Soit B un événement tel que P(B)>0. L'application
PB:P(Ω)→[0,1] définie par PB(A)=P(A∩B)/P(B) est une
probabilité sur Ω : elle vérifie PB(Ω)=1 et l'additivité
finie.
Démonstration (vérification des axiomes)
Soit B avec P(B)>0. On vérifie les axiomes d'une probabilité sur l'univers fini
Ω.
(i) Positivité et borne supérieure. Pour tout A⊂Ω,
P(A∩B)≥0 et P(B)>0, donc PB(A)≥0. De plus A∩B⊂B
donc P(A∩B)≤P(B), soit PB(A)≤1. Ainsi PB(A)∈[0,1].
(ii) Masse totale.
PB(Ω)=P(B)P(Ω∩B)=P(B)P(B)=1.
(iii) Additivité finie. Soient A1,A2 incompatibles
(A1∩A2=∅). Alors (A1∩B)∩(A2∩B)=(A1∩A2)∩B=∅∩B=∅, donc A1∩B et A2∩B sont incompatibles.
Par additivité de P :
PB(A1∪A2)=P(B)P((A1∪A2)∩B)=P(B)P((A1∩B)∪(A2∩B))=P(B)P(A1∩B)+P(A2∩B)=PB(A1)+PB(A2).
Par récurrence immédiate, on obtient l'additivité pour toute famille finie d'événements
deux à deux incompatibles. Donc PB est bien une probabilité sur Ω.
📝 Conséquence pratique. Comme PB est une probabilité, toutes les
règles connues pour P s'appliquent à PB : PB(A)=1−PB(A),
PB(A1∪A2)=PB(A1)+PB(A2)−PB(A1∩A2), etc. C'est un raccourci
précieux en exo.
2.2 — Formule des probabilités composées
Théorème 2.2 — Formule des probabilités composées (2 événements)
Soient A,B deux événements. Si P(B)>0, alors :
P(A∩B)=P(B)⋅PB(A).
Symétriquement, si P(A)>0, P(A∩B)=P(A)⋅PA(B). Les deux écritures sont
égales — c'est la clé de la formule de Bayes.
Théorème 2.3 — Formule des probabilités composées généralisée
Soient A1,A2,…,An des événements tels que
P(A1∩A2∩⋯∩An−1)>0. Alors :
P(A1∩A2∩⋯∩An)=P(A1)⋅PA1(A2)⋅PA1∩A2(A3)⋯PA1∩⋯∩An−1(An).
C'est la formule qui « descend » naturellement le long d'une branche d'arbre de probabilités.
💡 Exemple canonique — Tirages successifs sans remise.
Une urne contient 3 boules rouges et 2 noires. On tire 3 boules sans remise. Quelle est
la probabilité p de tirer rouge à chaque fois ? Notons Ri = « i-ième boule rouge ».
Par probabilités composées :
p=P(R1∩R2∩R3)=P(R1)⋅PR1(R2)⋅PR1∩R2(R3)=53⋅42⋅31=101.
Chaque conditionnement met à jour la composition de l'urne — c'est l'archétype où la formule
composée est indispensable.
2.3 — Formule des probabilités totales
Théorème 2.4 — Formule des probabilités totales
★ À savoir démontrer
Soit (B1,B2,…,Bn) un système complet d'événements avec P(Bi)>0 pour
tout i. Alors, pour tout événement A :
P(A)=i=1∑nP(A∩Bi)=i=1∑nP(Bi)⋅PBi(A).
Démonstration (partition + additivité)
Comme (Bi)1≤i≤n est un système complet d'événements,
i=1⋃nBi=Ω et les Bi sont deux à deux
incompatibles. On écrit alors :
A=A∩Ω=A∩(i=1⋃nBi)=i=1⋃n(A∩Bi).
Les événements (A∩Bi)1≤i≤n sont eux aussi deux à deux incompatibles :
si i=j, (A∩Bi)∩(A∩Bj)=A∩(Bi∩Bj)=A∩∅=∅. Par additivité finie de P :
P(A)=P(i=1⋃n(A∩Bi))=i=1∑nP(A∩Bi).
Enfin, pour chaque i, P(Bi)>0 permet d'écrire P(A∩Bi)=P(Bi)⋅PBi(A) par la formule des probabilités composées, d'où :
P(A)=i=1∑nP(Bi)⋅PBi(A).
📐 Méthode-type — Utiliser la formule des probabilités totales.
Le déclencheur pédagogique :
tu connais P(A) conditionnée à certaines situations
Bi, mais pas P(A) directement. Procédure :
- Identifier le système complet pertinent. Le plus souvent
(B,B), ou « Bi = i-ème urne tirée », « Bi = état initial », etc.
- Vérifier P(Bi)>0 pour chaque indice (sinon on conditionne par
l'impossible).
- Calculer chaque PBi(A) — c'est généralement direct car le
conditionnement fixe la situation.
- Sommer : P(A)=∑iP(Bi)⋅PBi(A).
L'arbre de probabilités (cf. §3) matérialise visuellement cette somme : chaque branche
contribue son produit, et on additionne toutes les branches menant à
A.
2.4 — Formule de Bayes
Théorème 2.5 — Formule de Bayes
★ À savoir démontrer
Soient A un événement avec P(A)>0 et (B1,B2,…,Bn) un système complet
d'événements avec P(Bi)>0 pour tout i. Alors, pour tout j∈{1,…,n} :
PA(Bj)=P(Bj∣A)=i=1∑nP(Bi)⋅PBi(A)P(Bj)⋅PBj(A).
Démonstration (symétrie des probabilités composées + dénominateur via PT)
On part de la double écriture de P(A∩Bj) via la formule des probabilités
composées (Théorème 2.2) :
P(A∩Bj)=P(A)⋅PA(Bj)=P(Bj)⋅PBj(A).
Comme P(A)>0, on isole PA(Bj) en divisant par P(A) :
PA(Bj)=P(A)P(Bj)⋅PBj(A).
Il ne reste qu'à exprimer P(A) au dénominateur grâce à la formule des probabilités
totales (Théorème 2.4) appliquée au système complet (Bi) :
P(A)=i=1∑nP(Bi)⋅PBi(A).
En substituant, on obtient bien la formule annoncée.
📝 Vocabulaire bayésien (culture utile).
Dans PA(Bj)=∑iP(Bi)PBi(A)P(Bj)⋅PBj(A) :
P(Bj) est appelée probabilité a priori (avant observation),
PA(Bj) la probabilité a posteriori (après avoir observé A), et
PBj(A) la vraisemblance de l'observation sous l'hypothèse Bj.
Bayes est l'outil qui met à jour nos croyances à la lumière des données.
💡 Exemple canonique — Test diagnostic médical.
Une maladie touche 1 % de la population. On dispose d'un test avec :
P(T∣M)=0,99 (sensibilité) et P(T∣M)=0,05 (taux de
faux positifs). Un patient est testé positif : quelle est la probabilité qu'il soit malade ?
Le système complet est (M,M). Bayes :
P(M∣T)=P(M)PM(T)+P(M)PM(T)P(M)⋅PM(T)=0,01×0,99+0,99×0,050,01×0,99≈0,167.
Moins de 17 % ! Alors que la sensibilité du test est de 99 %. C'est l'effet
contre-intuitif que Bayes rend rigoureux : quand la maladie est rare, les faux positifs
dominent. C'est exactement ce qui tombe en colle de proba — assimile l'exemple.
🧑🏫 Décortique Bayes avec un mentor
Le test diagnostic, c'est LE classique où 70 % des MPSI se trompent en première lecture.
En 1 séance avec un mentor Majorant alumni de l'X ou Centrale, tu maîtrises Bayes pour de bon :
arbre, double écriture des composées, lecture vraisemblance/a priori, et variantes (deux tests
successifs, mise à jour itérative).
Réserver une séance ciblée →
3. Arbres de probabilités — méthode visuelle
L'arbre est la matérialisation graphique des théorèmes 2.3 (composées généralisées) et
2.4 (probabilités totales). Bien dessiné, il transforme un énoncé verbal en calcul mécanique.
📐 Méthode-type — Construire et exploiter un arbre.
- Racine. On part de Ω (univers).
- Premier niveau. On choisit un système complet d'événements
(B1,…,Bn) ; on dessine n branches étiquetées P(B1),…,P(Bn).
- Deuxième niveau. À l'extrémité de chaque branche Bi, on dessine les
sous-branches Bi→A et Bi→A étiquetées par les probabilités
conditionnelles PBi(A) et PBi(A)=1−PBi(A).
- Probabilité d'un chemin (probabilités composées). On multiplie les
étiquettes le long du chemin :
P(Bi∩A)=P(Bi)⋅PBi(A).
- Probabilité d'un événement final (probabilités totales). On somme les
probabilités de tous les chemins menant à cet événement :
P(A)=∑iP(Bi)⋅PBi(A).
Règle de cohérence : la somme des probabilités des branches partant d'un même nœud vaut toujours
1. Si ce n'est pas le cas, tu as oublié une branche ou mal lu l'énoncé.
⚠ Piège #3 — Étiquette sur la première branche vs étiquette sur la seconde.
La première branche porte une probabilité non conditionnée P(Bi) ; les branches du
deuxième niveau portent des probabilités conditionnelles PBi(A), pas P(A∩Bi). C'est l'erreur fréquente qui fait écrire P(A)=∑P(A∩Bi)⋅P(Bi)
(faux d'un facteur P(Bi) en trop). Garde en tête : les branches profondes sont conditionnées.
💡 Exemple — Arbre pour les deux urnes.
Deux urnes : U1 contient 2 blanches et 3 noires, U2 contient 4 blanches et 1 noire.
On choisit une urne au hasard (équiprobable) puis on tire une boule. B = « blanche ».
Système complet : (U1,U2), P(U1)=P(U2)=1/2. Probabilités conditionnelles :
PU1(B)=2/5, PU2(B)=4/5. Probabilités totales :
P(B)=21⋅52+21⋅54=106=53.
Bayes (la boule est blanche, urne probable ?) :
P(U2∣B)=3/5(1/2)(4/5)=32 — l'observation « blanche » a poussé
notre croyance vers U2, qui contient plus de blanches.
4. Indépendance — caractérisations et subtilités
Proposition 4.1 — Caractérisation de l'indépendance par le conditionnement
★ À savoir démontrer
Soient A,B deux événements avec P(B)>0. Alors :
A et B sont indeˊpendants⟺PB(A)=P(A).
Démonstration (équivalence directe)
Supposons P(B)>0.
(⇒) Si A et B sont indépendants, alors par définition
P(A∩B)=P(A)⋅P(B). En divisant par P(B)>0 :
PB(A)=P(B)P(A∩B)=P(B)P(A)⋅P(B)=P(A).
(⇐) Réciproquement, si PB(A)=P(A), alors par définition de PB :
P(B)P(A∩B)=P(A)⟺P(A∩B)=P(A)⋅P(B),
ce qui est exactement la définition de l'indépendance de A et B. On a bien
l'équivalence.
📝 Lecture sémantique. L'équivalence ci-dessus dit que l'indépendance est
exactement la non-modification de la probabilité par le conditionnement. C'est l'intuition
centrale : « savoir que B s'est produit ne change pas la chance de A ».
Symétriquement, si P(A)>0, l'indépendance équivaut à PA(B)=P(B).
Proposition 4.2 — Stabilité par complémentation
Si A et B sont indépendants, alors les couples (A,B),
(A,B) et (A,B) sont eux aussi indépendants.
Démonstration (cas (A, \overline{B}))
Supposons A et B indépendants. On veut P(A∩B)=P(A)⋅P(B). Or A=(A∩B)∪(A∩B) (union disjointe),
donc :
P(A)=P(A∩B)+P(A∩B),
soit P(A∩B)=P(A)−P(A∩B)=P(A)−P(A)P(B)=P(A)(1−P(B))=P(A)⋅P(B). Les autres cas s'en déduisent par symétrie.
⚠ Piège #4 — Indépendance n'est PAS incompatibilité.
Deux événements incompatibles ne sont presque jamais indépendants. En effet, si
A∩B=∅ alors P(A∩B)=0 ; l'indépendance demanderait
P(A)P(B)=0, donc P(A)=0 ou P(B)=0. Autrement dit, deux événements
incompatibles et non négligeables ne peuvent jamais être indépendants. Intuition :
si A et B s'excluent, savoir que B est arrivé t'apprend que A n'est pas
arrivé — c'est l'opposé de l'indépendance.
💡 Contre-exemple Bernstein (indépendance 2 à 2 ≠ mutuelle).
On lance deux pièces équilibrées indépendantes. Soit A = « 1re pile »,
B = « 2e pile », C = « les deux résultats sont identiques ». On a
P(A)=P(B)=P(C)=1/2. Calculs :
P(A∩B)=1/4=P(A)P(B),P(A∩C)=1/4=P(A)P(C),P(B∩C)=1/4=P(B)P(C).
Donc (A,B,C) est indépendante deux à deux. Mais :
P(A∩B∩C)=P(2 piles)=1/4=P(A)P(B)P(C)=1/8.
Donc la famille n'est pas mutuellement indépendante. À retenir absolument — c'est
LE contre-exemple cité dans tous les jurys.
5. Erreurs classiques en copie (vues par les correcteurs)
Ces erreurs sont relevées chaque année dans les rapports de jury (CCINP, Mines-Ponts,
Centrale, X-ENS) sur les épreuves comportant des probabilités conditionnelles. Elles coûtent
typiquement entre 1 et 3 points par occurrence.
⚠ Erreur 1 — Confondre P(A∣B) et P(B∣A).
L'inversion des deux quantités est la faute n°1, particulièrement sur les exos type test
diagnostic. Réflexe : avant d'écrire quoi que ce soit, traduis chaque probabilité en mots
français (« sachant que B est réalisé, probabilité que A… »). Si l'énoncé donne la
sensibilité d'un test, c'est P(T∣M), pas P(M∣T) — et pour passer de
l'un à l'autre, il faut Bayes.
⚠ Erreur 2 — Oublier de vérifier P(B)>0 avant d'écrire PB(A).
Le conditionnement par un événement de probabilité nulle n'est pas défini. Dans toute démo ou
application des formules (composées, totales, Bayes), tu dois écrire « comme P(Bi)>0,
on a… ». Aux concours, l'absence de cette ligne coûte un demi-point systématique.
⚠ Erreur 3 — Appliquer les probabilités totales sans système complet.
La formule P(A)=∑iP(Bi)PBi(A) suppose que (Bi) est une partition de
Ω. Si tu écris P(A)=PB(A)+PB(A) (sans pondération par
P(B) et P(B)), c'est faux d'un facteur ; et si tu sommes sur des Bi
qui ne couvrent pas Ω (oubli d'un cas) ou se chevauchent (Bi∩Bj=∅), tu obtiens un résultat qui peut être strictement supérieur à 1. Vérifie
toujours la partition.
⚠ Erreur 4 — Confondre indépendance 2 à 2 et indépendance mutuelle.
Quand un énoncé pose « les Ai sont indépendants », il s'agit de l'indépendance
mutuelle (toutes les sous-intersections vérifient le produit). Ne te contente pas de
vérifier les couples (Ai,Aj) : c'est plus faible (contre-exemple de Bernstein).
Réciproquement, ne dis pas « A, B, C indépendants 2 à 2 donc mutuellement
indépendants » — c'est la faute capitale.
⚠ Erreur 5 — Confondre indépendance et incompatibilité.
Deux événements incompatibles (A∩B=∅) ne sont indépendants que si P(A)=0
ou P(B)=0 (cas dégénéré). Écrire « A et B sont incompatibles donc indépendants »
est une faute lourde — c'est exactement le contraire en général.
6. Pour aller plus loin
Les probabilités conditionnelles sont l'infrastructure de tout le programme de
probabilités MPSI/MP. Les chapitres qui les réinvestissent directement :
- Variables aléatoires discrètes — les lois conditionnelles P(X=k∣Y=j)
sont construites sur le même modèle que PB(A). L'indépendance de variables aléatoires se
définit via l'indépendance mutuelle des événements {Xi∈Ai}.
- Espérance conditionnelle (spé) — E(X∣B) calcule la moyenne
de X sous la probabilité PB. La formule de l'espérance totale est l'analogue
de la formule des probabilités totales pour l'espérance.
- Chaînes de Markov (spé) — les transitions P(Xn+1=j∣Xn=i)
sont précisément des probabilités conditionnelles, et la matrice de transition encode tout
le système dynamique.
- Statistique inférentielle — la formule de Bayes est l'outil central de
l'inférence bayésienne, qui met à jour des distributions a priori à la lumière de
données observées (et qui est partout en data science).
Récap final — Ce qu'il faut absolument retenir
À la veille d'une khôlle ou d'un DS, parcours cette checklist : tu dois pouvoir répondre
« oui, sans hésiter » à chaque question.
- Sais-tu écrire la définition de PB(A)=P(A∩B)/P(B) (avec la condition P(B)>0) sans regarder ?
- Sais-tu démontrer que PB est une probabilité sur Ω (vérification des trois axiomes) ?
- Sais-tu énoncer et démontrer la formule des probabilités totales (système complet + additivité) ?
- Sais-tu énoncer et démontrer la formule de Bayes à partir de la double écriture P(A∩B)=P(A)PA(B)=P(B)PB(A) ?
- Sais-tu écrire la formule des probabilités composées généralisée pour n événements ?
- Sais-tu définir l'indépendance mutuelle d'une famille (Ai) (toutes les sous-intersections) ?
- Sais-tu donner le contre-exemple de Bernstein (indépendance 2 à 2 ≠ mutuelle) ?
- Sais-tu démontrer l'équivalence P(A∩B)=P(A)P(B)⟺PB(A)=P(A) ?
- Sais-tu construire et exploiter un arbre de probabilités (composées sur une branche, totales sur les branches sommées) ?
- Sais-tu calculer la valeur prédictive positive d'un test diagnostic avec Bayes (et expliquer le résultat contre-intuitif) ?
- Connais-tu les 5 erreurs classiques en copie et sais-tu les éviter (notamment P(A∣B) vs P(B∣A), partition incomplète, indép. 2 à 2 vs mutuelle) ?
Démonstrations à savoir refaire