2. PROBABILITÀ CONDIZIONATA E FORMULA DELLE ALTERNATIVE
2.1 Spazi prodotto Dati due s.c. W’ ed W" spesso è necessario considerare il loro prodotto cartesiano W’´W", cioè l’insieme di tutte le coppie ordinate (w’,w") costituite da elementi w’ di W’ ed w" di W". Esso corrisponde al f. c. che consiste nell’osservare contemporaneamente il f.c. di W' e il f.c. di W". Ad esempio, il lancio di una moneta, con W’ = {c,t} ed il lancio di un dado con W" = effettuati insieme, o uno dopo l’altro, danno luogo al f.c. "lancio di una moneta e di un dado" con s.c. W’ ´ W" = costituito da tutte le coppie ordinate composte da una faccia della moneta e da una faccia del dado. In generale, per definizione, i due f.c. vengono assunti indipendenti nel senso seguente. Se A è un evento di W’ con p. P’(A) e B è un evento di W" con p. P"(B), allora la p. dell’evento A × B = si verifica A in W' e si verifica B in W" è il prodotto P’(A)P"(B) delle rispettive probabilità.
Esempio 2.1.1
Se P’(c) = ˝ = P’(t); P’’ () = 1/6 = ... = P(),
allora
P’(c) · P’’() = (1/2).(1/6) = (1/12) è la p. che esca croce nella moneta e l’asso nel dado. L’ipotesi di indipendenza equivale a dire che anche in W' × W" è assegnata una misura di p. salomonica (sono 12 i casi possibili di W’ × W").
Esempio 2.1.2 Se W’ = {c,t} con p. 1-p e p, W" è lo spazio di Poisson con misura di p. (at)ke-at/k! allora p(at)ke-at/k! è la p. dell’evento "esce testa lanciando una moneta ed avvengono k arrivi in un processo di Poisson di intensità a".
Esempio 2.1.3 Lo spazio prodotto di W1 = {1,2,…,s} effettuato n volte, potenza cartesiana n-esima, indicato con W1n, possiede snelementi (sono chiamati anche parole lunghe n in un alfabeto di s lettere o disposizioni con ripetizione di s oggetti n volte) . Così la p. di un elemento di W1n è s-n.
Esempio 2.1.4 Lo spazio di Bernoulli W2 di parametro p può essere pensato come il prodotto cartesiano W’´W’´W’… di infinite copie dello spazio W’ = {c,t} con p. p per testa ed 1-p per croce. L’assioma di indipendenza, in tal caso, viene esteso a più di due s.c. fattori.
Esempio 2.1.5 Sia W3 lo spazio uniforme [0,a]; possiamo considerare il suo prodotto cartesiano, potenza n-esima, [0,a]n costituito da tutte le n-ple ordinate (x1,x2,…,xn) di numeri reali dell’intervallo [0,a]. Questo insieme corrisponde al f.c. "vengono scelti a caso n punti U1,U2,...,Un su un segmento di lunghezza a." L’evento " il primo punto cade a sinistra di x1, il secondo cade a sinistra di x2, ..., l’n-esimo cade a sinistra di xn", scritto brevemente (U1£ x1, U2£ x2, …, Un£ xn) , ha p. (x1/a)(x2/a)…(xn/a) = (x1x2…xn)/an In tal caso i singoli eventi (Ui£ xi) sono assunti, per ipotesi, indipendenti (assioma di indipendenza).
2.2. Probabilità condizionata Così come abbiamo trattato la teoria delle p. fino ad ora, sembra essere una ripetizione di quanto è noto per altre misure, come la cardinalità, la lunghezza, l’area, il volume, la massa, ecc.. Tuttavia la teoria delle p. ha un altro concetto fondamentale, quello di probabilità condizionata, che la distingue da tutti questi altri tipi di misure. Facciamo un esempio.
Si lanciano su un tavolo due dadi perfetti e si considerino gli eventi:
"la somma delle facce è 6", che ha p. 5/36
e
"la somma delle facce è 7", che ha p. 6/36.
Supponiamo che uno dei due dadi si fermi sul tavolo mostrando l’asso , mentre l’altro cade per terra e continua a rotolare. Alla luce dell’informazione "è uscito l’asso su un dado", le p. dei due eventi sono ora uguali ad 1/6. Infatti il primo si verifica se esce la faccia e l’altro se esce la faccia . La prima p. è cambiata, la seconda no! Come si spiega questo fatto?
Nel calcolo delle p. avviene spesso di fare un ipotesi del tipo seguente: dato uno s.c. W, con una misura di p. P, supponiamo che si sia verificato un dato evento H (ipotesi) (Mina: e se domani, io non potessi rivedere te, mettiamo il caso che ...).
Ad esempio, nella fig. 2.2.1
che rappresenta la scelta a caso di un punto di W, consideriamo l’evento "il punto scelto a caso è caduto nella regione H". E’ come dire "facciamo finta che il punto w estratto a caso sia in H". Allora, se consideriamo un altro evento A di W, possiamo pensare a due p.: quella apriori P(A), che A possiede in W e quella a posteriori, la p. condizionata di A dato H, che indicheremo con P(A|H), valutata appunto nell’ipotesi che H sia avvenuto. La scrittura A|H indica l’evento A nell’ipotesi che H si sia verificato e si legge AdatoH. La p. condizionata P(A|H) può essere definita come quel numero dell’intervallo [0,1] tale che
P(A Ç H) = P(H)P(A|H)
assioma della p. condizionata
Se P(H) = 0 allora P(A|H) non è definita.
Se P(H) ¹ 0 allora si può anche dire che
P(A|H) = P(A Ç H)/P(H)
(2.2.1)
Quest’ultima formula può essere giustificata con l’esempio della fig. 2.2.1 ed è quella con cui si definisce usualmente P(A|H).
Più in generale, se A1, A2,…,Ansono eventi, la p. della loro intersezione è data dalla seguente formula
Di questa formula si può dare una dimostrazione per induzione.
Indipendenza
L’evento A è detto (stocasticamente) indipendente da un altro evento B se P(A|B) = P(A) Gli eventi A e B sono detti (stocasticamente) indipendentise P(AÇ
B) = P(A)P(B). Si noti che le due definizioni sono equivalenti, nel senso che l’una implica l’altra e viceversa. Se A e B sono indipendenti allora lo sono tutte le altre coppie di eventi ottenute da A e da B passando ai complementari.
Esercizi 1.25; 3.9; 3.10
Si legga l’articolo [38] Il paradosso delle tre scatole (1995) oppure Il paradosso del carceriere pag.90 del libro Baclawski-Cerasoli-Rota della bibliografia
2.3 Il paradosso dei compleanni. In W
1 = {1,2,…,s} vengono scelti a caso n elementi. Ogni elemento è riposto in W
1 una volta estratto. Calcolare la p. dell’evento A = "gli elementi estratti sono tutti diversi tra loro".
Poniamo Ak = "il k-esimo elemento estratto è diverso dai precedenti". Ovviamente
abbreviato spesso con la scrittura (s)n, chiamato fattoriale decrescente, è anche il numero di parole lunghe n su un alfabeto di s lettere, con lettere tutte distinte, oppure è il numero di disposizioni (semplici) di s oggetti presi n volte. Esso è anche il numero di modi di porre n biglie in s scatole con ogni scatola contenente al più una biglia. Così la p. è un rapporto di casi favorevoli e casi possibili.
Nota L’esempio visto ci mostra come la legge della moltiplicazione permette di risolvere problemi evitando le insidie e le difficoltà del calcolo combinatorio.
La formula precedente permette di risolvere il classico problema dei compleanni quando s = 365. Infatti
1-(365)n/365n
è la p. che tra n persone scelte a caso ve ne siano almeno due che festeggiano il compleanno lo stesso giorno. Ovviamente è necessaria l’ipotesi che ogni persona abbia p. 1/365 di nascere in uno qualsiasi dei giorni dell’anno (escludendo gli anni bisestili). La seguente tabella fornisce alcuni valori numerici che per n = 23 ed n = 70 sembrano paradossali! In un insieme di 23 persone è più probabile averne almeno due nate lo stesso giorno (a parte l’anno naturalmente) che averne tutte e 23 nate in giorni diversi!
n
P
n
P
10
.117
40
.891
20
.411
50
.970
22
.476
60
.994
23
.507
65
.998
30
.706
70
.999
Fattoriali. Particolarmente importante per il fattoriale decrescente s(s-1)(s-2)…(s-n+1) è il caso s = n. Allora n(n-1)(n-2)…3´2´1, indicato con n!, è il numero di permutazioni di n oggetti. Si ha la ricorrenza n! = n(n-1)! per ogni naturale n>0. Da essa si deduce che 0!=1. Per i calcoli teorici è utile conoscere la formula di Stirling di approssimazione dei fattoriali
n! ~ Ö(2pn)nne-n formula di Stirling
per n grande. Essa equivale a dire che n!/ Ö(2pn)nne-n ® 1 quando n ® ¥.
2.4 Formula di Adamo Le p. P(H), P(Hc) e P(A) sono legate dalla seguente formula fondamentale:
P(A) = P(H)P(A | H) + P(Hc)P(A | Hc)
formula di Adamo
Per dimostrarla basta osservare che HÈHc = We che HÇHc =Æ, quindi
Esempio 2.4.1 Si ha una moneta di trucco p con due urne: la prima ha r palline rosse e b bianche, la seconda ne ha u rosse e v bianche. Si lancia la moneta. se esce testa si estrae una pallina dalla prima urna, altrimenti si estrae dalla seconda. Qual è la p. che la pallina estratta sia rossa?
Dalla formula di Adamo o con il seguente diagramma ad albero si ha
P(A) = pr/(r+b) +(1-p)u/(u+v)
Esempio 2.4.2 Nel modello di Polya, par. 1.3, si estraggono n palline in blocco (senza rimessa) da un’urna che ne contiene r rosse e b bianche. Sia Xila v.a. uguale a 0 se esce pallina bianca, uguale a 1 se esce rossa, alla i-esima estrazione. Risulta P(X1=1) = r/(r+b), P(X2=1|X1=1) = (r-1)/(r+b-1) ma, sorprendentemente, con la formula di Adamo, si prova che P(X2=1) = r/(r+b).
Esempio 2.4.3 Il problema della rovina di un giocatore.
Un giocatore d’azzardo, che possiede z euri, decide di sbancare il Casinò di Monte Carlo al tavolo della roulette. Pertanto gioca da solo contro il banco puntando ripetutamente un euro sul rosso. A ogni rien ne va plus del croupier sia p la p. che egli vinca un euro; supponiamo inoltre che il Casinò possegga a-z milioni. Il nostro giocatore continua a puntare ininterrottamente fino a quando sbanca il Casinò, cioè raggiunge un capitale di a euri, oppure perde tutti i suoi z euri, cioè si rovina.
Sia uz la p. che il giocatore si rovini partendo da un capitale iniziale di z euri. Per la formula di Adamo, la successione uz deve soddisfare la relazione di ricorrenza
uz = puz+1 +(1-p)uz-1
con le condizioni iniziali u0 = 1, ua = 0. Si dimostra, cfr. esercizio 3.26, posto p/(1-p) = v, che se p ¹ ˝, allora
uz = (1-va - z)/(1-va). Se invece p = ˝ allora uz = 1-z/a. Nota Se a = 2z, cioè se il Casinò possiede il doppio del giocatore, la formula, una volta semplificata, diventa uz = 1/(1+vz). Ora,per la roulette del Casinò di Venezia, il rosso esce con p. p=18/37, quindi v=18/19. Pertanto uz ® 1 quando z® ¥. Ma non bisogna andare molto lontano perché, in particolare, conti alla mano, risulta già u86 » 99,05%. A parole: con 86 euri abbiamo una p. superiore al 99% di rovinarci. Mentre, puntando tutti gli 86 euri una volta sola sul rosso, la p. di rovina è 19/37, cioè circa il 51,35%. Morale della favola?
2.5 Formula delle alternative Più in generale, sia {H1,H2,…,Hn,…} uninsieme (finito o numerabile) di eventi di uno s.c. W, tali che
a) i ¹ j Þ HiÇHj = Æ b) H1ÈH2È…ÈHnÈ… = W c) P(Hi) > 0 per ogni evento.
Una famiglia siffatta di eventi, detti alternative, è chiamata partizione stocastica di W . Allora vale la formula seguente, che generalizza quella di Adamo, per ogni evento A di W:
P(A) = P(H1 )P(A | H1) + P(H2)P(A | H2)+ ...
formula (o legge) delle alternative
La dimostrazione è analoga a quella della formula di Adamo.
Esempio 2.5.1 Il gioco del Craps Al Casinò un giocatore gioca contro il banco con le seguenti regole. Egli lancia due dadi perfetti: se fa 7 o 11 allora vince subito; se fa 2, 3 o 12 perde ed il gioco finisce. Se invece fa 4, 5, 6, 8, 9 oppure 10, il gioco continua ed il numero uscito è chiamato punto. Il giocatore rilancia i dadi fino a quando riesce il punto, in tal caso vince, o esce il 7, in tal caso perde. In pratica, se il giocatore non vince al primo colpo, esce un punto n Î{4,5,6,8,9,10}, allora può vincere solo se il punto esce prima del 7. Qual è la p. di vittoria del giocatore?
Introduciamo gli eventi:
Hn = "la somma delle facce è n", n=2, 3, …, 12
A = "il giocatore vince". Si prova facilmente che pn = P(Hn) = [6-|n-7|]/36, così p7+p11 = 2/9, è la p. che il giocatore vinca al primo lancio. La p. condizionata cn =P(A|Hn) vale 1, se n = 7 o 11; vale 0, se n = 2, 3 o 12. Negli altri casi possiamo calcolarla applicando la formula di Adamo. Risulta cn = pn + (1-1/6-pn)cnda cui cn = [6-|n-7|]/[12-|n-7|] e quindi, per la formula delle alternative, P(A)=2/9+Spncncon la somma estesa ai valori 4, 5, 6 ,8, 9, 10 di n. Si ricava infine P(A) = 244/495 » 49,293%. Si noti che la p. di vincita del giocatore è di poco inferiore a quella di vincita del Banco (come è giusto che sia nei Casinò!)
Esercizi 3.8; 3.19; 3.21
2.6 Formula di Bayes Spesso, nelle applicazioni, gli eventi Hi di una partizione stocastica vengono immaginati come cause possibili per un effettoA osservato. La formula di Bayes permette di calcolare P(H|A), cioè la p. a posteriori di Ui noto A, una volta note le p. condizionate P(A|Hi). Combinando la (2.2.1) e la formula delle alternative si ha:
P(Hi|A) = P(Hi)P(A|Hi) / Si P(Hi)P(A|Hi)
formula di Bayes
Esempio 2.6.1. Si supponga che nel rispondere ad una domanda, che ha s risposte, uno studente conosca la risposta esatta con p. p e non la conosca con p. 1-p. Se lo studente conosce la risposta sia 1 la p. che risponda esattamente, se invece non la sa, sia 1/s la p. che indovini. Determinare la p. che lo studente conosca la risposta nell’ipotesi che abbia risposto esattamente. Ad esempio, uno studente liceale alla fine dell’anno scolastico, prima degli scrutini, ha un voto medio uguale a 5 e rischia di essere rimandato in quella materia. Il professore gli fa una domanda con solo due risposte per aumentargli il voto, e quindi promuoverlo, nel caso che risponda bene. Se lo studente risponde esattamente, quale dovrebbe essere ora il voto? Il problema si risolve rapidamente con la legge di Bayes. Infatti siano dati gli eventi
H = "lo studente conosce la risposta" ; A = "lo studente risponde esattamente" così che P(H)=p, P(A|H)=1, P(A|Hc)= 1/s; pertanto P(H|A) =ps/(1-p-ps). Nel caso dello studente liceale, è s = 2 e p = 0.5. Infatti uno studente con voto 5 ha p. 5/10 di rispondere esattamente: questa è una misura della sua bravura. Se risponde esattamente alla domanda del docente il suo voto è ora P(H|A) =2/3 »
0,666, cioé quasi 7.
Esercizi 3.14; 3.18; 3.19; 3.24
2.7 Densità e funzione di distribuzione Quando si raccolgono dati statistici, per esempio i pesi di molte persone, in pratica si stanno osservando più fenomeni casuali. Ogni persona misurata è come un dado: la faccia del dado corrisponde al peso. Si badi alla coincidenza dado della probabilità, con dato della statistica. Si ottengono così dei numeri xi (i pesi), per i = 1,2,…n, che corrispondono ai punti usciti sul dado-persona. Tali numeri appaiono con delle frequenze. Sia f(xi) la frequenza relativa o percentuale del dato xi sul totale dei dati raccolti.
Nella figura, chiamata istogramma, le basi dei rettangoli sono sempre di lunghezza unitaria e le altezze indicano le frequenze relative f(xi), che soddisfano le seguenti proprietà:
a) f(xi) ³ 0 per ogni i S(f(xi),i,1,n) = 1.
Raffinando sempre di più le misure dei pesi, passando per esempio dai chili agli etti, poi ai grammi e così via, si può supporre, al limite, che esista una funzione f tale che f(x) sia la frequenza relativa (percentuale) teorica del dato x.
Se così fosse, la funzione f dovrebbe soddisfare le seguenti proprietà:
f(x)³ 0
ò(f(x),x,-¥,¥) = 1.
Inoltre, la funzione integrale
F(x) = ò(f(t),t, - ¥,x)
dovrebbe dare la frequenza relativa (percentuale, probabilità statistica) di dati non superiori al valore x. Tali osservazioni conducono ai concetti fondamentali di funzione densità (f.d.p.) f(X,x) e funzione di distribuzione (f.d.d) F(X,x) ( di probabilità) di un'alea.
Sia X l'alea; fissato un numero reale x si consideri l’evento (X £ x) = "l'alea X assume un valore non superiore ad x". La p. di tale evento è una funzione F di x (e dell'alea X)
F(X,x) = P(X Ł x)
chiamata funzione di distribuzione (o di ripartizione) dell'alea. X.
Esistono tre densità di probabilità fondamentali:
a) la densità uniforme f(x)=1/a, per a>0, 0<x<a, e nulla altrove. La sua funzione di distribuzione è riportata nel paragrafo 1.9.3 sullo spazio uniforme;
b) la densità esponenziale nello spazio di Poisson f(t)=ae-at, per t>0, e nulla altrove; la funzione di ripartizione è F(t) = 1-e-at per t>0, nulla altrove. Essa è la p. che il primo arrivo in un processo di Poisson accada prima del tempo t.
c) Infine,
è la f.d.d. della v.a. X del processo di Wiener-Levy di parametri s = t = 1 (funzione normale).
La densità di probabilità dell'alea X è
densità n(x) =
2.8 Probabilità condizionata nel continuo La p. condizionata P(A|H) è stata definita per un evento H tale che P(H)>0. Quando si trattano v.a. continue X l’evento (X = t) ha p. nulla per ogni numero reale t. Non avrebbe senso quindi il termine P(A|X=t). Tuttavia si possono fare esempi in cui questa p. viene calcolata direttamente. Consideriamo infatti, nello spazio uniforme, n punti Ui scelti a caso indipendentemente su [0,a]. Sia poi U(i) la v.a. min(U1,U2,…,Un) cioè il più piccolo degli n punti. Se H = (U1= t) ed A = (U(i)£ x) possiamo calcolare P(U(1)£ x|U1=t), cioè la p. che se il primo punto estratto Ui; t, il più piccolo punto estratto U(1) non superi x. Infatti, con un semplice ragionamento, si prova subito che essa vale 1- (1 – x/a)n-1 se x<t, mentre vale 1 se x³t. Fissato un h>0, in genere, per ogni reale x, l’evento (x<X£
x+h) ha p. positiva.Siamo portati così alla seguente
Definizione. Siano dati una v.a. continua X ed un evento A; si definisce p. condizionata di A dato l’evento (X =x) il limite seguente
P(A|X=x) = lim P(A|x<X£ x+h) quando h® 0
se esiste.
Nota. Questa definizione porta ad una nuova alea che indicheremo con P(A|X), così pensata: essa prende il valore P(A|X=x) quando X prende il valore x.
La p. P(A) e la p. condizionata P(A|X=x) sono legate alla densità di p. f(x) di X dalla formula fondamentale seguente.
Teorema.Se X è un'alea con densità f(x), allora per ogni evento A risulta
P(A) = òR f(x)P(A | X=x)dx legge delle alternative nel continuo
dove l’integrale si intende esteso a tutto l’asse x.
Lo strumento necessario per la dimostrazione è il teorema del valor medio dell’Analisi Matematica. Ricordiamo che esso dice quanto segue: se f è una funzione continua sull’intervallo [a,b] allora esiste un punto x* in [a,b] tale che
(b-a)f(x*) = ò(f(x),x,a,b).
Giacché ci siamo, conviene anche dire il significato probabilistico di questo teorema: il secondo membro (vedi cap.4 sulla media) è la media della v.a. f (X) quando X è uniforme su [a,b]. Pertanto, dato h>0 piccolo a piacere, dividiamo l’asse reale in intervalli di lunghezza h con i punti xi =hi.
così gli eventi Hi = (xi<X£
xi+h) formano una partizione stocastica. Per la legge delle alternative è
P(A) = Si P(xi<X£ xi+h)P(A| xi<X£ xi+h)
Ora, per il teorema del valor medio applicato ad f (x) vi è almeno un xi* nell’intervallo [xi,xi+h] tale che
P(xi<X£ xi+h) = ò(f(x),x,xi,xi+h) = hf(xi*)
quindi
P(A) = Si hf(xi*) P(A| xi<X£ xi+h)
Perciò, quando h® 0, il secondo membro, per definizione di integrale, diventa: