Elementi di stocastica

ELEMENTI DI STOCASTICA
di Mauro Cerasoli © - 05-11-2000

2. PROBABILITÀ CONDIZIONATA E FORMULA DELLE ALTERNATIVE

2.1 Spazi prodotto
Dati due s.c. W’ ed W" spesso è necessario considerare il loro prodotto cartesiano W’´W", cioè l’insieme di tutte le coppie ordinate (w’,w") costituite da elementi w’ di W’ ed w" di W". Esso corrisponde al f. c. che consiste nell’osservare contemporaneamente il f.c. di W' e il f.c. di W". Ad esempio, il lancio di una moneta, con W’ = {c,t} ed il lancio di un dado con W" = effettuati insieme, o uno dopo l’altro, danno luogo al f.c. "lancio di una moneta e di un dado" con s.c. W’ ´ W" = costituito da tutte le coppie ordinate composte da una faccia della moneta e da una faccia del dado. In generale, per definizione, i due f.c. vengono assunti indipendenti nel senso seguente. Se A è un evento di W’ con p. P’(A) e B è un evento di W" con p. P"(B), allora la p. dell’evento A × B = si verifica A in W' e si verifica B in W" è il prodotto P’(A)P"(B) delle rispettive probabilità.
Esempio 2.1.1
Se P’(c) = ½ = P’(t); P’’ () = 1/6 = ... = P(),
allora
P’(c) · P’’() = (1/2).(1/6) = (1/12) è la p. che esca croce nella moneta e l’asso nel dado. L’ipotesi di indipendenza equivale a dire che anche in W' × W" è assegnata una misura di p. salomonica (sono 12 i casi possibili di W’ × W").
Esempio 2.1.2
Se W’ = {c,t} con p. 1-p e p, W" è lo spazio di Poisson con misura di p. (at)^ke^-at/k! allora p(at)^ke^-at/k! è la p. dell’evento "esce testa lanciando una moneta ed avvengono k arrivi in un processo di Poisson di intensità a".
Esempio 2.1.3
Lo spazio prodotto di W₁= {1,2,…,s} effettuato n volte, potenza cartesiana n-esima, indicato con W₁ⁿ, possiede sⁿ elementi (sono chiamati anche parole lunghe n in un alfabeto di s lettere o disposizioni con ripetizione di s oggetti n volte) . Così la p. di un elemento di W₁ⁿ è s^-n.
Esempio 2.1.4
Lo spazio di Bernoulli W₂ di parametro p può essere pensato come il prodotto cartesiano W’´W’´W’… di infinite copie dello spazio W’ = {c,t} con p. p per testa ed 1-p per croce. L’assioma di indipendenza, in tal caso, viene esteso a più di due s.c. fattori.
Esempio 2.1.5
Sia W₃ lo spazio uniforme [0,a]; possiamo considerare il suo prodotto cartesiano, potenza n-esima, [0,a]ⁿ costituito da tutte le n-ple ordinate (x₁,x₂,…,x_n) di numeri reali dell’intervallo [0,a]. Questo insieme corrisponde al f.c. "vengono scelti a caso n punti U₁,U₂,...,U_nsu un segmento di lunghezza a." L’evento " il primo punto cade a sinistra di x₁, il secondo cade a sinistra di x₂, ..., l’n-esimo cade a sinistra di x_n", scritto brevemente (U₁£ x_1,U₂£ x₂, …, U_n£ x_n) , ha p. (x₁/a)(x₂/a)…(x_n/a) = (x₁x₂…x_n)/aⁿ
In tal caso i singoli eventi (U_i£ x_i) sono assunti, per ipotesi, indipendenti (assioma di indipendenza).

2.2. Probabilità condizionata
Così come abbiamo trattato la teoria delle p. fino ad ora, sembra essere una ripetizione di quanto è noto per altre misure, come la cardinalità, la lunghezza, l’area, il volume, la massa, ecc.. Tuttavia la teoria delle p. ha un altro concetto fondamentale, quello di probabilità condizionata, che la distingue da tutti questi altri tipi di misure. Facciamo un esempio.
Si lanciano su un tavolo due dadi perfetti e si considerino gli eventi:
"la somma delle facce è 6", che ha p. 5/36
e
"la somma delle facce è 7", che ha p. 6/36.
Supponiamo che uno dei due dadi si fermi sul tavolo mostrando l’asso , mentre l’altro cade per terra e continua a rotolare. Alla luce dell’informazione "è uscito l’asso su un dado", le p. dei due eventi sono ora uguali ad 1/6. Infatti il primo si verifica se esce la faccia e l’altro se esce la faccia . La prima p. è cambiata, la seconda no! Come si spiega questo fatto?
Nel calcolo delle p. avviene spesso di fare un ipotesi del tipo seguente: dato uno s.c. W, con una misura di p. P, supponiamo che si sia verificato un dato evento H (ipotesi) (Mina: e se domani, io non potessi rivedere te, mettiamo il caso che ...).
Ad esempio, nella fig. 2.2.1

che rappresenta la scelta a caso di un punto di W, consideriamo l’evento "il punto scelto a caso è caduto nella regione H". E’ come dire "facciamo finta che il punto w estratto a caso sia in H". Allora, se consideriamo un altro evento A di W, possiamo pensare a due p.: quella a priori P(A), che A possiede in W e quella a posteriori, la p. condizionata di A dato H, che indicheremo con P(A|H), valutata appunto nell’ipotesi che H sia avvenuto. La scrittura A|H indica l’evento A nell’ipotesi che H si sia verificato e si legge A dato H. La p. condizionata P(A|H) può essere definita come quel numero dell’intervallo [0,1] tale che

P(A Ç H) = P(H)P(A|H)
assioma della p. condizionata

Se P(H) = 0 allora P(A|H) non è definita.
Se P(H) ¹ 0 allora si può anche dire che

P(A|H) = P(A Ç H)/P(H)

(2.2.1)

Quest’ultima formula può essere giustificata con l’esempio della fig. 2.2.1 ed è quella con cui si definisce usualmente P(A|H).
Più in generale, se A₁, A₂,…,A_n sono eventi, la p. della loro intersezione è data dalla seguente formula

P(A₁ Ç A₂Ç ... Ç A_n ) =
P(A₁)P(A₂ | A₁ )P(A₃ | A₁ Ç A₂) ... P(A_n | A₁ Ç A₂ Ç ... Ç A_n-1)
formula della moltiplicazione

Di questa formula si può dare una dimostrazione per induzione.
Indipendenza
L’evento A è detto (stocasticamente) indipendente da un altro evento B se P(A|B) = P(A)
Gli eventi A e B sono detti (stocasticamente) indipendenti se P(AÇ B) = P(A)P(B). Si noti che le due definizioni sono equivalenti, nel senso che l’una implica l’altra e viceversa. Se A e B sono indipendenti allora lo sono tutte le altre coppie di eventi ottenute da A e da B passando ai complementari.

Esercizi 1.25; 3.9; 3.10

Si legga l’articolo [38] Il paradosso delle tre scatole (1995) oppure Il paradosso del carceriere pag.90 del libro Baclawski-Cerasoli-Rota della bibliografia

2.3 Il paradosso dei compleanni.
In W ₁= {1,2,…,s} vengono scelti a caso n elementi. Ogni elemento è riposto in W ₁ una volta estratto. Calcolare la p. dell’evento A = "gli elementi estratti sono tutti diversi tra loro".
Poniamo A_k = "il k-esimo elemento estratto è diverso dai precedenti". Ovviamente

P(A₁) = 1 = s/s; P(A₂|A₁ ) =(s - 1)/s; P(A₃ | A₁ Ç A₂) = (s -2)/s; P(A_n | A₁ Ç ... Ç A_n-1 ) = (s-n+1)/s.

Quindi, per la formula della moltiplicazione:

P(A) = s(s-1)(s-2)…(s-n+1)/sⁿ
Si noti che il numeratore s(s-1)(s-2)…(s-n+1)
abbreviato spesso con la scrittura (s)_n, chiamato fattoriale decrescente, è anche il numero di parole lunghe n su un alfabeto di s lettere, con lettere tutte distinte, oppure è il numero di disposizioni (semplici) di s oggetti presi n volte. Esso è anche il numero di modi di porre n biglie in s scatole con ogni scatola contenente al più una biglia. Così la p. è un rapporto di casi favorevoli e casi possibili.
Nota L’esempio visto ci mostra come la legge della moltiplicazione permette di risolvere problemi evitando le insidie e le difficoltà del calcolo combinatorio.
La formula precedente permette di risolvere il classico problema dei compleanni quando s = 365. Infatti

1-(365)_n/365ⁿ
è la p. che tra n persone scelte a caso ve ne siano almeno due che festeggiano il compleanno lo stesso giorno. Ovviamente è necessaria l’ipotesi che ogni persona abbia p. 1/365 di nascere in uno qualsiasi dei giorni dell’anno (escludendo gli anni bisestili). La seguente tabella fornisce alcuni valori numerici che per n = 23 ed n = 70 sembrano paradossali! In un insieme di 23 persone è più probabile averne almeno due nate lo stesso giorno (a parte l’anno naturalmente) che averne tutte e 23 nate in giorni diversi!

n	P	n	P
10	.117	40	.891
20	.411	50	.970
22	.476	60	.994
23	.507	65	.998
30	.706	70	.999

Fattoriali. Particolarmente importante per il fattoriale decrescente s(s-1)(s-2)…(s-n+1) è il caso s = n. Allora n(n-1)(n-2)…3´2´1, indicato con n!, è il numero di permutazioni di n oggetti. Si ha la ricorrenza n! = n(n-1)!
per ogni naturale n>0. Da essa si deduce che 0!=1. Per i calcoli teorici è utile conoscere la formula di Stirling di approssimazione dei fattoriali

n! ~ Ö(2pn)nⁿe^-n
formula di Stirling

per n grande. Essa equivale a dire che n!/ Ö(2pn)nⁿe^-n ® 1 quando n ® ¥.

2.4 Formula di Adamo
Le p. P(H), P(H^c) e P(A) sono legate dalla seguente formula fondamentale:

P(A) = P(H)P(A | H) + P(H^c)P(A | H^c)
formula di Adamo

Per dimostrarla basta osservare che HÈH^c = W e che HÇH^c =Æ, quindi

P(A) = P(AÇW) = P(AÇ( HÈH^c) = P(AÇH) + P(AÇH^c) = P(H)P(A|H) + P(H^c)P(A|H^c)

Esempio 2.4.1
Si ha una moneta di trucco p con due urne: la prima ha r palline rosse e b bianche, la seconda ne ha u rosse e v bianche. Si lancia la moneta. se esce testa si estrae una pallina dalla prima urna, altrimenti si estrae dalla seconda. Qual è la p. che la pallina estratta sia rossa?
Dalla formula di Adamo o con il seguente diagramma ad albero si ha

P(A) = pr/(r+b) +(1-p)u/(u+v)

Esempio 2.4.2
Nel modello di Polya, par. 1.3, si estraggono n palline in blocco (senza rimessa) da un’urna che ne contiene r rosse e b bianche. Sia X_i la v.a. uguale a 0 se esce pallina bianca, uguale a 1 se esce rossa, alla i-esima estrazione. Risulta P(X₁=1) = r/(r+b), P(X₂=1|X₁=1) = (r-1)/(r+b-1) ma, sorprendentemente, con la formula di Adamo, si prova che P(X₂=1) = r/(r+b).

Esempio 2.4.3 Il problema della rovina di un giocatore.
Un giocatore d’azzardo, che possiede z euri, decide di sbancare il Casinò di Monte Carlo al tavolo della roulette. Pertanto gioca da solo contro il banco puntando ripetutamente un euro sul rosso. A ogni rien ne va plus del croupier sia p la p. che egli vinca un euro; supponiamo inoltre che il Casinò possegga a-z milioni. Il nostro giocatore continua a puntare ininterrottamente fino a quando sbanca il Casinò, cioè raggiunge un capitale di a euri, oppure perde tutti i suoi z euri, cioè si rovina.
Sia u_z la p. che il giocatore si rovini partendo da un capitale iniziale di z euri. Per la formula di Adamo, la successione u_z deve soddisfare la relazione di ricorrenza

u_z = pu_z+1 +(1-p)u_z-1
con le condizioni iniziali u₀ = 1, u_a = 0. Si dimostra, cfr. esercizio 3.26, posto p/(1-p) = v, che se p ¹ ½, allora
u_z = (1-v^{a - z})/(1-v^a). Se invece p = ½ allora u_z = 1-z/a.
Nota Se a = 2z, cioè se il Casinò possiede il doppio del giocatore, la formula, una volta semplificata, diventa u_z = 1/(1+v^z). Ora, per la roulette del Casinò di Venezia, il rosso esce con p. p=18/37, quindi v=18/19. Pertanto u_z ® 1 quando z® ¥. Ma non bisogna andare molto lontano perché, in particolare, conti alla mano, risulta già u₈₆ » 99,05%. A parole: con 86 euri abbiamo una p. superiore al 99% di rovinarci. Mentre, puntando tutti gli 86 euri una volta sola sul rosso, la p. di rovina è 19/37, cioè circa il 51,35%. Morale della favola?

2.5 Formula delle alternative
Più in generale, sia {H₁,H₂,…,H_n,…} un insieme (finito o numerabile) di eventi di uno s.c. W, tali che
a) i ¹ j Þ H_iÇH_j = Æ
b) H₁ÈH₂È…ÈH_nÈ… = W
c) P(H_i) > 0 per ogni evento.

Una famiglia siffatta di eventi, detti alternative, è chiamata partizione stocastica di W . Allora vale la formula seguente, che generalizza quella di Adamo, per ogni evento A di W:

P(A) = P(H₁ )P(A | H₁) + P(H₂)P(A | H₂)+ ...
formula (o legge) delle alternative

La dimostrazione è analoga a quella della formula di Adamo.
Esempio 2.5.1 Il gioco del Craps
Al Casinò un giocatore gioca contro il banco con le seguenti regole. Egli lancia due dadi perfetti: se fa 7 o 11 allora vince subito; se fa 2, 3 o 12 perde ed il gioco finisce. Se invece fa 4, 5, 6, 8, 9 oppure 10, il gioco continua ed il numero uscito è chiamato punto. Il giocatore rilancia i dadi fino a quando riesce il punto, in tal caso vince, o esce il 7, in tal caso perde. In pratica, se il giocatore non vince al primo colpo, esce un punto n Î{4,5,6,8,9,10}, allora può vincere solo se il punto esce prima del 7. Qual è la p. di vittoria del giocatore?
Introduciamo gli eventi:
H_n = "la somma delle facce è n", n=2, 3, …, 12
A = "il giocatore vince".
Si prova facilmente che p_n = P(H_n) = [6-|n-7|]/36, così p₇+p₁₁ = 2/9, è la p. che il giocatore vinca al primo lancio. La p. condizionata c_n =P(A|H_n) vale 1, se n = 7 o 11; vale 0, se n = 2, 3 o 12. Negli altri casi possiamo calcolarla applicando la formula di Adamo. Risulta c_n = p_n + (1-1/6-p_n)c_n da cui c_n = [6-|n-7|]/[12-|n-7|] e quindi, per la formula delle alternative, P(A)=2/9+Sp_nc_n con la somma estesa ai valori 4, 5, 6 ,8, 9, 10 di n. Si ricava infine P(A) = 244/495 » 49,293%. Si noti che la p. di vincita del giocatore è di poco inferiore a quella di vincita del Banco (come è giusto che sia nei Casinò!)

Esercizi 3.8; 3.19; 3.21

2.6 Formula di Bayes
Spesso, nelle applicazioni, gli eventi H_i di una partizione stocastica vengono immaginati come cause possibili per un effetto A osservato. La formula di Bayes permette di calcolare P(H|A), cioè la p. a posteriori di U_i noto A, una volta note le p. condizionate P(A|H_i). Combinando la (2.2.1) e la formula delle alternative si ha:

P(H_i|A) = P(H_i)P(A|H_i) / S_i P(H_i)P(A|H_i)
formula di Bayes

Esempio 2.6.1.
Si supponga che nel rispondere ad una domanda, che ha s risposte, uno studente conosca la risposta esatta con p. p e non la conosca con p. 1-p. Se lo studente conosce la risposta sia 1 la p. che risponda esattamente, se invece non la sa, sia 1/s la p. che indovini. Determinare la p. che lo studente conosca la risposta nell’ipotesi che abbia risposto esattamente. Ad esempio, uno studente liceale alla fine dell’anno scolastico, prima degli scrutini, ha un voto medio uguale a 5 e rischia di essere rimandato in quella materia. Il professore gli fa una domanda con solo due risposte per aumentargli il voto, e quindi promuoverlo, nel caso che risponda bene. Se lo studente risponde esattamente, quale dovrebbe essere ora il voto? Il problema si risolve rapidamente con la legge di Bayes. Infatti siano dati gli eventi
H = "lo studente conosce la risposta" ; A = "lo studente risponde esattamente" così che P(H)=p, P(A|H)=1, P(A|H^c)= 1/s; pertanto P(H|A) =ps/(1-p-ps). Nel caso dello studente liceale, è s = 2 e p = 0.5. Infatti uno studente con voto 5 ha p. 5/10 di rispondere esattamente: questa è una misura della sua bravura. Se risponde esattamente alla domanda del docente il suo voto è ora P(H|A) =2/3 » 0,666, cioé quasi 7.

Esercizi 3.14; 3.18; 3.19; 3.24

2.7 Densità e funzione di distribuzione
Quando si raccolgono dati statistici, per esempio i pesi di molte persone, in pratica si stanno osservando più fenomeni casuali. Ogni persona misurata è come un dado: la faccia del dado corrisponde al peso. Si badi alla coincidenza dado della probabilità, con dato della statistica. Si ottengono così dei numeri x_i(i pesi), per i = 1,2,…n, che corrispondono ai punti usciti sul dado-persona. Tali numeri appaiono con delle frequenze. Sia f(x_i) la frequenza relativa o percentuale del dato x_isul totale dei dati raccolti.

Nella figura, chiamata istogramma, le basi dei rettangoli sono sempre di lunghezza unitaria e le altezze indicano le frequenze relative f(x_i), che soddisfano le seguenti proprietà:
a) f(x_i) ³ 0 per ogni i
S(f(x_i),i,1,n) = 1.
Raffinando sempre di più le misure dei pesi, passando per esempio dai chili agli etti, poi ai grammi e così via, si può supporre, al limite, che esista una funzione f tale che f(x) sia la frequenza relativa (percentuale) teorica del dato x.

Se così fosse, la funzione f dovrebbe soddisfare le seguenti proprietà:
f(x)³ 0
ò(f(x),x,-¥,¥) = 1.
Inoltre, la funzione integrale
F(x) = ò(f(t),t, - ¥,x)
dovrebbe dare la frequenza relativa (percentuale, probabilità statistica) di dati non superiori al valore x. Tali osservazioni conducono ai concetti fondamentali di funzione densità (f.d.p.) f(X,x) e funzione di distribuzione (f.d.d) F(X,x) ( di probabilità) di un'alea.
Sia X l'alea; fissato un numero reale x si consideri l’evento (X £ x) = "l'alea X assume un valore non superiore ad x". La p. di tale evento è una funzione F di x (e dell'alea X)

F(X,x) = P(X £ x)
chiamata funzione di distribuzione (o di ripartizione) dell'alea. X.
Esistono tre densità di probabilità fondamentali:
a) la densità uniforme f(x)=1/a, per a>0, 0<x<a, e nulla altrove. La sua funzione di distribuzione è riportata nel paragrafo 1.9.3 sullo spazio uniforme;
b) la densità esponenziale nello spazio di Poisson f(t)=ae^-at, per t>0, e nulla altrove; la funzione di ripartizione è F(t) = 1-e^-at per t>0, nulla altrove. Essa è la p. che il primo arrivo in un processo di Poisson accada prima del tempo t.
c) Infine,

è la f.d.d. della v.a. X del processo di Wiener-Levy di parametri s = t = 1 (funzione normale).

La densità di probabilità dell'alea X è

densità n(x) =

2.8 Probabilità condizionata nel continuo
La p. condizionata P(A|H) è stata definita per un evento H tale che P(H)>0. Quando si trattano v.a. continue X l’evento (X = t) ha p. nulla per ogni numero reale t. Non avrebbe senso quindi il termine P(A|X=t). Tuttavia si possono fare esempi in cui questa p. viene calcolata direttamente. Consideriamo infatti, nello spazio uniforme, n punti U_iscelti a caso indipendentemente su [0,a]. Sia poi U_(i) la v.a. min(U₁,U₂,…,U_n) cioè il più piccolo degli n punti. Se H = (U₁= t) ed A = (U_(i)£ x) possiamo calcolare P(U₍₁₎£ x|U₁=t), cioè la p. che se il primo punto estratto U_i; t, il più piccolo punto estratto U₍₁₎ non superi x. Infatti, con un semplice ragionamento, si prova subito che essa vale 1- (1 – x/a)^n-1 se x<t, mentre vale 1 se x³t.
Fissato un h>0, in genere, per ogni reale x, l’evento (x<X£ x+h) ha p. positiva. Siamo portati così alla seguente
Definizione. Siano dati una v.a. continua X ed un evento A; si definisce p. condizionata di A dato l’evento (X =x) il limite seguente

P(A|X=x) = lim P(A|x<X£ x+h) quando h® 0
se esiste.
Nota. Questa definizione porta ad una nuova alea che indicheremo con P(A|X), così pensata: essa prende il valore P(A|X=x) quando X prende il valore x.
La p. P(A) e la p. condizionata P(A|X=x) sono legate alla densità di p. f(x) di X dalla formula fondamentale seguente.
Teorema. Se X è un'alea con densità f(x), allora per ogni evento A risulta

P(A) = ò_R f(x)P(A | X=x)dx
legge delle alternative nel continuo

dove l’integrale si intende esteso a tutto l’asse x.
Lo strumento necessario per la dimostrazione è il teorema del valor medio dell’Analisi Matematica. Ricordiamo che esso dice quanto segue: se f è una funzione continua sull’intervallo [a,b] allora esiste un punto x* in [a,b] tale che

(b-a)f(x*) = ò(f(x),x,a,b).
Giacché ci siamo, conviene anche dire il significato probabilistico di questo teorema: il secondo membro (vedi cap.4 sulla media) è la media della v.a. f (X) quando X è uniforme su [a,b]. Pertanto, dato h>0 piccolo a piacere, dividiamo l’asse reale in intervalli di lunghezza h con i punti x_i =hi.

così gli eventi H_i = (x_i<X£ x_i+h) formano una partizione stocastica. Per la legge delle alternative è

P(A) = S_i P(x_i<X£ x_i+h)P(A| x_i<X£ x_i+h)
Ora, per il teorema del valor medio applicato ad f (x) vi è almeno un x_i* nell’intervallo [x_i,x_i+h] tale che

P(x_i<X£ x_i+h) = ò(f(x),x,x_i,x_i+h) = hf(x_i*)
quindi

P(A) = S_i hf(x_i*) P(A| x_i<X£ x_i+h)
Perciò, quando h® 0, il secondo membro, per definizione di integrale, diventa: