ELEMENTI DI STOCASTICA

di Mauro Cerasoli© - 10/11/2000

3. DISTRIBUZIONI DISCRETE

3.1 Il megaproblema di Boole
George Boole nel suo trattato Investigazioni sulle leggi del pensiero del 1854 scriveva a proposito della p.: «L’oggetto della teoria della probabilità potrebbe essere definito così: date le probabilità di eventi qualsiasi, di qualunque specie, trovare la probabilità di qualche altro evento connesso con i primi». Nel 1934, in un famoso articolo, Lomnicki e Ulam ribadivano l’idea affermando che «lo scopo di una teoria delle probabilità è quello di calcolare nuove probabilità a partire da probabilità già note». Questo è il megaproblema del calcolo delle p., che oggi esprimiamo nel seguente modo.
Siano date n v.a. Xi qualsiasi, con funzioni di distribuzioni note, ed una nuova v.a. Y funzione delle prime: Y = g(X1, ..., Xn ). Determinare la funzione di distribuzione di Y.
In altre parole, determinare la p. che Y prenda il valore k, cioè P(Y=k) se Y è discreta, oppure, se Y è continua, per ogni y Î R, determinare la p. che Y prenda un valore non superiore ad y, cioè P(Y£y), essendo note rispettivamente P(Xi=k) o P(Xi £ x) per ogni i = 1,2,…,n.
E’ bene dire subito che le v.a. Y che noi considereremo in modo particolare saranno le seguenti:
aX+b con a, b reali
Xr, r razionale
X(X-1)(X-2)…(X-n+1), n = 2,3,…
X(1) =
min(X1 ,X2 ,...,Xn )
X(n) =
max(X1 ,X2 ,...,Xn )
Sn = X1 +X2 +…+Xn
Mn = Sn/n (media campionaria)
S2 = Si (Xi – Mn )2/(n-1) (varianza campionaria)

Prima di studiare queste (ed altre) nuove v.a., vediamone alcune che nascono dai primi due spazi di p. speciali.

3.2 Distribuzione ipergeometrica
Consideriamo un’urna con r biglie rosse e b biglie bianche; ne vengono estratte n a caso e sia Rn il numero di biglie rosse estratte. Sia poi Xi = 0 se esce pallina bianca alla i-esima estrazione, Xi = 1 se esce rossa, allora Rn = X1 +X2 +…+Xn . Con un semplice ragionamento combinatorio si trova che se le biglie sono estratte in blocco (tutte insieme) allora la p. P(Rn=k), cioè la p. che delle n biglie estratte k siano rosse ed n-k bianche, che indicheremo con i(k,n,r,b),vale

i(k,n,r,b) = ( rk )( bn-k )/( r+bn )
distribuzione ipergeometrica


dove con ( rk ) indichiamo il coefficiente binomiale r(r-1)(r-2)…(r-k+1)/k!. Infatti ci sono ( r+bn ) modi di scegliere n biglie tra le r+b dell’urna (casi possibili); ( rk ) modi di scegliere k biglie rosse e ( bn-k ) modi di scegliere n - k biglie bianche (il loro prodotto è il numero di casi favorevoli).
Nota
Per una introduzione combinatoria ai coefficienti binomiali in termini di biglie nelle scatole, si veda Coefficienti binomiali e calcolo simbolico dell’Appendice.
Esempio 3.2.1 Con la formula precedente possiamo calcolare le seguenti p.:
  1. ( 12k )( 2810-k )/( 4010 ) di avere k tra assi, due e tre, in una mano di tresette; con una calcolatrice TI-89 si può vedere che la p. più alta 30,7% si ottiene per k = 3.
  2. ( 4k )( 285-k )/( 325 ) di avere k assi in una mano di poker; (poker servito, 1/899)
  3. ( rk )( 90-r5-k )/( 905 ) di vedere uscire k di r numeri giocati al lotto (ambo k=2, terno k=3). In particolare, giocando due numeri la p. di fare un ambo secco è 2/801».0025 e di un terno secco è 1/11748 ».000085.

Esempio 3.2.2 Problemi di cattura e ricattura

Per stimare il numero di pesci in un laghetto si può utilizzare la formula ipergeometrica (Z.E.Schnabel, The estimation of the total fish population of a lake, Am.Math.Monthly, 45(1938) 348-352). Infatti si catturano r pesci, si marcano, e si rigettano nel lago. Subito dopo, si catturano altri n pesci e sia k il numero di pesci marcati presenti tra questi. Assumendo tutte le ipotesi necessarie, la p. di tale evento è data dalla formula ipergeometrica, se b+r è il totale sconosciuto dei pesci nel lago. Allora si prende come stimatore per l’incognita b il valore che rende massima la p. i(k,n,r,b) = i(b) intesa come successione in b. La disuguaglianza i(b-1) £ i(b) equivale a b£r(n-k)/k. Pertanto il valore più probabile per b è la parte intera di r(n-k)/k. Ad esempio, per n = 50 = r e k = 3 viene un numero di pesci pari a 833.
Infine, se l’estrazione è fatta con rimessa delle biglie estratte, risulta invece

P(Rn=k) = ( nk )rkbn-k/(r+b)n.

Questa formula è un caso particolare della distribuzione binomiale e sarà dimostrata nel prossimo paragrafo.

Esercizi 2.6; 2.7; 2.11; 2.15; 2.20; 2.30; 3.19; 4,17; 4,23

3.3 Distribuzione binomiale
Se I1, I2,…,In sono v. a. di Bernoulli, allora Sn = I1+ I2+…+In è il numero di teste (=successi) su n lanci di una moneta. Si dimostra che per ogni k = 0,1,2,...,n, la p. P(Sn=k), scritta anche b(n,p,k), di avere k teste su n lanci di una moneta, vale

b(n,p,k) = (nk)pk(1-p)n-k
distribuzione binomiale
(Bernoulli, 1713)

Infatti, per l’assioma di Bernoulli, pk(1-p)n-k è la p. di avere, su n lanci di una moneta di trucco p, un numero di teste uguale a k, ed n-k croci, in un ordine specificato. Ma vi sono ( nk ) modi di scegliere tra gli n lanci quei k in cui fare uscire le teste. Da qui il prodotto.
Si hanno due casi particolari importanti:
a) p = r/(r+b) visto precedentemente nell’estrazione con rimessa;
b) si gettano n biglie a caso in s scatole e Qi è la v.a. uguale al numero di biglie nella i-esima scatola. Allora Qi ha la stessa distribuzione di Sn con p = 1/s.
Si noti che (1-p)n è la p. di non avere neppure una testa su n lanci, mentre 1 – (1 – p)n è la p. di averne almeno una.
Esempio 3.3.1
Se In è una v.a. di Bernoulli, allora Yn = 2In - 1 è la v.a. guadagno su una partita che assume i valori –1 ed 1. Vinci 1 con p. p, vinci –1 (perdi 1) con p. 1-p. Infatti P(Yn=-1) = 1-p, P(Yn=1) = p.
La v.a. Gn = Y1+Y2+…+Yn è il guadagno totale su n partite. Ma Gn è anche Sn - (n-Sn ) = 2Sn – n, cioè la differenza fra le vittorie (=testa) e le sconfitte (=croce). Per determinare la distribuzione di Gn basta considerare che per ogni intero relativo gÎZ si ha P(Gn=g) = P(2Sn – n=g) = P(Sn=(n+g)/2) = b(n,p,(n+g)/2). Questa p. è nulla se (n+g)/2 non è pari.
Esercizi 2.23; 2.25; 2.27; 2.29; 3.7; 3.15; 4.8

3.4 Distribuzione di Poisson
La formula della distribuzione binomiale non è comoda per fare calcoli numerici quando n è molto grande e p molto piccolo. Se però il loro prodotto np rimane costante, per esempio uguale ad un valore l, allora la formula può essere approssimata con un’altra di più facile applicazione. Per esempio, quando si vuole calcolare la p. di fare 5 volte ambo giocandolo 1000 volte. In tal caso risulta n = 1000, p = 2/801 ma np = l = 2000/801 » 2,496.
Teorema di Poisson Se n ® ¥, p ® 0 ma np ® l, allora

( nk )pk(1-p)n-k ® lke-l/k!
approssimazione di Poisson

Infatti, poiché p = l/n, si può scrivere il primo membro nella forma

n(n-1)(n-2)…(n-k+1)(l/n)k(1-l/n)n-k/k!

Ma n(n-1)(n-2)…(n-k+1)/nk ® 1; (1-l/n)n ® e-l quando n ® ¥.
Indicheremo con p(k,l) la p. di Poisson ottenuta come limite. Allora, con la formula di Poisson, la p. di fare k volte ambo giocandolo 1000 volte è p(k;2,496) = 2,496ke-2,496/k! . Mediante una TI-89 si possono calcolare i seguenti valori numerici che riportiamo approssimati alla terza cifra:

k
0
1
2
3
4
5
6
7
8
p(k,l).082.206.257.214.133.066.028.010.003

Abbiamo così scoperto una nuova v.a. N che chiameremo di Poisson: fissato un numero reale positivo l, essa assume i valori k = 0, 1, 2,… con p. rispettive p(k,l) = lke-l/k!.

Nota Ora possiamo giustificare la misura di p. di Poisson assegnata al quarto spazio di p. speciale per la v.a. N( a, t). Infatti si scelgano n punti Ui a caso su [0,a] come nello spazio W3. Fissato un t di [0,a], diciamo "testa" se il punto Ui cade in [0,t], diciamo "croce" altrimenti. Così p = t/a è la p. che esca testa. Allora la p. che su n punti estratti k cadano in [0,t] ed n-k in [t, a] è b(n,t/a,k). Se poi si fanno tendere n ed a all’infinito, con l’ipotesi che però il rapporto n/a resti costante, uguale ad a; allora si ottiene come limite ( a t)ke- a t/k!.

Esercizi 9.7

3.5 Distribuzioni geometrica e di Pascal
Sia T1 il numero di lanci necessari per avere la prima testa in uno spazio di Bernoulli; T1 è il più piccolo indice n tale che I1 = I2 = …= In-1 = 0 ma In = 1. Si vede subito che

P(T1=n) = p(1-p)n-1
distribuzione geometrica

Il paradosso della scimmia di Borel
La formula della distribuzione geometrica permette di risolvere il problema della scimmia che batte a caso sulla tastiera di un computer: riuscirà, prima o poi, a scrivere la Divina Commedia? La risposta è si, se può battere anche infinite volte. Infatti supponiamo che l’opera di Dante abbia c caratteri tra lettere, segni di interpunzione, spazi tra le parole ecc. Siano poi s i tasti della tastiera. Se la scimmia fa c battute a caso, la p. di scrivere la Divina Commedia è p = s-c. Costruiamo un processo di Bernoulli dicendo che il lancio di una moneta consiste nel fare c battute a caso sulla tastiera: esce testa se la scimmia scrive la Divina Commedia, croce altrimenti. La p. che la scimmia scriva per la prima volta la Divina Commedia al lancio n-esimo è p(1-p)n-1. La p. che prima o poi la scriva, per l’assioma della s-additività, è Sn>0 p(1-p)n-1, ma tale somma vale 1. Quindi è certo che la scimmia prima o poi scriverà la Divina Commedia. Non solo, ma la scriverà un numero grande a piacere di volte, per esempio (1000!)! volte, come vedremo. Naturalmente il risultato non cambia se invece della Divina Commedia vogliamo che la scimmia scriva uno dopo l’altro, tutti i libri scritti dall’uomo, in qualsiasi lingua. Morale della favola: il concetto di infinito è sempre misterioso!
Sia Tk il numero di lanci necessari per avere la k-esima testa dopo aver avuto la (k-1)-esima. Questa v.a. è la k-esima lacuna del processo di Bernoulli. Ad esempio, se uscissero le facce ccctctccccttcctc…sarebbe T1 = 4, T2 = 2, T3 =5, T4 =1 ecc. Allora Wk = T1 +T2 +…+Tk è il numero di lanci necessari per avere la k-esima testa. Si può dimostrare che la distribuzione di p. di Wk è:

P(Wk=n) = ( n-1k-1 ) pk(1-p)n-k
distribuzione di Pascal
(binomiale negativa)

Si noti che questa p. è uguale a kb(k,n,p)/n.
Si badi che la somma di P(Wk=n), per n ³ k, vale 1. Questo risultato dice, per esempio nel paradosso di Borel, che la scimmia scrive prima o poi la Divina Commedia anche un numero grande k a piacere di volte. Appunto k = (1000!)! di volte.

Problema di Banach. Il famoso matematico polacco Stefan Banach portava sempre due scatole di cerini, una per tasca. Quando aveva bisogno di accendere la sigaretta sceglieva a caso una delle tasche. Se ad un certo istante trovava una scatola vuota, quanti cerini erano rimasti nell’altra?
Per risolvere questo problema supponiamo che sia s il numero di cerini in ciascuna scatola. Quando per la prima volta viene trovata una scatola vuota, sia C il numero di cerini nell’altra. Supponiamo che venga trovata vuota quella di sinistra. In tal caso l’evento (C=c) per c = 0, 1, 2,…, s, accade quando è stata scelta s + 1 volte la scatola sinistra ed s – c volte l’altra con la condizione che, l’ultima volta che Banach ha cercato un cerino, ha scelto quella di sinistra (e l’ha trovata vuota). Esso quindi equivale all’evento (Wk = n) in un processo di Bernoulli, dove testa è "scelgo a sinistra", di parametro ½ , quando k = s+1 ed n = s+1+s –c = 2s-c+1. Considerando inoltre che può essere trovata vuota la scatola destra, P(C=c) è il doppio di P(Ws+1 = 2s-c+1). Sostituendo i valori nella formula di Pascal si ottiene infine

P(C=c) = ( 2s-cs )2c-2s
Esercizi 4.11; 4.15; 4.21

Mauro Cerasoli
10/11/2000