5.1 Media di una variabile aleatoria
Ad una v.a. naturale X viene associato il numero
<X> = Sn ³ 0 nP(X=n)
noto come media (o speranza matematica, valor medio, valore atteso) di X. Si dice che X ha media infinita se <X> = ¥. Una definizione analoga si ha per v.a che assumono soltanto valori interi positivi vn: basta sostituire n con vnnell’addendo della precedente formula.
Esempio 5.1.1
Per la v.a. simmetrica s-dado D risulta <D> = S1£k £ s k/s = … = (s+1)/2.
La v.a. In di Bernoulli ha media <In> = 0 ´ (1-p) + 1´ p = p.
Il tempo d’attesa T1 per il primo arrivo ha media Sn ³ 1 np(1-p)n-1 =…= 1/p.
La v.a. di Poisson di parametro l ha media Sk ³ 0 lke-l/k! = … = l
Fissato un evento A sia IAla v.a indicatrice che assume ilvalore 0 se A non si verifica, mentre assume il valore 1 se si verifica. Si vede allora che <IA> = P(A). Così la p. di un evento può essere interpretata come il valore atteso di una v.a..
Una scommessa o lotteria è una particolare v.a.. Se
b è il biglietto che si deve pagare per partecipare al gioco
v è la vincita che si realizza in caso di successo
p è la p. di vincita
la lotteria corrisponde alla v.a. L che assume il valore –b con p. 1-p ed il valore v-b con p. p. Il suo valore atteso è
<L> = -b(1-p) + (v-b)p = pv-b.
Una v.a. è detta equa se la sua media è nulla. Pertanto se la lotteria è equa, cioè se <L> = 0 e se inoltre v = 1, ne risulta p = b. Così la p. di un evento è il biglietto, il prezzo, che siamo disposti a pagare in una scommessa equa, per avere una vincita unitaria. E’ questa l’interpretazione soggettiva della probabilità.
La definizione di media per v.a. X intere, non necessariamente positive, ha bisogno di qualche precisazione, soprattutto quando la v.a assume infiniti valori. Poniamo
X + = max (X,0), X - = max (-X,0)
In modo che sia X +-X - = X. Poiché X+ ed X- sono positive, hanno senso le loro medie. Si può definire quindi la media di X ponendo
<X> = <X +> - <X ->
escluso il caso in cui entrambe le medie di X + ed X -sono infinite, per evitare forme indeterminate. In questo secondo caso si dice che X non ha media. Se però X ha media, allora risulta
<X> = Sn ³ 0 vnP(X=vn).
Se X è una v.a. continua con densità f(x) si definisce la media ponendo
<X> = òRxf(x)dx
nell’ipotesi che l’integrale sia assolutamente convergente.
Esempio 5.1.2
Per la v.a. uniforme U su [0,a] risulta <U> = ò(x/a,x,0,a) = a/2.
La v.a esponenziale T di parametro a ha media <T> = ò(tae-at,t,0,¥) = 1/a.
La v.a di Wiener-Levy con s = 1 = t ha media òR xn(x)dx = 0.
La v.a. di Cauchy non ha media.
Più in generale si definisce la media della v.a. trasformata g(X) nel modo seguente
<g(X)> = Sn ³ 0 g(vn)P(X=vn) se X è discreta
= òRg(x)f(x)dx se X è continua.
Problemi
5.1.1 Il massimo numero al lotto. Un’urna contienepalline numerate da 1 ad s; ne vengono estratte k senza rimessa (al lotto è s = 90, k = 5). Qual è il valor medio atteso del più grande deinumeri delle k palline estratte?
[R. k(s+1)/(k+1); si ricordi l’identità S1£n £ s(n,k) = (s+1,k+1) e che se N è il più grande numero estratto allora P(N=n) = (n-1,k-1)/(s,k). Il risultato ottenuto viene utilizzato per stimare il parametro s quando è incognito]
5.1.2 L’affidabilità Un sistema è composto di n componenti in parallelo; il tempo Ti di funzionamento di ciascuno dei pezzi componenti è distribuito esponenzialmente con parametro a, indipendentemente da un pezzo all’altro. Il sistema va in avaria, si rompe, quando si rompe l’ultimo componente: quanto bisogna aspettare in media per sostituire il sistema rotto?
[R. (1+1/2+1/3+…+1/n)/a; il tempo d’attesa per la rottura del sistema è il massimo T(n) dei tempi d’attesa per la rottura dei singoli pezzi; esso ha distribuzione di p. P(T(n)<t) = (1-e-a t)n. Nel calcolare la media si ricordi l’identità S1 £ k £ n (-1)k-1(n,k)/k = 1+1/2+1/3+…+1/n. Il risultato ottenuto, vista la presenza della somma parziale di una serie armonica, che è divergente, dice che mettendo un bel numero di pezzi in parallelo, si può stare più tranquilli per la funzionalità del sistema.]
5.1.3 L’attesa snervante Una persona ha invitato a cena n amici a casa sua, ad un’ora stabilita. Se gli amici arrivano a caso con ritardi esponenziali di parametro a, indipendenti gli uni dagli altri, quanto dovrà aspettare in media per cenare con loro?
[R. La risposta è la stessa del problema precedente e, sempre per la divergenza della serie armonica, suggerisce di precisare meglio gli inviti ad amici ritardatari, se non si vuole morire di fame quando questi sono tanti!]
Sia g(x)>0, per x>0, una funzione crescente; fissato t>0 risulta per ogni v.a. x la
P(|X| ³ t) £ <g(|X|)>/t
Disuguaglianza di Markov
Dimostriamo la disuguaglianza per il caso discreto. Allora
<g(|X|)> = Sk g(|k|)P(X=k) ³ S|k| ³ t g(|k|)P(X=k) ³ S|k| ³ t g(t)P(X=k) = g(t)S|k| ³ t P(X=k)
= g(t)P(|X| ³ t).
Come caso particolare, quando g(x) = x, otteniamo la disuguaglianza
P(|X| ³ t) £ <X>/t.
Esercizi
5.4; 5.6; 5.7; 5.14; 5.15; 5.18; 6.14; 6.20;
5.2 Teorema della media Il teorema seguente afferma che per conoscere la media della somma di due v.a. è sufficiente conoscere le medie delle singole v.a..
Teorema Se c è una costante, la media di cX è c volte la media di X:
<cX> = c<X>.
La media della somma di due v.a. è la somma delle rispettive medie:
<X+Y> = <X> + <Y>.
Dimostriamo il teorema per v.a. naturali; la prima proprietà è evidente. In base alla definizione di media risulta
Una dimostrazione analoga si ha nel caso continuo. Il teorema ci dice che <.> è un funzionale lineare. E’ ovvio che il teorema si estende a più di due v.a. nel senso che la media di un numero finito di v.a. è la somma delle medie delle singole v.a.. Si noti che nel teorema non si fa alcuna ipotesi sulla natura delle v.a.; in particolare non si richiede che esse siano indipendenti.
Ora possiamo calcolare le medie di altre v.a. utilizzando il teorema appena dimostrato, senza effettuare calcoli lunghi ed inutili.
Esempi
5.2.1 La v.a. binomiale Snè la somma di n indicatrici di Bernoulli, Sn = I1+I2+…+In, tutte di media p. Quindi
<Sn> = <I1+I2+…+In> = n<I1> = np.
5.2.2 Analogamente, il tempo d’attesa Wkper il k° successo è la somma di k v.a. Titutte di media 1/p, pertanto <Wk> = k/p. 5.2.3 Nel caso continuo, il tempo d’attesa Wk per il k° arrivo nel processo di Poisson è la somma di k v.a. esponenziali di media 1/a. Pertanto <Wk> = k/a.
5.2.3 Il problema 5.1.2 dell’affidabilità può essere risolto, senza fare calcoli di integrali, al modo seguente. Il tempo d’attesa T(1) = min(Ti, i=1,2,…,n) per il primo guasto ha media 1/(na); avvenuto questo, il tempo d’attesa per il secondo guasto è il tempo d’attesa per il primo guasto di n-1 componenti, cioè 1/[(n-1)a], e così via. Poiché il tempo d’attesa per la rottura del sistema è la somma di questi tempi intermedi, la sua media è la somma delle medie.
Il problema del collezionista Si gettano a caso biglie, una dopo l’altra, in s scatole; sia Nkil tempo d’attesa (= numero di biglie) per riempire s-k scatole. Se le scatole sono le caselle di un album e le biglie sono le figurine che si raccolgono per riempirlo, si ha il problema del collezionista. Si suppone che le figurine siano prodotte ugualmente in tutte le forme, ovvero che sia 1/s la p. che una figurina sia di una qualunque delle s caselle dell’album.Allora N0 è il numero di figurine necessarie per riempire l’album. Possiamo calcolare <Nk> con un artificio senza conoscere la sua distribuzione di p.. Introduciamo le v.a. Xj = " numero di biglie necessarie per occupare la j scatola, una volta occupate j-1 scatole", con j=1,2,…,s-k. Allora X1 =1 e per j ³ 2 risulta che Xjha una distribuzione geometrica di parametro p = (s-j+1)/s. Quindi <Xj> = s/(s-j+1) e la media di Nk è la somma di tali valori per j che va da 1 ad s-k Pertanto
<Nk> = s[1/(k+1)+1/(k+2)+…+1/s].
Per k=0 otteniamo l’elegante formula
<N0> = s(1+1/2+1/3+…+1/s).
La presenza della somma parziale della serie armonica, che è divergente, spiega la difficoltà che si ha per riempire un album quando s è grande, nell’ipotesi di non fare scambi di figurine con amici. In base all’approssimazione di Eulero-Mascheroni
1+1/2+1/3+…+1/s ~ .57721 + logs
si può dire che <N0>~ s(.57721 + logs). La tabella seguente riporta alcuni valori di tale media.
s
100
200
300
400
500
600
700
800
900
1000
<N0>
518
1175
1884
2627
3395
4184
4989
5809
6641
7485
Problema 5.2.1 Si dimostri che se X ed Y sono indipendenti, allora <XY> = <X><Y>.
Variabile
parametri
media
Varianza
Bernoulli
p
p
p-p2
Binomiale
n, p
np
np(1-p)
Geometrica
p
1/p
(1-p)/p2
Pascal
k, p
k/p
k(1-p)/p2
Ipergeometrica
b, r, n
nr/(b+r)
nbr(b+r-n)/(b+r)2(b+r-1)
Poisson
l
l
l
Uniforme
a
a/2
a2/12
Esponenziale
a
1/a
1/a2
Wiener-Levy
s, t
0
s2t
Dirichlet
a, n, k
ka/(n+1)
a2k(n-k+1)/(n+1)2(n+2)
Erlang
a, k
k/a
k/a
Beta
u, v
u/(u+v)
uv/ (u+v)2(u+v+1)
Gamma
a, n
n/a
n/a2
Weibull
a, n
a-1/n G(1+1/n)
[G(1+2/n)-G2(1+1/n)]/a2/n
Tabella delle medie e delle varianze
5.3 Media condizionata Se X ed Y sono v.a. discrete, si definisce
<X|Y=n> = Sk kP(X=k|Y=n)
media condizionata di X dato l’evento (Y=n). Una definizione analoga si ha nel caso continuo. Se X ed Y sono indipendenti, <X|Y=n> = <X> per ogni n.
Nasce così una nuova v.a., indicata con <X|Y>, che assume il valore <X|Y=n> quando Y assume il valore n. Una proprietà notevole di questa v.a. è che, per ogni X ed Y, la sua media coincide con quella di X:
<<X|Y>> = Sn <X|Y=n>P(Y=n) = SnSk kP(X=k|Y=n)P(Y=n) = SnSk kP(X=k,Y=n)
Sk k Sn P(X=k,Y=n) = Sk kP(X=k)
= <X>
Scopriamo così che
<X> = Sn <X|Y=n>P(Y=n) legge delle alternative per la media
Questa uguaglianza dice che anche la media di una v.a. si può calcolare con una formula simile alla legge delle alternative.
Esempi
5.3.1 Sia T1 il tempo d’attesa per il primo successo nel processo di Bernoulli di parametro p. Ritroviamo la sua media 1/p con la formula appena dimostrata; sia T1 = X ed Y = I1, il primo lancio della moneta. Allora
da cui si ricava <T1> = 1/p.
5.3.2 Sia N il numero di clienti che in un giorno entrano in un negozio ed Xiil denaro speso dall’i-esimo cliente, allora SN= X1 +X2 +…+XN , l’incasso della giornata, è una somma aleatoria di v.a.. Nell’ipotesi che le v.a. abbiano la stessa media µ, possiamo calcolare l’incasso medio, con la legge delle alternative, condizionando alla v.a. N. Infatti
<SN> = Sn <SN|N=n>P(N=n) = Sn < X1 +X2 +…+Xn>P(N=n) =Sn nµP(N=n)
= µSn nP(N=n)
= µ<N>
Nota Se le Xisono equidistribuite, sono cioè repliche o clonazioni di una medesima v.a. X, l’incasso SNsuggerisce una nuova operazione tra le v.a N e X che verrà studiata al capitolo delle funzioni generatrici. Si veda intanto l'articolo "Il significato probabilistico di concetti di algebra". 5.4 Varianza di una variabile aleatoria La media di una v.a. discreta ha come analogo il baricentro di un sistema di masse sulla retta. Basta interpretare le p. come masse e i valori che la v.a. assume come ascisse su cui sono collocate le masse. Nel caso continuo la densità di p. corrisponde alla densità di massa della retta.
Il modo per misurare la dispersione delle masse intorno al baricentro, ovvero la dispersione dei valori della v.a. intorno alla media, è la varianza s
2. Essa pure è una media: se µ è la media di X, allora
s2(X) = <(X-µ)2>
La varianza è sempre positiva e la sua radice quadrata s è chiamata deviazione standard (abbreviata con d.s., o scarto quadratico medio).
Esempio 5.4.1 Calcoliamo la varianza della v.a. di Bernoulli I1 = (0,1-p;1, p) che ha media p.
Allora I1 - µ = (-p, 1-p; 1-p, p) ed (I1 - µ)2 = (p2,1-p; 1-2p+p2,p) quindi
s2(I1) = p2(1-p) + (1-2p+p2 )p = p – p2
Nota La varianza di una variabile di Bernoulli assume il valore massimo Ľ per p = ˝.
I calcoli precedenti possono essere evitati se si considerano le seguenti proprietà della varianza:
s2(X) = <X2> - µ2 formula di Konig
Per ogni costante c risulta
s2(cX) = c2s2(X)
s2(X+c) = s2(X).
Se X ed Y sono v.a. indipendenti allora
s2(X+Y) = s2(X) + s2(Y)
La dimostrazione di questa proprietà poggia sul fatto che se X ed Y sono indipendenti, allora
<XY> = <X><Y>.
Questa formula si estende a più di due v.a. indipendenti. In particolare, se Sn è la somma di n v.a. indipendenti, tutte di varianza s2, allora
s2(Sn) = ns2.
Analogamente, la v.a. Mn = Sn/n ha varianza s2/n. Pertanto la d.s. di Sn è sÖn e quella di Mn è s/Ön.
Esempio 5.4.2. Sia q = 1-p; la v.a. binomiale Snè la somma di n variabili di Bernoulli indipendenti ciascuna di varianza pq, quindi s2(Sn) = npq. Analogamente, la v.a. Mn = Sn/n ha varianza pq/n. Per due v.a. qualsiasi risulta, più in generale:
s2(X+Y) = s2(X) + s2(Y) +2(<XY> - <X><Y>).
L’espressione <XY> - <X><Y>, indicata spesso con cov(X,Y), viene chiamata covarianza di X ed Y ed è nulla se questesono v.a. indipendenti.
Il rapporto
r(X,Y) = cov(X,Y)/[s(X)s(Y)]
è chiamato coefficiente di correlazione di X e Y. Si può dimostrare che risulta sempre |r(X,Y)| £ 1.
E’ possibile caratterizzare assiomaticamente la varianza come misura della dispersione. Si ha infatti il seguente teorema la cui dimostrazione è nell’ Introduzione alla probabilità di Baclawski-Cerasoli-Rota della bibliografia.
Teorema di unicità della varianza Sia d(X)³0 una misura della dispersione dei valori possibili della v.a. X intorno alla sua media µ, tale che
d(X) è invariante per traslazioni: d(X+c) = d(X) per ogni costante c;
esiste una funzione pari g tale che d(X) = <g(X-µ)>;
se X e Y sono indipendenti, d(X+Y) = d(X) + d(Y).
Allora, a meno di una costante moltiplicativa, risulta d(X) = s2(X).
Sia X una v.a. di media µ e varianza s2; dalla disuguaglianza di Markov, sostituendo X con X-µ e t con t2, si ottiene la
P(|X - µ| ³ t) £ s2/t2 Disuguaglianza di Cebysev
La disuguaglianza afferma quanto segue: la p. che una v.a. X prenda un valore al di fuori dell’intervallo [µ-t,µ+t] non può superare t-2 volte la sua varianza. Questo fatto ci porta a concludere che minore è la varianza, più piccola è la p. che X assuma un valore fuori di tale intervallo. La disuguaglianza inoltre ci fa pensare a in medio stat virtus e agli altri famosi versi di Orazio:
est modus in rebus; sunt certi denique fines,
quos ultra citraque nequit consistere rectum che dovrebbero dire: vi è una misura (mediaµ) in tutte le cose, ci sono comunque dei confini fissi (µ-t,µ+t) al di qua e al di là dei quali non può esistere la cosa giusta (la v.a. ha poca p. di assumere valori).
Esercizi
7.1; 7.3; 7.4; 7.6; 7.7; 9.6; 9.9; 9.11
5.5 La legge dei grandi numeri Sia Snla somma di n v.a. indipendenti tutte di media µ e d.s. s; sia poi come al solito Mn= Sn/n la frequenza campionaria. Sostituendo X con Mn nella disuguaglianza di Cebysev si ottiene, per t>0, la
P(|Mn - µ| ³ t) £ s2/(nt2)
Disuguaglianza di Bernoulli
Passando all’evento complementare, essa è equivalente a quest’altra
P(|Mn - µ| £ t) ³ 1 - s2/(nt2)
più utile per le applicazioni. Ad esempio, nel caso di v.a. di Bernoulli, risulta s2 = pq £ Ľ e quindi
P(|Mn - p| £ t) ³ 1 –1/(4nt2)
Esempio 5.5.1 Per avere un’idea concreta di questa disuguaglianza prendiamo una moneta equa, p = ˝, n = 1000 e t = 1/20 così che 1-1/(4nt2) = .95.
La disuguaglianza di Bernoulli dice che l’evento (˝-1/20 £ M1000 £ ˝+1/20), ovvero (450£ S1000 £ 550), ha una p. almeno del 95% di verificarsi. E questo è un grande risultato perché la p. vera è la somma di (1000,k)2-1000 al variare di k da 450 a 550: un calcolo manuale molto lungo e noioso!
In generale la disuguaglianza di Bernoulli ci permette di rispondere, anche se in modo un po’ grossolano, alla domanda seguente. Supponiamo che sia p la p. di un evento (successo). In n prove ripetute indipendenti del fenomeno casuale sia Mn la frequenza dei successi; fissato t>0 e una p. c (confidenza), quanto deve essere grande n affinché la p. che Mn differisca da p, in valore assoluto, non più di t non sia inferiore a g ? Ovvero, per quale valore minimo di n sarà soddisfatta la disuguaglianza
P(|Mn - p| £ t) ³ c ?
Ricorrendo alla disuguaglianza di Bernoulli, il numero incognito n di prove può essere trovato dalla relazione 1 – 1/(4nt2) ³ c cioè
n ³ 1/[4(1-c)t2].
Esempio 5.5.2 Quante volte bisogna tirare per aria una moneta di trucco p affinché sia almeno del 95% la p. che la frequenza relativa osservata sulle uscite di testa differisca di non più di .05 da p? In questo esempio è c = 95%, t = .05 e perciò n deve essere almeno 1/[4(1-.95)(.05)2] = 2.000. Quindi con almeno 2000 lanci possiamo stimare la prima cifra di p. Vedremo in seguito come questi risultati possono essere migliorati con l’aiuto del teorema centrale.
Passando al limite per n ® ¥ nella disuguaglianza di Bernoulli, otteniamo che P(|Mn - µ| ³ t) tende a 0 per ogni t >0:
limn®¥P(|Mn - µ| ³ t) = 0
legge dei grandi numeri
Questo risultato è noto anche come legge empirica del caso. Fu ottenuto da Giacomo Bernoulli e pubblicato nel 1713 nella sua opera postuma Ars Conjectandi. Essendo la p. una misura, esso è il primo caso nella storia della matematica di una convergenza in misura. La legge dei grandi numeri dice in sostanza che se n cresce, diventando un numero sempre più grande, se tende all’infinito, la p. che la media aritmetica dei risultati di n esperimenti si discosti dalla media teorica µ più di una quantità t positiva assegnata, tende a 0.
Per una errata applicazione della legge dei grandi numeri al gioco del lotto si veda l’ appendice. Nota Una notevole applicazione della legge dei grandi numeri si ha nella simulazione di fenomeni casuali col Metodo Monte Carlo (si veda l’ Appendice e l’articolo [37] di M.Cerasoli, V.De Petris).