ELEMENTI DI STOCASTICA

ELEMENTI DI STOCASTICA
Mauro Cerasoli - 6.12.00

5. Media e deviazione standard

5.1 Media di una variabile aleatoria
Ad una v.a. naturale X viene associato il numero

<X> = S_n ³ 0 nP(X=n)
noto come media (o speranza matematica, valor medio, valore atteso) di X. Si dice che X ha media infinita se <X> = ¥. Una definizione analoga si ha per v.a che assumono soltanto valori interi positivi v_n: basta sostituire n con v_n nell’addendo della precedente formula.

Esempio 5.1.1

Per la v.a. simmetrica s-dado D risulta <D> = S_{1£k £ s}k/s = … = (s+1)/2.

La v.a. I_n di Bernoulli ha media <I_n> = 0 ´ (1-p) + 1´ p = p.

Il tempo d’attesa T₁per il primo arrivo ha media S_n ³ 1 np(1-p)^n-1 =…= 1/p.

La v.a. di Poisson di parametro l ha media S_k ³ 0 l^ke^-l/k! = … = l

Fissato un evento A sia I_A la v.a indicatrice che assume il valore 0 se A non si verifica, mentre assume il valore 1 se si verifica. Si vede allora che <I_A> = P(A). Così la p. di un evento può essere interpretata come il valore atteso di una v.a..

Una scommessa o lotteria è una particolare v.a.. Se

b è il biglietto che si deve pagare per partecipare al gioco
v è la vincita che si realizza in caso di successo
p è la p. di vincita

la lotteria corrisponde alla v.a. L che assume il valore –b con p. 1-p ed il valore v-b con p. p. Il suo valore atteso è

<L> = -b(1-p) + (v-b)p
= pv-b.
Una v.a. è detta equa se la sua media è nulla. Pertanto se la lotteria è equa, cioè se <L> = 0 e se inoltre v = 1, ne risulta p = b. Così la p. di un evento è il biglietto, il prezzo, che siamo disposti a pagare in una scommessa equa, per avere una vincita unitaria. E’ questa l’interpretazione soggettiva della probabilità.
La definizione di media per v.a. X intere, non necessariamente positive, ha bisogno di qualche precisazione, soprattutto quando la v.a assume infiniti valori. Poniamo

X⁺ = max (X,0), X^- = max (-X,0)
In modo che sia X⁺-X^- = X. Poiché X⁺ed X^-sono positive, hanno senso le loro medie. Si può definire quindi la media di X ponendo

<X> = <X⁺> - <X^->
escluso il caso in cui entrambe le medie di X⁺ed X^- sono infinite, per evitare forme indeterminate. In questo secondo caso si dice che X non ha media. Se però X ha media, allora risulta

<X> = S_n ³ 0 v_nP(X=v_n).
Se X è una v.a. continua con densità f(x) si definisce la media ponendo

<X> = ò_R xf(x)dx
nell’ipotesi che l’integrale sia assolutamente convergente.
Esempio 5.1.2

Per la v.a. uniforme U su [0,a] risulta <U> = ò(x/a,x,0,a) = a/2.
La v.a esponenziale T di parametro a ha media <T> = ò(tae^-at,t,0,¥) = 1/a.
La v.a di Wiener-Levy con s = 1 = t ha media ò_Rxn(x)dx = 0.
La v.a. di Cauchy non ha media.

Più in generale si definisce la media della v.a. trasformata g(X) nel modo seguente

<g(X)> = S_n ³ 0 g(v_n)P(X=v_n) se X è discreta
= ò_R g(x)f(x)dx se X è continua.

Problemi
5.1.1 Il massimo numero al lotto. Un’urna contiene palline numerate da 1 ad s; ne vengono estratte k senza rimessa (al lotto è s = 90, k = 5). Qual è il valor medio atteso del più grande dei numeri delle k palline estratte?
[R. k(s+1)/(k+1); si ricordi l’identità S_{1£n £ s}(n,k) = (s+1,k+1) e che se N è il più grande numero estratto allora P(N=n) = (n-1,k-1)/(s,k). Il risultato ottenuto viene utilizzato per stimare il parametro s quando è incognito]
5.1.2 L’affidabilità Un sistema è composto di n componenti in parallelo; il tempo T_i di funzionamento di ciascuno dei pezzi componenti è distribuito esponenzialmente con parametro a, indipendentemente da un pezzo all’altro. Il sistema va in avaria, si rompe, quando si rompe l’ultimo componente: quanto bisogna aspettare in media per sostituire il sistema rotto?
[R. (1+1/2+1/3+…+1/n)/a; il tempo d’attesa per la rottura del sistema è il massimo T_(n) dei tempi d’attesa per la rottura dei singoli pezzi; esso ha distribuzione di p. P(T_(n)<t) = (1-e^{-a t})ⁿ. Nel calcolare la media si ricordi l’identità S_{1 £ k £ n} (-1)^k-1(n,k)/k = 1+1/2+1/3+…+1/n. Il risultato ottenuto, vista la presenza della somma parziale di una serie armonica, che è divergente, dice che mettendo un bel numero di pezzi in parallelo, si può stare più tranquilli per la funzionalità del sistema.]
5.1.3 L’attesa snervante Una persona ha invitato a cena n amici a casa sua, ad un’ora stabilita. Se gli amici arrivano a caso con ritardi esponenziali di parametro a, indipendenti gli uni dagli altri, quanto dovrà aspettare in media per cenare con loro?
[R. La risposta è la stessa del problema precedente e, sempre per la divergenza della serie armonica, suggerisce di precisare meglio gli inviti ad amici ritardatari, se non si vuole morire di fame quando questi sono tanti!]

Sia g(x)>0, per x>0, una funzione crescente; fissato t>0 risulta per ogni v.a. x la

P(|X| ³ t) £ <g(|X|)>/t
Disuguaglianza di Markov

Dimostriamo la disuguaglianza per il caso discreto. Allora

<g(|X|)> = S_k g(|k|)P(X=k) ³ S_{|k| ³ t}g(|k|)P(X=k) ³ S_{|k| ³ t}g(t)P(X=k) = g(t)S_{|k| ³ t}P(X=k)
= g(t)P(|X| ³ t).
Come caso particolare, quando g(x) = x, otteniamo la disuguaglianza

P(|X| ³ t) £ <X>/t.

Esercizi 5.4; 5.6; 5.7; 5.14; 5.15; 5.18; 6.14; 6.20;

5.2 Teorema della media
Il teorema seguente afferma che per conoscere la media della somma di due v.a. è sufficiente conoscere le medie delle singole v.a..
Teorema Se c è una costante, la media di cX è c volte la media di X:

<cX> = c<X>.
La media della somma di due v.a. è la somma delle rispettive medie:

<X+Y> = <X> + <Y>.
Dimostriamo il teorema per v.a. naturali; la prima proprietà è evidente. In base alla definizione di media risulta

<X+Y> = S_n ³ 0 nP(X+Y=n) = S_i,j ³ 0 (i+j)P(X=i,Y=j) = S_i,j ³ 0 iP(X=i,Y=j) + S_i,j ³ 0 jP(X=i,Y=j)
= S_i ³ 0 i S_j ³ 0 P(X=i,Y=j) + S_j ³ 0 j S_i ³ 0 P(X=i,Y=j)
= S_i ³ 0 iP(X=i) + S_j ³ 0 jP(Y=j)
= <X> + <Y>.
Una dimostrazione analoga si ha nel caso continuo. Il teorema ci dice che <.> è un funzionale lineare. E’ ovvio che il teorema si estende a più di due v.a. nel senso che la media di un numero finito di v.a. è la somma delle medie delle singole v.a.. Si noti che nel teorema non si fa alcuna ipotesi sulla natura delle v.a.; in particolare non si richiede che esse siano indipendenti.
Ora possiamo calcolare le medie di altre v.a. utilizzando il teorema appena dimostrato, senza effettuare calcoli lunghi ed inutili.
Esempi
5.2.1 La v.a. binomiale S_n è la somma di n indicatrici di Bernoulli, S_n = I₁+I₂+…+I_n, tutte di media p. Quindi

<S_n> = <I₁+I₂+…+I_n> = n<I₁> = np.
5.2.2 Analogamente, il tempo d’attesa W_k per il k° successo è la somma di k v.a. T_i tutte di media 1/p, pertanto <W_k> = k/p.
5.2.3 Nel caso continuo, il tempo d’attesa W_k per il k° arrivo nel processo di Poisson è la somma di k v.a. esponenziali di media 1/a. Pertanto <W_k> = k/a.
5.2.3 Il problema 5.1.2 dell’affidabilità può essere risolto, senza fare calcoli di integrali, al modo seguente. Il tempo d’attesa T₍₁₎ = min(T_i, i=1,2,…,n) per il primo guasto ha media 1/(na); avvenuto questo, il tempo d’attesa per il secondo guasto è il tempo d’attesa per il primo guasto di n-1 componenti, cioè 1/[(n-1)a], e così via. Poiché il tempo d’attesa per la rottura del sistema è la somma di questi tempi intermedi, la sua media è la somma delle medie.

Il problema del collezionista Si gettano a caso biglie, una dopo l’altra, in s scatole; sia N_k il tempo d’attesa (= numero di biglie) per riempire s-k scatole. Se le scatole sono le caselle di un album e le biglie sono le figurine che si raccolgono per riempirlo, si ha il problema del collezionista. Si suppone che le figurine siano prodotte ugualmente in tutte le forme, ovvero che sia 1/s la p. che una figurina sia di una qualunque delle s caselle dell’album.Allora N₀è il numero di figurine necessarie per riempire l’album. Possiamo calcolare <N_k> con un artificio senza conoscere la sua distribuzione di p.. Introduciamo le v.a. X_j = " numero di biglie necessarie per occupare la j scatola, una volta occupate j-1 scatole", con j=1,2,…,s-k. Allora X₁=1 e per j ³ 2 risulta che X_j ha una distribuzione geometrica di parametro p = (s-j+1)/s. Quindi <X_j> = s/(s-j+1) e la media di N_kè la somma di tali valori per j che va da 1 ad s-k Pertanto

<N_k> = s[1/(k+1)+1/(k+2)+…+1/s].
Per k=0 otteniamo l’elegante formula

<N₀> = s(1+1/2+1/3+…+1/s).
La presenza della somma parziale della serie armonica, che è divergente, spiega la difficoltà che si ha per riempire un album quando s è grande, nell’ipotesi di non fare scambi di figurine con amici. In base all’approssimazione di Eulero-Mascheroni

1+1/2+1/3+…+1/s ~ .57721 + logs
si può dire che <N₀> ~ s(.57721 + logs). La tabella seguente riporta alcuni valori di tale media.

s	100	200	300	400	500	600	700	800	900	1000
<N₀>	518	1175	1884	2627	3395	4184	4989	5809	6641	7485

Problema 5.2.1 Si dimostri che se X ed Y sono indipendenti, allora <XY> = <X><Y>.

Variabile	parametri	media	Varianza
Bernoulli	p	p	p-p²
Binomiale	n, p	np	np(1-p)
Geometrica	p	1/p	(1-p)/p²
Pascal	k, p	k/p	k(1-p)/p²
Ipergeometrica	b, r, n	nr/(b+r)	nbr(b+r-n)/(b+r)²(b+r-1)
Poisson	l	l	l
Uniforme	a	a/2	a²/12
Esponenziale	a	1/a	1/a²
Wiener-Levy	s, t	0	s²t
Dirichlet	a, n, k	ka/(n+1)	a²k(n-k+1)/(n+1)²(n+2)
Erlang	a, k	k/a	k/a
Beta	u, v	u/(u+v)	uv/ (u+v)²(u+v+1)
Gamma	a, n	n/a	n/a²
Weibull	a, n	a^{-1/n G}(1+1/n)	[G(1+2/n)-G²(1+1/n)]/a^2/n

Tabella delle medie e delle varianze

5.3 Media condizionata
Se X ed Y sono v.a. discrete, si definisce

<X|Y=n> = S_kkP(X=k|Y=n)
media condizionata di X dato l’evento (Y=n). Una definizione analoga si ha nel caso continuo. Se X ed Y sono indipendenti, <X|Y=n> = <X> per ogni n.
Nasce così una nuova v.a., indicata con <X|Y>, che assume il valore <X|Y=n> quando Y assume il valore n. Una proprietà notevole di questa v.a. è che, per ogni X ed Y, la sua media coincide con quella di X:

<<X|Y>> = S_n <X|Y=n>P(Y=n) = S_nS_k kP(X=k|Y=n)P(Y=n) = S_nS_k kP(X=k,Y=n)
S_kk Sn P(X=k,Y=n) = S_kkP(X=k)
= <X>
Scopriamo così che

<X> = S_n <X|Y=n>P(Y=n)
legge delle alternative per la media

Questa uguaglianza dice che anche la media di una v.a. si può calcolare con una formula simile alla legge delle alternative.
Esempi
5.3.1 Sia T₁ il tempo d’attesa per il primo successo nel processo di Bernoulli di parametro p. Ritroviamo la sua media 1/p con la formula appena dimostrata; sia T₁= X ed Y = I₁, il primo lancio della moneta. Allora

<T₁> = <T₁|T₁=0>P(T₁=0) + <T₁|T₁=1>P(T₁=1) = (1-p)(1+<T₁>) + 1´p
da cui si ricava <T₁> = 1/p.
5.3.2 Sia N il numero di clienti che in un giorno entrano in un negozio ed X_i il denaro speso dall’i-esimo cliente, allora S_N = X₁ + X₂ +…+ X_N , l’incasso della giornata, è una somma aleatoria di v.a.. Nell’ipotesi che le v.a. abbiano la stessa media µ, possiamo calcolare l’incasso medio, con la legge delle alternative, condizionando alla v.a. N. Infatti

<S_N> = S_n <S_N |N=n>P(N=n) = S_n < X₁ + X₂ +…+ X_n>P(N=n) =S_n nµP(N=n)
= µS_n nP(N=n)
= µ<N>
Nota Se le X_i sono equidistribuite, sono cioè repliche o clonazioni di una medesima v.a. X, l’incasso S_N suggerisce una nuova operazione tra le v.a N e X che verrà studiata al capitolo delle funzioni generatrici. Si veda intanto l'articolo "Il significato probabilistico di concetti di algebra".
5.4 Varianza di una variabile aleatoria
La media di una v.a. discreta ha come analogo il baricentro di un sistema di masse sulla retta. Basta interpretare le p. come masse e i valori che la v.a. assume come ascisse su cui sono collocate le masse. Nel caso continuo la densità di p. corrisponde alla densità di massa della retta.

Il modo per misurare la dispersione delle masse intorno al baricentro, ovvero la dispersione dei valori della v.a. intorno alla media, è la varianza s ². Essa pure è una media: se µ è la media di X, allora

s²(X) = <(X-µ)²>
La varianza è sempre positiva e la sua radice quadrata s è chiamata deviazione standard (abbreviata con d.s., o scarto quadratico medio).
Esempio 5.4.1 Calcoliamo la varianza della v.a. di Bernoulli I₁= (0,1-p;1, p) che ha media p.
Allora I₁ - µ = (-p, 1-p; 1-p, p) ed (I₁ - µ)² = (p²,1-p; 1-2p+p²,p) quindi

s²(I₁) = p²(1-p) + (1-2p+p²)p = p – p²
Nota La varianza di una variabile di Bernoulli assume il valore massimo ¼ per p = ½.
I calcoli precedenti possono essere evitati se si considerano le seguenti proprietà della varianza:

s²(X) = <X²> - µ²
formula di Konig

Per ogni costante c risulta

s²(cX) = c²s²(X)
s²(X+c) = s²(X).
Se X ed Y sono v.a. indipendenti allora

s²(X+Y) = s²(X) + s²(Y)
La dimostrazione di questa proprietà poggia sul fatto che se X ed Y sono indipendenti, allora

<XY> = <X><Y>.
Questa formula si estende a più di due v.a. indipendenti. In particolare, se S_nè la somma di n v.a. indipendenti, tutte di varianza s², allora

s²(S_n) = ns².
Analogamente, la v.a. M_n = S_n/n ha varianza s²/n. Pertanto la d.s. di S_nè sÖn e quella di M_n è s/Ön.
Esempio 5.4.2. Sia q = 1-p; la v.a. binomiale S_n è la somma di n variabili di Bernoulli indipendenti ciascuna di varianza pq, quindi s²(S_n) = npq. Analogamente, la v.a. M_n = S_n/n ha varianza pq/n.
Per due v.a. qualsiasi risulta, più in generale:

s²(X+Y) = s²(X) + s²(Y) +2(<XY> - <X><Y>).
L’espressione <XY> - <X><Y>, indicata spesso con cov(X,Y), viene chiamata covarianza di X ed Y ed è nulla se queste sono v.a. indipendenti.
Il rapporto

r(X,Y) = cov(X,Y)/[s(X)s(Y)]
è chiamato coefficiente di correlazione di X e Y. Si può dimostrare che risulta sempre |r(X,Y)| £ 1.
E’ possibile caratterizzare assiomaticamente la varianza come misura della dispersione. Si ha infatti il seguente teorema la cui dimostrazione è nell’ Introduzione alla probabilità di Baclawski-Cerasoli-Rota della bibliografia.
Teorema di unicità della varianza Sia d(X)³0 una misura della dispersione dei valori possibili della v.a. X intorno alla sua media µ, tale che

d(X) è invariante per traslazioni: d(X+c) = d(X) per ogni costante c;
esiste una funzione pari g tale che d(X) = <g(X-µ)>;
se X e Y sono indipendenti, d(X+Y) = d(X) + d(Y).
Allora, a meno di una costante moltiplicativa, risulta d(X) = s²(X).

Sia X una v.a. di media µ e varianza s²; dalla disuguaglianza di Markov, sostituendo X con X-µ e t con t², si ottiene la

P(|X - µ| ³ t) £ s²/t²
Disuguaglianza di Cebysev

La disuguaglianza afferma quanto segue: la p. che una v.a. X prenda un valore al di fuori dell’intervallo [µ-t,µ+t] non può superare t^-2 volte la sua varianza. Questo fatto ci porta a concludere che minore è la varianza, più piccola è la p. che X assuma un valore fuori di tale intervallo. La disuguaglianza inoltre ci fa pensare a in medio stat virtus e agli altri famosi versi di Orazio: est modus in rebus; sunt certi denique fines,
quos ultra citraque nequit consistere rectum
che dovrebbero dire: vi è una misura (media µ) in tutte le cose, ci sono comunque dei confini fissi (µ-t,µ+t) al di qua e al di là dei quali non può esistere la cosa giusta (la v.a. ha poca p. di assumere valori).

Esercizi 7.1; 7.3; 7.4; 7.6; 7.7; 9.6; 9.9; 9.11

5.5 La legge dei grandi numeri
Sia S_n la somma di n v.a. indipendenti tutte di media µ e d.s. s; sia poi come al solito M_n = S_n/n la frequenza campionaria. Sostituendo X con M_n nella disuguaglianza di Cebysev si ottiene, per t>0, la

P(|M_n - µ| ³ t) £ s²/(nt²)
Disuguaglianza di Bernoulli

Passando all’evento complementare, essa è equivalente a quest’altra

P(|M_n - µ| £ t) ³ 1 - s²/(nt²)
più utile per le applicazioni. Ad esempio, nel caso di v.a. di Bernoulli, risulta s² = pq £ ¼ e quindi

P(|M_n - p| £ t) ³ 1 –1/(4nt²)
Esempio 5.5.1 Per avere un’idea concreta di questa disuguaglianza prendiamo una moneta equa, p = ½, n = 1000 e t = 1/20 così che 1-1/(4nt²) = .95.
La disuguaglianza di Bernoulli dice che l’evento (½-1/20 £ M₁₀₀₀ £ ½+1/20), ovvero (450£ S_{1000 £} 550), ha una p. almeno del 95% di verificarsi. E questo è un grande risultato perché la p. vera è la somma di (1000,k)2^-1000 al variare di k da 450 a 550: un calcolo manuale molto lungo e noioso!
In generale la disuguaglianza di Bernoulli ci permette di rispondere, anche se in modo un po’ grossolano, alla domanda seguente. Supponiamo che sia p la p. di un evento (successo). In n prove ripetute indipendenti del fenomeno casuale sia M_n la frequenza dei successi; fissato t>0 e una p. c (confidenza), quanto deve essere grande n affinché la p. che M_ndifferisca da p, in valore assoluto, non più di t non sia inferiore a g ? Ovvero, per quale valore minimo di n sarà soddisfatta la disuguaglianza

P(|M_n - p| £ t) ³ c ?
Ricorrendo alla disuguaglianza di Bernoulli, il numero incognito n di prove può essere trovato dalla relazione 1 – 1/(4nt²) ³ c cioè

n ³ 1/[4(1-c)t²].
Esempio 5.5.2 Quante volte bisogna tirare per aria una moneta di trucco p affinché sia almeno del 95% la p. che la frequenza relativa osservata sulle uscite di testa differisca di non più di .05 da p? In questo esempio è c = 95%, t = .05 e perciò n deve essere almeno 1/[4(1-.95)(.05)²] = 2.000. Quindi con almeno 2000 lanci possiamo stimare la prima cifra di p. Vedremo in seguito come questi risultati possono essere migliorati con l’aiuto del teorema centrale.
Passando al limite per n ® ¥ nella disuguaglianza di Bernoulli, otteniamo che P(|M_n - µ| ³ t) tende a 0 per ogni t >0:

lim_n®¥ P(|M_n - µ| ³ t) = 0
legge dei grandi numeri

Questo risultato è noto anche come legge empirica del caso. Fu ottenuto da Giacomo Bernoulli e pubblicato nel 1713 nella sua opera postuma Ars Conjectandi. Essendo la p. una misura, esso è il primo caso nella storia della matematica di una convergenza in misura. La legge dei grandi numeri dice in sostanza che se n cresce, diventando un numero sempre più grande, se tende all’infinito, la p. che la media aritmetica dei risultati di n esperimenti si discosti dalla media teorica µ più di una quantità t positiva assegnata, tende a 0.
Per una errata applicazione della legge dei grandi numeri al gioco del lotto si veda l’ appendice.
Nota Una notevole applicazione della legge dei grandi numeri si ha nella simulazione di fenomeni casuali col Metodo Monte Carlo (si veda l’ Appendice e l’articolo [37] di M.Cerasoli, V.De Petris).

Esercizi 7.36