La distribuzione t di Student e la gaussiana

di Massimo Fantin 2002

Home

Introduzione

Uso della simulazione

Simulazione

 

Introduzione

La distribuzione t di Student viene usata in statistica per stimare il valore medio di una popolazione quando sia disponibile un campione di piccole dimensione ( meno di 30 elementi). Se il campione è più numeroso le distribuzioni gaussiana e quella di Student differiscono di poco, pertanto è indifferente usare una o l'altra.

W.S. Gossett il cui pseudonimo era Student mostrò che se la popolazione è distribuita normalmente, la distribuzione delle medie dei campioni di dimensioni p sono distribuite secondo la distribuzione di Student di ordine p-1 che è il numero dei gradi di libertà.

La distribuzione t di Student ha la seguente espressione matematica:

dove n rappresenta il numero dei gradi di libertà ( il numero degli elementi del campione meno 1 ), la funzione G (x) è la funzione gamma euleriana che, generalizza il fattoriale infatti per x intero G (x) = (x-1)! Vale la formula ricorsiva: G ( x ) = ( x -1) G (x-1), sapendo che : G ( 1/2) = Ö p e che G ( 1 ) = 1 si possono determinare i valori della gamma per i valori interi e seminteri. Per ogni grado di libertà n si può tracciare il grafico della t corrispondente, grafici che possono essere osservati nel programma di simulazione. Si può osservare che al crescere del grado di libertà ci si avvicina alla gaussiana.

Come si usa la t di Student

Data una piccolo campione { x1, x2,….,xn), per inferire il valor medio dell'universo dai dati del campione si procede in questo modo: si calcola il valore medio m del campione e lo scarto quadratico medio s .

Avendo a disposizione una tavola della t di Student e, fissato poi un certo grado di confidenza ( 90%, 95% o altro disponibile) si cerca il valore di t indicato all'incrocio riga colonna tra il livello di confidenza ed il numero dei gradi di libertà n = n-1. Tale valore è tale da rendere uguale al livello di confidenza l'area racchiusa dalla curva e l'asse x tra -t e t.

Infine l'intervallo nel quale si troverà il valor medio della popolazione con la probabilità scelta è dato da:

Se il campione è formato da molti elementi si procede in modo analogo utilizzando la distribuzione di Gauss.

Per automatizzare tutti questi passaggi si può utilizzare l'applet java di simulazione che semplifica e rende più concrete le operazioni:

Dal campione occorre, come al solito estrarre il numero dei gradi di libertà ( il numero degli elementi meno uno), il valore medio, lo scarto quadratico medio, si posiziona l'applet in "t spostata" e si sposta la figura trascinandola con il mouse per l'asse centrale fino a posizionarla sul valore medio trovato, agendo poi su una delle linee laterali si introduce lo scarto quadratico medio ( i valori si leggono a sinistra), si scelgono i gradi di libertà con i tasti ni + e ni-.

Si individua il livello di confidenza modificando l'area in blu ( integrale) : se per esempio si desidera che la probabilità che il valore medio cercato cada nell'intervallo di incertezza sia del 90%, si trascinerà la zona blu con i pallini in basso in modo che l'integrale scritto in alto indichi 0,90. Si leggono in alto gli estremi di integrazione che indicheranno l'intervallo di incertezza cercato, lo stesso che risulterà procedendo con le tavole.

Il vantaggio di questo metodo consiste, oltre ad una visualizzazione e concretizzazione delle operazioni che altrimenti risulterebbero oscure, nel poter scegliere l'intervallo di confidenza anche non centrato nel valore medio del campione.

Esempio

Supponiamo di disporre di un campione di 10 elementi, il valore medio è 123 e lo scarto quadratico medio 6 e il livello di confidenza sia del 90%, procedendo come sopra si ottiene l'intervallo [119.4 , 126,6], ma anche altri intervalli possono avere lo stesso livello come per esempio [120,128] .

 

Uso della simulazione

Il programma di simulazione è diviso in tre parti, scelte dall'opzione nella finestrella in basso che vengono denotate Gauss, t Student, t spostata:

Gauss Rappresenta la distribuzione gaussiana di assegnato valor medio m e scarto quadratico medios

 

 

Per inserire i valori di m si sposta con il mouse tutto il grafico trascinandolo per l'asse di simmetria e per introdurre i valori di s si trascinano con il mouse le due linee laterali che si trovano in m + s e in m - s .

E' possibile anche calcolare l'integrale di tale funzione trascinando con il mouse gli estremi di integrazione ( pallini sull'asse x) se si vuole calcolare l'integrale simmetrico si può osare il pallino inferiore a destra.

t Student Traccia il grafico delle distribuzioni di Student già citata. Al variare di n (ni) come si può notare al crescere dei gradi di libertà (ni) si avvicina alla curva di Gauss rappresentata sullo sfondo in grigio. Per Gli integrali si opera come sopra.

t spostata E' utilizzabile per inferenza statistica e rappresenta i grafici delle funzioni j (t) e E(t) normalizzate :

Gli spostamenti si possono fare allo stesso modo di come descritto nel caso della gaussiana e per l'inferenza statistica si procede come descritto nell'introduzione.

L'uso della tastiera in basso consente di modificare la finestra grafica, mentre per spostare il grafico si trascina tutto il grafico in un punto che non sia particolare.