Indici statistici

Gli indici statistici, relativi ad un fenomeno, sono degli opportuni valori sintetici costruiti allo scopo di

1.      riassumere le caratteristiche essenziali della variabile in esame

2.      confrontare situazioni differenti (due o più campioni, osservazioni ripetute in tempi diversi, ecc.) in cui si osserva la variabile in esame

Gli indici statistici si suddividono in 3 categorie:

·        le medie,

·        indici sulla variabilità

·        indici sulla forma della distribuzione

SOMMARIO

Le medie. 1

La media aritmetica (arithmetic mean) 1

Ulteriori tipi di medie. 1

Media troncata (trimmed mean) 1

La media ponderata. 1

Media geometrica. 2

Media armonica. 2

La mediana (median) 2

I quartili (quartiles) 2

La moda. 2

La variabilità. 2

Campo di variazione (Range) 3

Differenza interquartile (Interquartile range) 3

Varianza (Variance) e Scarto quadratico medio (Standard deviation) 3

La forma della distribuzione. 3

Asimmetria (Skewness) 3

Curtosi (Kurtosis) 4

Le medie

Una media di un fenomeno quantitativo è un numero che si ritiene idoneo a sintetizzare “l’ordine di grandezza” o la “tendenza centrale” dell’insieme dei dati rilevati.

La media aritmetica (arithmetic mean)

Osservati n valori xi, i=1,..,n di una certa variabile quantitativa X, la quantità M

è detta MEDIA ARITMETICA SEMPLICE.

Essa ha la proprietà di rendere minima la funzione y(x)=.

Ulteriori tipi di medie

Media troncata (trimmed mean)

La media troncata è calcolata come media aritmetica semplice del 90% dei valori osservati xi, i=1,..,n di una certa variabile quantitativa X senza prendere in considerazione sia il 5% dei valori più bassi sia il 5% dei valori più elevati di X.

La media troncata fornisce una misura centrale di X che, rispetto alla media aritmetica, è meno sensibile ai valori estremi.

La media ponderata

Osservati n valori xi, i=1,..,n di una certa variabile quantitativa X, e definito un insieme di pesi W=[w1, ..., wi, …, wn], tale che ,
la quantità MW

è detta MEDIA PONDERATA.

La media ponderata si utilizza quando, per definire un valore centrale di una variabile, si ritiene che alcuni valori siano più significativi di altri.

Sottolineiamo che il principio di ponderazione può essere esteso al calcolo di tutti gli indici statistici, siano essi medie che indici di variabilità.

NB: la media ponderata non è presente in MINITAB.

Media geometrica

La media geometrica è molto utile quando ha senso operativo parlare di effetti moltiplicativi tra i valori assunti dalla variabile statistica. Essa è definita come

NB: la media geometrica non è presente in MINITAB.

Media armonica

Se tutti i valori osservati sono diversi da zero e se ha senso trattare la somma dei reciproci tra i valori assunti da un fenomeno è possibile definire la media armonica come la quantità

NB: la media armonica non è presente in MINITAB.

La mediana (median)

Sia [x1, ..., xi, …, xn] la serie ordinata dei valori osservati della variabile quantitativa X, la quantità Me,

Me=

è detta MEDIANA, e rappresenta il valore che “sta al centro” tra quelli osservati di X.

NB: la mediana non viene influenzata dalla eventuale presenza di valori anomali.

I quartili (quartiles)

Come generalizzazione della mediana si possono considerare i punti che suddividono l’insieme dei valori ordinati [x1, ..., xi, …, xn] (o anche delle modalità ordinali per variabili categoriali ordinali), con quote percentuali fisse:

·        Q1: primo quartile, discrimina il primo quarto delle unità statistiche

·        Q3: terzo quartile, discrimina i tre quarti delle unità statistiche

La moda

Si dice MODA di una variabile discreta, quantitativa o qualitativa, e si indica con Mo, il valore della variabile X che presenta il massimo numero di osservazioni.

In presenza invece di una variabile quantitativa continua si definisce classe modale la classe la cui frequenza è quella massima tra tutte le classi di frequenza opportunamente definite.

NB: la moda non è presente in MINITAB.

La variabilità

Le misure della variabilità rappresentano una categoria di indici statistici aventi lo scopo di valutare sinteticamente le disuguaglianze tra i valori e la loro dispersione attorno alla media.

Il concetto di “variabilità” è alla base della statistica, perché se tutte le manifestazione di un fenomeno fossero uguali tra loro non avrebbe più senso uno studio statistico delle stesse e tutta l’informazione sarebbe concentrata in un unico valore (che coinciderebbe con la media).

Campo di variazione (Range)

Il CAMPO DI VARIAZIONE, che si indica con K, è la più semplice misura della variabilità e si definisce come

K=xmax-xmin

cioè la differenza tra il valore massimo e il valore minimo assunto da X.

NB: il campo di variazione è fortemente influenzato dalla presenza di eventuali valori anomali.

Differenza interquartile (Interquartile range)

La DIFFERENZA INTERQUARTILICA è data dalla distanza tra il terzo (Q3) ed il primo quartile (Q1)

DI=Q3-Q1

e rappresenta il segmento in corrispondenza del quale si presenta il 50% dei valori del fenomeno, situati in posizione centrale.

Varianza (Variance) e Scarto quadratico medio (Standard deviation)

Essendo i due precedenti indici funzione di due soli valori, anche se possiedono il pregio della semplicità, non riescono a cogliere in maniera esauriente la variabilità di un fenomeno.

Se si calcola la media dei quadrati dello scarto dei valori osservati dalla loro media aritmetica otteniamo seguente indice detto VARIANZA,

che si indica anche con il simbolo s2. La varianza è espressa in termini di quadrato dell’unità di misura della variabile X.

Calcolando la radice quadrata di s2 si ottiene la quantità s detta SCARTO QUADRATICO MEDIO

che ha il vantaggio di essere espressa nella stessa unità di misura della variabile X.

NB: la seguente quantità

 

che si può ottenere anche dalla relazione

 

è la cosiddetta VARIANZA CORRETTA, e rappresenta la stima corretta della varianza di una variabile X ottenuta da un campione. Spesso i software statistici (anche MINITAB) utilizzano in riferimento a tale quantità il termine varianza.

La forma della distribuzione

Studiare la forma della distribuzione significa valutare il modo secondo il quale si dispongono i valori di un carattere quantitativo attorno alla rispettiva media. Tale studio fornisce ulteriori elementi di conoscenza del fenomeno, che si aggiungono a quelli offerti dalle medie e dalle misure della variabilità.

Punto di partenza è la valutazione del numero dei massimi: se la variabile presenta un solo massimo la distribuzione si dice UNIMODALE, altrimenti viene detta PLURIMODALE.

In seconda battuta è bene valutare la presenza di eventuali asimmetrie e la corrispondenza della distribuzione di frequenza della variabile X alla distribuzione normale.

Asimmetria (Skewness)

In una variabile simmetrica il centro della distribuzione coincide con la mediana ed è uguale alla media aritmetica.

Allo scopo di misurare lo scostamento dalla situazione di perfetta simmetria si considera il cosiddetto momento terzo dall’origine media (che ha la proprietà di conservare il segno degli scostamenti), diviso per il cubo dello scarto quadratico medio allo scopo di normalizzare tale valore e renderlo un numero puro, indipendente dall’unità di misura della variabile X.

Questa grandezza misura la tendenza di una coda della distribuzione di essere prevalente rispetto all’altra, facendo cadere i presupposti della simmetria. In particolare

·        g > 0, (asimmetria positiva) indica una asimmetria dovuta alla coda destra

·        g < 0, (asimmetria negativa) indica una asimmetria dovuta alla coda sinistra

·        g = 0 non implica necessariamente simmetria della distribuzione mentre se la distribuzione è simmetrica risulta necessariamente che g sia uguale a zero

NB: in analogia con quanto detto sulla scarto quadratico medio, anche s3 viene stimato con

 

Spesso i software statistici (anche MINITAB) utilizzano in riferimento a g la quantità .

Curtosi (Kurtosis)

La curtosi (dal greco “appiattimento”) è una misura che indica il grado di scostamento della distribuzione della variabile X dalla distribuzione della normale. Dal momento che in una distribuzione normale risulta che , si definisce indice di curtosi il valore b calcolato come

Si verifica che se

·        b > 0, la variabile si dice iponormale, cioè presenta minori frequenze relative nelle “code” rispetto alla normale

·        b < 0, la variabile si dice ipernormale, cioè presenta maggiori frequenze relative nelle “code” rispetto alla normale

NB: Una variabile che ha un indice di simmetria  risulta necessariamente non conforme alla normale, cioè .