Indici statistici
Gli indici statistici, relativi ad un fenomeno, sono degli opportuni valori sintetici costruiti allo scopo di
1. riassumere le caratteristiche essenziali della variabile in esame
2.
confrontare situazioni differenti (due o più
campioni, osservazioni ripetute in tempi diversi, ecc.) in cui si osserva la
variabile in esame
Gli indici statistici si suddividono in 3 categorie:
· le medie,
· indici sulla variabilità
· indici sulla forma della distribuzione
SOMMARIO
La media
aritmetica (arithmetic mean)
Differenza
interquartile (Interquartile
range)
Varianza (Variance) e Scarto quadratico
medio (Standard deviation)
Una media di un fenomeno quantitativo è un numero che si ritiene idoneo a sintetizzare “l’ordine di grandezza” o la “tendenza centrale” dell’insieme dei dati rilevati.
Osservati n valori xi, i=1,..,n di una certa variabile quantitativa X, la quantità M
è detta MEDIA ARITMETICA SEMPLICE.
Essa ha la proprietà di rendere minima la funzione y(x)=.
La media troncata è calcolata come media aritmetica semplice del 90% dei valori osservati xi, i=1,..,n di una certa variabile quantitativa X senza prendere in considerazione sia il 5% dei valori più bassi sia il 5% dei valori più elevati di X.
La media troncata fornisce una misura centrale di X che, rispetto alla media aritmetica, è meno sensibile ai valori estremi.
Osservati n valori xi, i=1,..,n di una certa variabile
quantitativa X, e definito un insieme di pesi W=[w1, ..., wi,
…, wn],
tale che ,
la quantità MW
è detta MEDIA PONDERATA.
La media ponderata si utilizza quando, per definire un valore centrale di una variabile, si ritiene che alcuni valori siano più significativi di altri.
Sottolineiamo che il principio di ponderazione può essere esteso al calcolo di tutti gli indici statistici, siano essi medie che indici di variabilità.
NB: la media ponderata non è presente in MINITAB.
La media geometrica è molto utile quando ha senso operativo parlare di effetti moltiplicativi tra i valori assunti dalla variabile statistica. Essa è definita come
NB: la media geometrica non è presente in MINITAB.
Se tutti i valori osservati sono diversi da zero e se ha senso trattare la somma dei reciproci tra i valori assunti da un fenomeno è possibile definire la media armonica come la quantità
NB: la media armonica non è presente in MINITAB.
Sia [x1, ..., xi, …, xn] la serie ordinata dei valori osservati della variabile quantitativa X, la quantità Me,
Me=
è detta MEDIANA, e rappresenta il valore che “sta al centro” tra quelli osservati di X.
NB: la mediana non viene influenzata dalla eventuale presenza di valori anomali.
Come generalizzazione della mediana si possono considerare i punti che suddividono l’insieme dei valori ordinati [x1, ..., xi, …, xn] (o anche delle modalità ordinali per variabili categoriali ordinali), con quote percentuali fisse:
· Q1: primo quartile, discrimina il primo quarto delle unità statistiche
· Q3: terzo quartile, discrimina i tre quarti delle unità statistiche
Si dice MODA di una variabile discreta, quantitativa o qualitativa, e si indica con Mo, il valore della variabile X che presenta il massimo numero di osservazioni.
In presenza invece di una variabile quantitativa continua si definisce classe modale la classe la cui frequenza è quella massima tra tutte le classi di frequenza opportunamente definite.
NB: la moda non è presente in MINITAB.
Le misure della variabilità rappresentano una categoria di indici statistici aventi lo scopo di valutare sinteticamente le disuguaglianze tra i valori e la loro dispersione attorno alla media.
Il concetto di “variabilità” è alla base della statistica, perché se tutte le manifestazione di un fenomeno fossero uguali tra loro non avrebbe più senso uno studio statistico delle stesse e tutta l’informazione sarebbe concentrata in un unico valore (che coinciderebbe con la media).
Il CAMPO DI VARIAZIONE, che si indica con K, è la più semplice misura della variabilità e si definisce come
K=xmax-xmin
cioè la differenza tra il valore massimo e il valore minimo assunto da X.
NB: il campo di variazione è fortemente influenzato dalla presenza di eventuali valori anomali.
La DIFFERENZA INTERQUARTILICA è data dalla distanza tra il terzo (Q3) ed il primo quartile (Q1)
DI=Q3-Q1
e rappresenta il segmento in corrispondenza del quale si presenta il 50% dei valori del fenomeno, situati in posizione centrale.
Essendo i due precedenti indici funzione di due soli valori, anche se possiedono il pregio della semplicità, non riescono a cogliere in maniera esauriente la variabilità di un fenomeno.
Se si calcola la media dei quadrati dello scarto dei valori osservati dalla loro media aritmetica otteniamo seguente indice detto VARIANZA,
che si indica anche con il simbolo s2. La varianza è espressa in termini di quadrato dell’unità di misura della variabile X.
Calcolando la radice quadrata di s2 si ottiene la quantità s detta SCARTO QUADRATICO MEDIO
che ha il vantaggio di essere espressa nella stessa unità di misura della variabile X.
NB: la seguente quantità
,
che si può ottenere anche dalla relazione
,
è la
cosiddetta VARIANZA CORRETTA, e rappresenta la stima corretta della varianza di una variabile X ottenuta da un campione. Spesso i
software statistici (anche MINITAB) utilizzano in riferimento a tale quantità
il termine varianza.
Studiare la forma della distribuzione significa valutare il modo secondo il quale si dispongono i valori di un carattere quantitativo attorno alla rispettiva media. Tale studio fornisce ulteriori elementi di conoscenza del fenomeno, che si aggiungono a quelli offerti dalle medie e dalle misure della variabilità.
Punto di partenza è la valutazione del numero dei massimi: se la variabile presenta un solo massimo la distribuzione si dice UNIMODALE, altrimenti viene detta PLURIMODALE.
In seconda battuta è bene valutare la presenza di eventuali asimmetrie e la corrispondenza della distribuzione di frequenza della variabile X alla distribuzione normale.
In una variabile simmetrica il centro della distribuzione coincide con la mediana ed è uguale alla media aritmetica.
Allo scopo di misurare lo scostamento dalla situazione di perfetta simmetria si considera il cosiddetto momento terzo dall’origine media (che ha la proprietà di conservare il segno degli scostamenti), diviso per il cubo dello scarto quadratico medio allo scopo di normalizzare tale valore e renderlo un numero puro, indipendente dall’unità di misura della variabile X.
Questa grandezza misura la tendenza di una coda della distribuzione di essere prevalente rispetto all’altra, facendo cadere i presupposti della simmetria. In particolare
· g > 0, (asimmetria positiva) indica una asimmetria dovuta alla coda destra
· g < 0, (asimmetria negativa) indica una asimmetria dovuta alla coda sinistra
· g = 0 non implica necessariamente simmetria della distribuzione mentre se la distribuzione è simmetrica risulta necessariamente che g sia uguale a zero
NB: in analogia con quanto detto sulla scarto quadratico medio, anche s3 viene stimato con
.
Spesso i software statistici (anche MINITAB) utilizzano in
riferimento a g la
quantità .
La curtosi (dal greco “appiattimento”) è una misura che
indica il grado di scostamento della distribuzione della variabile X dalla
distribuzione della normale. Dal momento che in una distribuzione normale
risulta che , si definisce indice di curtosi il valore b
calcolato come
Si verifica che se
· b > 0, la variabile si dice iponormale, cioè presenta minori frequenze relative nelle “code” rispetto alla normale
· b < 0, la variabile si dice ipernormale, cioè presenta maggiori frequenze relative nelle “code” rispetto alla normale
NB: Una variabile che ha un indice di simmetria risulta
necessariamente non conforme alla normale, cioè
.