I dati statistici
L’analisi statistica dei dati ha come naturale punto di partenza l’insieme di valori che sono stati rilevati sui fenomeni oggetto di studio. Organizzare in maniera corretta e coerente l’informazione a disposizione permette all’analista di concentrarsi con tranquillità sulle successive tecniche di analisi.
SOMMARIO
Unità statistiche e caratteri rilevati
Si dicono unità statistiche gli elementi (individui, oggetti, …) che interessano al fine dell’analisi statistica.
Nelle analisi dei dati, le unità statistiche considerate possono essere
1. tutte quelle che costituiscono una popolazione
2. quelle che compaiono in un campione tratto da una certa popolazione secondo un opportuno piano di campionamento
Si dicono variabili o fenomeni gli aspetti rilevati in corrispondenza di ciascuna unità statistica.
Una distinzione fondamentale è quella tra
· caratteri qualitativi, cioè fenomeni espressi secondo un codice; essi possono essere
o categoriali (sesso, provincia, …)
o categoriali ordinali (giudizi, gravità di una malattia, …)
· caratteri quantitativi (età, peso, …), cioè fenomeni espressi in numero secondo un’operazione di misura o di conteggio
Si dicono modalità le categorie o i valori che ciascun carattere presenta in corrispondenza di ciascuna unità statistica.
Le modalità considerate di ciascun fenomeno devono essere:
1. esaustive: in grado di interpretare qualsiasi manifestazione del carattere
2. mutuamente esclusive: tali che per ciascuna unità statistica risulti individuabile una sola modalità
I risultati di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni qualitativi e/o quantitativi vengono presentati nella seguente tabella (o matrice) dei dati, che indicheremo con X, di dimensione nxp:
n° unità |
X1 |
… |
Xj |
… |
Xp |
1 |
x11 |
… |
x1j |
… |
x1p |
… |
|
|
|
|
|
i |
xi1 |
… |
xij |
… |
xip |
… |
|
|
|
|
|
n |
xn1 |
… |
xnj |
… |
xnp |
Questa tabella è il punto di partenza abituale delle analisi statistiche.
Il generico fenomeno j corrisponde alla j-esima colonna della tabella dei dati
Xj |
x1j |
|
xij |
|
xnj |
che possiamo scrivere anche nella forma Xj=[x1j, ..., xij, …, xnj] oppure xij i=1,…,n.
Una distribuzione di frequenze, riferita ad un generico fenomeno X, è una tabella che riporta della prima colonna le modalità o le classi della variabile e nella seconda il numero (frequenza) di unità statistiche che presentano tale modalità, o rientrano in dette classi.
Se la variabile è di tipo qualitativo o quantitativo discreto con r modalità, nella tabella si riportano direttamente le medesime. Se invece il fenomeno è qualitativo continuo occorre preliminarmente suddividere il campo di variazione dei valori in r intervalli contigui e riportare nella tabella queste classi.
In termini generali, una distribuzione di frequenze si presenta in questa maniera:
modalità qualitative, valori o classi |
frequenze |
frequenze relative |
x1 |
n1 |
f1 |
… |
… |
… |
xi |
ni |
fi |
… |
… |
… |
xr |
nr |
fr |
|
n |
1 |
dove ni = frequenza della modalità i-esima
fi = ni/n = frequenza relativa della modalità i-esima
Si dice funzione di ripartizione d’una variabile
statistica X, e si indica con F(x), la frequenza relativa dei valori minori e
uguali a x, cioè il valore delle frequenze relative cumulate: .
modalità qualitative, valori o classi |
frequenze relative |
frequenze relative cumulate |
x1 |
f1 |
F(x1)=f1 |
… |
… |
… |
xi |
fi |
|
… |
… |
… |
xr |
fr |
|