I dati statistici

L’analisi statistica dei dati ha come naturale punto di partenza l’insieme di valori che sono stati rilevati sui fenomeni oggetto di studio. Organizzare in maniera corretta e coerente l’informazione a disposizione permette all’analista di concentrarsi con tranquillità sulle successive tecniche di analisi.

SOMMARIO

Unità statistiche e caratteri rilevati 1

La tabella dei dati 1

La tabella delle frequenze. 1

Funzione di ripartizione. 1

Unità statistiche e caratteri rilevati

Si dicono unità statistiche gli elementi (individui, oggetti, …) che interessano al fine dell’analisi statistica.

Nelle analisi dei dati, le unità statistiche considerate possono essere

1.      tutte quelle che costituiscono una popolazione

2.      quelle che compaiono in un campione tratto da una certa popolazione  secondo un opportuno piano di campionamento

Si dicono variabili o fenomeni gli aspetti rilevati in corrispondenza di ciascuna unità statistica.

Una distinzione fondamentale è quella tra

·        caratteri qualitativi, cioè fenomeni espressi secondo un codice; essi possono essere

o       categoriali (sesso, provincia, …)

o       categoriali ordinali (giudizi, gravità di una malattia, …)

·        caratteri quantitativi (età, peso, …), cioè fenomeni espressi in numero secondo un’operazione di misura o di conteggio

Si dicono modalità le categorie o i valori che ciascun carattere presenta in corrispondenza di ciascuna unità statistica.

Le modalità considerate di ciascun fenomeno devono essere:

1.      esaustive: in grado di interpretare qualsiasi manifestazione del carattere

2.      mutuamente esclusive: tali che per ciascuna unità statistica risulti individuabile una sola modalità

La tabella dei dati

I risultati di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni qualitativi e/o quantitativi vengono presentati nella seguente tabella (o matrice) dei dati, che indicheremo con X, di dimensione nxp:

n° unità

X1

Xj

Xp

1

x11

x1j

x1p

 

 

 

 

 

i

xi1

xij

xip

 

 

 

 

 

n

xn1

xnj

xnp

Questa tabella è il punto di partenza abituale delle analisi statistiche.

Il generico fenomeno j corrisponde alla j-esima colonna della tabella dei dati

Xj

x1j

 

xij

 

xnj

che possiamo scrivere anche nella forma Xj=[x1j, ..., xij, …, xnj] oppure xij i=1,…,n.

La tabella delle frequenze

Una distribuzione di frequenze, riferita ad un generico fenomeno X, è una tabella che riporta della prima colonna le modalità o le classi della variabile e nella seconda il numero (frequenza) di unità statistiche che presentano tale modalità, o rientrano in dette classi.

Se la variabile è di tipo qualitativo o quantitativo discreto con r modalità, nella tabella si riportano direttamente le medesime. Se invece il fenomeno è qualitativo continuo occorre preliminarmente suddividere il campo di variazione dei valori in r intervalli contigui e riportare nella tabella queste classi.

In termini generali, una distribuzione di frequenze si presenta in questa maniera:

modalità qualitative, valori o classi

frequenze

frequenze relative

x1

n1

f1

xi

ni

fi

xr

nr

fr

 

n

1

dove    ni = frequenza della modalità i-esima

            fi = ni/n = frequenza relativa della modalità i-esima

Funzione di ripartizione

Si dice funzione di ripartizione d’una variabile statistica X, e si indica con F(x), la frequenza relativa dei valori minori e uguali a x, cioè il valore delle frequenze relative cumulate: .

modalità qualitative, valori o classi

frequenze relative

frequenze relative cumulate

x1

f1

F(x1)=f1

xi

fi

xr

fr

=1