Analisi della varianza e confronti multipli

L’analisi della varianza è una procedura di inferenza statistica che verifica l’ipotesi di uguaglianza tra le medie di un fenomeno osservato in popolazioni distinte, determinate da livelli diversi di una o più variabili di stratificazione. Stabilire se tale uguaglianza è supportata o meno dai dati sperimentali significa stabilire una relazione causale tra il fenomeno osservato e la/le variabile/e di stratificazione.

Nel caso si osservi una differenza tra le diversi popolazioni il metodo dei confronti multipli va ad identificare quale/i particolare/i coppia/e di medie differiscono tra loro significativamente le une dalle altre.

SOMMARIO

Definizioni 1

Sistema d’ipotesi: ANOVA ad una via. 1

Sistema d’ipotesi: ANOVA a due (o più) vie. 2

Confronti multipli 3

Metodi principali 3

Definizioni

Il fenomeno statistico la cui variabilità si vuole spiegare in base ad una o più variabili categoriali viene definita come variabile risposta e deve essere necessariamente rappresentato da una variabile statistica quantitativa continua.

Le variabili statistiche che stabiliscono una ripartizione della variabile risposta in classi o strati vengono chiamate fattori (o trattamenti) e devono essere date necessariamente da variabili categoriali.

Le modalità, cioè i valori, che i fattori possono assumere si definiscono livelli del fattore.

Un fattore può essere classificato in due categorie:

·        fisso, se i livello del fattore è controllato dallo sperimentatore

·        casuale, se il livello del fattore è determinato da un campionamento di una popolazione

Le procedure statistiche per l’analisi della varianza (ANOVA) si suddividono in quelle che sottintendono un modello

·        bilanciato, cioè il numero di osservazione per ogni livello (ANOVA ad una via) o per ogni combinazione di livelli (ANOVA a due o più vie) deve essere il medesimo; oppure

·        non bilanciato, in caso contrario rispetto a sopra

In base al numero di fattori presi in considerazione si definisce

·        ANOVA ad una via, per un unico fattore di stratificazione; oppure

·        ANOVA a due o più vie, per due o più fattori di stratificazione

Sistema d’ipotesi: ANOVA ad una via

Il sistema di ipotesi che rappresenta la procedura ANOVA ad una via è il seguente

con s = numero di livelli dell’unico fattore.

Implicitamente si sta assumendo che la variabile risposta y segua il modello

,

i=1,…,s e k=1,…,, con  uguale al numero di osservazioni per l’i-esimo blocco e , n = numero totale di osservazioni.

Si ipotizza che  sia IID (indipendente identicamente distribuito) da una Normale di media 0 è varianza  per cui l’ipotesi che è alla base di tutta la procedura è che le osservazioni di ciascun blocco provengano da popolazioni che seguono una distribuzione normale con uguale varianza  e con eventuale media  diversa per alcune popolazioni.

Schematicamente:

Fattore1

 

Risposta

Livello

 

Blocco

 

Numerosità

1

 

 

 

 

 

i

 

 

 

 

 

s

 

 

 

 

Per costruire la statistica test si considera la seguente scomposizione:

cioè si scompone la somma dei quadrati degli scarti della variabile risposta dalla media globale (SST) in due elementi: il primo dato dalla somma dei quadrati degli scarti delle medie dei blocchi dalla media globale (Sum of Square Between Groups, SSBG) e il secondo dato dalla somma dei quadrati degli scarti delle singole osservazioni dalle medie interne ai blocchi ai quali esse appartengono (Sum of Square Within Groups, SSWG). Quest’ultimo viene anche detto Errore (Error).

Calcolando il rapporto F dato da

si ottiene un valore che si distribuisce secondo la variabile casuale F con (s-1) e (n-s) gradi di libertà rispettivamente al numeratore e al denominatore; questo valore è tanto più grande quanto i dati osservati tendono ad avere medie significativamente diverse tra loro nei singoli blocchi rispetto alla media globale e alla variabilità interna ai blocchi.

Quindi in base alle tavole statistiche, oppure semplicemente osservando il p-value corrispondente al valore di F, è possibile determinare la verosimiglianza dei dati osservati rispetto all’ipotesi nulla: se essa è inferiore al livello di significatività a allora si rifiuta l’ipotesi nulla in favore dell’ipotesi alternativa.

Sistema d’ipotesi: ANOVA a due (o più) vie

Nel caso si voglia estendere l’ANOVA considerando 2 (o più) fattori

·        il sistema di ipotesi rimane lo stesso replicato 2 (o più volte)

·        si introduce l’ulteriore eventualità che i sottoblocchi determinati dalla combinazione dei livelli dei 2 (o più) fattori determini medie tra loro diverse; tale ipotesi viene testata in riferimento ad una nuova variabile combinata Fattore1*Fattore2 generato dall’interazione tra i 2 (o più) fattori

Schematicamente (nel caso di 2 fattori):

Fattore 1

 

Fattore 2

Numerosità

Livello

 

1

j

q

 

 

1

 

 

 

 

 

 

i

 

 

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

Numerosità

 

 

n

 

con q = numero di livelli del Fattore 2.

Implicitamente si sta assumendo che la variabile risposta y segua il modello

,

i=1,…,s, j=1,…,q e k=1,…,/, con  uguale al numero di osservazioni per l’i-esimo blocco del Fattore 1 e  uguale al numero di osservazioni per il j-esimo blocco del Fattore 2 e , n = numero totale di osservazioni.

La scomposizione della somma del quadrato degli scarti della variabile risposta dalla media globale diventa

dove SSIBG indica quella parte della variabilità derivata dall’interazione tra il Fattore 1 e il Fattore 2.

Confronti multipli

Una volta stabilito che i valori medi della variabile risposta differiscono per almeno due, dei gruppi generati dalla stratificazione del/dei fattore/i (si è deciso cioè di rigettare l’ipotesi nulla in favore dell’ipotesi alternativa), diventa naturale chiedersi quali sono i particolari gruppi, tra tutti i gruppi presenti nel modello, responsabili dell’effetto differenziale della variabile risposta.

I confronti multipli consentono di rispondere a questa domanda grazie al calcolo delle seguenti espressioni:

·        un intervallo di confidenza per la differenza tra le medie di ciascun confronto a coppie tra le medie dei gruppi (il numero dei confronti a coppie è dato da s*(s-1)/2, con s = numero dei livelli del fattore)

·        un p-value per la valutazione della significatività della differenza tra le medie di ciascun confronto a coppie

Per valutare su due gruppi differiscono significativamente tra loro (per il valore medio della variabile risposta):

1.      verificare se il valore 0 è escluso dall’intervallo di confidenza (a livello a); oppure equivalentemente

2.      verificare se il valore dato dal p-value è minore del livello a prefissato

Nel caso che per due gruppi si stabilisca una differenza significativa allora in base alle seguenti condizioni

·        se l’intervallo di confidenza è interamente negativo Þ la media del secondo gruppo è maggiore di quella del primo gruppo

·        se l’intervallo di confidenza è interamente positivo Þ la media del secondo gruppo è minore di quella del primo gruppo

Metodi principali

I confronti multipli si possono ottenere in base ad alcuni metodi diversi, che permettono di correggere l’errore di primo tipo del modello ANOVA (pari ad a) che altrimenti aumenterebbe esponenzialmente al crescere del numero dei confronti.

Esistono due criteri sulla base dei quali si può raggiungere questo obiettivo: fissare un

·        errore familiare per l’insieme dei confronti (la probabilità di commettere almeno un errore del I tipo per l’intero insieme dei confronti a coppie); oppure un

·        errore individuale per il singolo confronto (errore del I tipo per il singolo confronto)

Metodi che si basano sull’errore familiare:

1.      Tukey: effettua tutti i possibili confronti a coppie tra le medie, ad un tasso di errore familiare a desiderato

2.      Dunnett: effettua i confronti tra le medie di tutti i gruppi ed un gruppo di controllo prescelto, ad un tasso di errore familiare a desiderato

3.      Hsu: effettua i confronti tra le medie di tutti i gruppi ed un gruppo definito “the best” (la media più alta o più bassa tra tutte le medie), ad un tasso di errore familiare a desiderato

Metodi che si basano sull’errore individuale:

1.      Fisher: effettua tutti i possibili confronti a coppie tra le medie, ad un tasso di errore individuale a desiderato

NB: qualsiasi metodo si scelga per effettuare l’analisi dei confronti multipli si tenga presente che i risultati che si otterranno possono essere in conflitto con l’esito del test F dell’analisi della varianza; può accadere che il test ANOVA porti ad accettare l’ipotesi nulla che non vi siano differenze tra le medie dei gruppi e invece i confronti multipli individuino una o più coppie significativamente diverse tra loro. Può accadere anche il caso opposto in cui il test F indichi vera l’ipotesi alternativa mentre i confronti multipli non rilevano alcuna differenza significativa.