Regressione

La regressione è una procedura statistica che ha origine dell’idea di stabilire una relazione lineare tra una variabile dipendente e un’insieme di variabili esplicative o predittori. Lo scopo è quello di “spiegare” la variabilità della variabile dipendente in termini di quella delle esplicative e derivarne una interpretazione causale quantitativa tra questi ultimi e la variabile dipendente stessa.

SOMMARIO

Definizioni 1

Regressione lineare semplice. 1

Regressione lineare multipla. 2

Interpretazione dei risultati 3

Valutazione sulla bontà del modello. 3

Indici 3

Analisi della varianza. 3

Analisi dei residui 4

Definizioni

Il fenomeno statistico di cui si vuole spiegare il comportamento in base ad una o più variabili esplicative viene definita come variabile dipendente (o risposta) e deve essere necessariamente rappresentato da una variabile statistica quantitativa continua (o discreta approssimabile ad una continua).

Le variabili statistiche che spiegano l’andamento della variabile dipendente vengono chiamate variabile indipendenti (o predittori o regressori) e devono essere quantitative continue oppure categoriali espresse in forma binaria.

Nel modello di regressione compare anche un termine detto “errore” (identificato dal simbolo e) che ha una duplice valenza:

·        dal punto di vista interpretativo indica che una qualsiasi relazione tra una variabile dipendente ed esplicative non può essere esatta ma contiene delle “imprecisioni” sia di tipo casuale sia dovute alle limitazioni di precisione delle misurazioni e/o all’assenza di informazioni complete sulla natura del fenomeno

·        dal punto di vista operativo consente, tramite una procedura “a ritroso”, di stabilire la bontà dell’adattamento del modello ai dati osservati in base al confronto tra le proprietà degli errori osservati (gli scarti del modello dalla variabile dipendente) e le proprietà desiderate che il termine di errore dovrebbe possedere

Regressione lineare semplice

L’equazione che rappresenta il modello di regressione lineare semplice è il seguente

,

i=1,…,n con n = numero totale di osservazioni; si ipotizza che  sia IID (indipendente identicamente distribuito) da una Normale di media 0 è varianza .

In base al criterio di ottimizzazione che rende minima la somma dei quadrati degli scarti tra variabile dipendente e modello lineare (metodo dei minimi quadrati), cioè

si ottengono i valori stimati b0 e b1 di b0 e di b1. Graficamente l’equazione  rappresenta la retta “ottima” attraverso la “nuvola” di punti del diagramma di dispersione y/x: b0 esprime l’intercetta sull’asse y mentre b1 il coefficiente angolare (la pendenza) della retta.

Regressione lineare multipla

L’equazione che rappresenta il modello di regressione lineare multipla è il seguente

,

i=1,…,n con n = numero totale di osservazioni; si ipotizza che  sia IID (indipendente identicamente distribuito) da una Normale di media 0 è varianza .

In base al criterio di ottimizzazione che rende minima la somma dei quadrati degli scarti tra variabile dipendente e modello lineare (metodo dei minimi quadrati), cioè

si ottengono i valori stimati b0, b1, …,bs di b0, b1,…,bs. Dal punto di vista grafico l’equazione rappresenta un piano di uno spazio (s+1)-dimensionale per cui è difficilmente visualizzabile ed interpretabile.

Interpretazione dei risultati

Il punto di partenza consiste nella valutazione delle proprietà dei coefficienti, corrispondenti a ciascuna variabile esplicativa, secondo le seguenti indicazioni:

1.      se il p-value associato al coefficiente è superiore al livello a (solitamente 0.05) allora tale coefficiente si può considerare nullo e quindi l’apporto della esplicativa ad esso associata è non significativo nei confronti della variabile dipendente; questo regressore può essere rimosso dal modello

2.      se il p-value associato al coefficiente è inferiore al livello a (solitamente 0.05) allora l’apporto alla spiegazione della variabilità della variabile dipendente nei confronti della dipendente è significativo ed in particolare

o       se il segno del coefficiente è maggiore di zero allora esiste una relazione positiva tra le variabili cioè se aumenta la variabile dipendente aumenta anche la variabile indipendente

o       se il segno del coefficiente è minore di zero allora esiste una relazione negativa tra le variabili cioè se aumenta la variabile dipendente diminuisce invece la variabile indipendente

o       il valore assoluto del coefficiente misura la variazione che subisce la variabile dipendente a causa di una variazione unitaria della variabile indipendente

Valutazione sulla bontà del modello

Indici

Il primo elemento da valutare è il valore di s, cioè della stima dello standard error s associato al termine di errore e: tanto basso è questo valore tanto capace è stato il modello a spiegare la variabilità della variabile dipendente.

Il secondo elemento da valutare è la quantità di varianza che il modello riesce a catturare; in base alla scomposizione

è possibile in prima battuta calcolare i due indici:

, R-quadro o indice di determinazione

, R-quadro aggiustato

con s = numero di coefficienti (esclusa la costante).

Più elevati sono il valori di R (al massimo può raggiungere 1 o 100%) tanto più le esplicative sono state capaci di catturare la variabilità della dipendente.

Analisi della varianza

In seconda battuta, calcolando il rapporto F dato da

otteniamo un test F che la valuta la bontà globale del modello: se il p-value è inferiore al livello a (solitamente 0.05) allora l’apporto del modello di regressione alla spiegazione della variabilità della variabile dipendente nei confronti della dipendente è significativo.

NB: questo test F è associato all’ipotesi nulla che tutti i coefficienti della regressione (media esclusa) siano pari a zero.

Analisi dei residui

Se i residui, cioè gli scarti della variabile dipendente dal modello calcolato con i parametri ottenuti con il metodo dei minimi quadrati, cioè

, i=1,…,n con n = numero totale di osservazioni

rispettano una serie di condizioni allora il modello si può dire correttamente specificato.

Le condizioni sono

1.      media pari a zero

2.      distribuzione (almeno approssimativamente) secondo la variabile casuale normale

3.      nessuna relazione con i valori della variabile dipendente