Esempio 5
Segue dall’Esempio 1,2,3 e 4
Determinazione a priori di Weigth
Misura degli effetti dei fattori di
coltura
Nello studio delle interrelazioni tra la variabile risposta Weigth e le altre variabili, che ne possono spiegare il suo comportamento, non possiamo certo escludere il metodo di analisi della regressione.
Con lo studio della regressione di Weigth su di un insieme di variabili esplicative possiamo rispondere a due domande:
1. è possibile determinare, con un ragionevole grado di errore, il peso della pianta prima che essa sia tagliata?
2. è possibile stabilire un valore quantitativo per qui fattori che con il metodo dell’analisi della varianza si sono dimostrati rilevanti nella determinazione della variabile Weigth?
Per poter stabilire il peso della pianta prima che essa sia tagliata abbiamo a disposizione due variabile che fino ad ora non sono state utilizzate: Diameter e Height.
Prima di stabilire nel dettaglio il modello su cui basare la regressione facciamo uno studio grafico preliminare sulla natura della relazione tra la variabile Weigth con le variabili Diameter e Height.
ü Graf > Matrix Plot
ü Graph variables=Diameter Height Weight
ü
OK
Grafico 1
Come era normale attendersi, dall’analisi del Matrix Plot
si evince che esiste una chiara relazione positiva tra Diameter e Weight e tra Height e Weight; per essere più
precisi tale relazione non sembra essere di natura lineare bensì di natura
quadratica. Per confermare questa impressione proviamo a calcolare una
regressione semplice, cioè con una singola variabile esplicativa a volta, prima
tra Diameter e Weight e poi tra Height e Weight
ü Stat > Regression > Fitted Line Plot
ü Response(Y)=Weight
ü Predictor(X)=Diameter
ü
Clic su Options,
attivare l’opzione Display
prediction bands; OK
ü
OK
Regression Analysis: Weight versus
Diameter
The
regression equation is
Weight =
-2.35687 + 0.911546 Diameter
S =
0.738486 R-Sq = 81.6 % R-Sq(adj) = 81.5 %
Analysis of
Variance
Source DF SS MS F P
Regression 1
707.581 707.581 1297.45
0.000
Error 293 159.791 0.545
Grafico 2
Total
294 867.372
Appare chiaro che per quanto sensato i valori previsti del modello lineare semplice non spiegano l’andamento parabolico di Weight rispetto a Diameter. Ripetiamo la procedura specificando un modello quadratico:
ü Stat > Regression > Fitted Line Plot
ü Response(Y)=Weight
ü Predictor(X)=Diameter
ü Type of regression model: Quadratic
ü
OK
Polynomial Regression Analysis:
Weight versus Diameter
The
regression equation is
Weight =
0.680052 - 0.632611 Diameter
+ 0.168368 Diameter**2
S =
0.528239 R-Sq = 90.6 % R-Sq(adj) = 90.5 %
Analysis of
Variance
Source DF SS MS F P
Regression 2
785.893 392.947 1408.23
0.000
Error 292 81.479 0.279
Total 294 867.372
Grafico 3
Source DF Seq SS F P
Linear 1
707.581 1297.45 0.000
Quadratic 1
78.312 280.65 0.000
Appare chiaro la migliore performance di questo modello come risulta anche dal valore di R-sq che passa da 81.6% a 90.6%.
Costruiamo direttamente un modello quadratico anche per la variabile esplicati Height:
ü Stat > Regression > Fitted Line Plot
ü Response(Y)=Weight
ü Predictor(X)=Height
ü Type of regression model: Quadratic
ü
OK
Polynomial Regression Analysis:
Weight versus Height
The
regression equation is
Weight =
0.785052 - 0.559384 Height
+ 0.0987103 Height**2
S =
0.468297 R-Sq = 92.6 % R-Sq(adj) = 92.6 %
Analysis of
Variance
Source DF SS MS F P
Regression 2
803.336 401.668 1831.57
0.000
Error 292 64.036 0.219
Total 294 867.372
Grafico 4
Source DF
Seq SS F P
Linear 1
725.783 1501.92 0.000
Quadratic 1
77.552 353.63 0.000
A questo punto siamo autorizzati a costruire un modello di regressione che tenga conto contemporaneamente delle due variabili esplicative assieme anche ai termini al quadrato delle esplicative stesse.
Come prima cosa costruiamo le due nuove esplicative, dopo aver duplicato (duplicate) il worksheet Poplar ed averlo rinominato con Regression Poplar, dall’interno del Project Manager.
ü Calc > Calculator
ü Store result in variable: C9
ü Expression= 'Diameter'*'Diameter'
ü
OK
e rinominare la colonna C9 con Diameter^2. Ripetere la procedura per Height^2.
Proviamo ora a calcolare una regressione multipla con 4 variabili esplicative:
ü Stat > Regression > Regression
ü Response=Weight
ü Predictors= Diameter Height Diameter^2 Height^2
ü Clic su Graphs, attivare le opzioni Histogram e Normal plot of residuals; OK
ü
OK
Regression Analysis: Weight versus
Diameter; Height; ...
The
regression equation is
Weight =
1.07 - 0.619 Diameter - 0.242 Height + 0.110 Diameter^2
+ 0.0532 Height^2
295 cases
used 3 cases contain missing values
Predictor Coef SE Coef T P
Constant 1.0700 0.1521 7.04 0.000
Grafico 5
Diameter
-0.6195 0.1205 -5.14
0.000
Height -0.2422 0.1019 -2.38 0.018
Diameter 0.10956 0.01109 9.88 0.000
Height^2 0.053220 0.006560 8.11 0.000
S =
0.3016 R-Sq = 97.0% R-Sq(adj) = 96.9%
Analysis of
Variance
Source DF SS MS F P
Regression 4 841.00
210.25 2311.87 0.000
Residual
Error 290 26.37 0.09
Total 294 867.37
Source DF
Seq SS
Diameter 1
707.58
Height 1 33.26
Grafico 6
Diameter 1 94.17
Height^2 1
5.99
Dall’osservazione dei p-value di ciascuno dei 4 quattro i coefficienti risulta che tutti i predittori sono significativi dal momento che i corrispondenti p-value sono tutti inferiori alla usuale soglia a=0.05.
Il valore di R-Sq pari a 97% risulta estremamente elevato indicando un ottimo adattamento del modello mentre i residui sarebbero altrettanto buoni se non vi fossi la presenza di un discreto numero di osservazioni anomale rispetto al modello, soprattutto nella coda sinistra della distribuzione dei residui.
Proviamo ad utilizzare il modello a scopo previsivo per calcolare il valore stimato di Weight di una ipotetica pianta di Diameter=5 e Heigh=7.
Dopo aver creato 4 nuove variabili con in nome New_Dia, New_Hei, New_Dia^2, New_Hei^2, inseriamo i corrispondenti valori 5, 7, 25, 49.
La procedura per il calcolo per una nuova osservazione è la seguente:
ü Stat > Regression > Regression
ü Response=Weight
ü Predictors= Diameter Height Diameter^2 Height^2
ü Clic su Options, in Predictions intervals for new observations inserire le variabili New_Dia' 'New_Hei' 'New_Dia^2' 'New_Hei^2'; OK
ü Clic su Graphs, diselezionare le opzioni Histogram e Normal plot of residuals; OK
ü
OK
Predicted
Values for New Observations
New Obs Fit
SE Fit 95.0% CI 95.0% PI
1 1.6240 0.0243
( 1.5762; 1.6717)
( 1.0285; 2.2194)
Values of
Predictors for New Observations
New Obs Diameter
Height Diameter Height^2
1 5.00 7.00 25.0 49.0
Risulta quindi che il valore previsto è 1.6240 e che con probabilità 95% l’intervallo di confidenza per questa previsione è (1.0285;2.2194).
Un modello alternativo, ugualmente ottimale, sarebbe stato quello dato dalle regressione semplice di tipo quadratico con il nuovo regressore definito da Diameter*Height. Il risultato è riassunto dal seguente grafico:
Il metodo della regressione può essere utilizzato anche per confermare i risultati degli Esempi 3 e 4 riguardanti il metodo dell’analisi della varianza. Infatti alla base del test F generato dal sistema di ipotesi di uguaglianza delle medie tra i diversi blocchi definiti dai livelli dei fattori, vi è la definizione di un modello lineare i cui parametri misurano gli effetti differenziali tra un gruppo e l’altro.
Per cominciare è necessario definire le variabili indicatrici (dette anche Dummy) che identificano per mezzo di un codice binario (0 assente, 1 presente) l’appartenenza o meno di ciascuna osservazione ad un determinato gruppo.
Necessitiamo delle variabili indicatrici per i fattori di cultura Site, Treatment e Year&Age:
ü Calc > Make Indicator Variables
ü Indicator variables for: Site
ü Store results in: c9 c10
ü
OK
Rinominare le nuove variabili con Site1 e Site2. Ripetere la procedura per Treatment e Year&Age e rinominare con Treat1, .., Treat4, Y1A3, .., Y2Y4.
Costruiamo il modello di regressione multipla ricordando che quando si include l’intercetta è necessario escludere dalla regressione una variabile indicatrice per ciascun gruppo dal momento che altrimenti vi sarebbe una relazione lineare esatta tra le esplicative non potendo in questo modo calcolare i coefficienti del modello.
ü Stat > Regression > Regression
ü Response=Weight
ü Predictors= Site1 Treat2-Treat4 Y1A4-Y2A4
ü Clic su Storage, attivare le opzioni Residuals e Fits; OK
ü
OK
Regression Analysis: Weight versus
Site1; Treat2; ...
The
regression equation is
Weight =
0.233 + 0.095 Site1 + 0.375 Treat2 - 0.177 Treat3 + 1.09 Treat4
+ 2.04 Y1A4 + 0.436 Y2A3 + 3.48
Y2A4
295 cases
used 3 cases contain missing values
Predictor Coef SE Coef T P
Constant 0.2332 0.1398 1.67 0.096
Site1 0.0952 0.1011 0.94 0.347
Treat2 0.3746 0.1421 2.64 0.009
Treat3 -0.1769 0.1427 -1.24 0.216
Treat4 1.0894 0.1437 7.58 0.000
Y1A4 2.0400 0.1453 14.04 0.000
Y2A3 0.4362 0.1432 3.05
0.003
Y2A4 3.4823 0.1395 24.97 0.000
S =
0.8673 R-Sq = 75.1% R-Sq(adj) = 74.5%
Analysis of
Variance
Source DF SS
MS F P
Regression 7
651.500 93.071
123.74 0.000
Residual
Error 287 215.872 0.752
Total 294 867.372
Source DF
Seq SS
Site1 1 1.959
Treat2 1 0.298
Treat3 1
22.344
Treat4 1
42.961
Y1A4 1 23.695
Y2A3 1 91.216
Y2A4 1 469.028
Per realizzare un check-up completo sui residui, una volta che sono stati memorizzati, seguire la seguente procedura:
ü Stat > Regression > Residual Plots
ü Fits= FITS1
ü Residuals= RESI1
ü
OK
Grafico 8
Innanzi tutto i grafici sui residui ci informano che il modello stimato ha un’ottima performance sui dati ed una buon valore di R-Sq.
Per quanto riguarda il confronto con il metodo dell’analisi della varianza vi sono molte conferme, specificatamente:
· il fattore Site non è significativo: il coeff. Site1 con p-value>0.05 evidenzia che non vi è alcun effetto differenziale tra sito 1 e 2
· il fattore Trattamento è rilevante in termini differenziali positivi (il coeff. è maggiore di 0) per il Tratt. 4 (p-value=0) e Tratt. 2 (p-value=0.009) rispetto al Trattamento 1
· il fattore Trattamento non è rilevante in termini differenziali per il Tratt. 3 rispetto all’1 (p-value>0.05)
· tutti e tre i livelli di Year&Age presentano un effetto differenziale statisticamente significativo (p-values<0.05) ed in termini assoluti positivo (tutti e 3 i coeff. sono maggiori di 0) rispetto al gruppo Y1A3