Esempio 5

Segue dall’Esempio 1,2,3 e 4

Regressione. 1

Determinazione a priori di Weigth. 1

Misura degli effetti dei fattori di coltura. 12

Regressione

Nello studio delle interrelazioni tra la variabile risposta Weigth e le altre variabili, che ne possono spiegare il suo comportamento, non possiamo certo escludere il metodo di analisi della regressione.

Con lo studio della regressione di Weigth su di un insieme di variabili esplicative possiamo rispondere a due domande:

1.      è possibile determinare, con un ragionevole grado di errore, il peso della pianta prima che essa sia tagliata?

2.      è possibile stabilire un valore quantitativo per qui fattori che con il metodo dell’analisi della varianza si sono dimostrati rilevanti nella determinazione della variabile Weigth?

Determinazione a priori di Weigth

Per poter stabilire il peso della pianta prima che essa sia tagliata abbiamo a disposizione due variabile che fino ad ora non sono state utilizzate: Diameter e Height.

Prima di stabilire nel dettaglio il modello su cui basare la regressione facciamo uno studio grafico preliminare sulla natura della relazione tra la variabile Weigth con le variabili Diameter e Height.

ü      Graf > Matrix Plot

ü      Graph variables=Diameter Height Weight

ü      OK

Grafico 1

 
 


Come era normale attendersi, dall’analisi del Matrix Plot si evince che esiste una chiara relazione positiva tra Diameter e Weight e tra Height e Weight; per essere più precisi tale relazione non sembra essere di natura lineare bensì di natura quadratica. Per confermare questa impressione proviamo a calcolare una regressione semplice, cioè con una singola variabile esplicativa a volta, prima tra Diameter e Weight e poi tra Height e Weight

ü      Stat > Regression > Fitted Line Plot

ü      Response(Y)=Weight

ü      Predictor(X)=Diameter

ü      Clic su Options, attivare l’opzione Display prediction bands; OK

ü      OK

 

Regression Analysis: Weight versus Diameter

 

 

The regression equation is                            

Weight = -2.35687 + 0.911546 Diameter                 

                                                      

S = 0.738486      R-Sq = 81.6 %      R-Sq(adj) = 81.5 %

 

Analysis of Variance

 

Source            DF         SS         MS         F      P

Regression         1    707.581    707.581   1297.45  0.000

Error            293    159.791      0.545                

Grafico 2

 
Total            294    867.372                            

 

Appare chiaro che per quanto sensato i valori previsti del modello lineare semplice non spiegano l’andamento parabolico di Weight rispetto a Diameter. Ripetiamo la procedura specificando un modello quadratico:

ü      Stat > Regression > Fitted Line Plot

ü      Response(Y)=Weight

ü      Predictor(X)=Diameter

ü      Type of regression model: Quadratic

ü      OK

 

Polynomial Regression Analysis: Weight versus Diameter

 

 

The regression equation is                            

Weight = 0.680052 - 0.632611 Diameter                 

 + 0.168368 Diameter**2                               

                                                      

S = 0.528239      R-Sq = 90.6 %      R-Sq(adj) = 90.5 %

 

Analysis of Variance

 

Source            DF         SS         MS         F      P

Regression         2    785.893    392.947   1408.23  0.000

Error            292     81.479      0.279                

Total            294    867.372                           

 

 

Grafico 3

 
Source      DF     Seq SS          F      P

Linear       1    707.581    1297.45  0.000

Quadratic    1     78.312     280.65  0.000

 

Appare chiaro la migliore performance di questo modello come risulta anche dal valore di R-sq che passa da 81.6% a 90.6%.

Costruiamo direttamente un modello quadratico anche per la variabile esplicati Height:

ü      Stat > Regression > Fitted Line Plot

ü      Response(Y)=Weight

ü      Predictor(X)=Height

ü      Type of regression model: Quadratic

ü      OK

 


Polynomial Regression Analysis: Weight versus Height

 

 

The regression equation is                            

Weight = 0.785052 - 0.559384 Height                   

 + 0.0987103 Height**2                                

                                                      

S = 0.468297      R-Sq = 92.6 %      R-Sq(adj) = 92.6 %

 

Analysis of Variance

 

Source            DF         SS         MS         F      P

Regression         2    803.336    401.668   1831.57  0.000

Error            292     64.036      0.219                

Total            294    867.372                           

 

Grafico 4

 
 


Source      DF     Seq SS          F      P

Linear       1    725.783    1501.92  0.000

Quadratic    1     77.552     353.63  0.000

 

A questo punto siamo autorizzati a costruire un modello di regressione che tenga conto contemporaneamente delle due variabili esplicative assieme anche ai termini al quadrato delle esplicative stesse.

Come prima cosa costruiamo le due nuove esplicative, dopo aver duplicato (duplicate) il worksheet Poplar ed averlo rinominato con Regression Poplar, dall’interno del Project Manager.

ü      Calc > Calculator

ü      Store result in variable: C9

ü      Expression= 'Diameter'*'Diameter'

ü      OK

e rinominare la colonna C9 con Diameter^2. Ripetere la procedura per Height^2.

Proviamo ora a calcolare una regressione multipla con 4 variabili esplicative:

ü      Stat > Regression > Regression

ü      Response=Weight

ü      Predictors= Diameter Height Diameter^2 Height^2

ü      Clic su Graphs, attivare le opzioni Histogram e Normal plot of residuals; OK

ü      OK

 

Regression Analysis: Weight versus Diameter; Height; ...

 

 

The regression equation is

Weight = 1.07 - 0.619 Diameter - 0.242 Height + 0.110 Diameter^2

           + 0.0532 Height^2

 

295 cases used 3 cases contain missing values

 

Predictor        Coef     SE Coef          T        P

Constant       1.0700      0.1521       7.04    0.000

Grafico 5

 
Diameter      -0.6195      0.1205      -5.14    0.000

Height        -0.2422      0.1019      -2.38    0.018

Diameter      0.10956     0.01109       9.88    0.000

Height^2     0.053220    0.006560       8.11    0.000

 


S = 0.3016      R-Sq = 97.0%     R-Sq(adj) = 96.9%

 

Analysis of Variance

 

Source            DF          SS          MS         F        P

Regression         4      841.00      210.25   2311.87    0.000

Residual Error   290       26.37        0.09

Total            294      867.37

 

Source       DF      Seq SS

Diameter      1      707.58

Height        1       33.26

Grafico 6

 
Diameter      1       94.17

Height^2      1        5.99

 

 

Dall’osservazione dei p-value di ciascuno dei 4 quattro i coefficienti risulta che tutti i predittori sono significativi dal momento che i corrispondenti p-value sono tutti inferiori alla usuale soglia a=0.05.

Il valore di R-Sq pari a 97% risulta estremamente elevato indicando un ottimo adattamento del modello mentre i residui sarebbero altrettanto buoni se non vi fossi la presenza di un discreto numero di osservazioni anomale rispetto al modello, soprattutto nella coda sinistra della distribuzione dei residui.

Proviamo ad utilizzare il modello a scopo previsivo per calcolare il valore stimato di Weight di una ipotetica pianta di Diameter=5 e Heigh=7.

Dopo aver creato 4 nuove variabili con in nome New_Dia, New_Hei, New_Dia^2, New_Hei^2, inseriamo i corrispondenti valori 5, 7, 25, 49.

La procedura per il calcolo per una nuova osservazione è la seguente:

ü      Stat > Regression > Regression

ü      Response=Weight

ü      Predictors= Diameter Height Diameter^2 Height^2

ü      Clic su Options, in Predictions intervals for new observations inserire le variabili New_Dia' 'New_Hei' 'New_Dia^2' 'New_Hei^2'; OK

ü      Clic su Graphs, diselezionare le opzioni Histogram e Normal plot of residuals; OK

ü      OK

 

Predicted Values for New Observations

 

New Obs     Fit     SE Fit         95.0% CI             95.0% PI

1        1.6240     0.0243   (  1.5762;  1.6717)  (  1.0285;  2.2194)  

 

Values of Predictors for New Observations

 

New Obs  Diameter    Height  Diameter  Height^2

1            5.00      7.00      25.0      49.0

Risulta quindi che il valore previsto è 1.6240 e che con probabilità 95% l’intervallo di confidenza per questa previsione è (1.0285;2.2194).

Un modello alternativo, ugualmente ottimale, sarebbe stato quello dato dalle regressione semplice di tipo quadratico con il nuovo regressore definito da Diameter*Height. Il risultato è riassunto dal seguente grafico:

 


Misura degli effetti dei fattori di coltura

Il metodo della regressione può essere utilizzato anche per confermare i risultati degli Esempi 3 e 4 riguardanti il metodo dell’analisi della varianza. Infatti alla base del test F generato dal sistema di ipotesi di uguaglianza delle medie tra i diversi blocchi definiti dai livelli dei fattori, vi è la definizione di un modello lineare i cui parametri misurano gli effetti differenziali tra un gruppo e l’altro.

Per cominciare è necessario definire le variabili indicatrici (dette anche Dummy) che identificano per mezzo di un codice binario (0 assente, 1 presente) l’appartenenza o meno di ciascuna osservazione ad un determinato gruppo.

Necessitiamo delle variabili indicatrici per i fattori di cultura Site, Treatment e Year&Age:

ü      Calc > Make Indicator Variables

ü      Indicator variables for: Site

ü      Store results in: c9 c10

ü      OK

Rinominare le nuove variabili con Site1 e Site2. Ripetere la procedura per Treatment e Year&Age e rinominare con Treat1, .., Treat4, Y1A3, .., Y2Y4.

Costruiamo il modello di regressione multipla ricordando che quando si include l’intercetta è necessario escludere dalla regressione una variabile indicatrice per ciascun gruppo dal momento che altrimenti vi sarebbe una relazione lineare esatta tra le esplicative non potendo in questo modo calcolare i coefficienti del modello.

ü      Stat > Regression > Regression

ü      Response=Weight

ü      Predictors= Site1 Treat2-Treat4 Y1A4-Y2A4

ü      Clic su Storage, attivare le opzioni Residuals e Fits; OK

ü      OK

 

Regression Analysis: Weight versus Site1; Treat2; ...

 

 

The regression equation is

Weight = 0.233 + 0.095 Site1 + 0.375 Treat2 - 0.177 Treat3 + 1.09 Treat4

           + 2.04 Y1A4 + 0.436 Y2A3 + 3.48 Y2A4

 

295 cases used 3 cases contain missing values

 

Predictor        Coef     SE Coef          T        P

Constant       0.2332      0.1398       1.67    0.096

Site1          0.0952      0.1011       0.94    0.347

Treat2         0.3746      0.1421       2.64    0.009

Treat3        -0.1769      0.1427      -1.24    0.216

Treat4         1.0894      0.1437       7.58    0.000

Y1A4           2.0400      0.1453      14.04    0.000

Y2A3           0.4362      0.1432       3.05    0.003

Y2A4           3.4823      0.1395      24.97    0.000

 

S = 0.8673      R-Sq = 75.1%     R-Sq(adj) = 74.5%

 

Analysis of Variance

 

Source            DF          SS          MS         F        P

Regression         7     651.500      93.071    123.74    0.000

Residual Error   287     215.872       0.752

Total            294     867.372

 

Source       DF      Seq SS

Site1         1       1.959

Treat2        1       0.298

Treat3        1      22.344

Treat4        1      42.961

Y1A4          1      23.695

Y2A3          1      91.216

Y2A4          1     469.028

 

Per realizzare un check-up completo sui residui, una volta che sono stati memorizzati, seguire la seguente procedura:

ü      Stat > Regression > Residual Plots

ü      Fits= FITS1

ü      Residuals= RESI1

ü      OK

Grafico 8

 
 


Innanzi tutto i grafici sui residui ci informano che il modello stimato ha un’ottima performance sui dati ed una buon valore di R-Sq.

Per quanto riguarda il confronto con il metodo dell’analisi della varianza vi sono molte conferme, specificatamente:

·        il fattore Site non è significativo: il coeff. Site1 con p-value>0.05 evidenzia che non vi è alcun effetto differenziale tra sito 1 e 2

·        il fattore Trattamento è rilevante in termini differenziali positivi (il coeff. è maggiore di 0) per il Tratt. 4 (p-value=0) e Tratt. 2 (p-value=0.009) rispetto al Trattamento 1

·        il fattore Trattamento non è rilevante in termini differenziali per il Tratt. 3 rispetto all’1 (p-value>0.05)

·        tutti e tre i livelli di Year&Age presentano un effetto differenziale statisticamente significativo (p-values<0.05) ed in termini assoluti positivo (tutti e 3 i coeff. sono maggiori di 0) rispetto al gruppo Y1A3