Esempio 2

Segue dall’Esempio 1

Test a due campioni

Grazie all’aiuto delle tecniche di inferenza statistica cerchiamo di determinare in maniera più precisa il ruolo di ciascun fattore di coltura (Site e Treatment), prendendo in considerazione l’intero campione di piante e anche ciascuno dei 4 sottocampioni definiti sulla base di Year e Age, dal momento che essi si dimostrano essere degli strati molto significativi per capire l’interazione di tutte le variabili in gioco. Questa affermazione sarà inoltre debitamente testata.

Cominciamo con il condurre un test a due campioni sulla variabile Weigth in base al fattore di coltura Site e cerchiamo di verificare cioè che abbiamo osservato con le tecniche descrittive, cioè che esso da solo non sembra determinante per una maggiore produttività della pianta oggetto di studio.

ü      Stat > Basic Statistics > 2-Sample t

ü      Samples=Weight

ü      Subscripts=Site

ü      Clic su Graphs, attivare l’opzione Dotplots e Boxplots

ü      OK, OK

 


Two-sample T for Weight

 

Site          N      Mean     StDev   SE Mean

1           144      2.20      1.89      0.16

2           151      2.04      1.54      0.13

 

Difference = mu (1) - mu (2)

Estimate for difference:  0.163

95% CI for difference: (-0.233; 0.559)

T-Test of difference = 0 (vs not =): T-Value = 0.81  P-Value = 0.418  DF = 275

Come ci attendevamo, supportati anche dai due grafici che indicano un valore medio di Weigth (trattini e puntini rossi) molto simile nei due siti, il valore del p-value pari a 0.418 indica che i dati non supportano l’ipotesi di rigettare l’ipotesi nulla, cioè che le due medie siano uguali. Possiamo affermare quindi che non c’è alcuna evidenza che il fattore di coltura Site sia determinante per una maggiore produttività della pianta.

A questo punto è interessante ripetere il test all’interno dei 4 strati definiti dalle combinazioni di Year e Age definiti in precedenza.

Prima di procedere però dobbiamo confermare la bontà dell’osservazione che abbiamo fatto riguardo alla correttezza della definizione dei quattro strati: testiamo se esiste una significativa differenza di Weigth per le variabili Year e Age.

ü      Stat > Basic Statistics > 2-Sample t

ü      Samples=Weight

ü      Subscripts=Year

ü      Clic su Graphs, deselezionare l’opzione Dotplots e Boxplots

ü      OK, OK

Otteniamo la seguente tabella:

Two-Sample T-Test and CI: Weight; Year

Two-sample T for Weight

 

Year          N      Mean     StDev   SE Mean

1           143      1.56      1.47      0.12

2           152      2.64      1.77      0.14

 

Difference = mu (1) - mu (2)

Estimate for difference:  -1.087

95% CI for difference: (-1.459; -0.715)

T-Test of difference = 0 (vs not =): T-Value = -5.75  P-Value = 0.000  DF = 288

Vi è una netta evidenza contro l’ipotesi nulla cioè che le piante dell’anno 1 e 2 abbiano lo stesso valore medio di Weigth.

Ripetendo la procedura per la variabile Age otteniamo

Two-Sample T-Test and CI: Weight; Age

 

 

Two-sample T for Weight

 

Age           N      Mean     StDev   SE Mean

3           147     0.817     0.628     0.052

4           148      3.41      1.46      0.12

 

Difference = mu (3) - mu (4)

Estimate for difference:  -2.591

95% CI for difference: (-2.850; -2.333)

T-Test of difference = 0 (vs not =): T-Value = -19.79  P-Value = 0.000  DF = 199

Il valore pari a 0 del p-value ci conferma che piante di 3 e 4 anni non sono assolutamente disomogenee dal punto di vista del Weigth.

A questo punto possiamo procedere a testare l’efficacia del fattore di coltura Site in ciascuno dei 4 strati definiti dalle combinazioni di Year e Age.

Attivare uno ad uno i 4 worksheet che contengono i sottocampioni e ripetere la procedura (per semplificare non facciamo uso dei grafici).

ü      Stat > Basic Statistics > 2-Sample t

ü      Samples=Weight

ü      Subscripts=Site

ü      OK

Otteniamo le seguenti quattro tabelle:

Year&Age=Y1A3

Two-sample T for Weight

 

Site         N      Mean     StDev   SE Mean

1           36     0.623     0.622      0.10

2           39     0.579     0.600     0.096

 

Difference = mu (1) - mu (2)

Estimate for difference:  0.044

95% CI for difference: (-0.238; 0.325)

T-Test of difference = 0 (vs not =): T-Value = 0.31  P-Value = 0.759  DF = 72

 

Year&Age=Y2A3

Two-sample T for Weight

 

Site         N      Mean     StDev   SE Mean

1           34     0.927     0.616      0.11

2           38     1.148     0.512     0.083

 

Difference = mu (1) - mu (2)

Estimate for difference:  -0.220

95% CI for difference: (-0.489; 0.048)

T-Test of difference = 0 (vs not =): T-Value = -1.64  P-Value = 0.106  DF = 64

 

Year&Age=Y1A4

Two-sample T for Weight

 

Site         N      Mean     StDev   SE Mean

1           34      2.42      1.28      0.22

2           34      2.81      1.55      0.27

 

Difference = mu (1) - mu (2)

Estimate for difference:  -0.396

95% CI for difference: (-1.085; 0.294)

T-Test of difference = 0 (vs not =): T-Value = -1.15  P-Value = 0.256  DF = 63

 

Year&Age=Y2A4

Two-sample T for Weight

 

Site         N      Mean     StDev   SE Mean

1           40      4.52      1.32      0.21

2           40     3.649     0.632      0.10

 

Difference = mu (1) - mu (2)

Estimate for difference:  0.873

95% CI for difference: (0.409; 1.337)

T-Test of difference = 0 (vs not =): T-Value = 3.77  P-Value = 0.000  DF = 55

 

Tutti e quattro gli strati tranne l’ultimo, nella fattispecie Year&Age=Y2A4, confermano il risultato del campione globale. Risulta perciò estremamente interessante che le piante di 4 anni piantate il secondo anno dall’avvio dell’esperimento denotino un netto rifiuto dell’ipotesi nulla indicando che piante di 4 anni cresciute in quelle particolari condizioni ambientali dimostrano di essere più produttive nel sito uno (fertile e umido) rispetto al sito 2 (secco e arido).

Passiamo al secondo fattore di coltura, cioè la variabile Treatment. Dal momento che tale fattore può assumere 4 diverse modalità questo fatto implica che il numero di campioni dei quali dovremmo testare l’eventuale rilevanza dei trattamenti sulla produttività della pianta sarebbero in numero appunto di quattro. Questa particolare verifica di ipotesi si risolve con il metodo dell’analisi della varianza che sarà trattato nei successivi esempi.

Per poter utilizzare il metodo della test t a due campioni decidiamo di creare una nuova variabile di stratificazione che separi da tutte le altre le piante trattate con il quarto trattamento, fertilizzante ed irrigazione, che appariva nel corso dell’analisi delle statistiche descrittive essere il più promettente tra i 4.

A questo scopo attivare il worksheet Poplar e seguire la seguente procedura:

ü      Calc > Calculator

ü      Store result variable in: digitare c9

ü      Expression: 'Treatment' = 4

ü      OK

Nominare la colonna c9 con l’etichetta “Treat=4.

Chiudere i 4 worksheet generati dalla precedente stratificazione in modo da poter separare nuovamente il campione contenente questa nuova variabile. Procedere poi con l’operazione di creazione dei 4 sottocampioni:

ü      Manip > Split Worksheet

ü      By variable = Year&Age

ü      OK

Riattivare il worksheet Poplar e condurre un test a due campioni per la verifica della rilevanza del fattore di coltura “Trattamento 4”:

ü      Stat > Basic Statistics > 2-Sample t

ü      Samples=Weight

ü      Subscripts=Treat=4

ü      Clic su Graphs, attivare l’opzione Dotplots e Boxplots

ü      OK, OK

Otteniamo i seguenti grafici e tabella.

Grafico 3

 

Grafico 4

 
 


Two-sample T for Weight

 

Treat=4       N      Mean     StDev   SE Mean

0           223      1.87      1.56      0.10

1            72      2.88      1.96      0.23

 

Difference = mu (0) - mu (1)

Estimate for difference:  -1.006

95% CI for difference: (-1.508; -0.503)

T-Test of difference = 0 (vs not =): T-Value = -3.97  P-Value = 0.000  DF = 101

 

Come ci attendevamo, considerando l’intero campione a disposizione, il fattore Trattamento 4 è nettamente rilevante nella determinazione del peso della pianta.

Ripetiamo la procedura per ciascun sottostrato:

Year&Age=Y1A3

Two-sample T for Weight

 

Treat=4      N      Mean     StDev   SE Mean

0           57     0.439     0.437     0.058

1           18     1.111     0.782      0.18

 

Difference = mu (0) - mu (1)

Estimate for difference:  -0.672

95% CI for difference: (-1.075; -0.269)

T-Test of difference = 0 (vs not =): T-Value = -3.48  P-Value = 0.002  DF = 20

 

Year&Age=Y2A3

Two-sample T for Weight

 

Treat=4      N      Mean     StDev   SE Mean

0           53     0.918     0.466     0.064

1           19     1.393     0.693      0.16

 

Difference = mu (0) - mu (1)

Estimate for difference:  -0.474

95% CI for difference: (-0.828; -0.120)

T-Test of difference = 0 (vs not =): T-Value = -2.76  P-Value = 0.011  DF = 24

 

Year&Age=Y1A4

Two-sample T for Weight

 

Treat=4      N      Mean     StDev   SE Mean

0           53      2.21      1.24      0.17

1           15      4.02      1.14      0.30

 

Difference = mu (0) - mu (1)

Estimate for difference:  -1.806

95% CI for difference: (-2.509; -1.104)

T-Test of difference = 0 (vs not =): T-Value = -5.30  P-Value = 0.000  DF = 24

 

Year&Age=Y2A4

Two-sample T for Weight

 

Treat=4      N      Mean     StDev   SE Mean

0           60     3.773     0.920      0.12

1           20      5.02      1.16      0.26

 

Difference = mu (0) - mu (1)

Estimate for difference:  -1.247

95% CI for difference: (-1.832; -0.663)

T-Test of difference = 0 (vs not =): T-Value = -4.38  P-Value = 0.000  DF = 27

 

Com’era lecito attendersi anche nei sottocampioni la rilevanza del “Trattamento 4” viene confermata.

Prima di terminare analizziamo un secondo aspetto rilevato nel corso dell’analisi descrittiva: incrociando i quattro strati Year /Age, risulta che la variabilità della variabile Weight tra gli strati Y1A3 e Y2A3 è pressoché la stessa mentre per gli strati Y1A4 e Y2A4 si riscontra esserci una sensibile differenza.

Per testare questa impressione conduciamo un test sulla varianza di due campioni, non prima di aver creato due nuovi worksheet in base alla variabile Age:

ü      Manip > Split Worksheet

ü      By variable = Age

ü      OK

Attivare il worksheet Age=3 e seguire la procedura

ü      Stat > Basic Statistics > 2-Variances

ü      Samples=Weight

ü      Subscripts=Year

ü      OK,

Otteniamo la seguente tabella e grafico:

 

Results for: Poplar.MTW(Age = 3)

 

Test for Equal Variances

 


Response    Weight

Factors     Year

ConfLvl     95.0000

 

Bonferroni confidence intervals for standard deviations

 

  Lower     Sigma     Upper     N  Factor Levels

 

0.512322  0.607076  0.742649    75    1

0.479913  0.570533  0.701177    72    2

 

 

F-Test (normal distribution)

 

 

Test Statistic: 1.132

P-Value       : 0.600

 

 

Grafico 17

 
Levene's Test (any continuous distribution)

 

 

Test Statistic: 0.074

P-Value       : 0.787

 

Come ci attendevamo, visto l’elevato valore dei p-value nelle due forme dei test siamo portati ad accettare l’ipotesi nulla che non ci sia differenza tra le varianze.

Attiviamo il worksheet Age=4 e ripetiamo la procedura ottenendo questi risultati:

 

Results for: Poplar.MTW(Age = 4)

 


Test for Equal Variances

 

Response    Weight

Factors     Year

ConfLvl     95.0000

 

Bonferroni confidence intervals for standard deviations

 

  Lower     Sigma     Upper     N  Factor Levels

 

 1.19341   1.42539   1.76351    68    1

 0.94845   1.11822   1.35830    80    2

 

 

F-Test (normal distribution)

 

 

Test Statistic: 1.625

P-Value       : 0.038

 

 

Grafico 18

 
Levene's Test (any continuous distribution)

 

 

Test Statistic: 4.280

P-Value       : 0.040

 

In questo caso invece entrambi i test mostrano un p-value minore di 0.05 portandoci a rigettare l’ipotesi che i due campioni abbiano la stessa varianza.

Test: Conclusioni

Al termine di questa serie test statisti a duecampioni possiamo concludere che:

·        i 4 strati definiti dalle combinazioni di Year e Age definiti in precedenza hanno confermato un significativo effetto differenziale in termini di Weight; tale fenomeno non può peraltro essere spiegato dalle variabile osservate a nostra disposizione

·        il fattore di coltura Site non si è dimostrato alla verifica dei test statistici un variabile rilevante per la produttività della pianta tranne nell’interessante caso del sottocampione del secondo anno e di 4 anni di età

·        la variabili Treatment=4, cioè il fertilizzante e l’irrigazione, è invece determinante per la maggiore produttività della pianta

·        le piante di 4 anni dimostrano stranamente una maggiore variabilità nel peso tra il campione piantato il primo e il secondo anno: invece di essere più variabile il campione del secondo anno, come ci si poteva aspettare visto il maggior successo dal punto di vista della produttività (media più alta), si dimostra che il primo anno di coltivazione è più variabile nella produzione delle piante del secondo; si potrebbe interpretare questo risultato come l’indicazione della presenza di un fattore ambientale esterno, non rilevato dai dati, che ha fatto soffrire la coltivazione rendendola più instabile di quella del secondo anno