Esempio 2
Segue dall’Esempio 1
Grazie all’aiuto delle tecniche di inferenza statistica cerchiamo di determinare in maniera più precisa il ruolo di ciascun fattore di coltura (Site e Treatment), prendendo in considerazione l’intero campione di piante e anche ciascuno dei 4 sottocampioni definiti sulla base di Year e Age, dal momento che essi si dimostrano essere degli strati molto significativi per capire l’interazione di tutte le variabili in gioco. Questa affermazione sarà inoltre debitamente testata.
Cominciamo con il condurre un test a due campioni sulla variabile Weigth in base al fattore di coltura Site e cerchiamo di verificare cioè che abbiamo osservato con le tecniche descrittive, cioè che esso da solo non sembra determinante per una maggiore produttività della pianta oggetto di studio.
ü Stat > Basic Statistics > 2-Sample t
ü Samples=Weight
ü Subscripts=Site
ü Clic su Graphs, attivare l’opzione Dotplots e Boxplots
ü
OK, OK
Two-sample T
for Weight
Site N Mean StDev SE Mean
1 144 2.20 1.89 0.16
2 151 2.04 1.54 0.13
Difference =
mu (1) - mu (2)
Estimate for
difference: 0.163
95% CI for
difference: (-0.233; 0.559)
T-Test of
difference = 0 (vs not =): T-Value = 0.81
P-Value = 0.418 DF = 275
Come ci attendevamo, supportati anche dai due grafici che indicano un valore medio di Weigth (trattini e puntini rossi) molto simile nei due siti, il valore del p-value pari a 0.418 indica che i dati non supportano l’ipotesi di rigettare l’ipotesi nulla, cioè che le due medie siano uguali. Possiamo affermare quindi che non c’è alcuna evidenza che il fattore di coltura Site sia determinante per una maggiore produttività della pianta.
A questo punto è interessante ripetere il test all’interno dei 4 strati definiti dalle combinazioni di Year e Age definiti in precedenza.
Prima di procedere però dobbiamo confermare la bontà dell’osservazione che abbiamo fatto riguardo alla correttezza della definizione dei quattro strati: testiamo se esiste una significativa differenza di Weigth per le variabili Year e Age.
ü Stat > Basic Statistics > 2-Sample t
ü Samples=Weight
ü Subscripts=Year
ü Clic su Graphs, deselezionare l’opzione Dotplots e Boxplots
ü
OK, OK
Otteniamo la seguente tabella:
Two-Sample T-Test and CI: Weight;
Year
Two-sample T
for Weight
Year N Mean StDev SE Mean
1 143 1.56 1.47 0.12
2 152 2.64 1.77 0.14
Difference =
mu (1) - mu (2)
Estimate for
difference: -1.087
95% CI for
difference: (-1.459; -0.715)
T-Test of
difference = 0 (vs not =): T-Value = -5.75
P-Value = 0.000 DF = 288
Vi è una netta evidenza contro l’ipotesi nulla cioè che le piante dell’anno 1 e 2 abbiano lo stesso valore medio di Weigth.
Ripetendo la procedura per la variabile Age otteniamo
Two-Sample T-Test and CI: Weight; Age
Two-sample T
for Weight
Age N Mean StDev SE Mean
3 147 0.817 0.628 0.052
4 148 3.41 1.46 0.12
Difference =
mu (3) - mu (4)
Estimate for
difference: -2.591
95% CI for
difference: (-2.850; -2.333)
T-Test of
difference = 0 (vs not =): T-Value = -19.79
P-Value = 0.000 DF = 199
Il valore pari a 0 del p-value ci conferma che piante di 3 e 4 anni non sono assolutamente disomogenee dal punto di vista del Weigth.
A questo punto possiamo procedere a testare l’efficacia del fattore di coltura Site in ciascuno dei 4 strati definiti dalle combinazioni di Year e Age.
Attivare uno ad uno i 4 worksheet che contengono i sottocampioni e ripetere la procedura (per semplificare non facciamo uso dei grafici).
ü Stat > Basic Statistics > 2-Sample t
ü Samples=Weight
ü Subscripts=Site
ü
OK
Otteniamo le seguenti quattro tabelle:
Year&Age=Y1A3
Two-sample T
for Weight
Site N Mean StDev SE Mean
1 36 0.623 0.622
0.10
2 39 0.579 0.600 0.096
Difference =
mu (1) - mu (2)
Estimate for
difference: 0.044
95% CI for
difference: (-0.238; 0.325)
T-Test of
difference = 0 (vs not =): T-Value = 0.31
P-Value = 0.759 DF = 72
Year&Age=Y2A3
Two-sample T
for Weight
Site N Mean StDev SE Mean
1 34 0.927 0.616 0.11
2 38 1.148 0.512 0.083
Difference =
mu (1) - mu (2)
Estimate for
difference: -0.220
95% CI for
difference: (-0.489; 0.048)
T-Test of
difference = 0 (vs not =): T-Value = -1.64
P-Value = 0.106 DF = 64
Year&Age=Y1A4
Two-sample T
for Weight
Site N Mean StDev SE Mean
1 34 2.42 1.28 0.22
2 34 2.81 1.55 0.27
Difference =
mu (1) - mu (2)
Estimate for
difference: -0.396
95% CI for
difference: (-1.085; 0.294)
T-Test of
difference = 0 (vs not =): T-Value = -1.15
P-Value = 0.256 DF = 63
Year&Age=Y2A4
Two-sample T
for Weight
Site N Mean StDev SE Mean
1 40 4.52 1.32 0.21
2 40 3.649 0.632 0.10
Difference =
mu (1) - mu (2)
Estimate for
difference: 0.873
95% CI for
difference: (0.409; 1.337)
T-Test of
difference = 0 (vs not =): T-Value = 3.77
P-Value = 0.000 DF = 55
Tutti e quattro gli strati tranne l’ultimo, nella fattispecie Year&Age=Y2A4, confermano il risultato del campione globale. Risulta perciò estremamente interessante che le piante di 4 anni piantate il secondo anno dall’avvio dell’esperimento denotino un netto rifiuto dell’ipotesi nulla indicando che piante di 4 anni cresciute in quelle particolari condizioni ambientali dimostrano di essere più produttive nel sito uno (fertile e umido) rispetto al sito 2 (secco e arido).
Passiamo al secondo fattore di coltura, cioè la variabile Treatment. Dal momento che tale fattore può assumere 4 diverse modalità questo fatto implica che il numero di campioni dei quali dovremmo testare l’eventuale rilevanza dei trattamenti sulla produttività della pianta sarebbero in numero appunto di quattro. Questa particolare verifica di ipotesi si risolve con il metodo dell’analisi della varianza che sarà trattato nei successivi esempi.
Per poter utilizzare il metodo della test t a due campioni decidiamo di creare una nuova variabile di stratificazione che separi da tutte le altre le piante trattate con il quarto trattamento, fertilizzante ed irrigazione, che appariva nel corso dell’analisi delle statistiche descrittive essere il più promettente tra i 4.
A questo scopo attivare il worksheet Poplar e seguire la seguente procedura:
ü Calc > Calculator
ü Store result variable in: digitare c9
ü Expression: 'Treatment' = 4
ü
OK
Nominare la colonna c9 con l’etichetta “Treat=4.
Chiudere i 4 worksheet generati dalla precedente stratificazione in modo da poter separare nuovamente il campione contenente questa nuova variabile. Procedere poi con l’operazione di creazione dei 4 sottocampioni:
ü Manip > Split Worksheet
ü By variable = Year&Age
ü
OK
Riattivare il worksheet Poplar e condurre un test a due campioni per la verifica della rilevanza del fattore di coltura “Trattamento 4”:
ü Stat > Basic Statistics > 2-Sample t
ü Samples=Weight
ü Subscripts=Treat=4
ü Clic su Graphs, attivare l’opzione Dotplots e Boxplots
ü
OK, OK
Otteniamo i seguenti grafici e
tabella.
Grafico 3 Grafico 4
Two-sample T
for Weight
Treat=4 N
Mean StDev SE Mean
0 223 1.87 1.56 0.10
1 72 2.88 1.96 0.23
Difference =
mu (0) - mu (1)
Estimate for
difference: -1.006
95% CI for
difference: (-1.508; -0.503)
T-Test of
difference = 0 (vs not =): T-Value = -3.97
P-Value = 0.000 DF = 101
Come ci attendevamo, considerando l’intero campione a disposizione, il fattore Trattamento 4 è nettamente rilevante nella determinazione del peso della pianta.
Ripetiamo la procedura per ciascun sottostrato:
Year&Age=Y1A3
Two-sample T
for Weight
Treat=4 N
Mean StDev SE Mean
0 57 0.439 0.437 0.058
1 18 1.111 0.782 0.18
Difference =
mu (0) - mu (1)
Estimate for
difference: -0.672
95% CI for
difference: (-1.075; -0.269)
T-Test of
difference = 0 (vs not =): T-Value = -3.48
P-Value = 0.002 DF = 20
Year&Age=Y2A3
Two-sample T
for Weight
Treat=4 N
Mean StDev SE Mean
0 53 0.918 0.466 0.064
1 19 1.393 0.693 0.16
Difference =
mu (0) - mu (1)
Estimate for
difference: -0.474
95% CI for
difference: (-0.828; -0.120)
T-Test of
difference = 0 (vs not =): T-Value = -2.76
P-Value = 0.011 DF = 24
Year&Age=Y1A4
Two-sample T
for Weight
Treat=4 N
Mean StDev SE Mean
0 53 2.21 1.24 0.17
1 15 4.02 1.14 0.30
Difference =
mu (0) - mu (1)
Estimate for
difference: -1.806
95% CI for
difference: (-2.509; -1.104)
T-Test of
difference = 0 (vs not =): T-Value = -5.30
P-Value = 0.000 DF = 24
Year&Age=Y2A4
Two-sample T
for Weight
Treat=4 N
Mean StDev SE Mean
0 60 3.773 0.920 0.12
1 20 5.02 1.16 0.26
Difference =
mu (0) - mu (1)
Estimate for
difference: -1.247
95% CI for
difference: (-1.832; -0.663)
T-Test of
difference = 0 (vs not =): T-Value = -4.38
P-Value = 0.000 DF = 27
Com’era lecito attendersi anche nei sottocampioni la rilevanza del “Trattamento 4” viene confermata.
Prima di terminare analizziamo un secondo aspetto rilevato nel corso dell’analisi descrittiva: incrociando i quattro strati Year /Age, risulta che la variabilità della variabile Weight tra gli strati Y1A3 e Y2A3 è pressoché la stessa mentre per gli strati Y1A4 e Y2A4 si riscontra esserci una sensibile differenza.
Per testare questa impressione conduciamo un test sulla varianza di due campioni, non prima di aver creato due nuovi worksheet in base alla variabile Age:
ü Manip > Split Worksheet
ü By variable = Age
ü
OK
Attivare il worksheet Age=3 e seguire la procedura
ü Stat > Basic Statistics > 2-Variances
ü Samples=Weight
ü Subscripts=Year
ü
OK,
Otteniamo la seguente tabella e grafico:
Results for: Poplar.MTW(Age = 3)
Test for Equal Variances
Response Weight
Factors Year
ConfLvl 95.0000
Bonferroni
confidence intervals for standard deviations
Lower
Sigma Upper N
Factor Levels
0.512322 0.607076
0.742649 75 1
0.479913 0.570533
0.701177 72 2
F-Test
(normal distribution)
Test
Statistic: 1.132
P-Value : 0.600
Grafico 17
Levene's Test (any continuous distribution)
Test
Statistic: 0.074
P-Value : 0.787
Come ci attendevamo, visto l’elevato valore dei p-value nelle due forme dei test siamo portati ad accettare l’ipotesi nulla che non ci sia differenza tra le varianze.
Attiviamo il worksheet Age=4 e ripetiamo la procedura ottenendo questi risultati:
Results for: Poplar.MTW(Age = 4)
Test for Equal Variances
Response Weight
Factors Year
ConfLvl 95.0000
Bonferroni
confidence intervals for standard deviations
Lower
Sigma Upper N
Factor Levels
1.19341
1.42539 1.76351 68
1
0.94845
1.11822 1.35830 80
2
F-Test
(normal distribution)
Test
Statistic: 1.625
P-Value : 0.038
Grafico 18
Levene's Test (any continuous distribution)
Test
Statistic: 4.280
P-Value : 0.040
In questo caso invece entrambi i test mostrano un p-value minore di 0.05 portandoci a rigettare l’ipotesi che i due campioni abbiano la stessa varianza.
Al termine di questa serie test statisti a duecampioni possiamo concludere che:
· i 4 strati definiti dalle combinazioni di Year e Age definiti in precedenza hanno confermato un significativo effetto differenziale in termini di Weight; tale fenomeno non può peraltro essere spiegato dalle variabile osservate a nostra disposizione
· il fattore di coltura Site non si è dimostrato alla verifica dei test statistici un variabile rilevante per la produttività della pianta tranne nell’interessante caso del sottocampione del secondo anno e di 4 anni di età
· la variabili Treatment=4, cioè il fertilizzante e l’irrigazione, è invece determinante per la maggiore produttività della pianta
· le piante di 4 anni dimostrano stranamente una maggiore variabilità nel peso tra il campione piantato il primo e il secondo anno: invece di essere più variabile il campione del secondo anno, come ci si poteva aspettare visto il maggior successo dal punto di vista della produttività (media più alta), si dimostra che il primo anno di coltivazione è più variabile nella produzione delle piante del secondo; si potrebbe interpretare questo risultato come l’indicazione della presenza di un fattore ambientale esterno, non rilevato dai dati, che ha fatto soffrire la coltivazione rendendola più instabile di quella del secondo anno