New document

Validità e affidabilità delle pratiche valutative: a proposito del Progetto Pilota 2.
di Pietro Lucisano
19 aprile 2004
da SUPPLEMENTO LEGAMBIENTE SCUOLA NEWS {01} del 18/4/04

La pigrizia e l’impostura intellettuale
vanno denunciate ovunque si trovino.
Alan Sokal

L’antefatto

Qualche anno fa il fisico Alan Sokal ha messo in luce con uno scherzo, che ha provocato innumerevoli polemiche, i rischi di mancanza di rigore anche all’interno di comunità scientifiche molto consolidate. Sokal inviò un saggio corposo dal titolo impegnativo Violare le frontiere: verso un’ermeneutica trasformatrice della gravità quantistica, ad una rivista prestigiosa, Social text, che lo pubblicò. Contemporaneamente Sokal provvide a fare pubblicare su un’altra rivista, Lingua franca, un secondo articolo in cui spiegava che il primo articolo era un inganno, una sorta di esperimento per verificare l’attenzione della prima rivista sul fondamento scientifico di ciò che viene proposto al pubblico. Il primo saggio era infatti cosparso di errori grossolani che qualsiasi esperto che si fosse applicato con attenzione avrebbe dovuto scoprire facilmente. L’inganno era facilitato dal fatto che la tesi sostenuta era vicina alle impostazioni postmoderne e antiscientiste della rivista Social Text.
Successivamente Sokal ha pubblicato assieme a Jean Bricmont Imposture intellettuali. Quale deve essere il rapporto tra filosofia e scienza (1997). In questo lavoro vengono sottoposti a critica rigorosa gli scritti di studiosi di grande prestigio, come ad esempio Lacan, dimostrando come molte delle loro asserzioni non siano in alcun modo giustificate ed in alcuni casi rappresentino autentici strafalcioni.
Un lavoro dunque rigoroso di caccia agli abusi. Ma quali sono gli abusi che danno luogo alle imposture intellettuali? Ad esempio “Discettare a lungo di teorie scientifiche di cui non si abbia, nel migliore dei casi, che un’idea molto vaga. La tattica più comune consiste nell’usare una terminologia scientifica (o pseudoscientifica) senza preoccuparsi troppo di cosa significhino in realtà i termini indicati” (p. 18).
Quando ho avuto modo di leggere prima le magnificazioni sulla stampa e poi i resoconti sul sito dell’INValSI dell’indagine Progetto Pilota 2 sulle prime ho pensato che si trattasse di uno scherzo sul tipo di quello di Sokal, una sorta di test per vedere se proprio nessuno in Italia fosse in grado di capire la differenza tra una ricerca e una operazione spericolata e poco ortodossa. Capito che non si scherzava e che invece si trattava di un fatto di una certa gravità ho provato a riassumere le mie osservazioni sul lavoro in questione, senza la pretesa di essere esaustivo, demandando alle comunità scientifiche dei pedagogisti, degli psicologi e dei sociologi di approfondire l’analisi per meglio comprendere la natura del fenomeno che stiamo osservando.
“Il nostro scopo – per usare ancora le parole di Sokal e Bricmond – è proprio quello di dire che il re è nudo (e la regina pure)”.

Chi valuta i valutatori

È luogo comune del nostro tempo celebrare l’importanza della funzione della valutazione in qualsiasi ambito dell’agire umano.
La valutazione è l’inizio e la conclusione di ogni forma di pensare/agire intelligente e ad essa spetta il compito di selezionare le esperienze e trarne informazioni. Quando questa funzione viene esercitata con spirito scientifico essa consente nelle esperienze presenti di fare tesoro delle esperienze del passato e di considerare la rilevanza delle esperienze future possibili e talvolta, sia pure in modo probabilistico, di prevederne gli effetti.
Intesa così in senso tecnico la valutazione è una funzione complessa che va praticata con prudenza e nel rispetto delle regole codificate dalla comunità scientifica, ma è anche una pratica dell’agire umano quotidiano.
Tuttavia, ancora oggi, quando si parla di scienze sociali, e in particolare della scuola, il termine rischia di perdere il suo connotato di rigore, forse perché, andando di moda, viene fatto proprio da improvvisati esperti. Se poi ci riferiamo alla scuola, non possiamo non constatare come il richiamo alla valutazione sia inflazionato e come molti siano i soggetti che si contrabbandano per esperti.
Alcuni di questi esperti usano una terminologia tecnica per fingere competenza e si fanno forti del linguaggio scientifico e matematico per assumere, agli occhi di un uditorio meno preparato, una veste professionale, una apparenza da competenti, e allora pontificano colpevolizzando l’uditorio, portando con zelo missionario il verbo spesso ricavato da lucidi di terza mano .
Anche il Ministero dell’Istruzione ha pensato che fosse utile dotarsi di un manipolo di questi esperti e di sottoporre alla loro lucida capacità direttiva l’Istituto Nazionale per la Valutazione del Sistema dell’Istruzione. Questi si sono messi al lavoro ed in due anni hanno già svolto due progetti pilota e ne stanno approntando un terzo.
Se in alcuni passaggi questo intervento potrà apparire troppo duro, me ne scuso con i lettori. Sono mosso dalla duplice preoccupazione del danno che deriva dall’uso improprio del metodo scientifico applicato ai problemi della valutazione. Duplice perché non solo si producono informazioni inaffidabili che rischiano di essere assunte, anche in buona fede, dai decisori politici e dunque essere di premessa a scelte sbagliate, ma perché, e questo lo ritengo ancor più grave, il contrabbandare, per valutazione e scienza, cialtronerie rischia di far perdere agli insegnanti proprio la fiducia nella scienza e nella ragione critica e di farli recedere su posizioni individualiste e irrazionaliste. Il fatto che questi progetti siano imposture non deve far perdere la fiducia sulla possibilità di ragionare in modo scientifico e critico sui problemi della scuola e trarne beneficio per migliorare le condizioni di chi ci lavora e dei nostri ragazzi.

“Il rigore scientifico e la validità dell’impianto sono condizioni pregiudiziali per allargare il consenso intorno alle procedure di valutazione.”
(TreEllle, L’Europa valuta la scuola. E l’Italia?, p. 49)
Un catalogo a suo modo esemplare di cattivo uso della ricerca valutativa è rintracciabile infatti nella attività del Gruppo di lavoro sulla Valutazione diretto da Giacomo Elias, il cui prodotto più recente è il Progetto Pilota 2. Valutazione della scuola italiana . Su questo svolgeremo gran parte delle nostre osservazioni, nella speranza che almeno alcune di queste possano essere recepite, anche per evitare che il già programmato Progetto Pilota 3 possa riprodurre senza miglioramenti gli esiti dei Progetti Pilota 1 e 2.
Il fatto che per questa operazione ci sia avvalsi del personale dell’INValSI, rappresenta un’aggravante in relazione alle critiche che verranno proposte. Infatti in questo Istituto ci sono le competenze per condurre ricerche in modo corretto, attestate da rilevazioni ineccepibili sia su campioni nazionali sia in indagini internazionali, ed è evidente che queste competenze e le tecniche che le competenze stesse rendevano disponibili sono state deliberatamente trascurate dai decisori.
Il progetto Pilota 2 segue al Progetto Pilota 1. Lo stesso nome è abbastanza curioso. In genere in una ricerca si realizza una fase pilota, dopo un intenso lavoro teorico-pratico per realizzare la messa a punto delle procedure di indagine e/o la taratura degli strumenti. Ad una fase pilota segue nella logica comune, il main run, l’indagine vera e propria.
È dunque del tutto originale l’idea di un “Progetto Pilota 2”.
L’obiettivo è ambizioso: per dirlo con le parole del protagonista, “è indubbio che il sistema di Istruzione possiede da oggi uno specchio su cui riflettersi”. Questo specchio è stato ricavato con la seguente metodologia:

· “ Il metodo scelto combina la valutazione delle prestazioni degli studenti, attraverso l’uso di prove oggettive appositamente costruite e validate, con la rilevazione delle attività avviate dalle istituzioni scolastiche per specifici aspetti del servizio scolastico.
· Le prestazioni degli studenti sono state rilevate attraverso la somministrazione di prove di apprendimento per alcune discipline (per il PP2: italiano, matematica e scienze) e per alcuni livelli scolastici (per il PP2: IV elementare, I media, I superiore);
· Le prove di apprendimento consistono in quesiti accompagnati da risposte chiuse tra le quali l’allievo deve individuare quella esatta.
· La rilevazione delle attività degli istituti avviene attraverso un questionario di sistema da compilarsi a cura di tutte le componenti interessate (direzione, docenti, genitori…)”.
G. Elias, nella presentazione alla stampa dei risultati del progetto, mostra una efficienza davvero straordinaria nella illustrazione delle tappe e dei tempi del lavoro: “ottobre-dicembre 2002: costruzione e prova sul campo degli strumenti di rilevazione”, (Elias, p. 5).
Il fatto costituisce un indubbio record dato che nelle indagini internazionali (Ocse-Pisa, Iea Reading Literacy, Timss, Iea Icona ecc.) e nelle indagini nazionali di altri paesi questa fase ha richiesto da uno a due anni.
Non risulta credibile in alcun modo che si possa lavorare seriamente e costruire e provare sul campo gli strumenti di rilevazione, in due mesi. Si rischia, per dirla con un linguaggio familiare a chi ha più dimestichezza con la formazione in azienda, di confondere l’efficienza con l’efficacia. La costruzione di prove è infatti un processo necessariamente lento, basato sul confronto e sulla verifica di molti esperti. Si richiede un grande lavoro teorico che si basa sul costante confronto tra metodologi ed esperti disciplinari ed insegnanti per la definizione operativa delle variabili che si intendono misurare. Solo per la prima delle due attività che il GdL ha svolto in due mesi serve un modello teorico che giustifichi la selezione dei contenuti, un modello del costrutto che aiuti nella selezione delle abilità da esaminare e nella loro operazionalizzazione. Nei quasi trent’anni in cui ho lavorato in questo settore non ho mai visto impiegare così poco tempo anche quando una ricerca faceva ricorso a strumenti in parte preconfezionati.
La costruzione delle prove poi richiede il suo tempo: bisogna scegliere con attenzione i testi o gli argomenti, formulare gli item, individuare alternative che devono rispondere a caratteristiche sostanziali e formali ben codificate. Dopo la prima stesura gli strumenti vanno riguardati, corretti e ricorretti, sottoposti a lunghe e faticose analisi.
Se un costruttore pretendesse di procedere alle tamponature il giorno stesso della colata del cemento armato, anche l’ultimo dei muratori lo fermerebbe: il cemento deve asciugare. Se certificassi in pochi giorni ISO9001 un’azienda la cosa risulterebbe sospetta.
Ma il GdL è ISO9001 nel dna e dunque può far meglio.
Però in questi due mesi c’è anche la prova sul campo. Questo aumenta le mie perplessità. Che cosa comporta una prova di uno strumento di rilevazione? Comporta che i prototipi siano sottoposti a un campione con caratteristiche simili a quelle della popolazione su cui le rilevazioni saranno effettuate. Questo non richiede necessariamente una campionatura probabilistica perché si può anche ricorrere a un campione di giudizio. Si tratta cioè di un gruppo di studenti scelto dal ricercatore, che deve cercare di fare in modo, sulla base delle informazioni di cui dispone e sulla base dei risultati di indagini precedenti, di avvicinare per il possibile le caratteristiche di questo gruppo alle caratteristiche note della popolazione su cui intende operare. Se si lavora su una dimensione nazionale il campione di giudizio dovrà almeno essere composto di scuole di aree geografiche diverse e all’interno delle diverse aree geografiche di contesti socioculturali diversi. Ad esempio scuole del nord, del centro e del sud e poi di quartieri a estrazione sociale presumibile medio alta e medio bassa, di città e di paese.
La numerosità di questo campione di giudizio è anch’essa necessitata. Infatti per evitare un errore di stima superiore al 5% sono richiesti almeno 400 casi puliti. Questo vuol dire predisporre la rilevazione su almeno 600 casi.
Inoltre la fase di try out delle prove deve essere effettuata verosimilmente nello stesso periodo dell’anno scolastico in cui si intende effettuare la somministrazione principale. Nelle indagini internazionali, dunque, la considerazione di tutti questi elementi, vincola a una organizzazione dei tempi che prevede la distanza di un anno tra la fase di sperimentazione degli strumenti (prova pilota) e l’indagine definitiva.
Poiché c’era stato un PP1, avremmo supposto che durante il PP1 si effettuasse la taratura degli strumenti che poi avrebbero potuto essere spesi utilmente durante il PP2. Di questo non appare traccia nei documenti; possiamo sperarlo, ma è più ragionevole supporre che effettivamente G. Elias e il suo gruppo di lavoro siano riusciti ad assolvere a tutte queste funzioni in due mesi.
E tuttavia mi rimangono perplessità. Infatti, le fasi di costruzione e try out delle prove comportano un grande spreco di materiali. In genere nella predisposizione delle prove per una indagine di questo rilievo è necessario sperimentare un numero di item circa quattro volte superiore a quello che si suppone si dovrà usare. Ciò comporta, anche quando attorno alle prove lavora una équipe di persone assai esperte e dotate, che la prova sul campo degli strumenti porti a bruciare un numero elevato di domande. Questo richiede che la prova sul campo si realizzi con campioni di giudizio paralleli o richieda più giorni di somministrazione con lo stesso campione per ogni singolo strumento.
Alla prova sul campo segue infatti un riesame dei materiali che si serve di misure di affidabilità e di validità degli strumenti nel loro complesso e dei singoli item. Queste misure possono basarsi su due modelli teorici di riferimento, il modello dell’ICT, item analysis classica che considera essenzialmente due parametri degli item, facilità e discriminatività (punto-biseriale); e utilizza l’alfa di Cronbach per la coerenza della scala e il modello dell’IRT, che può essere declinato ad uno due o tre parametri e che basa il giudizio sugli item sulla base della misura di coerenza dell’item con il modello teorico (fitness). Sono gli indici di discriminatività per la ICT o di fitness per la IRT a indicare se l’item misura in modo accettabile o meno il tratto che intende misurare.
Tutte le volte che durante il try out una domanda non ottiene un indice accettabile deve essere scartata, così come bisogna scartare anche quelle domande in cui i distrattori non si comportano in modo omogeneo.
Non è possibile, infatti, dopo la prova pilota correggere le domande che sono risultate critiche a meno che non si intenda procedere a una seconda prova pilota per la messa a punto dello strumento. Nella costruzione di una prova di comprensione della lettura normalmente succede che metà delle domande su un testo non funzionino bene: allora è necessario, talvolta, rinunciare al testo stesso.
Non riuscendo a capire dalla relazione di presentazione del Progetto Pilota 2 quale metodologia sia stata usata per realizzare in due mesi tutto questo non ci resta che cercare nella relazione ulteriori indizi su come si è proceduto.
Nella relazione si precisa che le domande sono state scelte in base al solo indice di facilità. Non possiamo dubitare sul fatto che i ricercatori dell’INValSI abbiano reso disponibili al GdL le procedure di analisi necessarie alla validazione degli item, perché da anni sono abituati a effettuarle partecipando a indagini internazionali e disponendo di programmi di elaborazione dei dati che le realizzano in automatico.
Dunque gli indici di discriminatività e di fitness erano disponibili. Il fatto che non siano stati utilizzati porterebbe un malpensante a ritenere che, se fossero stati considerati, gran parte degli item si sarebbero dovuti scartare.
Ma che cosa vuol dire tarare le domande in base all’indice di facilità? G. Elias lo spiega in una apposita nota tecnica: “Per indice di facilità si intende il rapporto tra il numero di rispondenti correttamente e il numero totale di rispondenti”. G. Elias precisa poi che la “taratura delle prove (scelta degli item dopo la prova sul campo) - si basa su indici di facilità media (0,4-0,6)”. Qualche rigo più avanti confessa che c’è stato un ritardo, rispetto al programma previsto, della fase di somministrazione e per questo “sono stati scelti gli item con indice di facilità più vicini a 0,4 che a 0,6”.
Dunque non si è tenuto conto dei parametri fondamentali e ci si è riferiti al parametro più debole, la facilità. E su questo si è scelto in modo a dir poco curioso. Se il campione di giudizio di taratura è corretto, e le mie domande sono scelte con il solo criterio della facilità, inchiodandolo in un intervallo così ristretto dovrei infatti rilevare alla fine dell’indagine esattamente il risultato predefinito. Dal che l’indagine risulterebbe del tutto inutile o solo utile a scoprire se il campione di giudizio corrisponde o meno alla rilevazione su campione o su gruppo esteso.
Si è scelto dunque di utilizzare strumenti di misura del profitto tarati in modo tale da non misurare.
Per comprendere meglio le ragioni di questa scelta è necessario esaminare le tabelle relative alla costruzione degli strumenti, dove si dà ragione della loro natura e delle dimensioni che sono state considerate. Per motivi di spazio e per limiti della mia competenza mi limiterò a esaminare la presentazione delle prove “cosiddette” di italiano (tabella 1).
La lettura della tabella suscita nuovi interrogativi sull’impianto teorico e sugli strumenti. Cominciamo dall’impianto teorico.

Testi di riferimento numero 2 3 2 2
popolazione IV elementare I media I superiore III superiore
Distribuzione dei quesiti per abilità rilevata Brano narrativo Brano informativo funzionale Brano espositivo Brano narrativo Brano informativo funzionale Brano narrativo letterario Branoinformativo Brano narrativo letterario Brano espositivo
Comprensione globale 2 1 4 3
Comprensione di aspetti pragmatici e semantici del testo 5 5 3 3 4
Comprensione particolare 2 4 4 2
Comprensione particolare inferenze 3 2
Conoscenzelessicali 5 5 3 3 3
Struttura e stile 3 1
Comprensione lessicale - inferenze 4 0
Comprensione lessicale 3 7 3 7
Conoscenze grammaticali 5 5 4 4 3 4 4 6 7
Totale item 15 15 10 10 10 18 18 20 20
Tempi di somministrazione 30 30
Tabella 1 - Struttura delle prove del PP2

È evidente, dopo Galileo, che una rilevazione empirica debba fondarsi su un impianto teorico che definisca le variabili che si intende misurare: la loro validità del contenuto, i loro rapporti reciproci al fine di comprenderle in un unico costrutto . In questo caso le sub-abilità che costituiscono lo stesso costrutto denominato in sintesi “l’italiano” sono le stesse per elementari e medie e risultano complessivamente diverse per le superiori. L’interpretazione delle etichette è difficile.
Procediamo con ordine dall’alto della tabella. Scusiamo l’uso improprio del termine “brano” che farebbe inorridire gli esperti di linguistica testuale. È evidente che un brano è una porzione di testo non autonoma e che invece i nostri abbiano utilizzato testi.
Ancora stupisce il numero ristretto di testi e l’elevato numero di domande per testo. I testi ovviamente sono troppo pochi e di nuovo non mi è capitato mai di vedere un numero così elevato di domande ragionevolmente ancorate a un singolo testo.
Mi piacerebbe poi capire la differenza tra Conoscenze lessicali e Comprensione lessicale. La letteratura su queste questioni è sconfinata e la scelta delle parole non può certo essere casuale . Conoscenza si riferisce forse alla comprensione del significato di parole fuori contesto? In che cosa conoscenza si distingue da comprensione? Ma le parole fuori contesto non significano. E la differenza che nel test delle superiori si fa tra comprensione lessicale e comprensione lessicale-inferenze, anche questa presuppone studi assolutamente innovativi tali da distinguere la comprensione di un lemma in un testo che avviene senza inferenza da una forma diversa di comprensione che invece la comporta. Inoltre, è decisamente innovativa la tecnica che consente di dare conto di sub-abilità misurandole con una, due o tre domande .
Il problema della identificazione di sub-abilità nei processi di comprensione è infatti assolutamente controverso. Il dibattito risale alle fasi pionieristiche dello studio della comprensione della lettura. Thorndike e Davis negli anni ‘60 discutono a lungo senza esito, confrontandosi sullo stesso set di dati e facendo ricorso a complesse analisi fattoriali e giungendo a conclusioni opposte. Gli stessi studi recenti in questa materia giungono a conclusioni molto prudenti. Dunque, sarebbe importante che il GdL intervenisse in questo dibattito se dispone di evidenze tali da risolvere una discussione così complessa .
Contrasta con la prassi diffusa il numero limitato di testi scelti per le prove. Nelle indagini similari il numero di testi e di item è almeno doppio. La scelta dei testi infine non sembra rispondere alle regole relative ad evitare bias di genere: ad esempio, è probabile che il testo scelto per le elementari, “Mirtilla e i fiori”, fosse più consono alla lettura da parte delle bambine che non dei maschietti.
Altri tre elementi appaiono originali nell’impianto delle prove: a) il numero ridotto di item, b) la disposizione degli item e c) i tempi di somministrazione.
a) Per misurare la sola abilità di comprensione della lettura nell’indagine Iea Reading Literacy si utilizzano, ad esempio, per la IV elementare 15 testi e 99 item, per la III media 19 testi e 89 item. Per misurare le competenze in Italiano nell’indagine Censis-Mpi si usano 15 prove di tipo diverso a risposta chiusa per un totale di 116 item più 2 prove di produzione scritta, il Pisa per valutare la Reading literacy dei 15enni usa 141 quesiti di cui 63 a scelta multipla e 78 a domande aperte (15 a risposta aperta univoca e 63 a risposta aperta articolata), la più recente indagine Iea Icona sulla lettura per la scuola elementare usa 8 testi con 46 quesiti a scelta multipla e 52 quesiti a risposta aperta .
b) In prove di comprensione della lettura, di norma, si dispongono le domande in relazione allo sviluppo del testo e si evita di porre le domande più difficili tutte nella stessa posizione, e in particolare alla fine della prova. Invece nella PP2 le domande sono presentate per tipologia, dunque nello stesso ordine in cui appaiono nella tabella. Non a caso nella relazione dell’INValSI in più punti si fa notare come le differenze per tipo di abilità possano essere state condizionate dalla disposizione degli item .
c) I tempi di somministrazione. I tempi di somministrazione previsti per la Prova Pilota sono circa il doppio di quello che normalmente si stima per questo tipo di prove (circa 45’- un minuto a quesito). Ovviamente non si può definire rigidamente un tempo di somministrazione e questo deve essere ricavato da una attenta osservazione della fase di taratura delle prove. Nella relazione dell’INValSI la inadeguatezza dei tempi è denunciata solo per una delle prove, quella di matematica per le scuole elementari. La prova è risultata facile (0.71) e sottodimensionata rispetto al tempo concesso agli studenti (50 minuti) (p. 19). Probabilmente questo problema si è presentato in più prove, ed avrà provocato tra l¹altro problemi per il clima della somministrazione.
Per quanto riguarda gli strumenti stupisce poi la scelta di escludere un questionario studente da ancorare alle prove. Infatti sia nelle indagini internazionali sia nelle rilevazioni nazionali su campione probabilistico è emerso un peso significativo di variabili di sfondo sugli esiti scolastici ed è evidente che, quale che sia lo scopo che si vuole ottenere con le misure in esame, non disporre di variabili di sfondo rende l’indagine cieca.
Nonostante lo sforzo di aderire all’impianto della ricerca la relazione dell’INValSI non può non sottolineare che “La mancanza di un questionario studente, che raccoglie informazioni sui dati di sfondo dello studente, non permette la costruzione di alcun indicatore che tenti di spiegare il diverso risultato di un gruppo” (p. 36).
Riassumendo quanto osservato finora, a meno di non credere che le prove sono state costruite con modalità assolutamente originali e scientificamente innovative, non ci resta che concludere che sono state costruite in modo approssimativo e inadeguato, che non misurano ciò che avrebbero dovuto misurare e che qualora misurassero qualcosa non disporremmo di alcun elemento per spiegare la ragione dei dati ottenuti.
Ma ciò che più impressiona è che queste prove sono state somministrate a unmilionetremilatrecentoquarantacinque studenti.
Il caso e la probabilità

Una ulteriore dimensione da studiare è il rapporto tra i Progetti Pilota e la teoria dei campioni. Il primo Progetto Pilota era stato realizzato senza procedere a una qualsivoglia procedura di campionatura: le misure erano state effettuate su scuole che avevano aderito volontariamente al progetto; senza dunque una ratio si erano somministrati circa 300.000 protocolli. È a tutti evidente che questo ha comportato un notevole esborso di risorse a fronte di poco o nulla procedere nella dimensione conoscitiva del sistema scolastico. La giustificazione addotta allora fu quella che il progetto doveva verificare la fattibilità e i costi di una metodologia di somministrazione delle prove e la accettazione da parte delle scuole del fatto che l’INValSI procedesse a rilevazioni sistematiche dei livelli di profitto. Il secondo obiettivo possiamo dire sia stato raggiunto; quanto al primo vedremo invece che l’analisi dei risultati della seconda indagine lascia dubbi sostanziali sulla attendibilità delle procedure adottate.
Il progetto Pilota 2, forse perché il rumore del mugugno di tanti esperti è giunto fino al GdL, ha previsto accanto alla somministrazione degli strumenti su un gruppo numerosissimo di scuole volontarie, circa 7000, anche la costruzione di un campione probabilistico.
Qui meriterebbe aprire una parentesi sulle funzioni che sarebbero auspicabili per un sistema nazionale di valutazione e sui suoi obiettivi. Dal modo di procedere appare il desiderio di un sistema di controllo centralizzato e centralistico che ha la pretesa di misurare gli esiti di tutte le scuole, mentre apparirebbe assai più ragionevole immaginare la funzione dell’INValSI come quella di un Ente che predispone e tara strumenti assai più qualificati e dopo averne ricavato informazioni sul sistema attraverso rilevazioni su campioni probabilistici, renda gli stessi strumenti disponibili per le scuole. Queste ultime potrebbero dunque procedere alla loro autovalutazione utilizzando questi strumenti e imparando a confrontare il profitto delle loro classi agli standard nazionali forniti dall’Istituto Nazionale. Con le stesse risorse sarebbe possibile procedere alla taratura di molti strumenti mirati per singole abilità o specifici contenuti disciplinari. Resterebbe alle scuole, entrate nella cultura dell’autovalutazione, e tuttavia anche in quella dell’autonomia, procedere ad adottare gli strumenti e a trarne beneficio. G. Elias invece immagina la funzione dell’INValSI come quella del grande fratello che inesorabilmente mette i voti a tutte le scuole e a tutti gli insegnanti sulla base dei profitti ottenuti al test unico da ciascun singolo Pierino .
Ora diamo i numeri

Ma veniamo ora alla presentazione dei risultati provvisori. Ovviamente dispongo solo di quanto è stato reso pubblico e a questo mi riferisco.
Nonostante la qualità sia un punto di orgoglio del coordinatore del GdL, la presentazione dei dati risulta sciatta e poco professionale. Per quello che riguarda la sciatteria valga ad esempio la figura seguente.

Gruppo di lavoro sulla Valutazione dell’Istruzione

Risultati delle classi I media
Pur con una maggiore uniformità a livello territoriale, i valori scendono rispetto alle elementari.
AREA GEOGRAFICA ITALIANO% MATEMATICA% SCIENZE%
NORD OVEST 56 51 61
NORD EST 54 50 61
CENTRO 55 51 58
SUD 58 57 61
SUD E ISOLE 53 50 67
ITALIA 56 62 60
Figura 1 – Sintesi dei risultati per la Conferenza Stampa (I media)

Nonostante la grafica magniloquente e il simbolo della repubblica italiana sullo sfondo, quasi a fare pensare che si tratti di carta moneta, i dati contengono un errore grossolano. Tale errore non si riscontra nella relazione dell’INValSI. Ma questa tabella è stata presentata alla stampa e poi lasciata sul sito e nessuno sembra essersene accorto. La media nazionale della prova di matematica espressa in percentuale di risposte esatte non può essere 62. Certo è un errore di distrazione e di ben altre distrazioni dovremo ancora occuparci.
Qualcuna è meno spiegabile. Osservate ad esempio la tabella seguente. I dati riportati, sono relativi ai punteggi sul campione probabilistico, e dovrebbero essere stati normalizzati sulla base della seguente formula 500 + 100 p, dove p è il punteggio calcolato sulla base dell’item analysis di Rasch dei risultati della prova. Ora il punteggio di Rasch ha per definizione media 0. Se ne ricava che la media nazionale delle prove dovrebbe essere 500. Invece assistiamo ad una sorta di miracolo che aumenta la media a 508. Se questi sono i dati restituiti alle singole scuole non c’è molto da vantarsi di averlo fatto in breve tempo, dato che sono stati restituiti esiti sbagliati. Anche la saggezza popolare sa che “la gatta presciolosa…” partorisce dati ciechi.

Italiano Matematica Scienze
Istr. classica 559 543 528
Istr. Prof. 436 442 442
Istr. Artistica 479 470 489
Istr. Tecnica 507 518 517
Istituti Superiori 495 506 505
Italia 508 509 505
Tabella 2 – PP2 I superiore: risultati nelle tre prove per tipo di scuola

Lo stesso problema ritorna con dimensioni meno appariscenti per la scuola elementare e per la scuola media.
Si potrebbe proseguire, ma il discorso assumerebbe connotati tecnici meno apprezzabili da un pubblico di non specialisti. Tuttavia merita rilevare che il GdL ha voluto, pur disponendo di misure, come i punteggi di Rasch, presentare alle scuole ed al vasto pubblico i risultati in termini di percentuali di risposte corrette . Sarebbe lungo spiegare che la percentuale di risposte non può essere considerata in alcun modo una misura ed è per questo che dagli anni settanta si ricorre nelle indagini alle misure di Rasch. Anche a livello intuitivo però si coglie che l’uso di percentuali ha un effetto deformante della realtà che si intende descrivere. Non a caso dagli anni 20 si fa ricorso nella presentazione dei risultati di test ai punti z o ai punti t. Ne risulta che la gran parte delle molte tabelle che fanno parte del “rapporto completo sul PP2 (più di 200 pagine di dati e diagrammi)” siano prive di senso.

Ora ve lo spiego io

Ma questo non sarebbe nulla se G. Elias nella sua presentazione alla stampa non si fosse anche sperimentato nell’interpretare i dati. Questi scrive: “Per quanto attiene alle elementari i risultati sono in assoluto i migliori con percentuali di risposte esatte al livello nazionale del 65% per l’italiano, del 71% per la matematica e del 69% per le scienze” (Elias, p. 6)
Sostiene dunque sulla base della differenza tra la percentuale delle risposte esatte ad un test degli studenti di scuola elementare e le percentuali di risposte esatte ad un test diverso degli studenti di scuola media e delle risposte esatte degli studenti di scuola superiore ad un ulteriore altro test, che gli studenti di scuola elementare vanno meglio degli studenti degli altri due ordini di scuola. Una affermazione di questo tipo pregiudicherebbe il superamento dell’esame se fosse fatta da uno studente sprovveduto del corso di laurea triennale in Scienze dell’Educazione e della Formazione.
Nelle indagini internazionali le comparazioni tra popolazioni sono sempre prudenti. Quando si effettuano si basano su prove di ancoraggio , cioè sull’inserimento, nei rispettivi strumenti delle popolazioni che si vogliono confrontare, delle stesse domande in un numero sufficiente a giustificare la comparazione.

Non saremo stati troppo severi

Un modo ulteriore per verificare la bontà degli strumenti è fare riferimento a quella che in gergo tecnico è chiamata validità del criterio.
In che cosa consiste il controllo di validità basata sul criterio? Consiste nel confrontare una misura riferita ad una variabile ottenuta con uno strumento con altre misure della stessa variabile ottenute con altri strumenti.
Per questo scopo abbiamo costruito la tabella 3, nella quale limitando l’analisi alla scuola elementare confrontiamo i risultati della Indagine Iea sulla Alfabetizzazione-Lettura, quelli del Seris e quelli dell’indagine del Censis Mpi con quelli della Prova Pilota 2.
Come si può vedere e come è consolidato in letteratura, nella scuola elementare c’è una costante rilevazione di una prestazione più bassa degli studenti delle macro aree del sud rispetto alle aree del centro nord, ovviamente tranne che nella PP2. Escludendo la possibilità che la PP2 abbia rilevato un incremento di incapacità di lettura nel centro nord dovuto ad una improvvisa dialettofonizzazione dei bambini di scuola elementare (che a ragione potrebbe essere chiamata “effetto Bossi”), dobbiamo proprio prendere atto che le prove della PP2 misurino in modo stravagante. Anche nella relazione dell’INValSI, sia pure con molta cautela, si fa riferimento ad una possibile influenza “della dialettofonia nettamente più vivace nel Veneto e nel Trentino Alto Adige” (p. 8). Il fatto curioso però è che lo stesso effetto si riscontra, nuovamente contro tutte le precedenti rilevazioni, anche per la matematica dove sarebbe indubbiamente più complesso invocare l’effetto del dialetto.

Figura 2 – Confronto tra Aree regionali sulla base dei risultati di quattro diverse rilevazioni sulle abilità di lettura degli studenti di scuola elementare

PP2 Matematica Mpi Censis
Nord Ovest 67 53
Nord Est 66 53
Centro 73 51
Sud 76 46
Sud ed Isole 71
Prova costituita da item n 24 116
Tabella 3 – Confronto tra aree regionali sulla base dei risultati della PP2 e della indagine Censis Mpi sulla scuola elementare.

Potremmo tuttavia ricorrere a una ulteriore spiegazione, meno devastante sulla natura delle prove, ma invalidante rispetto all’idea che si possa procedere al modo già sperimentato nella PP1 e nella PP2 a somministrazioni attendibili, affidando le rilevazioni alle scuole stesse. Infatti l’altra spiegazione possibile è che le prestazioni degli studenti del centro sud non siano al netto di interventi di sostegno. Del resto non è irragionevole da parte degli insegnanti, in tempi in cui si parla di premiare i migliori sulla base dei risultati e non di soccorrere le scuole in difficoltà, affidando il miglioramento della specie alla selezione naturale, ingegnarsi per sopravvivere.
Il GdL potrebbe facilmente verificare quale delle due spiegazioni è più plausibile. Basterebbe controllare accanto ai dati delle classi la deviazione standard. Sono disposto a scommettere che se ne troveranno molte vicine allo zero in particolare nelle classi del centro sud.

Dulcis in fundo

Dicon che dopo il dolce vien l’amaro,
tu guarda il conto e sii sincero
se nt’amareggia perché è troppo caro
(dal menù di un’osteria romana)

Scrive ancora Elias: “I costi per l’attuazione della PP2, ivi compresi quelli sostenuti dall’INValSI ammontano a circa 2,70 Euro per allievo. Essi sono praticamente gli stessi sostenuti per il PP1”. E qui ancora non ci troviamo d’accordo. Utilizzando la tabella diligentemente predisposta da G. Elias ci permettiamo di fare notare che 2,70 è l’8% in più rispetto a 2,50. In più, poiché siamo pignoli, ci piace mostrare quanto il PP2 sia costato moltiplicando il costo pro capite per le teste di studenti messi alla prova con strumenti così raffinati.

Ricerca Costo per alunno Alunni Totale spesa
PP1 2,5 314.000 785.000
PP2 2,7 1.003.345 2.709.031
Tabella 4 – Costi pro capite e costo totale delle due Prove Pilota
La cultura aziendale insegna che a costi fissi fermi, l’impianto teorico, la costruzione delle prove, la somministrazione, un aumento dei casi esaminati dovrebbe consentire di realizzare economie di scala. Invece un aumento dell’8% non si giustifica neppure con la più pessimistica interpretazione del tasso di inflazione. In sostanza il Progetto Pilota 2 anche dal punto di vista amministrativo fa acqua.
La ricerca non tiene dal punto di vista dell’impianto teorico, della validità del contenuto, della validità del costrutto della validità del criterio, della previsione dei tempi di somministrazione, della attendibilità delle misure ricavate, e tutte queste cose un modesto esperto avrebbe potuto indicarle prima di procedere nel lavoro.
Tanti soldi spesi in tempi di ristrettezze per non acquisire quasi nessuna informazione e questo per la volontà pervicace di disattendere ai principi elementari della ricerca docimologica. Forse i costi di questo Progetto potrebbero essere giustificati solo se nei capitoli ministeriali venissero imputati alla voce propaganda. Altrimenti la corte dei conti avrebbe titoli sufficienti per chiedere appunto conto di tutto questo.
Quello che non è misurabile sono i danni alla cultura della valutazione che da cultura delle prove oggettive diventa cultura del quiz e offesa alla professionalità degli insegnanti.
I primi produrranno, se ce ne fosse stato bisogno, ulteriore scetticismo su un percorso importante e su un istituto che si era meritato rispetto a livello nazionale ed internazionale.
Quanto alla professionalità degli insegnanti e ancor più dei dirigenti scolastici, se le scuole continueranno a sottoporsi volontariamente a questa farsa sarebbe certo un cattivo segno.
Del resto forse è proprio il clima instaurato dal nuovo che avanza ad avere realizzato la difficoltà di trasferimento del know how tra i ricercatori dell’INValSI e il GdL di Elias, che ha lavorato “con la costante assistenza del Sottosegretario On. Valentina Aprea e dei rappresentanti dell’amministrazione”. Questo non stupisce se si tiene conto che L’INValSI ha un mandato condizionato dal “non esprimere critiche al governo in carica”. e dunque può intervenire poco su quanto il governo propone .
A noi, che non siamo ancora condizionati da questo mandato, può tornare utile, per concludere, e perché questo non sia che un inizio , una citazione della Lode dell’imparare di Bertold Brecht:

“Controlla il conto
Sei tu che lo devi pagare.
Punta il dito su ogni voce,
chiedi:
e questo perché?”"