(analisi scientifica di una valutazione pag.2)

Click a fianco per ritornare alla lettura della prima metà dell'articolo

Merit rating a scuola

  La valutazione dei presidi poteva essere un’occasione per utilizzare il merit rating nella scuola. Il merit rating, nato nella realtà industriale americana, è consolidato da più di una cinquantina d’anni e trova una parziale corrispondenza nell’approccio docimologico già utilizzato in qualche scuola nella valutazione degli alunni.

In questa prima esperienza di valutazione dei dirigenti scolastici quasi tutte le regole del merit rating però appaiono violate.

Vediamo come.

Finalità

Nel merit rating la finalità è sempre duplice:

Caduta la prima finalità perché veniva abrogato l’incentivo economico che la sostanziava, per il merit rating restava integra la seconda.

In effetti ai Presidi è stato comunicato il solo punteggio globale, senza scrivere loro "qui vai bene e qui no", apparendo l’amministrazione disinteressata anche alla ricaduta della valutazione sull’automiglioramento.

Attendibilità, precisione ed errore di misura

Nell’uso del merit rating si sa bene che la classifica soggettiva senza vincoli su una scala raggiunge un coefficiente di attendibilità modesto, vale a dire che uno stesso soggetto può ricevere una valutazione alta il Lunedì, medio-bassa il Mercoledì, intermedia il Venerdì. Se poi si confrontano le valutazioni di giudici diversi, l’attendibilità scende ulteriormente.

In pratica in relazione ad una gamma teorica da 0 a 144, con i livelli di attendibilità raggiungibili anche utilizzando strumenti più complessi  si può inferire che un punteggio di 120 rappresenti una certa competenza maggiore rispetto a quelle rappresentate da uno di 50, ma è una follia pensare di possedere una scala tanto precisa da discriminare con un punteggio di 136 rispetto ad uno di 135.

Eppure sono state riempite scale, che considerando i decimi, hanno più di un migliaio di tacche! Per non cadere nel delirio di onnipotenza valutativa, secondo lo standard del merit rating, ci si limita a 5 – 6 valori diversi di punteggio. E parliamo di punteggi totali.

La somma dei punteggi parziali

Avete valutato una persona su un'attività. L'avete fatto in tutta coscienza. Ora la valutate su una seconda anche questa volta con scrupolo. Sommate i due punteggi. Pensate di lavorare correttamente?

 State sbagliando! Quando sommate due punteggi parziali apparentemente sommate punteggi individuali, in realtà sommate variabilità.

Considerate quest’esempio: al processo 3.1 un nucleo non ha trovato differenze tra i presidi e li ha classificati tutti con lo stesso punteggio, al processo 4.1 il nucleo ha ravvisato due gruppi di Presidi profondamente divisi per competenza: ad uno ha dato il massimo, all’altro il minimo.

Nella comparazione sul totale il processo 3.1 non conterà nulla, il 4.1 avrà un peso enorme. Anche al di fuori del caso estremo, maggiore è la variabilità dei punteggi in un processo, maggiore è il peso di quel processo nella comparazione finale.

Se fossero state seguite le procedure del merit rating i nuclei avrebbero potuto ottemperare all’obbligo di sommare i punteggi parziali senza venire meno a quello di considerare di pari dignità a peso ognuno dei 12 processi. Vediamo come.

La distribuzione forzata

Uno dei sistemi più usati nel merit rating è quello della distribuzione forzata che nel caso specifico sarebbe consistito nello stabilire preventivamente quale percentuale di presidi dovesse riportare un determinato punteggio.

Ad esempio si poteva definire in modo eguale per tutti i gruppi le percentuali di punti 6, di punti 8, di punti 10, lasciando all’eccezionalità (casi di acclarata incompetenza) l’attribuzione di punteggi più bassi. Si sarebbe dovuto altresì definire la percentuale di dirigenti scolastici che doveva riportare un determinato valore del coefficiente correttivo.

Con questa classica procedura di merit rating, oltre che aumentare notevolmente l’attendibilità (dalla letteratura scientifica le distribuzioni forzate risultano ben più attendibili delle scale di valutazione semplici), si sarebbe ottenuta un'identica media di punteggi parziali e totali, tra gruppo e gruppo, un'identica variabilità tra processo e processo e la legittimità della somma dei punteggi individuali mantenendo pari peso ad ogni processo.

Le correlazioni tra i processi

Dodici sono un numero spropositato di processi, o di "tratti" come si usa dire nel merit rating, dove non si va oltre il numero strettamente necessario e la ragione è semplice: ogni tratto ulteriore aggiunge pochissima informazione essendo correlato con gli altri. Si tratta soltanto di individuare i tratti che tra loro sono più indipendenti, quelli in più comportano solo uno spreco di risorse e di tempo.

Considerando quanto della prima e del secondo è stato utilizzato dai nuclei e soprattutto quanto del secondo era stato impiegato dai dirigenti scolastici possiamo registrare una scelta di sperpero.

Validità e conclusione

Esce dal tema di questo articolo l’esame della validità delle misure, cioè se esse misurano e in che grado le competenze utili ai dirigenti scolastici. Vale comunque l'evidenza che misure a modesta attendibilità non possono superare una modesta validità.

Sofferta e contraddittoria la vicenda della valutazione nelle scuole: i docenti sono riusciti a non fare nemmeno iniziare la valutazione su di loro, i dirigenti scolastici hanno -pare-  evitato che il pasticcio in discorso producesse qualche effetto, restano indifesi gli studenti esposti spesso a valutazioni fatte con incompetenza.

Pier Franco Rizzo

(riproduzione riservata)