Statistiche testuali

 Descrizione del metodo

 Campo di applicazione

 Expertise

 Link e riferimenti

 Esempi

 

 Descrizione del metodo

La Statistica Testuale è una procedura che applica uno strumento quantitativo quale l'approccio statistico allo studio qualitativo di una qualunque tipologia di testo scritto.

Ci sono due modi di analizzare un testo: l'analisi semantica e l'analisi di contenuto.

ANALISI SEMANTICA

L'analisi semantica, insieme all'analisi statistica delle parole e dei cluster, si propone di analizzare la struttura di uno scritto evidenziando le relazioni complesse che esistono tra le parole, mettendo in risalto la ricchezza del vocabolario, la distribuzione delle parole in un testo e la presenza di alcune strutture (costrutti sintattici, sinonimi, parole composte e segmenti ripetuti, ad esempio).

L'analisi semantica è costituita da diverse fasi; solitamente un qualsiasi software che permetta di effettuarla comprende:

Creazione di parole-chiave

Avendo a disposizione un testo, ad esempio un elenco di risposte ad un questionario aperto, l'analista, cioè colui che effettua lo studio, può definire lui stesso una lista di parole chiave; queste liste dipendono dall'oggetto stesso di studio, perciò si tratta in un primo tempo di trovare le parole più pertinenti in funzione di esso.
Per snellire l'operazione, prima di cercare le parole che compaiono più spesso nel testo, occorre creare e/o utilizzare un vocabolario adeguato che consenta di:

 

Meglio ancora se queste tecniche possono essere condotte o seguite dall'utente così da avere il pieno controllo e la consapevolezza del depauperamento del contenuto a seguito di quest'alleggerimento.
La lista di parole-chiave così ottenute costituisce una prima griglia di analisi definita in funzione di un oggetto.

Classificazione delle parole-chiave (clustering)

Il secondo passo consiste nel classificare le parole chiave in categorie omogenee (cluster): spesso, infatti, le parole-chiave sono utilizzate in una stessa frase le une vicino alle altre e si ritrovano insieme nella stessa categoria che identifica un contesto.
Un contesto è definito attraverso l'utilizzazione congiunta di più parole-chiave (ad es. si può intuire il contesto se sono associate le parole mare - vacanza - estate).

Ricerca semantica

La ricerca semantica permette di identificare le diverse utilizzazioni di una parola; poiché una stessa parola può apparire in diversi contesti, è utile poter visualizzarli, soprattutto con l'aiuto di un software che proponga schermate illustrative.

Lista delle frasi

Dopo aver raggruppato le parole-chiave in diversi cluster, è utile anche poter prendere visione delle frasi appartenenti alle diverse differenti categorie, in modo da velocizzare una possibile ricerca.

Incrocio con variabili date

In una lista di risposte ad un questionario aperto, ad esempio, incrociare variabili cosiddette "segnaletiche" con parole-chiave è efficace per avere un'idea sui rapporti tra chi ha risposto e che cosa ha detto, soprattutto se queste variabili sono rappresentative di una categoria. Ogni persona, infatti, può essere classificata per sesso, età, categoria professionale, posizione che occupa nel mondo sociale, etc. Un articolo di stampa può essere differenziato per autore, nome del giornale su cui appare, data di pubblicazione. Un discorso sull'ambiente per data, relatore, pubblico presente, etc. In questo modo si ha una visione più schematica per la successiva interpretazione dei risultati.

 

ANALISI DI CONTENUTO

Successivamente all'analisi semantica, fase preliminare, si effettua l'analisi di contenuto. Questa consiste nel classificare in temi i differenti segmenti di testo; un segmento di testo è un gruppo di parole che possiede da sé un significato. Raggruppando poi i temi in sottotemi e megatemi è possibile comprendere il senso, il significato e il messaggio evincibile dal testo, che spesso non è immediato, soprattutto per quanto riguarda le risposte a questionari aperti.
Con l'analisi di contenuto, è possibile classificare le idee entro un albero gerarchico.



PROCEDURE STATISTICHE

Le procedure statistiche che stanno alla base dell'analisi semantica e di contenuto sono essenzialmente tre:

Costruzione del vocabolario 

Il primo passo consiste nell'individuare le unità lessicometriche che a seconda dei casi possono consistere in parole, parole composte, insiemi di parole o addirittura frasi. Quest'insieme costituisce il vocabolario; spesso nei software sono a disposizione più tipi di vocabolario, da quello generale a quelli tecnici, ma talvolta è possibile crearne uno personale definendone raggruppamenti comprendenti sinonimi, parole composte e parole vuote (cioè da ignorare poiché di importanza non rilevante).

Lemmatizzazione

Quest'operazione consente di snellire il vocabolario di un testo tramite la riunificazione
di forme lessicali corrispondenti a diverse flessioni di uno stesso lemma. In questo modo, per esempio, ogni forma verbale viene ricondotta all'infinito ed ogni sostantivo al maschile singolare. Tali forme costituiscono le occorrenze o cooccorrenze, cioè le entità che ricorrono nei testi, rispettivamente le prime costituite da una parola, le seconde da un numero superiore di termini. 

Numerotizzazione

Tramite un supporto informatico, è possibile effettuare la numerotizzazione, che consiste nell'attribuire una o più cifre ad ogni occorrenza ricavata nella fase di lemmatizzazione, contraddistinguendo con un certo contatore numerico un'unità alfanumerica. . Esistono vari metodi di numerotizzazione: ad esempio è possibile associare ad ogni costrutto una serie di 0 e di 1 che indicano la presenza o l'assenza di una certa forma lessicale. Mettendo poi tutti i numeri in una stringa è possibile effettuare diverse elaborazioni statistiche.



ELABORAZIONI STATISTICHE

Dopo la numerotizzazione è possibile elaborare i dati in vario modo:

Tabella delle frequenze 

Dal numero di volte che un'occorrenza o una cooccorrenza si ripete nello scritto analizzato, è possibile creare semplici tabelle che evidenziano i concetti dominanti presenti nel testo. Allo stesso tempo è utile poiché permette di eliminare le forme con scarsa frequenza e di visualizzare quelle invece più ricorrenti, cioè le parole-chiave. Il software conta in pratica quante volte appare un certo numero (ad es. il numero 7) nel testo, sapendo già dopo la numerotizzazione a cosa si riferisce quel numero.

Tabella delle contingenze

E' una matrice di tipo bouleano le cui righe sono costituite da raggruppamenti (cluster) delle parole-chiave, mentre le colonne sono costituite dalle lemmatizzazioni effettuate in precedenza. La tabella è riempita di " 1 " o " 0 ", rispettivamente se l'occorrenza esaminata appartiene o no al cluster corrispondente. Questa tabella è utile per costruire una serie di sequenze binarie che connotano quella parte del campione esaminato (allo stesso modo, se consideriamo la dimensione verticale, si rappresentano identikit delle lemmatizzazioni).

Matrice delle distanze

Considerando le righe a due a due delle tabelle delle contingenze, è possibile definire un indice di similarità, cioè un numero che quantifichi la distanza tra le stesse. Si costruisce una matrice quadrata dove gli elementi numerici all'interno indicano quanto due sottogruppi sono simili fra loro. Chiaramente tale operazione è estendibile anche alle colonne della tabella delle contingenze; conseguentemente la matrice risultante rappresenta la similarità fra le varie lemmatizzazioni.

Clustering gerarchico ascendente

Basandosi sulle matrici delle distanze è possibile aggregare, a due a due, le varie categorie del campione esaminato o le lemmatizzazioni precedentemente ottenute. I due sottogruppi più vicini andranno a costituire una nuova identità unica, la cui distanza dagli altri è pari alla media delle distanze che gli stessi avevano prima della fusione. Così facendo, ad ogni passo, il totale degli oggetti di partenza si riduce di un'unità. Immaginando tutti gli oggetti come i rami di un albero, passo dopo passo vanno a confluire nel tronco, realizzando la struttura completa. Sezionando l'albero ad una qualunque quota, è possibile evidenziare le unità che a quel livello ancora sopravvivono, le comunanze che in ognuna di esse sono confluite e le peculiarità che ancora le distinguono dalle altre.

Analisi delle corrispondenze

Dalla matrice delle distanze, sovrapponendo la mappatura dello spazio delle categorie costituenti il campione esaminato sulla mappatura delle lemmatizzazioni di partenza, è possibile visualizzare le corrispondenze tra le rispettive collocazioni e dunque un legame reciproco. Più le occorrenze appaiono spesso nelle risposte più e grande la vicinanza nel grafico tra queste e le relative categorie costituenti il campione. Quest'analisi è molto efficace nel trattamento delle risposte ai questionari aperti.  

 

 Campo di applicazione

La linguistica e la statistica sono due discipline profondamente differenti tra loro per storia e principi, avendo ciascuna subito più mutazioni importanti fino all'ultima grande dovuta all'utilizzo dell'informatica, ma poiché una produzione letteraria è strutturata logicamente, è possibile affrontare un'analisi attraverso un approccio propriamente tecnico qual è la metodologia statistica.

Gli scopi della Statistica Testuale sono:


Recentemente, inoltre, la statistica testuale è studiata in funzione alle possibili applicazioni che può avere in rete: sviluppare un motore di ricerca che trovi le associazioni tra le parole ed il
concetto che si cerca è uno dei problemi a cui si vuole trovare un'efficace soluzione, per usufruire al meglio delle potenzialità di Internet alla miglior velocità.

I campi di applicazione sono svariati: dalla linguistica alla storia, dalle scienze della natura (fisica, biologia) alle scienze umanistiche (psicologia, economia, marketing), dall'analisi di un discorso all'analisi di contenuto, dalla ricerca di documentazione all'intelligenza artificiale ed infine a molte applicazioni in rete (a partire dai motori di ricerca in Internet). In generale la Statistica Testuale si può utilizzare in una qualsiasi disciplina che prevede l'utilizzo di un linguaggio o di un vocabolario più o meno specifico, comprendendo così anche colloqui, discorsi, articoli di stampa, lettere di reclamo, libri, documenti ufficiali, rapporti tecnici, brevetti, etc. Di recente la Statistica Testuale ha avuto un grande utilizzo nell'analisi di questionari chiusi e soprattutto aperti. 

Nonostante la profonda differenza di fondo tra un testo e un approccio statistico, quest'ultimo può essere d'aiuto in una elaborazione veloce e in una interpretazione semantica e dei contenuti.
Lo studio che la metodologia statistica apporta all'analisi di un testo consiste in una serie di approcci quantitativi sull'insieme di unità linguistiche che si possono ritrovare in un testo (fonemi, lessicologia). All'interno della linguistica si distinguono, infatti, più domini che studiano di fatto il linguaggio; tra di questi c'è:


La catena di trattamento, come in molti altri campi, consiste in quattro parti:

      PROBLEMA

              DATI

  TRATTAMENTO

INTERPRETAZIONE

 

 Expertise

A seconda del settore di applicazione, è possibile utilizzare lo strumento delle statistiche testuali per l'analisi quantitativa di uno studio qualitativo; in linea di massima il modello che sta alla base del lavoro si compone di una parte di lemmatizzazione, seguita dalla numerotizzazione ed infine dalla parte di elaborazione statistica. 

L'utilizzo di software già compilati, però, nasconde le prime due parti e si concentra sulla visualizzazione dei risultati a seguito di varie analisi statistiche; al di là del puro modello, è lecito supporre che l'utente sia maggiormente interessato al prodotto che deriva dall'elaborazione, perciò spesso i programmi non fanno cenno al tipo di motore su cui si basano.
Nonostante ciò, è importante anche tutto ciò che sta alla base della lemmatizzazione e della numerotizzazione per comprendere meglio gli errori a cui si può andare incontro e i limiti del modello.

Nella lemmatizzazione, ad esempio, avviene uno snellimento del vocabolario del testo dovuto alla riunificazione di varie forme lessicali che corrispondono a flessioni di uno stesso lemma (ad es. lavorando - lavoravo - lavorassi -> lavorare); se ciò è conveniente ai fini del "peso" dei dati, è purtroppo anche accompagnato da un depauperamento del contenuto, da una perdita di forme rare e da un peggioramento, sebbene piccolo, della qualità.
Durante la ricerca di parole-chiave si riscontra più o meno lo stesso problema. In questo caso si tratta di decidere la frequenza minima per cui una forma è da ritenersi parola-chiave; tutto ciò, insieme al clustering, porta ad ignorare alcune espressioni non comuni, imputabili ad ogni modo alle scelte soggettive e quindi opinabili degli operatori.
Nell'analisi di questionari a risposta aperta questi limiti assumono tuttavia poco peso, poiché, sebbene può capitare che su un campione di duecento elementi ce ne siano due o tre che rispondono in modo più forbito della media, questi casi rappresentano una piccolissima percentuale e considerando anche che comunque fanno media con i casi più poveri di vocabolario, è lecito non considerarli ai fini di un'analisi di un campione significativo di risposte.

Un'altra parte delicata del processo è l'ultima, cioè l'interpretazione dei risultati dalla lettura delle tabelle e dei grafici. Rendere oggettivo un giudizio tramite una macchina o addirittura arrivare alla definizione di un codice di sensibilità comune ad un argomento (l'ambiente, ad esempio) è un'impresa più che complessa, poiché non c'è ancora un metodo consolidato capace di utilizzare grandezze difficilmente misurabili. 
Nel caso di questionari aperti, si potrebbe pensare di analizzare le risposte di un campione significativo e sufficientemente grande alla domanda "Quali immagini Le vengono in mente considerando la parola territorio?"; la difficoltà di trattare grandezze qualitative tramite uno studio quantitativo è legata al fatto che non ci si trova di fronte solo ad elementi noti (geografici, fisici, ambientali,…), bensì anche ad elementi che hanno altre valenze (individuali e sentimentali, ad esempio). In questo modo il territorio verrà descritto in modo diverso da un bambino piuttosto che da un anziano, da un operaio piuttosto che da uno studente, etc.
Il tentativo di razionalizzare ciò che di per sé contiene elementi non riconducibili direttamente alla logica portano così ad un impoverimento della qualità delle elaborazioni.

Anche nel caso di una ricerca che può essere fatta via Internet, così come nel caso di un'analisi di vari tipi di testi, la statistica testuale può dare indicazioni su quali siano gli argomenti o i punti-chiave che è meglio approfondire, ma allo stesso tempo c'è sempre una componente soggettiva, nel momento dell'analisi e del giudizio, di cui bisogna tener conto.  

 

 Link e riferimenti

 Links:

Statistiche testuali e paesaggio alpino:

www.diset.polimi.it/ORGA/rabino99/web_rab/homepage.htm

Sito della Grimmersoft:

www.grimmersoft.com

 

Per un approfondimento teorico:

Lebart L., Salem A., Statistique textuelle, Dunod Editeur, Paris, 1994.

  

 

Home Modelli Top