Clustering

 Descrizione del metodo

 Campo di applicazione

 Expertise

 Link e riferimenti

 Esempi

 

 Descrizione del metodo

 I termini di Cluster Analysis e classificazione vengono usati indistintamente per descrivere quelle tecniche che cercano di raggruppare variabili o oggetti in determinate classi o gruppi. In particolare le tecniche possono essere usate per ottenere una diminuzione del numero di dati, riducendo le informazioni di N individui in g gruppi al fine di ottenere una riduzione della dimensione dei dati da analizzare, garantendo però la minima perdita di informazioni. Il procedimento secondo cui decidere in quale gruppo un nuovo individuo deve essere allocato viene definito allocazione o assegnazione.

Il risultato di una cluster analysis, quindi, è il numero di gruppi, detti “cluster”, e la loro relativa composizione.

Le strategie di Clustering sono così classificate:

 

Prima di procedere alla classificazione si può scegliere se operare una normalizzazione degli elementi di partenza.

Essa viene generalmente eseguita quando si riscontra una disomogeneità nelle unità di misura dei diversi parametri caratterizzanti il campione di dati (ad es. il reddito misurato in £ e la densità misurata in n° abitanti/ m2).

Adimensionalizzando i dati di partenza, tale operazione permette di creare una certa omogeneità dei dati su cui effettuare l’analisi.

Sulla base dell’obbiettivo che l’operatore intende conseguire, i dati possono essere normalizzati rispetto al loro valor medio oppure rispetto ad un valore massimo (o minimo) stabilito a priori da chi effettua l’analisi .

Dato un certo numero di dati e dopo aver stabilito il valore rispetto al quale effettuare la normalizzazione, tale operazione consiste nel dividere ciascun dato per il valore di riferimento scelto.

dove

 

I dati così ottenuti sono più omogenei e facili da gestire. Qualora, però, i dati abbiano un diverso peso, l’operazione di normalizzazione ha di contro la perdita di informazione relativa ad esso.

Un caso particolare di normalizzazione è la standardizzazione.

Dato un certo campione di dati e dopo averne calcolato media e scarto quadratico medio, tale operazione consiste nel sottrarre a ciascun dato il valore dello scarto quadratico medio e nel dividere il valore così ottenuto per il valore della media determinato.

dove

Tale operazione permette la realizzazione di un campione di dati caratterizzato da :

Le tecniche di cluster analisys conducono a differenti risultati a seconda che l’insieme iniziale dei dati sia stato normalizzato ( o standardizzato) oppure sia stato introdotto nell’analisi senza alcun trattamento preliminare.

Numerose tecniche di clustering comportano il calcolo di una matrice delle similarità (o delle distanze) tra gli elementi.

Due modalità di valutazione della distanza sono:

 

 

Tecniche gerarchiche

Vengono suddivise in:

I metodi agglomerativi partono dal calcolo di una matrice delle distanze tra gli elementi (solitamente si utilizza la distanza Euclidea) e ad ogni stadio dell’analisi fondono i gruppi o le entità simili (o vicini) tra loro. La distanza viene definita in modo diverso per ogni metodo come vedremo successivamente in dettaglio.

Tra le tecniche gerarchiche agglomerative consideriamo:

Nel centroid cluster analysis i gruppi vengono descritti nello spazio euclideo e posizionati attraverso le coordinate del loro centroide. La distanza tra gruppi è definita come la distanza  tra i loro centroidi e prima vengono raggruppati i gruppi con la distanza più piccola .

Nel Ward’s method, Ward propone la teoria secondo la quale ad ogni stadio dell’analisi la perdita di informazioni che deriva dal raggruppamento di elementi può essere misurata dalla somma delle deviazioni quadratiche di tutti i punti. Ad ogni passo dell’analisi viene considerata l’unione di tutte le possibili coppie di cluster e vengono combinati tra loro i due cluster il cui raggruppamento fornisce il minimo aumento di errore nella somma dei quadrati.

Le tecniche gerarchiche basate sull’utilizzo del legame singolo consentono di raggruppare gli elementi tramite una serie di collegamenti intermedi, ma non permettono di modificare il criterio iniziale di raggruppamento, impedendo in tal modo lo spostamento di oggetti tra i singoli gruppi. Mediante questo metodo vengono fusi i gruppi caratterizzati da una distanza relativa tra di essi minima. Nella fase iniziale dell’analisi ciascun gruppo è costituito da un singolo elemento. Il legame singolo è l’unico metodo in grado di soddisfare i concetti di continuità e minima distorsione tra gli elementi. Nell’applicazione di esso l’utente può trovarsi ad affrontare il problema dei vincoli.

 

I metodi divisivi si distinguono in:

Il risultato di queste due tecniche può essere presentato sotto forma di dendogramma a due dimensioni che illustra le partizioni fatte ad ogni passo successivo, si cerca così il passo più efficiente nella progressiva suddivisione (o sintesi) della popolazione.

L’utente può decidere a quale livello o ciclo d’iterazione dell’analisi fermarsi.

Esempio di applicazione di tecnica gerarchica

Si illustra di seguito il funzionamento di una tecnica di aggregazione gerarchica , evidenziandone i caratteri salienti .

Consideriamo la seguente tabella relativa al livello di alfabetizzazione della popolazione dei principali comuni (per numero di abitanti) della provincia di Sondrio:

 

Applicazione relativa alle tecniche gerarchiche

Si illustra di seguito il funzionamento di una tecnica di aggregazione gerarchica , evidenziandone i caratteri salienti .

Consideriamo la seguente tabella relativa al livello di alfabetizzazione della popolazione dei principali comuni (per numero di abitanti) della provincia di Sondrio:

 

  Laurea Diploma Sc media Sc elem Alfabetiz Analfab
Chiavenna 163 772 1253 920 208 7
Morbegno 241 1070 1894 1382 328 9
Sondrio 759 2695 3161 2571 633 41
Teglio 34 338 800 1034 217 8
Tirano 186 984 1431 1153 278 10

Censimento Istat 1991

 

Per sviluppare il modello del Clustering si possono utilizzare tre differenti metriche :

 

Metrica Euclidea

Definiti due generici elementi i e j (ad esempio Chiavenna e Morbegno) , ognuno dei quali è caratterizzato da k parametri (nel nostro caso i sei gradi di alfabetizzazione),si costruisce una matrice delle distanze i cui elementi dij sono ottenibili da:

dij = S(Xik -Xjk)2

Quindi la distanza tra Chiavenna e Morbegno, d12 , risulta 

d12 =(241-163)2 + (1070-772)2 + (1894-1253)2 +…+ (9-7)2 = 733617

Conseguentemente si ottiene la matrice delle distanze:

 

Chiavenna Morbegno Sondrio Teglio Tirano  
0 733617 10677911 423284 136355 Chiavenna
733617 0 6073088 1908935 279732 Morbegno
10677911 6073088 0 14286749 8456060 Sondrio
423284 1908935 14286749 0  856467 Teglio
136355 279732 8456060 856467 0 Tirano

 

Il primo passaggio del procedimento consiste nella fusione dei due elementi che sono più vicini, individuati ricercando nella matrice la distanza minore.

Nel caso in esame si trova che tale distanza è 136355, valore che unisce il primo e il quinto elemento, Chiavenna e Tirano. Avendo valori prossimi, i due comuni costituiscono un' unica entità; pertanto mantenere le informazioni relative ad entrambi non è più significativo.

Se si considera Chiavenna "inserita" in Tirano, si possono eliminare la prima riga e la prima colonna ridefinendo le distanze dei rimanenti elementi rispetto alla coppia. Ne risulta la seguente matrice:

 

Morbegno Sondrio Teglio Tirano  
0 6073088 1908935 279732 Morbegno
6073088 0 14286749 8456060 Sondrio
1908935 14286749 0 423284 Teglio
279732 8456060 423284 0 Tirano

 

La più piccola distanza risulta essere 279732 (Morbegno e Tirano); procedendo come sopra si ottiene:

 

Sondrio Teglio Tirano  
0 14286749 6073088 Sondrio
14286749 0 423284 Teglio
6073088 423284 0 Tirano

 

In questo caso il valore più piccolo è la distanza 423284, relativa ai comuni di Teglio e Tirano. Si eliminano la seconda riga e la seconda colonna.La matrice finale che si ottiene è:

 

Sondrio Tirano  
0 6073088 Sondrio
6073088 0 Tirano

 

L'ultimo passaggio consiste nella fusione dei due gruppi rimanenti (Sondrio e Tirano), dando luogo ad una singola entità che contiene tutti e cinque gli elementi.

 

Metrica Modulo

Definiti due generici elementi i e j (ad esempio Chiavenna e Morbegno) , ognuno dei quali è caratterizzato da k parametri (nel nostro caso i sei gradi di alfabetizzazione),si costruisce una matrice delle distanze i cui elementi dij sono ottenibili da:

dij = S abs ( Xik -Xjk )

Quindi la distanza tra Chiavenna e Morbegno, d12 , risulta :

d12 =|241-163| + |1070-772|+ |1894-1253|+…+ |9-7|= 1601

Conseguentemente si ottiene la matrice delle distanze:

 

Chiavenna Morbegno Sondrio Teglio Tirano  
0 1601 6557 1140 719 Chiavenna
1601 0 4956 2943 884 Morbegno
6557 4956 0 7449 5838 Sondrio
1140 2943 7449 0 1611 Teglio
719 884 5838 1611 0 Tirano

 

Il valore minore è 719 (Chiavenna e Tirano), si considera Chiavenna inserita in Tirano e si eliminano la prima riga e la prima colonna in maniera tale da ottenere:

 

Morbegno Sondrio Teglio Tirano  
0 4956 2943 884 Morbegno
4956 0 7449 5838 Sondrio
2943 7449 0 1611 Teglio
884 5838 1611 0 Tirano

 

Proseguendo si raggruppano i comuni di Morbegno e Tirano:

 

Sondrio Teglio Tirano  
0 7449 4956 Sondrio
7449 0 1140 Teglio
4956 1140 0 Tirano

 

La distanza più piccola è 1611 (Teglio e Tirano); si eliminano la seconda riga e la seconda colonna e si fondono i comuni rimanenti (Sondrio e Tirano).

 

Metrica Euclidea e Modulo alternate

Il primo passaggio consiste nel ricercare il minimo valore nella matrice delle distanze espressa in metrica euclidea. Nel caso presentato risulteranno uniti Chiavenna e Tirano.

 

Chiavenna Morbegno Sondrio Teglio Tirano  
0 733617 10677911 423284 136355 Chiavenna
733617 0 6073088 1908935 279732 Morbegno
10677911 6073088 0 14286749 8456060 Sondrio
423284 1908935 14286749 0  856467 Teglio
136355 279732 8456060 856467 0 Tirano

 

Semplificata la prima matrice, il secondo passaggio consiste nell'operare secondo la metrica assoluta. Si opererà sulla matrice:

 

Morbegno Sondrio Teglio Tirano  
0 4956 2943 884 Morbegno
4956 0 7449 5838 Sondrio
2943 7449 0 1140 Teglio
884 5838 1140 0 Tirano

 

Ne deriva il legame tra Morbegno e Tirano. Poiché i due metodi si alternano si considera la matrice euclidea 3x3:

 

Sondrio Teglio Tirano  
0 14286749 6073088 Sondrio
14286749 0 423284 Teglio
6073088 423284 0 Tirano

 

La distanza più piccola è relativa ai comuni di Teglio e Tirano, si riuniscono i due elementi rimanenti (Sondrio e Tirano).

Il risultato finale del processo è un grafico che prende nome di dendogramma.

Nell'esempio qui considerato l'ordine dei raggruppamenti è il medesimo, conseguentemente il grafico seguente visualizza i risultati di tutti e tre i procedimenti.

 

 

Se gli oggetti che studiano sono più numerosi si può considerare anche la presenza di vincoli. I vincoli sono della stessa natura dei parametri e la loro individuazione permette di costruire una matrice che evidenzia gli elementi già collegati tra di loro e che ha l'effetto di rafforzare i legami definiti nella matrice delle distanze.

 

Tecniche di partizione

Sono tecniche che dividono la serie iniziale di dati ottimizzando alcuni criteri predefiniti e, ammettendo una rilocalizzazione delle entità, consentono ad una partizione iniziale non efficiente di essere corretta ad uno stadio successivo.

Il numero di gruppi da analizzare può essere deciso a priori dall’utente ed eventualmente può essere cambiato durante il corso dell’analisi.

Le fasi da eseguire sequenzialmente, sono:

  1. Inizializzazione dei cluster;
  2. Allocazione delle entità nei cluster;
  3. Riallocazione di alcune o tutte le entità in altri cluster al termine del processo iniziale di classificazione

 

Nella fase di inizializzazione il ricercatore è interessato a dividere la serie di dati in un preciso numero di cluster detto k. I k punti trovati nello spazio bi o tri-dimensionale vengono usati come stima iniziale del centro del cluster. In seguito gli elementi vengono allocati nei cluster al cui centro sono più vicini. La stima del centro di ciascun cluster può essere aggiornata dopo l’addizione di ciascun oggetto al gruppo o dopo che tutti gli elementi sono stati allocati.

La riallocazione è, invece, un’operazione che viene eseguita su quelle entità che devono essere riassegnate in un altro cluster, con l’obbiettivo di ottimizzare il criterio di partizione utilizzato.

La procedura di riallocazione viene ripercorsa finché lo spostamento di una variabile comporta un miglioramento.

 

Tecniche di ricerca di densità

Se le entità sono rappresentate come punti in uno spazio metrico, il clustering suggerisce che le parti in cui la densità di punti è maggiore siano separate da zone a bassa densità.

Le tecniche classiche tendono ad incorporare le entità in un gruppo già esistente piuttosto che creare uno nuovo.

Un metodo di classificazione è AMOEBA . Proposto per serie di dati spaziali, riesce a trovare tutti i possibili gruppi nelle serie di dati. Esso non richiede parametri all’utente e genera un cluster multi-livello. La visualizzazione dei risultati si ha su un pendrogramma.

In fig. 1 si riporta un esempio in cui si vede identificato il gruppo A come la principale area urbana; questa viene suddiviso in due cluster (AA e AB) al livello successivo e tutti i possibili cluster sono riportati sul pendrogamma.

 

fig. 1

 

Tecniche di collegamento

 

Queste tecniche consentono sia una sovrapposizione sia una distinzione dei cluster in base alle richieste dei diversi campi di applicazione.

Calcolando dapprima la matrice delle similarità dai dati originali, queste tecniche permettono di stimare la similarità tra ciascuna coppia di elementi in base alle loro proprietà. Alla fine del processo gli oggetti si ritrovano suddivisi in due soli gruppi, il più piccolo dei quali rappresenta la classe cercata. Le partizioni sono trovate minimizzando una funzione di coesione tra i due gruppi che deve essere resa minima tramite successivi spostamenti degli oggetti.

Un’espressione proposta per la funzione di coesione è la seguente

 

dove

 

dove

 

 Campo di applicazione

 La Cluster Analysis è una tecnica di analisi statistica che individua una serie di operazioni mediante le quali è possibile collegare gli elementi di un insieme ampio di dati. Prima di procedere al raggruppamento occorre definire un opportuno criterio di valutazione e di selezione e quindi di aggregazione degli oggetti del campione in esame.

La Cluster Analysis presenta due fasi di lavoro:

Le operazioni di collegamento tra gli oggetti dell’insieme di dati vengono visualizzate attraverso un grafico ad albero chiamato dendogramma. Esso è un grafico, strutturato per livelli, ad ogni nodo del quale corrisponde un cluster.

Grazie ad esso è possibile visualizzare il risultato del processo iterativo che si è compiuto sull’insieme dei dati.

La lettura del dendogramma varia a seconda della tipologia di tecnica di classificazione adottata per l’analisi:

 

fig. 2

 

Aumentando il numero di punti il dendogramma diventa sempre più grande e meno leggibile e più difficoltoso risulta riconoscere su di esso le relative dimensioni di ogni gruppo.

Per risolvere questo problema si potrebbe visualizzare nel dendogramma un ulteriore caratteristica: il peso dei cluster. Esso è mostrato graficamente, per ciascun cluster, da un rettangolo di lunghezza proporzionale al peso stesso.

Questo nuovo diagramma prende il nome di pendrogramma. Su di esso si può facilmente calcolare il numero totale di cluster e il numero di livelli relativo (fig. 3).

 

fig. 3

 

Le tecniche di Cluster Analysis possono essere applicate in diversi ambiti della ricerca scientifica e, essendo applicabili sia su scala territoriale sia urbana, risultano efficaci nelle tematiche inerenti la zonizzazione per macro e micro modelli. Date delle zone con la propria destinazione d’uso, queste tecniche consentono di raggruppare le aree più simili in relazione ad uno specifico carattere (risorse, popolazione…), con lo scopo di ordinare il territorio in modo da avere un uso più razionale.

Gli obiettivi delle tecniche di classificazione sono:

Per applicare la Cluster Analysis alla zonizzazione si fa riferimento a diversi parametri:

 

 Expertise

 Quando si decide di utilizzare le tecniche di Cluster Analysis ci si trova a dover scegliere tra un notevole numero di metodi. Producendo ogni tecnica risultati diversi, e’ necessario esaminare i concetti fondamentali di ogni metodo e verificare quali soddisfano maggiormente le finalità da raggiungere e le caratteristiche del campione di dati in esame. Bisogna quindi fare una scelta sia per la tecnica sia per il criterio di raggruppamento degli elementi.

Si illustrano qui di seguito gli aspetti a cui occorre prestare particolare attenzione nell’effettuare l’applicazione di una qualsiasi tecnica di clustering:

  1. definizione dei parametri caratterizzanti il campione di dati in esame. Ai parametri è strettamente collegata la definizione del problema che si intende risolvere, da questi stessi parametri dipenderà la successiva definizione del concetto di similarità. Individuare le caratteristiche degli oggetti risulta, quindi, fondamentale per dare una certa priorità nella classificazione. Se si mantiene lo stesso campione ma si modificano i parametri considerati, la classificazione potrà subire dei cambiamenti evidenziando differenti interazioni tra gli oggetti. Particolare attenzione va inoltre posta nell’identificare il minor numero di parametri indispensabili. La scelta di numero troppo elevato di caratteri causa l’aumento dei tempi di risoluzione del problema e non garantisce il raggiungimento dello scopo prepostoci.
  2. valutazione della necessità di procedere alla normalizzazione (o standardizzazione) del campione di partenza. Si ricorda, infatti, che alcune tecniche di clustering (in particolar modo quelle che utilizzano una metrica di tipo Euclideo) producono risultati diversi in base alle caratteristiche dei dati di origine. L’operazione di standardizzazione può portare ad una sottostima delle differenze dei singoli gruppi, restringendo entro un più piccolo intervallo i valori che caratterizzano i parametri.
  3. inserimento di eventuali vincoli. Solo operando attraverso l’introduzione di vincoli, che rappresentano connessioni reali tra i dati di partenza, il risultato della classificazione è dato da gruppi omogenei e compatti dal punto di vista dei parametri caratterizzanti il campione. I risultati in assenza di vincoli sono diversi da quelli ottenuti con la loro introduzione e rappresentano il risultato di un’analisi puramente statistica sui dati.
  4. selezione del numero di gruppi su cui effettuare la classificazione. Questo aspetto riveste diversa importanza in relazione alla tecnica che utilizziamo. Per le tecniche di partizione, che si occupano dell’allocazione dei dati di partenza nei cluster ottimizzando determinati criteri, il numero iniziale di gruppi risulta molto importante. Per le tecniche gerarchiche, dove non si specifica qual è il numero ottimale di gruppi da utilizzare, questo aspetto può essere trascurato.
  5. verifica di conformità dei raggruppamenti prodotti in relazione agli obiettivi che ci eravamo posti ed al metodo di risoluzione utilizzato. Come verifica si possono anche fare ipotesi sull’effetto che l’omissione di determinati parametri del campione produce sul raggruppamento e verificarle a posteriori.

In un procedimento di clustering esiste molta libertà di scelta per l’utente, sia per quanto concerne la modalità di classificazione che per il numero di parametri e di gruppi da considerare, è quindi opportuno, prima di mettersi al computer avere ben chiari lo scopo che ci si propone e le modalità operative con cui si intende perseguire il miglio risultato.

 

La Cluster Analysis è una tecnica molto utile ma richiede particolare attenzione nella sua applicazione, infatti, le procedure di classificazione, a differenza di altre tecniche statistiche, devono portare ad una corretta rielaborazione e valutazione dei risultati e non ad una semplice accettazione dei raggruppamenti ottenuti.


 

 Link e riferimenti

Per un approfondimento teorico relativo alla zonizzazione si può vedere :

Bartaletti F., “Principi e metodi per la delimitazione delle aree metropolitane “ , tratto da " Studi e ricerche di Geografia ", XV, 1994.

Bettini V.,“ L’analisi ambientale “ , Clup , Milano,1990.

Bresso M., Gamba G., Zeppetella A.,“ Valutazione ambientale e processi di decisione . Metodi e tecniche di valutazione di impatto ambientale “ , La Nuova Italia Scientifica , Roma, 1992.

Clemente F.,“ Pianificazione del territorio e sistema informativo “ , Franco Angeli , Milano, 1984.

Guarnero G.,“ Impatto ambientale . Informazione , analisi , valutazione , decisione “ , Alinea , Firenze, 1993.

Kmiec D.W.,“ Zoning and planning deskbook “ , West Group, 1986.

Maguire D. J., “ Il computer nello studio del territorio “ , Franco Angeli , Milano, 1990.

Marescotti L., Canevari A.,“ La cartografia per l’urbanistica e l’architettura “ , Clup , Milano, 1985.

Oneto G., “ Manuale di pianificazione del paesaggio “ , Pirola, 1997.

Scarci S.,” Informatica per l’ambiente . Strumenti per la ricerca , la sorveglianza , il supporto decisionale in campo ambientale “ , Franco Angeli , Milano, 1991.

Sorrentini F., “ Il parco Scientifico e Tecnologico come strumento di riqualificazione territoriale “ , in " Studi Geografici in onore di Domenico Ruocco ", II. Loffredo , Napoli, 1994.

Zonino V.,“ Una nota su cartografia e informatica “ , in " Studi Geografici in onore di Domenico Rocco ", II. Loffredo , Napoli, 1994.

 

Per un’analisi delle applicazioni relative alla Cluster Analysis i testi di base sono:

Coppi R., Bolasco S., “ Multiway Data Analysis “ , North Holland, 1988.

Diday E., “ New appracches in classification and data analysis “ , Springer, 1994.

Everitt B.,“ Cluster Analysis “ , Edward Arnold, 1993.

Goldstein H.,“ Multilevel statistical models “ , Arnold, 1995.

Gordon A., “ Classification “ , Chapman and Hall, 1981.

Hand D., Crower M., “ Pratical Longitudinal Data Analysis “ , Chapman and Hall, 1995.

Hazewinkel M.,“ Lipshits distance and hierarchical clustering “, 1995.

Jambu M., Lebeaux M.,“ Cluster analysis and data analysis “ , North Holland, 1983.

Rizzi A., “ Analisi dei dati “ , NIS, 1985.

Van Rijsberge C. J.,“ Automatic classification ” , 1995.

Watson S., “ The classification of metrics and multivariate statistical analysis “, 1996.

 

Home Modelli Top