Clustering

 Esempio

 

Utilizziamo per la realizzazione dell’esempio due tipologie di software:

 

XLSTAT.xls

XLSTAT.xls è una macro di Excel che offre la possibilità di effettuare diverse tipologie di analisi statistiche; ci si è limitati a verificarne il funzionamento per le sole tecniche di classificazione.

Scegliendo il tasto rappresentante il menu e poi l’opzione “data analysis” si è in grado di abilitare i programmi di “Cluster analysis”.

All’apertura del programma viene visualizzata una piccola barra degli strumenti che rappresenta la macro XLSTAT.

Sono possibili due tipi di analisi:

  1. Cluster Analisys 1 : utilizza per l’analisi il metodo del centroide;
  2. Cluster Analisys 2 : utilizza per l’analisi il metodo di Ward.

In generale, Cluster Analisys rappresenta una tecnica di analisi di dati che permette di classificare in gruppi un certo numero di osservazioni descritte da una o più variabili (attributi).

Relativamente alle tecniche di classificazione, XLSTAT permette di specificare il numero di gruppi che si vogliono ottenere come risultato finale dell’analisi.

A differenza di altri software, XLSTAT.xls non permette di effettuare un’analisi con vincoli ; l’analisi che si ottiene è quindi puramente statistica.

Il vincolo evidenzia un ulteriore legame tra le osservazioni in esame permettendo di ottenere raggruppamenti reali nel rispetto del contesto nel quale si opera ed offrendo la possibilità di svolgere un'efficace analisi del fenomeno studiato.

 

Cluster analysis 1

Questa opzione permette di effettuare un’analisi di classificazione utilizzando il metodo del centroide.

Partendo da una situazione iniziale definita da una aggregazione casuale, in gruppi, dei dati di partenza, tale analisi permette la riallocazione dei dati, da un gruppo ad un altro, mediante un certo numero di iterazioni.

Il risultato fornito dall’analisi è un parametro che va sotto il nome di “ inerzia ” : essa è una quantità sempre costante che rappresenta un indice della buona allocazione dei dati nei gruppi realizzati.

Essa è definito come :

 

dove

 

Si intende per “inerzia interna ad un gruppo (within group)” il valore dello scarto quadratico medio dei dati appartenenti a quel gruppo.Esso è un indice di quanto i dati interni ad un gruppo si discostano dal valor medio relativo a quello stesso gruppo.

Si intende per “inerzia relativa tra due gruppi (between groups)” il valore della distanza relativa tra i centrodi dei due differenti gruppi.

L’obbiettivo sulla base del quale gli elementi vengono riallocati da un gruppo ad un altro è la minimizzazione del termine

 

Riuscire a minimizzare la sommatoria, su tutti i gruppi, delle inerzie interne a ciascun gruppo  corrisponde, infatti, a determinare l’allocazione ottimale dei dati.

Per ciascun gruppo, infatti, minore è il valore di inerzia interna minore è la dispersione dei dati intorno al centroide relativo al gruppo stesso.

L’opzione Cluster Analisys 1 lascia a discrezione dell’utente :

 

Cluster analysis 2

Questa opzione permette di effettuare una Ascendant hierarchical cluster analysis, utilizzando il metodo di Ward: ad ogni passo dell’analisi viene considerata l’unione di tutte le possibili coppie di cluster e i due cluster, il cui raggruppamento fornisce il minimo aumento di errore nella somma dei quadrati, vengono combinati. Ad ogni stadio dell’analisi la perdita di informazione che deriva dal raggruppamento di elementi può essere misurata dalla somma delle deviazioni quadratiche di tutti i punti.

Nell’utilizzare questo tipo di analisi bisogna porre particolare attenzione ai limiti del programma, in particolare:

 

Per poter meglio comprendere il funzionamento del software XLSTAT.xls consideriamo un esempio relativo alla zonizzazione dei Comuni della provincia di Sondrio. I parametri che caratterizzano l'analisi sono:

  1. popolazione totale;
  2. età media;
  3. tasso di attività;
  4. tasso di terziarizzazione;
  5. indice di istruzione.

Tali dati sono disponibili nella tabella del file ‘prov.Sondrio.xls.

 

Cluster.exe

Cluster.exe è un software che permette di fare classificazioni utilizzando dei vincoli. Per comprenderne meglio il funzionamento si propone lo stesso esempio precedente con l’introduzione di opportuni vincoli.

Si considerano, quali elementi vincolanti i dati del campione iniziale, i collegamenti stradali e ferroviari che interessano comuni limitrofi.

In tabella ‘tabellacom.xls’ sono segnalati i comuni vincolati.

La classificazione è ottenibile sia considerando la presenza dei vincoli che trascurandola.

La risoluzione del problema con e senza vincoli porta a risultati notevolmente diversi, basti confrontare i primi passaggi del procedimento applicato all’esempio (si è usata la Metrica Euclidea):

 

Metodo con vincolo Elementi uniti Metodo senza vincolo Elementi uniti
Passaggio 1 2 5 Passaggio 1 2  5
Passaggio 2 5  16 Passaggio 2 5  8
Passaggio 3 13  19 Passaggio 3 8  13
Passaggio 4 16  24 Passaggio 4 13  16
Passaggio 5 19  67 Passaggio 5 16  19

 

Prima di utilizzare Cluster.exe bisogna avere l’accortezza uscire da Windows, portarsi nella prompt di DOS, e salvare sia i dati in ingresso che il software nella stessa directory di lavoro.

Nel programma l'immissione dei dati avviene tramite tabelle di Excel salvate con i nomi ‘dati.prn’ e ‘vincoli.prn’ come “Testo formattato (delimitato da spazio)”. 

Prima dell’inserimento dei dati bisogna inoltre specificare il numero di oggetti e il numero di parametri su cui si lavora. E' importante controllare che i vincoli siano inseriti nella sequenza esatta e che la matrice sia quadrata e simmetrica.

I risultati sono visibili in DOS nel file ‘risult.dat’.

Il programma presenta i seguenti limiti:

 

Eseguendo un'analisi utilizzando, sullo stesso campione di dati, le due tipologie di classificazione relative al software XLSTAT.xls , è possibile valutare le differenti modalità di classificazione ottenute attraverso il metodo del centroide e attraverso il metodo di Ward. Confrontando i gruppi ottenuti dalle due analisi, è possibile notare una diversa ripartizione degli elementi di partenza nei cluster finali. Le differenti partizioni che si realizzano sono essenzialmente dovute a due modalità differenti di operare l'analisi : mentre "Cluster Analisys 1" si basa su un concetto di riallocazione degli elementi da un gruppo ad un altro, "Cluster Analisys 2" procede secondo un metodo agglomerativo fondendo tra loro gli elementi fino ad individuare un numero di gruppi richiesto dall'operatore. All'interno di una stessa tipologia di analisi, inoltre, si realizzano partizioni diverse al variare del numero di parametri considerati.

Ovviamente non è possibile confrontare i dati ottenuti dall'utilizzo del software XLSTAT.xls con quelli risultanti da un'analisi realizzata mediante Cluster.exe. Facendo, infatti, quest'ultimo riferimento a vincoli territoriali comporta risultati non comparabili ai precedenti.

 

 Dati di input

I dati di input sono gli stessi per la macro XLSTAT.xls e per il software Cluster.exe. Poiché i due applicativi operano su dati che hanno un diverso formato sono stati creati file separati:

Entrambi i file si trovano in 'input.zip'

Scarica i dati di input

 

 Risultati

I risultati si trovano rispettivamente :

Scarica i risultati

 

 Software

IL software Cluster.exe può essere scaricato qui di seguito.

La macro XLSTAT.xls é disponibile all'indirizzo Internet www.xlstat.com

Scarica il software

Home Modelli Top