Clustering
Utilizziamo per la realizzazione dellesempio due tipologie di software:
XLSTAT.xls
XLSTAT.xls è una macro di Excel che offre la possibilità di effettuare diverse tipologie di analisi statistiche; ci si è limitati a verificarne il funzionamento per le sole tecniche di classificazione.
Scegliendo il tasto rappresentante il menu e poi lopzione data analysis si è in grado di abilitare i programmi di Cluster analysis.
Allapertura del programma viene visualizzata una piccola barra degli strumenti che rappresenta la macro XLSTAT.
Sono possibili due tipi di analisi:
In generale, Cluster Analisys rappresenta una tecnica di analisi di dati che permette di classificare in gruppi un certo numero di osservazioni descritte da una o più variabili (attributi).
Relativamente alle tecniche di classificazione, XLSTAT permette di specificare il numero di gruppi che si vogliono ottenere come risultato finale dellanalisi.
A differenza di altri software, XLSTAT.xls non permette di effettuare unanalisi con vincoli ; lanalisi che si ottiene è quindi puramente statistica.
Il vincolo evidenzia un ulteriore legame tra le osservazioni in esame permettendo di ottenere raggruppamenti reali nel rispetto del contesto nel quale si opera ed offrendo la possibilità di svolgere un'efficace analisi del fenomeno studiato.
Cluster analysis 1
Questa opzione permette di effettuare unanalisi di classificazione utilizzando il metodo del centroide.
Partendo da una situazione iniziale definita da una aggregazione casuale, in gruppi, dei dati di partenza, tale analisi permette la riallocazione dei dati, da un gruppo ad un altro, mediante un certo numero di iterazioni.
Il risultato fornito dallanalisi è un parametro che va sotto il nome di inerzia : essa è una quantità sempre costante che rappresenta un indice della buona allocazione dei dati nei gruppi realizzati.
Essa è definito come :
dove
Si intende per inerzia interna ad un gruppo (within group) il valore dello scarto quadratico medio dei dati appartenenti a quel gruppo.Esso è un indice di quanto i dati interni ad un gruppo si discostano dal valor medio relativo a quello stesso gruppo.
Si intende per inerzia relativa tra due gruppi (between groups) il valore della distanza relativa tra i centrodi dei due differenti gruppi.
Lobbiettivo sulla base del quale gli elementi vengono riallocati da un gruppo ad un altro è la minimizzazione del termine
Riuscire a minimizzare la sommatoria, su tutti i gruppi, delle inerzie interne a ciascun gruppo corrisponde, infatti, a determinare lallocazione ottimale dei dati.
Per ciascun gruppo, infatti, minore è il valore di inerzia interna minore è la dispersione dei dati intorno al centroide relativo al gruppo stesso.
Lopzione Cluster Analisys 1 lascia a discrezione dellutente :
Cluster analysis 2
Questa opzione permette di effettuare una Ascendant hierarchical cluster analysis, utilizzando il metodo di Ward: ad ogni passo dellanalisi viene considerata lunione di tutte le possibili coppie di cluster e i due cluster, il cui raggruppamento fornisce il minimo aumento di errore nella somma dei quadrati, vengono combinati. Ad ogni stadio dellanalisi la perdita di informazione che deriva dal raggruppamento di elementi può essere misurata dalla somma delle deviazioni quadratiche di tutti i punti.
Nellutilizzare questo tipo di analisi bisogna porre particolare attenzione ai limiti del programma, in particolare:
Per poter meglio comprendere il funzionamento del software XLSTAT.xls consideriamo un esempio relativo alla zonizzazione dei Comuni della provincia di Sondrio. I parametri che caratterizzano l'analisi sono:
Tali dati sono disponibili nella tabella del file prov.Sondrio.xls.
Cluster.exe
Cluster.exe è un software che permette di fare classificazioni utilizzando dei vincoli. Per comprenderne meglio il funzionamento si propone lo stesso esempio precedente con lintroduzione di opportuni vincoli.
Si considerano, quali elementi vincolanti i dati del campione iniziale, i collegamenti stradali e ferroviari che interessano comuni limitrofi.
In tabella tabellacom.xls sono segnalati i comuni vincolati.
La classificazione è ottenibile sia considerando la presenza dei vincoli che trascurandola.
La risoluzione del problema con e senza vincoli porta a risultati notevolmente diversi, basti confrontare i primi passaggi del procedimento applicato allesempio (si è usata la Metrica Euclidea):
Metodo con vincolo | Elementi uniti | Metodo senza vincolo | Elementi uniti |
Passaggio 1 | 2 5 | Passaggio 1 | 2 5 |
Passaggio 2 | 5 16 | Passaggio 2 | 5 8 |
Passaggio 3 | 13 19 | Passaggio 3 | 8 13 |
Passaggio 4 | 16 24 | Passaggio 4 | 13 16 |
Passaggio 5 | 19 67 | Passaggio 5 | 16 19 |
Prima di utilizzare Cluster.exe bisogna avere laccortezza uscire da Windows, portarsi nella prompt di DOS, e salvare sia i dati in ingresso che il software nella stessa directory di lavoro.
Nel programma l'immissione dei dati avviene tramite tabelle di Excel salvate con i nomi dati.prn e vincoli.prn come Testo formattato (delimitato da spazio).
Prima dellinserimento dei dati bisogna inoltre specificare il numero di oggetti e il numero di parametri su cui si lavora. E' importante controllare che i vincoli siano inseriti nella sequenza esatta e che la matrice sia quadrata e simmetrica.
I risultati sono visibili in DOS nel file risult.dat.
Il programma presenta i seguenti limiti:
Eseguendo un'analisi utilizzando, sullo stesso campione di dati, le due tipologie di classificazione relative al software XLSTAT.xls , è possibile valutare le differenti modalità di classificazione ottenute attraverso il metodo del centroide e attraverso il metodo di Ward. Confrontando i gruppi ottenuti dalle due analisi, è possibile notare una diversa ripartizione degli elementi di partenza nei cluster finali. Le differenti partizioni che si realizzano sono essenzialmente dovute a due modalità differenti di operare l'analisi : mentre "Cluster Analisys 1" si basa su un concetto di riallocazione degli elementi da un gruppo ad un altro, "Cluster Analisys 2" procede secondo un metodo agglomerativo fondendo tra loro gli elementi fino ad individuare un numero di gruppi richiesto dall'operatore. All'interno di una stessa tipologia di analisi, inoltre, si realizzano partizioni diverse al variare del numero di parametri considerati.
Ovviamente non è possibile confrontare i dati ottenuti dall'utilizzo del software XLSTAT.xls con quelli risultanti da un'analisi realizzata mediante Cluster.exe. Facendo, infatti, quest'ultimo riferimento a vincoli territoriali comporta risultati non comparabili ai precedenti.
I dati di input sono gli stessi per la macro XLSTAT.xls e per il software Cluster.exe. Poiché i due applicativi operano su dati che hanno un diverso formato sono stati creati file separati:
Entrambi i file si trovano in 'input.zip'
I risultati si trovano rispettivamente :
IL software Cluster.exe può essere scaricato qui di seguito.
La macro XLSTAT.xls é disponibile all'indirizzo Internet www.xlstat.com
![]() |
![]() |
![]() |