Multidimensional Scaling (MDS)

 Descrizione del metodo

 Campo di applicazione

 Expertise

 Link e riferimenti

 Esempio

 Descrizione del metodo

Il Multidimensional Scaling (MDS) è una tecnica esplorativa dei dati che permette di ottenere una rappresentazione di n oggetti in uno spazio a k dimensioni, partendo da informazioni relative alla “similarità” (o dissimilarità) tra ciascuna coppia di oggetti. In genere è una tecnica usata per visualizzare le (dis)similarità (distanze) tra oggetti in uno spazio di piccole dimensioni (spesso 2D o 3D). 

Il labile MDS comprende una collezione di metodi che permettono di capire la struttura dei rapporti fra le entità, fornendo una rappresentazione geometrica di questi rapporti. Come tali, questi metodi appartengono alla categoria più generale dei metodi d’analisi di dati a più variabili. 

Il MDS non è una procedura che permette di riorganizzare gli elementi in un modo esatto, permette di trovare una configurazione che approssima nel modo migliore le distanze osservate. 

Praticamente è un metodo iterativo che sposta gli oggetti in un spazio di dimensione scelta in modo tale da minimizzare un criterio d’errore. (Qui sotto un esempio di passaggio 3D - 2D)

Cominciamo con un semplice esempio:  sia le (dis)similarità (distanze) δij tra ogni coppia degli n punti x1,....,xn. L'insieme delle  δij può essere inserito nella matrice dei dati Δ (n,n).

 Chiamiamo dij le distanze tra le loro immagini y1,....,yn nello spazio di dimensione k. 

Le coordinate di yi nello spazio di arrivo (di dimensione k) sono : y11,y12,...,y1k. Esse sono le componenti della matrice C: 

Adesso cerchiamo la configurazione dei punti immagine y1,....,yn per la quale le n(n-1)/2 distanze dij siano le più vicine possibile alle distanze originali δij. 

Di solito, non è possibile trovare una configurazione per la quale dij = δij per tutti gli i ≠ j. Per trovare una configurazione conveniente fra tutte quelle possibile, è necessario definire un criterio d’errore, spesso chiamato funzione di Stress.

Questo criterio prende in conto solo le distanze tra i punti. È normalizzato in modo tale che il suò minimo sia invariante ai cambiamenti di scala.  

Una configurazione ottima degli y1,....,yn è quella che minimizza lo Stress, e può essere trovata con  procedure standard 'analisi numerica.

La configurazione di partenza degli y1,....,yn può essere scelta a caso, o in un modo più conveniente per diminuire il tempo di calcolo.  

Diversi metodi MDS: 

Metric MDS: 

Questo metodo vè chiamato metric MDS perché le distanze dij nello spazio di dimensione k  sono collegate alle dissimilarità δij tramite una relazione linare :  dij = a+b.δij+ eij , e sono delle distanze Euclidee. 

I dati sono spesso delle dissimilarità. La matrice Δ di questi dati deve essere completa (non devono esserci dati mancanti) e simmetrica (δij=δji). 

Non-metric MDS: 

Tra i diversi modelli di M.D.S., particolare importanza riveste quello dovuto a Shepard e Kruskal detto non metrico. Esso considera la prossimità come funzione monotona della distanza, per cui l'ordinamento delle distanze rispecchia l'ordinamento delle dissimilarità. Il nome deriva dal fatto che non sono necessarie proprietà metriche per l'indice di dissimilarità; il metodo non metrico comprende quello metrico come caso particolare: infatti il secondo impone come condizione che i dati siano proporzionali alle distanze, mentre il primo richiede solamente che i dati siano legati alla distanza da una funzione monotona. 

Si può formalizzare quanto sopra, dicendo che le dissimilarità δij sono legate alle pseudo-distanze  dij tramite la funzione monotone f tale che: 

               

La configurazione che verifica queste proprietà viene ottenuta tramite un algoritmo iterativo. Partendo da una configurazione iniziale arbitraria, le coordinate dei punti son ricalcolate  fino a minimizzare il criterio d'errore (STRESS): 

I dati di ingresso possono essere delle similarità o delle dissimilarità. La matrice Δ di questi dati può essere imcompleta (dati mancanti) e certi programmi permettono di trattare delle matrice non simmetriche.  

Struttura dell’Algoritmo classico di MDS: 

L’algoritmo descritto da quest’immagine è generico. Ci sono diversi metodi per ottenere una configurazione iniziale. 

La matrice dei dati:

Gli oggetti ("stimoli" in letteratura), possono essere elementi di natura qualunque, e cioè sia unità di osservazione sia variabili. Per ciascuna coppia di oggetti, si dispone di una misura della loro (dis)similarità. L’insieme di queste misure costituisce la matrice delle (dis)similarità.  

Diagramma di Shepard: 

Si può confrontare sullo stesso diagramma le distanze dij nello spazio di arrivo e i dati dij dell’input. Questo tipo di diagramma è chiamato diagramma di Shepard. Di solito le distanze dij vanno messe in verticale (Y) e le prossimità originali sull’asse orizzontale (X). 

Questo diagramma mostra una funzione “a gradini”. Questa forma, non lineare, è il risultato della trasformazione monotona f(dij ) dei dati di input. Se le distanze dij coincidono con la curva a gradini allora l’ordine (rank-order) delle similarità è perfettamente riprodotto dalla soluzione. Inversamente più lo scarto tra le dij e la curva a gradini è grande più l’errore è grande.  

 

 Campo di applicazione

I campi di utilizzo dello scaling multidimensionale, nato nell'ambito delle scienze comportamentali, sono numerosi:

In sociologia si usa questa tecnica per determinare la struttura dei gruppi, basandosi sulle percezioni degli individui. 

In antropologia si comparano diversi gruppi culturali, sulla base della loro cultura, degli usi e delle tradizioni. 

In geografia è usato per creare delle mappe mentali o di anamorfosi. 

La possibilità di rappresentare visivamente l'attitudine del consumatore verso diversi prodotti, ha favorito inoltre il suo impiego nelle ricerche di marketing.

 

 Expertise

Di solito, maggiore è la dimensione della matrice dei dij è di grande dimensioni, più la configurazione è giusta (stress molto debole). Infatti usando una matrice di grande dimensione si può riprodurre esattamente la struttura osservata. Ma l'obbietivo del MDS è esattamente il contrario, si tratta soprattutto di ridurre la complessità della struttura dei dati per mostrarla in uno spazio di poche dimensioni, "più visivo" (di solito 2 o3D). 

Ridure la dimessione dello spazio è la maggiore  difficoltà del MDS. L'esmpio seguente cerca di illustrare questa difficolta. Consideriamo le distanze tra tre città chiamate A, B, C e poi tre altre D, E, F. 

Lo spazio di partenza è il piano (2D) è vogliamo rapresentare queste distanze su una linea (1D) tramite lo scaling multidimensionale.Le matrici di partenza (dei δij) sono le seguente:  

Nella prima matrice, tutte le città sono tutte separate di 90 km le une dalle altre. Nella seconda matrice le città D e F sono separate di 180 km. Adesso vogliamo riprodurre queste strutture di dati su uno spazio di una dimensione solo, una linea. Ecco la rapresentazione di D, E, F su una dimensione: 

                

D è distante 90 km di E, E 90 km di F e D e F sono distante 180 km. La struttura di base è rapresenta perfettamente. 

Adesso proviamo di fare le stessa cosa con A, B, C. Per raggioni geometriche simplice non è possibile riprodurre questa struttaura su una linea. Dobbiamo dunque rappresentare A, B, C in due dimensioni. Il risultato è il triangolo seguente: 

                   

Sistemando le tre città in questo modo, possiamo perfettamente riprodurre le distanze tra di loro. 

Senza andare più avanti nel dettaglio, questo piccolo esempio illustra il fatto che ogni matrice di dati ha le sue particolarità che determinano la dimensione dello sapzio di rappresentazione. Nei casi più complessi le rappresentazioni non sono mai cosi perfette, ci sono sempre delle differenze tra le distanze di partenza e quelle riprodotte. 

Scree test: di solito, per decidere della dimensione usata si fa il grafico che lega il valore del Stress al numero di dimensione. 

Interpretabilità della configurazione: Un altro criterio per decidere della dimensione è la chiarezza della rapresentazione. Alcune volte, come nell'esempio precedente, la configurazione ottenuta è facile da interpretare. In altri casi la configurazione risultante è praticamente impossibile da interpretare. In questo caso si deve provare con spazi di altre dimensioni fino a trovare una soluzione conveniente.

 

 Link e riferimenti

Delle procedure di MDS possono essere trovate nella maggior parte dei "packages" di statistica (SPSS, SYSTAT, BMDP, Statistica, SAS). Vedere per esempio http://www.spss.com/.  

Sul sito http://www.statsoft.com/ si può scaricare un libro di statistica, in formato HTML, che che tratta dai diversi metodi multivariabile tipo il MDS. 

Sul sito http://www.xlstat.com/ è possibile scaricare una versione freeware di XLSTAT che funziona su Excel. Questa versione include la funzione MDS tra le techniche multivariabili. 

Il programma gratuito ALSCAL (è l'algoritmo usato nella maggior parte dei package di statistica) di Forrest Young, il file eseguibile per PC, la bibliografia e le source code in Fortran si trovano al indirizzo http://forrest.psych.unc.edu/research/ALSCAL.html

 

Home Modelli Top