Copyrigtht © 2001 Universita' di Firenze. All rights reserved.
Free license available.
Il progetto WEB CHANGE 2001 nasce dall'esigenza di voler stabilire in modo automatico se due pagine html hanno lo stesso contenuto. Poiché i dati presenti nel Web crescono in modo esponenziale e si evolvono di continuo, è necessario avere degli strumenti automatici per la loro gestione. Lo scopo del progetto è quindi quello di confrontare due pagine web e di capire se è cambiato il loro contenuto.
La rappresentazione del documento ha un forte impatto nella risoluzione del problema. E' necessario quindi trovare una rappresentazione che sappia cogliere gli aspetti rilevanti del documento, tralasciando quelli meno importanti. Ad esempio, il cambiamento della punteggiatura, lo spostamento di un paragrafo o la correzione di una parola non sono dei fattori rilevanti per determinare se due pagine hanno lo stesso contenuto.
La costruzione di un vocabolario di termini significativi per il dominio di interesse è la prima fase del processo che permette di stabilire se le due pagine html hanno lo stesso contenuto. L'importanza di questo vocabolario è quella di contenere solo le parole chiave per quel dominio e quindi di permettere di tralasciare i termini meno informativi.
Una volta definita la rappresentazione di un documento, è necessario capire quale possa essere il criterio di confronto che permetta di stabilire se due pagine hanno lo stesso contenuto. L'algebra lineare ci aiuta ad individuare un criterio di confronto consistente con la nostra rappresentazione del documento.
In questa parte viene illustrato in modo schematico l'algoritmo di confronto tra due pagine html.
Viene trattata l'implementazione dell'algoritmo precedentemente descritto, illustrando i moduli principali e le loro correlazioni. Nella seconda parte si forniscono gli elementi necessari all'utilizzo del programma.
Vengono riportati alcuni esempi di esecuzione dell'algoritmo. In particolare si mostrano dei confronti tra pagine web e viene fatto vedere un esempio di vocabolario.
Questa sezione contiene i riferimenti più importanti che sono stati necessari per la realizzazione del progetto. Inoltre si può scaricare una versione dei sorgenti del programma.