Telemat Lab's home page


Copyrigtht © 2001 Universita' di Firenze. All rights reserved.

Free license available.

WEB CHANGE 2001

di: Sauro Menchetti

Revisore: Prof. Franco Pirri


Indice

Home Page Pag. Succ.

Indice

1 Introduzione

Il progetto WEB CHANGE 2001 nasce dall'esigenza di voler stabilire in modo automatico se due pagine html hanno lo stesso contenuto. Poiché i dati presenti nel Web crescono in modo esponenziale e si evolvono di continuo, è necessario avere degli strumenti automatici per la loro gestione. Lo scopo del progetto è quindi quello di confrontare due pagine web e di capire se è cambiato il loro contenuto.


2 Rappresentazione del Documento

La rappresentazione del documento ha un forte impatto nella risoluzione del problema. E' necessario quindi trovare una rappresentazione che sappia cogliere gli aspetti rilevanti del documento, tralasciando quelli meno importanti. Ad esempio, il cambiamento della punteggiatura, lo spostamento di un paragrafo o la correzione di una parola non sono dei fattori rilevanti per determinare se due pagine hanno lo stesso contenuto.


3 Costruzione del Vocabolario

La costruzione di un vocabolario di termini significativi per il dominio di interesse è la prima fase del processo che permette di stabilire se le due pagine html hanno lo stesso contenuto. L'importanza di questo vocabolario è quella di contenere solo le parole chiave per quel dominio e quindi di permettere di tralasciare i termini meno informativi.


4 Criterio di Confronto

Una volta definita la rappresentazione di un documento, è necessario capire quale possa essere il criterio di confronto che permetta di stabilire se due pagine hanno lo stesso contenuto. L'algebra lineare ci aiuta ad individuare un criterio di confronto consistente con la nostra rappresentazione del documento.


5 Sketch dell'Algoritmo di Confronto

In questa parte viene illustrato in modo schematico l'algoritmo di confronto tra due pagine html.


6 Implementazione ed Utilizzo

Viene trattata l'implementazione dell'algoritmo precedentemente descritto, illustrando i moduli principali e le loro correlazioni. Nella seconda parte si forniscono gli elementi necessari all'utilizzo del programma.


7 Risultati Sperimentali

Vengono riportati alcuni esempi di esecuzione dell'algoritmo. In particolare si mostrano dei confronti tra pagine web e viene fatto vedere un esempio di vocabolario.


8 Bibliografia e Download

Questa sezione contiene i riferimenti più importanti che sono stati necessari per la realizzazione del progetto. Inoltre si può scaricare una versione dei sorgenti del programma.

Storia Aggiornamenti


Telemat Lab's home page

Home Page Pag. Succ.


Explore the TELEMAT Site !!!