Copyrigtht © 2001 Universita' di Firenze. All rights reserved.
Free license available.
Il progetto WEB CHANGE 2001 nasce dall'esigenza di voler stabilire in modo automatico se due pagine html hanno lo stesso contenuto. Poiché i dati presenti nel Web crescono in modo esponenziale e si evolvono di continuo, è necessario avere degli strumenti automatici per la loro gestione. Lo scopo del progetto è quindi quello di confrontare due pagine web e di capire se è cambiato il loro contenuto.
Ai nostri giorni, uno dei più potenti ed espressivi mezzi di comunicazione è certamente Internet. La sua crescita esplosiva ha fatto si che sempre più persone investissero risorse in questo campo: in questo momento le pagine presenti nel web sono stimate essere circa tre miliardi e mezzo. Una caratteristica peculiare di questo mezzo di comunicazione è la sua continua evoluzione: nascono, si sviluppano e scompaiono una grandissima quantità di pagine in breve tempo. Poiché ci sono grandi quantità di dati in gioco, è necessario realizzare degli strumenti automatici in grado di elaborarli senza richiedere l'intervento umano.
Un problema molto interessante riguarda le modifiche che una pagina subisce durante la sua permanenza nel web. Sarebbe interessante capire quando tali modifiche sono sufficientemente rilevanti tanto da poter dire che è cambiato il contenuto della pagina. Questo potrebbe spingere un utente a voler riaccedere alla pagina per leggere le nuove informazioni presenti. Si tratta quindi di stabilire quanto è cambiato il contenuto di una pagina, basandosi su modifiche strutturali. Si cerca quindi di passare da un'informazione di tipo sintattico-strutturale ad una di tipo semantico.
In sintesi, il problema può essere riformulato nel seguente modo: data una pagina web e data una sua evoluzione temporale, stabilire se la pagina originale e quella modificata sono abbastanza diverse tanto da poter affermare che è cambiato il contenuto delle due pagine: tutto questo in modo automatico, senza la supervisione di un umano.