Telemat Lab's home page


Copyrigtht © 2001 Universita' di Firenze. All rights reserved.

Free license available.

WEB CHANGE 2001

di: Sauro Menchetti

Revisore: Prof. Franco Pirri


Capitolo 1 - Introduzione

Home Page Indice Pag. Prec. Pag. Succ.

1 Introduzione

Il progetto WEB CHANGE 2001 nasce dall'esigenza di voler stabilire in modo automatico se due pagine html hanno lo stesso contenuto. Poiché i dati presenti nel Web crescono in modo esponenziale e si evolvono di continuo, è necessario avere degli strumenti automatici per la loro gestione. Lo scopo del progetto è quindi quello di confrontare due pagine web e di capire se è cambiato il loro contenuto.


Indice del Capitolo 1


1.1 Sommario

Ai nostri giorni, uno dei più potenti ed espressivi mezzi di comunicazione è certamente Internet. La sua crescita esplosiva ha fatto si che sempre più persone investissero risorse in questo campo: in questo momento le pagine presenti nel web sono stimate essere circa tre miliardi e mezzo. Una caratteristica peculiare di questo mezzo di comunicazione è la sua continua evoluzione: nascono, si sviluppano e scompaiono una grandissima quantità di pagine in breve tempo. Poiché ci sono grandi quantità di dati in gioco, è necessario realizzare degli strumenti automatici in grado di elaborarli senza richiedere l'intervento umano.

Un problema molto interessante riguarda le modifiche che una pagina subisce durante la sua permanenza nel web. Sarebbe interessante capire quando tali modifiche sono sufficientemente rilevanti tanto da poter dire che è cambiato il contenuto della pagina. Questo potrebbe spingere un utente a voler riaccedere alla pagina per leggere le nuove informazioni presenti. Si tratta quindi di stabilire quanto è cambiato il contenuto di una pagina, basandosi su modifiche strutturali. Si cerca quindi di passare da un'informazione di tipo sintattico-strutturale ad una di tipo semantico.

In sintesi, il problema può essere riformulato nel seguente modo: data una pagina web e data una sua evoluzione temporale, stabilire se la pagina originale e quella modificata sono abbastanza diverse tanto da poter affermare che è cambiato il contenuto delle due pagine: tutto questo in modo automatico, senza la supervisione di un umano.

Ultimo aggiornamento: 11 Febbraio 2001


Telemat Lab's home page

Home Page Indice Pag. Prec. Pag. Succ.


Explore the TELEMAT Site !!!