Copyrigtht © 2001 Universita' di Firenze. All rights reserved.
Free license available.
La costruzione di un vocabolario di termini significativi per il dominio di interesse è la prima fase del processo che permette di stabilire se le due pagine html hanno lo stesso contenuto. L'importanza di questo vocabolario è quella di contenere solo le parole chiave per quel dominio e quindi di permettere di tralasciare i termini meno informativi.
Per stabilire se due pagine che trattano di un certo argomento hanno lo stesso contenuto, sarebbe utile disporre di un insieme di pagine che parlino di quell'argomento da cui poter estrarre un vocabolario di parole. Avendo a disposizione un certo insieme di pagine, si processano una ad una per estrarre le feature rilevanti: le feature estratte da ogni pagina contribuiscono così alla costruzione di un dizionario comune.
Avere un vocabolario di termini rilevanti per un certo dominio è di fondamentale importanza, perché permette di selezionare le parole più informative e di utilizzare solo queste per modellare la pagina. In questo modo le parole meno rilevanti per un certo dominio sono scartate automaticamente. In particolare, se cambia una parola che non è significativa per l'argomento di interesse, la rappresentazione del documento non varia e di conseguenza non varierà il suo contenuto rispetto alla versione originale.
Indichiamo con |V| il numero di elementi di tale vocabolario.