Copyrigtht © 2001 Universita' di Firenze. All rights reserved.
Free license available.
Vengono riportati alcuni esempi di esecuzione dell'algoritmo. In particolare si mostrano dei confronti tra pagine web, viene fatto vedere un esempio di vocabolarip, un vettore di IDF ed una possibile lista di stop word. Come data set si č usato un insieme di 8280 pagine web chiamato WebKb (vedi Bibliografia e Download).
Questo vocabolario di termini č stato costruito a partire da 8280 pagine html, applicando l'algoritmo di stemming e scartando le parole presenti nella stop list. La lista delle pagine html č contenuta in questo index file.
La frequenza inversa dei termini del vocabolario del paragrafo 7.1 viene calcolata contando il numero di documenti in cui compare una parola. Ecco le frequenze inverse delle parole del vocabolario del paragrafo precedente.
Ecco un esempio di stop list costruita per la lingua inglese.
Per concludere, si riportano alcuni esempi di confronto tra pagine web. Come vocabolario viene usato quello illustrato nel paragrafo 7.1. Ho iniziato prendendo una pagina html ed inserendo progressivamente delle modifiche. La pagina iniziale del confronto viene mantenuta invariata. E' possibile visualizzare le pagine che sono state confrontate per vedere le differenze in relazione al valore assunto dall'indice di similaritą.
Prima Pagina | Seconda Pagina | Valore Coseno |
---|---|---|
page 1 | page 2 | 0.988714 |
page 1 | page 3 | 0.977863 |
page 1 | page 4 | 0.937982 |
page 1 | page 5 | 0.662638 |
page 1 | page 6 | 0.299676 |