Telemat Lab's home page


Copyrigtht © 2001 Universita' di Firenze. All rights reserved.

Free license available.

WEB CHANGE 2001

di: Sauro Menchetti

Revisore: Prof. Franco Pirri


Capitolo 7 - Risultati Sperimentali

Home Page Indice Pag. Prec. Pag. Succ.

7 Risultati Sperimentali

Vengono riportati alcuni esempi di esecuzione dell'algoritmo. In particolare si mostrano dei confronti tra pagine web, viene fatto vedere un esempio di vocabolarip, un vettore di IDF ed una possibile lista di stop word. Come data set si č usato un insieme di 8280 pagine web chiamato WebKb (vedi Bibliografia e Download).


Indice del Capitolo 7


7.1 Un esempio di Vocabolario

Questo vocabolario di termini č stato costruito a partire da 8280 pagine html, applicando l'algoritmo di stemming e scartando le parole presenti nella stop list. La lista delle pagine html č contenuta in questo index file.


7.2 Un esempio di IDF

La frequenza inversa dei termini del vocabolario del paragrafo 7.1 viene calcolata contando il numero di documenti in cui compare una parola. Ecco le frequenze inverse delle parole del vocabolario del paragrafo precedente.


7.3 Un esempio di stop list

Ecco un esempio di stop list costruita per la lingua inglese.


7.4 Confronti tra Pagine

Per concludere, si riportano alcuni esempi di confronto tra pagine web. Come vocabolario viene usato quello illustrato nel paragrafo 7.1. Ho iniziato prendendo una pagina html ed inserendo progressivamente delle modifiche. La pagina iniziale del confronto viene mantenuta invariata. E' possibile visualizzare le pagine che sono state confrontate per vedere le differenze in relazione al valore assunto dall'indice di similaritą.


Prima Pagina Seconda Pagina Valore Coseno
page 1 page 2 0.988714
page 1 page 3 0.977863
page 1 page 4 0.937982
page 1 page 5 0.662638
page 1 page 6 0.299676

Ultimo aggiornamento: 11 Febbraio 2001


Telemat Lab's home page

Home Page Indice Pag. Prec. Pag. Succ.


Explore the TELEMAT Site !!!