Telemat Lab's home page


Copyrigtht © 2001 Universita' di Firenze. All rights reserved.

Free license available.

WEB CHANGE 2001

di: Sauro Menchetti

Revisore: Prof. Franco Pirri


Capitolo 5 - Sketch dell'Algoritmo di Confronto

Home Page Indice Pag. Prec. Pag. Succ.

5 Sketch dell'Algoritmo di Confronto

In questa parte viene illustrato in modo schematico l'algoritmo di confronto tra due pagine html.


Indice del Capitolo 5


5.1 Schema dell'Algoritmo di Confronto

L'algorimo di confronto è composto di due passi:


costruzione del vocabolario;


confronto delle due pagine html.


Sia D un insieme di pagine html che trattano lo stesso argomento di cui parlano le due pagine che vogliamo confrontare. Per ogni pagina dell'insieme D, si selezionano le features mediante la procedura di feature selection descritta precedentemente. A questo punto, ogni pagina è rappresentata come un insieme di feature caratteristiche. A partire da questo insieme D di pagine rappresentate ognuna tramite le sue parole più significative, si costruisce un vocabolario di termini che riguardano l'argomento di interesse. Sia |V| il numero di parole del vocabolario. Durante la costruzione del vocabolario, si valutano anche i termini DF(wi) per ogni parola.

Avendo a disposizione un vocabolario di termini per l'argomento di interesse, si rappresentano le due pagine che si vogliono confrontare ognuna come un vettore di |V| elementi, cioè si mappano le due pagine nel vocabolario. Ad ogni parola wi viene associato un peso di come descritto in precedenza.

A questo punto si calcola il coseno dell'angolo compreso tra i due vettori che rappresentano le pagine: un valore prossimo ad 1 indica che le due pagine hanno lo stesso contenuto, mentre una valore vicino a 0 suggerisce che sono completamente diverse.

Ultimo aggiornamento: 11 Febbraio 2001


Telemat Lab's home page

Home Page Indice Pag. Prec. Pag. Succ.


Explore the TELEMAT Site !!!