Copyrigtht © 2001 Universita' di Firenze. All rights reserved.
Free license available.
In questa parte viene illustrato in modo schematico l'algoritmo di confronto tra due pagine html.
L'algorimo di confronto è composto di due passi:
costruzione del vocabolario;
confronto delle due pagine html.
Sia D un insieme di pagine html che trattano lo stesso argomento di cui parlano le due pagine che vogliamo confrontare. Per ogni pagina dell'insieme D, si selezionano le features mediante la procedura di feature selection descritta precedentemente. A questo punto, ogni pagina è rappresentata come un insieme di feature caratteristiche. A partire da questo insieme D di pagine rappresentate ognuna tramite le sue parole più significative, si costruisce un vocabolario di termini che riguardano l'argomento di interesse. Sia |V| il numero di parole del vocabolario. Durante la costruzione del vocabolario, si valutano anche i termini DF(wi) per ogni parola.
Avendo a disposizione un vocabolario di termini per l'argomento di interesse, si rappresentano le due pagine che si vogliono confrontare ognuna come un vettore di |V| elementi, cioè si mappano le due pagine nel vocabolario. Ad ogni parola wi viene associato un peso di come descritto in precedenza.
A questo punto si calcola il coseno dell'angolo compreso tra i due vettori che rappresentano le pagine: un valore prossimo ad 1 indica che le due pagine hanno lo stesso contenuto, mentre una valore vicino a 0 suggerisce che sono completamente diverse.