Motori di ricerca

Vediamo qui come agire coi motori di ricerca piu comuni. Un motore di ricerca è composto dalla sezione a tutti nota per l'interrogazione, e da una parte nascosta che si occupa di scovare ed archiviare nuovi siti nonchè di tenere aggiornate le informazioni. Tale sezione è composta da dei softwares detti "spider" che - leggendo una pagina - estraggono i links in essa contenuti, legge quindi quelle pagine estraendone i links e così via, analizzando in continuazione l'intera complessa ragnatela di collegamenti. Pagine già note vengono così aggiornate, mentre eventuali nuovi collegamenti vengono esplorati.

Questo processo avviene in continuazione, 24 ore su 24, ma capirete che un tale sistema esaurirà le sue ispezioni "a cascata" solo dopo un tempo piuttosto lungo, se non addirittura mai. Ogni spider prevede una "lista di attesa" per siti già ispezionati e che debbono essere aggiornati, nonchè per nuovi URL ottenuti da segnalazioni di utenti.

 La catalogazione

Ogni spider utilizza un suo metodo per l'estrazione delle informazioni dai documenti: è questo è quel che fa la differenza tra i vari "search engine" per numero di risultati ottenuti da una ricerca e loro attinenza. Per quanto tali algoritmi siano avanzati è evidente che è assai complicato effettuare una catalogazione - operazione non semplice neanche per un bibliotecario - in forma completamente automatizzata senza l'intervento umano. Alcuni spider sono addirittura in grado di "imparare" col tempo, implementando una limitata quantità di "intelligenza artificiale".

I problemi

La dura vita degli spider è messa alla prova assai spesso dai designer di siti web, che sembrano studiarle tutte per complicare loro la vita.

  • Quegli splendidi menu in Flash così appariscenti hanno i collegamenti URL racchiusi dentro i files .SWF, cosa che di fatto ne impedisce l'acquisizione da parte degli spider e la conseguente analisi delle pagine collegate.
  • I menu dinamici Javascript sono anch'essi soggetti a quanto sopra, perchè l'URL non appare mai dentro il tag <a href> secondo le semplici specifiche HTML. Qualche engine ce la fa ad interpretarli lo stesso, ma altri si fermano alla home page per l'impossibilità a proseguire.
  • I siti che contengono frames generano un altro tipo di problema in quanto ogni singola pagina viene processata ed archiviata individualmente: in occasione di una ricerca si ottiene spesso come risultato una visualizzazione senza menu... perchè si trova altrove!
  • L'ampio impiego di grafica (loghi, testi inclusi sottoforma di immagini) riduce la quantità di testo disponibile nella pagina, e con questo cala anche la precisione nella catalogazione. Come archiviereste voi una pagina se una volta tolte le immagini che non si possono leggere, le formattazioni, le eventuali animazioni vi restasse leggibile solo la scritta "Benvenuti" ?

 Le cose utili: i META

Le cose davvero utili nella pagina per la sua catalogazione sono il titolo della pagina - che appare dentro il tag <title> - ed il testo in essa contenuto... spesso è davvero un po' poco. Per questo ed altri scopi sono stati istituiti (RFC 2068) dei particolari marcatori aggiuntivi detti "meta tags", che inseriscono informazioni addizionali senza alterare l'aspetto della pagina prodotta. Tra i molti che sono stati definiti quelli piu significativi sono:

  • Description: contiene normalmente un breve ma preciso riassunto di quanto vi è nella pagina, una descrizione tale che da sola possa far capire qual'è e quanto viene è approfondito l'argomento trattato nella pagina stessa.
  • Keywords: Una serie di parole chiave che usereste per la ricerca, in pratica dovrebbe trattarsi di una lista di sinonimi di quanto vi è nel titolo della pagina (anch'esso è importantissimo).

Un esempio (anche un po' stupido) per rendere l'idea... Volutamente si sono usati quanti piu sinonimi possibile, senza però cadere in voci troppo ripetitive.

Titolo Il Colosseo nella Roma dei Cesari
Description Storia ed immagini del Colosseo, importanza dell' anfiteatro Flavio nella vita dei romani ai tempi dei grandi Imperatori
Keywords Roma, romani, Colosseo, anfiteatro, Flavio, circo, Imperatore, leoni, bighe, auriga, gladiatori, spettacolo, daga, tridente, schiavi

Attenzione:

  • Come si diceva prima non tutti i motori traggono informazione da questi tags. E' comunque bene che ci siano e che siano molto precisi. Voci troppo ripetitive o non coerenti possono causare una penalizzazione, ovvero la discesa della vostra pagina negli elenchi offerti dai motori, che sono normalmente in ordine di rilevanza.
  • Ogni search engine ha una sua "policy", quindi certi argomenti possono essere non graditi e ciò farà si che la pagina non venga archiviata. Spesso ciò comporta anche la cancellazione di quanto già catalogato in quell'URL: eliminazione dell'intero ramo con le sue "foglie".

Per chi volesse saperne di piu:

Informazioni tecniche approfondite sui META:

 

Questo sito è stato realizzato dai digileaders della community