Tecniche di ricerca sul Web


Uno spunto di riflessione sui modi di organizzazione del sapere (elenchi, tassonomie ...)

Secondo "una certa enciclopedia cinese" citata da Michel Foucalt (che a sua volta si rifà a Borges):

"Gli animali si dividono in:
a) appartenenti all'Imperatore;
b) imbalsamati;
c) addomesticati;
d) maialini da latte;
e) sirene;
f) favolosi;
g) cani in libertà;
h) inclusi nella presente classificazione;
i) che si agitano follemente;
j) innumerevoli;
k) disegnati con un pennello finissimo di peli di cammello;
l)
et cetera;
m) che fanno l'amore;
n) che da lontano sembrano mosche."

Michel Foucault, Le parole e le cose. Un'archeologia delle scienze umane, Milano, Rizzoli, 1978 (ed.or.francese 1966), p.5.


Internet = caos ?

Alcuni concetti preliminari sulla ricerca delle informazioni:

Rumore
documenti non significativi recuperati
Precisione
percentuale di documenti significativi sul totale dei documenti recuperati
Richiamo
percentuale dei documenti significativi individuati sul totale dei documenti significativi esistenti

Caratteristiche delle risorse informative presenti sul Web:

Problemi principali:

  1. Come riuscire a trovare l'informazione che cerchiamo
  2. Come valutare la sua qualità

2. Come valutare la qualità delle informazioni individuate
Non esistono ricette infallibili: tutto sta nella capacità del navigatore di valutare, in base alla sua esperienza e al buon senso, ciò che ha individuato sulla rete.

Esempio: NASA / appassionato di astronomia un po' fissato.

Problema didattico: rendere consapevoli gli allievi del problema e spingerli ad un uso critico delle risorse di rete.

1. Come individuare le pagine che contengono  l'informazione che cerchiamo
Si devono utilizzare gli Strumenti di ricerca presenti in rete.

Strumenti di ricerca:

Gli strumenti si possono dividere secondo diversi criteri:

Ambito di interesse:

  1. generali: tutto il Web (o una porzione "geografica" o linguistica)
  2. specialistici: un ambito delimitato

Tipo di strumento:

  1. Cataloghi sistematici (indicizzazione manuale)
  2. Motori di ricerca (indicizzazione automatica)

Occorre rilevare che molti strumenti di ricerca oggi tendono a privilegiare i siti commerciali presenti sulla rete, cercando di farli diventare l'approdo ricorrente delle nostre navigazioni.

Prima di affrontare in dettaglio cataloghi e motori di ricerca, ci soffermiamo su quegli strumenti un po' ibridi di accesso alla navigazione che sono i cosiddetti portali.

I portali

Un portale è una sorta di porta di accesso: un sito che, più che riguardare un argomento specifico e determinato, offre una rassegna di notizie, di collegamenti e di rimandi, che possono interessare una vasta gamma di utenti e che viene frequentemente aggiornata.
Un portale offre una sorta di 'copertina' quotidiana alla sterminata raccolta delle pagine Web.
Un portale offre quasi sempre anche strumenti di ricerca: il navigatore che non volesse soffermarsi sui link suggeriti dal portale può così trovare le proprie destinazioni attraverso una ricerca per termini o all'interno di un elenco di categorie.
Moltissimi tra i portali più visitati coincidono con alcuni fra i più importanti motori di ricerca.
Infine, molti portali offrono servizi aggiuntivi, come la possibilità di creare e gestire account gratuiti di posta elettronica.

Cosa spinge i gestori di un portale a creare pagine così complesse, che richiedono notevoli risorse e un aggiornamento continuo?
La risposta è semplice: chi riesce a fare del proprio sito un punto di partenza adottato da molti navigatori potrà vendere a caro prezzo la pubblicità ospitata (i piccoli annunci rettangolari, noti con il termine inglese di banner) e, inoltre, garantirà una larga audience alle notizie e alle informazioni selezionate attraverso le proprie pagine (e questa scelta difficilmente sarà neutrale).

Cataloghi sistematici (o directory o indici)

Sono elenchi ipertestuali di siti e pagine web organizzati in base ad uno schema gerarchico di classificazione per argomento.
Possono contenere suggerimenti o brevi recensioni dei siti elencati, e in tali casi prendono il nome di guide.
Sono compilati da esseri umani.
Coprono una parte ridotta del Web.
Non esistono standard riconosciuti di classificazione (cfr l'enciclopedia cinese), quindi spesso non si sa in quale ramo è inserito un certo argomento (spesso si ovvia a questo con la presenza in più rami di link a uno stesso argomento e/o con la presenza di motori di ricerca interni al catalogo).

Esempi:
- Generali:

- Specialistici:

Motori di ricerca per termini

Sono degli enormi archivi generati in automatico che indicizzano il contenuto testuale di milioni e milioni di pagine Web.
Vengono compilati da sofisticati motori di indicizzazione, in grado di dare un "peso" alle parole presenti nelle pagine,
La ricerca avviene indicando uno o (meglio) più termini chiave che, a nostro avviso, delimitano il tema di ricerca.
Il risultato è un elenco, ordinato dal programma secondo criteri di maggiore pertinenza, di pagine che contengono i termini indicati.
Naturalmente il programma cerca le parole senza capire nulla del loro reale significato.

In genere le pagine risultanti sono numerosissime: a questo si può tentare di rimediare delimitando ulteriormente la ricerca  mediante l'uso di più termini, combinati tra loro con parentesi ed operatori logici secondo precise regole sintattiche (non di rado diverse a seconda dei motori), oppure facendo ricorso, quando esistono, a motori specialistici.

Oggi i motori di ricerca ci permettono di individuare non solo contenuti testuali ma anche fotografie, disegni, filmati, brani musicali.

Nessun motore copre interamente il Web: Altavista, uno dei più vasti, dichiara di indicizzare circa 500 milioni di pagine (11 milioni di queste sono italiane) quando sul Web esistono più di un miliardo di pagine. Questo significa che si devono spesso interrogare più motori e che, in ogni caso, esistono numerosissime pagine che sfuggono a questi metodi di ricerca e sono quindi difficilmente raggiungibili.
(Provare a vedere se, con un motore, si riesce ad individuare una pagina intitolata "Benvenuti nel sito non ufficiale degli studenti")

Si deve rilevare che molti siti con contenuto pornografico ricorrono a vari stratagemmi per ingannare i motori di ricerca e comparire sempre tra i primi risultati di ricerche del tutto "innocenti".

I diversi motori si differenziano tra loro per:

Le ricerche con i motori non sono mai sicure, né dal punto di vista del richiamo (documenti significativi individuati sul totale di quelli effettivamente esistenti) né da quello della precisione (numero di documenti significativi sul totale di quelli individuati).
Le ricerche con i motori, in sintesi, sono sempre pesanti e "rumorose" ricerche full-text.

Esempi di motori di ricerca per termini:
- Generali:

- Specialistici:

Come scegliere lo strumento di ricerca adeguato?

Tutto dipende da ciò che stiamo cercando: non esiste uno strumento buono in tutte le occasioni.
Esempi:

Non bisogna poi dimenticare che il Web, con la sua struttura ipertestuale, costituisce uno strumento di ricerca in sé. Dunque, una volta individuato un sito interessante, è bene esplorare i link in esso presenti e in particolare la sua sezione di collegamenti preferiti.

Attività

1) Esame approfondito degli strumenti proposti.

2) Sottoponiamo ad alcuni strumenti di ricerca (www.yahoo.it , www.virgilio.it , www.altavista.it , www.google.com , www.hotbot.com , www.arianna.it ) la stringa "Giuseppe Ungaretti " e valutiamo i risultati:

3) Ricerca sul tema scelto,
                      e/o
4) "Caccia al tesoro". Usando gli strumenti di ricerca più opportuni, individuiamo:

  1. Il sito della Camera dei Deputati
  2. L'orario dei traghetti estivi da Genova per la Tunisia
  3. Il sito della Biblioteca Nazionale di Francia
  4. Il catalogo on-line della Biblioteca Civica di Ivrea
  5. Il sito ufficiale dell'Unione Europea
  6. Il sito in cui consultare l'orario ufficiale delle Ferrovie dello Stato
  7. Un elenco completo e aggiornato dei quotidiani italiani che hanno un sito web
  8. Un sito che presenti notizie approfondite sull'area archeologica di Tiwanaku in Bolivia
  9. La home page del gruppo cileno degli Inti Illimani
  10. Il testo della Costituzione della Repubblica Italiana
  11. Un elenco degli indirizzi web delle Università italiane
  12. Il sito del Museo degli Uffizi di Firenze
  13. Il sito del FAI (Fondo per l'Ambiente Italiano)
  14. Il titolo di qualche saggio sui corredi funerari tra tardo antico e alto medioevo
  15. Una biblioteca che possieda le opere individuate al punto precedente
  16. Il testo integrale dell'Orlando Furioso
  17. Il sito che contiene un manuale su Internet scaricabile gratuitamente