Come funzionano i motori di ricerca

I motori di ricerca sono delle applicazioni web in grado di analizzare il contenuto dei siti web, classificarli, e renderli visibili all’interno delle proprie SERP, in base alle query degli utenti.

Ma come funzionano i motori di ricerca? Quali sono gli algoritmi che consentono di classificare i nostri siti web? Google è il motore più utilizzato in assoluto? Leggi l’articolo per ottenere tutte le risposte.

Caratteristiche

Sul web esistono motori di ricerca che sono controllati per la gran parte da compagnie private; queste li gestiscono attraverso l’utilizzo, infatti, di database strettamente segreti e algoritmi di tipo proprietario, inaccessibili ad altri.

Nonostante questa predominanza di privati, sul web ci sono stati vari tentativi di costituire motori di ricerca liberi, ad esempio Nutch, OpenFTS, Htdig e Egothor.

  • Fasi
    I motori di ricerca lavorano principalmente in tre fasi diverse, ovvero analizzano il campo in cui agire, utilizzando appositi crawler; catalogano i dati trovati; forniscono le risposte alla richiesta dell’utente.
  • Analisi
    Un motore di ricerca usa generalmente un programma detto crawler (o anche spider, robot) per effettuare l’analisi del web; questi programmi visitano in automatico ogni URL che trovano nei propri database e, in seguito, quegli URL che rintracciano nei documenti stessi, tracciandone man mano le caratteristiche tecniche e riportandole nello stesso database (quale testo corrisponde al contenuto, la data ultima del suo aggiornamento, ecc.).
  • Catalogazione
    Una volta terminata l’operazione di analisi, ogni motore di ricerca (a seconda di quale, variano anche i criteri) inserisce le pagine web analizzate nel proprio database e quindi nel proprio indice per la ricerca.
    Il testo contenuto nelle pagine viene poi analizzato per rendere la ricerca più semplice agli utenti.
    Esiste per molti motori di ricerca anche la cosiddetta copia cache, che viene fornita talvolta quando le pagine web non risultano disponibili o non siano raggiungibili per qualche ragione; essa consiste appunto nella copia dei contenuti delle pagine che sono state analizzate.
  • Risposta
    Quando un utente cerca un contenuto sul motore di ricerca, deve poter trovare i risultati ordinati per importanza in base a quello che stanno cercando. L’importanza di un sito in relazione alla richiesta viene decisa attraverso la presenza delle parole chiave inserite e presenti o meno nel testo; ogni motore di ricerca poi ordina le pagine secondo i propri personali criteri, che possono essere ad esempio il numero di volte con cui la parola chiave ricorre nel testo e dove, quanti link di quella pagina si trovano sul web e in particolare nei siti presenti sul database del motore di ricerca in questione, quanto spesso gli utenti hanno visitato quel sito in seguito ad una ricerca, ecc.
  • Risultati sponsorizzati
    Nei motori di ricerca compaiono anche una serie di risultati di tipo sponsorizzato, i quali cioè riguardano quelle aziende le quali pagano per comparire in cima ai risultati (gli elenchi che li contengono sono detti SERP, ovvero Search Engine Result Pages) in base ad alcune parole chiave (keyword) riguardanti la loro attività peculiare. Questo genere di risultato può essere presente anche in relazione a siti web non contenenti collegamenti con loro e con il loro programma di affiliazione; Google, ad esempio, fa comparire in cima alle SERP, distinguendoli da tutti gli altri risultati della ricerca, quei risultati appunto che sono stati acquistati con il programma detto AdWords. Google prevede inoltre un servizio (detto AdSense, spesso abbreviato in Google AS) in grado di sponsorizzare qualunque sito possegga delle particolari caratteristiche; questo strumento ha come scopo quello di realizzare degli annunci differenziati in base alle tematiche dei siti, analizzati tramite appositi codici. Anche Yahoo! Search dovrebbe lanciare presto il programma Panama, simile a Google AS.
  • Come raffinare la ricerca
    Raffinare la ricerca è possibile, e i meccanismi per farlo cambiano in base al motore di ricerca usato; la maggior parte prevede l’utilizzo dei cosiddetti operatori booleani (per fare un esempio se si vogliono informazioni su Ganimede come pianeta, per evitare le confusioni con il Ganimede mitologico basterà inserire nella barra di ricerca “Ganimede AND satellite NOT coppiere”). Anche in base alla lingua dei documenti e al loro formato (PDF, MicrosoftWord, PostScript, ecc.), alla loro ultima data di aggiornamento, ecc. è possibile una raffinazione della ricerca, soprattutto con quei motori di ricerca più moderni come Google, ad esempio.

Le agenzie di web marketing, ottimizzando siti web e ecommerce dei propri clienti, favoriscono il loro posizionamento sui motori di ricerca per le query più cercate dagli utenti nella rete.

I più usati

Facciamo brevemente una lista dei motori di ricerca maggiormente utilizzati:

  1. Google
    È il motore di ricerca di gran lunga più utilizzato e contiene il database più ampio in assoluto in termini di numero di siti. Dispone inoltre del programma AdSense per la ricerca, atto a sponsorizzarne le possibilità e che si inserisce nel più ampio programma detto semplicemente AdSense.
  2. Bing
    È stata Microsoft a creare questo motore, utilizzato da Microsoft Network – più conosciuto con il nome di MSN.

Microsoft ha provato più volte a procedere con l’acquisto di Yahoo! In modo da realizzare un definitivo accorpamento di tecnologie di tipo proprietario (e una conseguente riduzione del loro numero sul campo)in seguito alla fusione fra Yahoo!Search e Live, il motore di ricerca di proprietà della Microsoft, appunto.

Una porzione delle descrizioni di siti web che si trovano fra i risultati delle ricerche sui motori più importanti vengono da Open Directory Project (DMOZ); si tratta appunto di una cosiddetta open directory, ben differente da un normale motore di ricerca, che pone le sue basi su recensioni e classifiche stilate dagli utenti in persona, non da una macchina (la tecnologia può intervenire comunque nel caso di siti che siano estinti, provvedendo a rimuoverli dai possibili risultati).

Netscape ha ideato questo strumento, il quale poi è stato acquistato nel 1998 da AOL, dietro il pagamento di una somma molto vicina ai 25 miliardi di dollari; AOL possiede tuttora questa tecnologia.

In Italia

Nel nostro paese Google Italia è sicuramente il motore di ricerca più usato; se si dovesse fare un calcolo, il numero delle ricerche effettuate dagli utenti web su Google corrisponderebbe ad un numero multiplo della somma delle ricerche fatte su tutti gli altri motori esistenti.

Forse caso unico in Italia è AbcItaly.it, che vide la luce nel 1996; si tratta dell’unico motore di ricerca nel nostro paese ad utilizzare per le ricerche un database del tutto autonomo ed originale di migliaia e migliaia di dati registrati; il difetto che pero’ da questo deriva è senz’altro, pero’, la scarsa precisione di coloro che registrano i vari siti web, bisognosi di essere continuamente (e soprattutto manualmente) sottoposti a controlli e verifiche di per sé piuttosto dispendiosi.

Serve poi anche un attento e costante controllo sul database dei siti web nostrani, per verificare che effettivamente essi esistano (ad esempio molti scompaiono pochissimo tempo dopo essere stati creati, insieme alle Aziende cui sono legati).

Evoluzione

Le ricerche più aggiornate riguardo il produrre sistemi di Information Retrieval e algoritmi sono basate sull’analizzare semanticamente i vari termini, con lo scopo di realizzare delle reti a loro volta di tipo semantico. Anche Google si è dotato di un sistema atto a prevenire gli errori e a porre i vari risultati in un contesto ben definito.

In pochi anni i motori di ricerca dovrebbero giungere ad avere una tecnologia in grado sia di analizzare quantitativamente i contenuti, cioè le singole parole, sia di analizzarne l’aspetto della qualità, dando quindi un senso alle parole già analizzate quantitativamente.

Per fare un esempio chiarificatore, questi motori di ricerca potranno agevolmente capire quale senso sia da attribuire alla parola pesca (sia essa lo sport, il frutto o il verbo, ecc.) attraverso l’analisi approfondita del contesto in cui si trova, eliminando così ogni ambiguità dai risultati, che saranno così più facilmente vicini alle richieste effettuate. Google ha voluto acquisire Oingo proprio per evolversi in questo senso; si tratta di un tipo di tecnologia realizzata tempo fa dall’azienda Applied Semantics e famosa un tempo sotto la dicitura di “motore dei concetti”.

Il web 2.0 è senz’altro considerato come la nuova frontiera per quanto riguarda i motori di ricerca. Nel creare i contenuti che devono apparire nei motori di ricerca, appunto, molti di essi, insieme a molte directory internazionali, puntano sempre di più su una partecipazione allargata, che includa in questa fase anche gli utenti, per poter così evitare l’uso di link sponsorizzati o spider.

In questo modo, ogni utente è autorizzato a segnalare i link che preferirebbe rendere popolari attraverso un motore di ricerca. Sono soprattutto società straniere, per ora, a procedere in questa direzione; in Italia possiamo trovare Ggoal, come il primo che abbia voluto intraprendere questa strada.