Hilltop: ordinamento dei risultati

Quando viene eseguita una ricerca, Hilltop estrae dal suo indice dei documenti esperti quelli rilevanti e li utilizza per individuare ed ordinare i documenti che restituisce all’utente finale.

Nella fase d’analisi dei documenti esperti, l’algoritmo Hilltop esamina solo alcune parti di essi, parti che nel gergo specifico di questo algoritmo sono chiamate “frasi chiave”. Le “frasi chiave” di Hilltop non hanno niente a che vedere con le parole o le frasi digitate dagli utenti per effettuare una ricerca. La definizione di “frase chiave” nell’ambito di Hilltop è “una parte di testo che qualifica uno o più link in uscita”.

I documenti esperti contengono, come abbiamo visto nel precedente articolo, numerosi link in uscita: Hilltop associa ad ognuno di essi alcune “frasi chiave” presenti in specifiche parti della struttura del documento.

Il testo contenuto nel tag title del documento viene associato a tutti i link in uscita.

Il testo contenuto nelle intestazioni (per esempio fra dei tag è<h1></h1>) viene associato a tutti i link in uscita successivi al tag fino a che nel codice del documento non viene trovata una intestazione di uguale o maggiore importanza.

Il testo contenuto nell’ancora o nel title di un link invece viene associato esclusivamente a quel link.

I documenti esperti sono inseriti in uno speciale indice inverso organizzato per keyword, nel quale esiste un record per ogni associazione fra una keyword ed una “frase chiave” di un documento esperto. Per ognuno di questi record è memorizzato anche il tipo di “frase chiave” (tag title, intestazione, ecc.) e la prominenza della keyword all’interno della frase.

Quando l’utente esegue una ricerca, l’algoritmo seleziona una lista di documenti esperti rilevanti rispetto ad essa (nell’esperimento relativo alla pubblicazione in esame la lista era composta di 200 documenti esperti). Per essere considerato rilevante rispetto ad una ricerca, il documento esperto deve contenere almeno un link che abbia tutte le parole della ricerca nelle “frasi chiave” che lo qualificano.

Ai documenti esperti viene assegnato un punteggio basato sul numero e sul tipo di "frasi chiave" (tag title, intestazione, ecc.) contenenti le keywords della ricerca. Nell’assegnamento del punteggio sono considerate soltanto le “frasi chiave” che contengono quasi tutte le keyword e viene tenuto conto anche della percentuale di testo che le keyword rappresentano all’interno di ogni frase. I duecento documenti con punteggi più alti vengono scelti come documenti esperti per la ricerca in questione.

A questo punto l’algoritmo Hilltop esamina tutti i documenti a cui puntano i link contenuti negli esperti selezionati ed estrae tutti quelli che ricevono un link da almeno due esperti non affiliati fra loro (ed ovviamente neppure con il documento in esame). Questi documenti sono definiti “bersagli”, e sono quelli che saranno ordinati nei risultati che verranno forniti agli utenti.

Ogni associazione fra una “frase chiave” contenuta in un esperto e un documento “bersaglio” trasmette a quest’ultimo un punteggio proporzionale a quello del documento esperto ed al tipo di “frase chiave” (tag title, intestazione, ecc.). Se due documenti esperti affiliati puntano allo stesso "documento bersaglio" il punteggio di uno dei due, per la precisione di quello più basso, non viene conteggiato.

Ai “documenti bersaglio” viene assegnato un punteggio uguale alla sommatoria dei punteggi ricevuti dai documenti esperti. I risultati vengono infine ordinati combinando i punteggi dell’algoritmo Hilltop e quelli ottenuti dall’analisi dei contenuti dei "documenti bersaglio".

Sono state eseguite prove di confronto fra i risultati forniti dall’algoritmo Hilltop e quelli forniti da tre motori di ricerca commerciali: Altavista, Direct Hit e Google (prima che assumessero Khrisna Barat, l’inventore dell’algoritmo). I risultati sono stati esaminati da giudici esterni che non sapevano quale lista appartenesse a quale motore. I test hanno evidenziato una capacità di Hilltop pari o migliore degli altri motori di ricerca nel generare una prima pagina di risultati contenente siti molto rilevanti. E’ anche probabile che le prestazioni di Hilltop siano estremamente migliorate al momento della sua integrazione in Google, grazie all’’ampio indice di documenti ed ai sofisticati algoritmi di analisi del contentuto che ha potuto sfruttare.





Ultima modifica: 02/10/2005 - 18:57

Posizionamento Web
Guida al posizionamento nei motori di ricerca



Home Motori di ricercaOttimizzazione dei sitiFattori esterniRisorse

La ragnatela dei giochi di ruolo
Cardiofrequenzimetri

© 2004 www.posizionamento-web.com - Tutti i diritti riservati - Vietata la riproduzione anche parziale -