Il TrustRank

Il TrustRank è un algoritmo brevettato da Google, in parte basato sulla valutazione dei siti effettuata da esseri umani, progettato per risolvere il grosso problema dello spam presente negli indici dei motori di ricerca.

Uno dei problemi più grandi che i motori di ricerca si sono trovati a combattere negli ultimi anni è la crescita del fenomeno denominato spam. Lo spam, in questo contesto può essere a grandi linee definito come la pubblicazione di pagine web create con il solo scopo di ingannare gli algoritmi dei motori di ricerca.

Uno dei primi metodi utilizzati per fare spam è stato quello di inserire nelle pagine web del testo nascosto agli esseri umani ma visibile ai motori di ricerca (per esempio impostando il testo con lo stesso colore dello sfondo della pagina oppure usando alcune proprietà dei fogli di stile), così da ottenere buoni posizionamenti relativamente ad argomenti che effettivamente non avevano niente a che fare con il contenuto visibile delle pagine.

Un altro metodo molto popolare per fare spam è quello di creare decine, o anche centinaia, di pagine sostanzialmente inutili per gli utenti, ma tutte contenenti uno o più link verso una specifica pagina, la quale la quale vedrà migliorato il suo posizionamento nei motori di ricerca a causa dell’aumento di fattori come la link-popularity o il PageRank.

In effetti, quando un motore di ricerca si trova davanti ad un circuito di siti web fortemente linkati fra loro, deve effettuare la difficile scelta di stabilire se essi siano davvero siti che si citano per approfondimenti reciproci dell’argomento trattato oppure semplicemente un circuito di spam. Per un essere umano che “conosca il mestiere” è relativamente semplice capire se un sito effettua spam, osservando per esempio in che percentuale esista nelle pagine contenuto utile e testo invisibile, controllando la visibilità e l’effettiva natura dei link, i nomi assegnati a domini, file e cartelle, confrontando gli indirizzi IP dei documenti a cui i collegamenti puntano ed altri fattori ancora. Per un computer, al contrario, riconoscere lo spam è un compito decisamente difficile, tanto è vero che l’approccio finora utilizzato da parte dei motori di ricerca è quello di far eseguire ad un apposito staff di persone il monitoraggio dei risultati per individuare pagine che effettuano spam ed eliminarle dall’indice del motore. Molti motori di ricerca possiedono apposite interfacce pubbliche che permettono la segnalazione di spam direttamente allo staff del motore che, appena possibile, verifica la correttezza della segnalazione ed eventualmente prende i provvedimenti del caso. Il problema dell’eliminazione dello spam dai propri indici è così importante per i motori di ricerca che, in mancanza di meglio sono disposti ad utilizzare questo tipo di approccio, assai lento, costoso, e in definitiva molto poco efficiente.

Nel 2004 alcuni ricercatori del dipartimento di Computer Science della Stanford University hanno pubblicato uno studio dal titolo “Combating web spam with TrustRank” (Combattere lo spam con il TrustRank) ed il 16 marzo 2005 la tecnologia TrustRank è stata ufficialmente brevettata da Google.

L’algoritmo di TrustRank può essere utilizzato sia per suggerire automaticamente allo staff di esseri umani quali sono le pagine del web da controllare più attentamente perché “a rischio spam,” sia per generare un punteggio da usare in fase di ordinamento delle pagine allo scopo di compensare gli effetti negativi che lo spam ha avuto sull'efficacia di altri algoritmi, come quelli per l’analisi del contenuto o quello del PageRank.

Dal momento che identificare lo spam è molto difficile per un computer il TrustRank utilizza in parte l’intervento umano per addestrare l’algoritmo a riconoscerlo. A grandi linee il funzionamento de TrustRank è questo.

1)L’algoritmo seleziona un insieme di pagine relativamente piccolo (“seed pages”, pagine seme) secondo criteri che spiegheremo in seguito, delle quali non si sa ancora se effettuino spam o meno.

2)Un essere umano esamina ad una ad una tutte le pagine dell’insieme e le divide in “buone” (pagine che non effettuano spam) e “cattive” (pagine che effettuano spam).

3)L’algoritmo processa l’intero indice del motore di ricerca ed assegna a ciascuna pagina che vi è contenuta un punteggio di “trust” (fiducia) basato sul grado di vicinanza alle pagine seme “buone” nel grafo del web.

Nei prossimi articoli sul TrustRank vedremo in dettaglio come vengono scelte le “pagine seme”, come viene effettuata effettua la loro valutazione ed ovviamente come viene propagata la “fiducia” (trust) dalle pagine buone a tutte quelle che a loro collegate, più o meno direttamente.





Ultima modifica: 22/11/2005 - 13:36

Posizionamento Web
Guida al posizionamento nei motori di ricerca



Home Motori di ricercaOttimizzazione dei sitiFattori esterniRisorse


© 2004 - 2006 www.posizionamento-web.com - Tutti i diritti riservati - Vietata la riproduzione anche parziale -