Le pagine seme del TrustRankLa composizione dell'insieme di pagine seme influisce in modo determinante sui risultati restituiti dall’algoritmo TrustRank, inoltre conoscere i criteri di selezione delle pagine seme considerate buone può essere molto utile.Finora parlando dell’algoritmo del TrustRank abbiamo dato per scontato che le pagine seme, quelle cioè che devono essere valutate manualmente dall’oracolo, fossero scelte casualmente. In realtà la scelta di un insieme di pagine seme piccolo ed efficiente è fondamentale per un buon funzionamento di TrustRank L’insieme delle pagine seme deve rimanere piccolo per limitare le invocazioni dell’oracolo che, come si è visto nei precedenti articoli, sono dispendiose sia dal punto di vista del tempo che da quello delle risorse economiche. L’efficienza dell’insieme invece si identifica nella capacità delle pagine selezionate di consentire una buona propagazione della fiducia, attraverso i loro link in uscita, verso il maggior numero possibile di pagine buone e rilevanti. Come abbiamo visto nel precedente articolo sull’algoritmo del TrustRank la fiducia viene propagata dalle pagine seme buone ad altre pagine, per cui un buon criterio iniziale per la scelta delle prime è che abbiano un alto numero di link in uscita. Implementando questo tipo di ragionamento possono essere selezionate pagine che contengono molti link uscenti che puntano verso pagine che a loro volta contengano molti link uscenti e così via. La formula che viene fuori è quasi identica a quella del PageRank con l’unica differenza che in questo caso il punteggio non dipende dal numero di link in ingresso, bensì da quello dei link in uscita. Per questo viene definita “Page Rank inverso”. La formula del PageRank inverso, in effetti, non garantisce la massima copertura di pagine dell’indice, ma questa sarebbe matematicamente molto più complessa da calcolare mentre l’applicazione dell’algoritmo del PageRank è stata ottimizzata e perfezionata nel corso degli anni diventando estremamente efficiente. Il PageRank inverso non è comunque l’unico sistema possibile per la scelta delle pagine seme. Un diverso tipo di approccio potrebbe per esempio mettere già in discussione che ogni pagina contenuta nell’indice del motore sia egualmente importante e che sia indifferente attribuire il punteggio di fiducia ad una piuttosto che ad un’altra. Al contrario può essere considerato preferibile assegnare il punteggio di fiducia alle pagine che hanno maggiore probabilità di apparire in buona posizione rispetto alle ricerche, perché sono quelle che verranno selezionate più spesso dagli utenti. Google ordina le pagine basandosi sia sul loro contenuto che sul valore di PageRank, potrebbe quindi essere una buona strategia assegnare i punteggi di fiducia alle pagine con più alto PageRank. Inoltre, visto che sperimentalmente si può affermare che spesso le pagine con alto PageRank sono fortemente collegate fra loro la fiducia verrebbe propagata a pagine che a loro volta hanno buone probabilità di essere visualizzate dagli utenti del motore di ricerca e così via. Nell’esperimento condotto dagli autori dello studio questi due metodi di selezione sono stati comparati utilizzando un grafo “ridotto” del web dove erano comunque presenti degli esempi dei principali tipi di spam. Il sistema che ha permesso di selezionare il miglior insieme di pagine seme è risultato essere il PageRank inverso (anche se la differenza nella qualità dei due insiemi non era enorme) che è quindi stato usato per il resto dell’esperimento. La prima fase per la selezione delle pagine seme da sottoporre alla valutazione dell’oracolo è quindi consistita nel calcolo del PageRank inverso di tutte le pagine dell’indice del motore utilizzando un fattore di attenuazione di 0,85 (un classico nella letteratura relativa al PageRank ) ed effettuando 20 iterazioni che hanno permesso di ottenere un risultato sufficientemente stabile (vedi la formula originale del PageRank). Nei 25.000 siti selezionati è stata infatti immediatamente rilevata una massiccia presenza di cloni della intera directory DMOZ realizzati al solo scopo di simulare dei contenuti di qualità o di ottenere un elevato punteggio HUB. La tattica seguita per eliminare questo tipo di siti è stata quella di rimuovere dall’insieme tutti i siti che non fossero presenti in nessuna delle maggiori web directory. Questo tipo di filtro ha ridotto l’insieme a circa 7900 siti e facendo dei controlli a campione su quelli eliminati è stato accertato che pochissimi siti di qualità erano stati scartati. Dei 7900 siti rimanenti sono stati esaminati manualmente i primi 1250 in ordine di PageRank inverso (questi rappresentano l’insieme “S”, vedi “L’algoritmo del Trustrank”), il che equivale a dire che la funzione “oracolo” è stata chiamata 1250 volte. La funzione oracolo ha stabilito che 178 siti fra quelli esaminati erano esenti da spam e quindi sono andati a formare l’insieme delle pagine seme buone (S+). Un “particolare” molto Interessante da notare è che i criteri con cui l’oracolo ha giudicato i siti sono stati estremamente rigorosi, infatti i siti scelti non risultavano soltanto esenti da spam, ma erano anche siti la cui gestione poteva essee ricondotta in maniera chiara ed univoca ad una istituzione di qualche tipo (es. governativa, mlitare, universitaria). Questo ultimo accorgimento è stato preso per garantire longevità all’insieme delle pagine seme, ipotizzando che i siti gestiti da una qualche organizzazione (ed i loro contenuti) siano più “stabili” e coerenti a medio-lungo termine.Ultima modifica: 29/03/2006 - 10:46 |
Posizionamento Web
|