La formula originale del PageRankAnalizzare la formula originale per il calcolo del PageRank vi darà la possibilità di verificare il funzionamento di un meccanismo di valutazione dei documenti web attraverso parametri esterni.Questa è la formula pubblicata da Sergey Brin e Larry Page nel documento The Anatomy of a Large-Scale Hypertextual Web Search Engine risalente al 1998. PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))- PR(A) è il PageRank della pagina A Dalla formula si capisce chiaramente che il PageRank di ogni pagina nel database di Google è influenzato da quello delle pagine che contengono un link ad essa. Inoltre dall’espressione PR(Tn)/C(Tn)) si evince che il PR di una pagina T(n) che contiene un link alla pagina A non fa aumentare il PR di questa di una quantità direttamente proporzionale al PageRank della pagina Tn, infatti tale valore viene diviso per il numero dei link in uscita presenti in quest’ultima. Questo significa che se la pagina Tn ha molti link in uscita aumenterà di una quantità minore il PR della Pagina A ( e ovviamente di tutte le altre pagine a cui puntano i suoi link in uscita ). Una conseguenza di questa formula è che una pagina web può avere un alto PR se molte pagine, anche a basso PR, contengono un link ad essa; ma può averlo anche se riceve un solo link da una pagina ad alto PR, cioè da un documento a “importante” perché a sua volta molto citato e magari con pochi link uscenti. Proprio qui il Pagerank si dimostra migliorativo rispetto alla link-popularity nel quantificare l’importanza dei documenti web: Se una pagina riceve molti link è sicuramente una pagina importante, ma proprio per questo un link ricevuto da quella pagina deve essere considerato più importante di un altro. Questo, secondo Page e Brin, avvicina il valore di PageRank al significato comune che gli esseri umani danno al termine di “importanza” di un documento, rispetto al semplice conteggio dei link che puntano ad esso. L’algoritmo del PageRank, così come riportato nella formula originale è un algoritmo ricorsivo, ovvero deve essere eseguito un determinato numero di volte prima che possa restituire un risultato stabile. Inizialmente a tutte le pagine viene assegnato un valore di PR uguale ad 1, dopodichè per ognuna di esse viene effettuato il calcolo del PR. Ovviamente, quando avremo finito di calcolare il valore di PR per l’ultima pagina i valori iniziali su cui abbiamo basato il calcolo di tutte le altre saranno cambiati. Quindi il calcolo del PR verrà ripetuto per tutte le pagine con i nuovi valori un numero di volte sufficiente ad ottenere un risultato stabile. Un’altra interpretazione intuitiva della formula, proposta dagli inventori, è la seguente: Brin e Page immaginano un utente “random” del web, che partendo da una pagina casuale segua i link che trova in essa senza poter mai tornare indietro con il pulsante “back” del browser. Questo utente però può decidere aleatoriamente di smettere di seguire i link e andare su una nuova pagina casuale per poi ricominciare a seguirli. La probabilità che un visitatore visiti una pagina corrisponde al valore di PageRank di quella pagina. Il valore “d” è il cosiddetto “damping factor” un fattore correttivo ( attenuante ) che può essere interpretato come la probabilità che in una pagina il visitatore “si annoi” e invece di seguire i link vada su un altro indirizzo casuale. Come loro stessi dichiarano nel documento del 1998 “...questo fattore correttivo può essere aggiunto a una sola pagina o a un gruppo di pagine. Questo permette personalizzazioni e può rendere virtualmente impossibile ingannare deliberatamente il sistema allo scopo di ottenere punteggi alti”. Concludo questa pagina con una considerazione: L’analisi della struttura dei link del web fa sicuramente ancora parte del calcolo del PageRank, ma è possibile, anzi probabile, che adesso ne sia per l'appunto solo una parte. Quando Page e Brin hanno ideato questo meccanismo di valutazione erano due studenti universitari e il prototipo di Google che era da poco funzionante su dei server della Stanford University aveva indicizzato circa 24 milioni di pagine. Adesso Google esiste, preleva e memorizza dati da più di sette anni per un totale che supera gli otto miliardi di documenti indicizzati. Inoltre da più di tre anni è considerato unanimemente il motore di ricerca più utilizzato nel mondo. Attraverso l’analisi dei dati trasmessi dalla toolbar di Google, il monitoraggio del comportamento degli utenti sulle proprie pagine dei risultati, ed altri servizi quali Google News o per esempio il nuovissimo Google web accelerator , Google adesso ha sicuramente a disposizione altri parametri che offrono importanti indizi sull’importanza che gli utenti attribuiscono ai documenti presenti nel web. Ultima modifica: 19/07/2005 - 16:16 |
Posizionamento Web
|
| Link-popularity | |
| PageRank | |
| |
| I dati storici | |
| Trovare i backlink | |
| Hilltop | |
| Trustrank |