La data iniziale dei documentiLa data del primo incontro fra il motore di ricerca ed un documento risulta essere un parametro utile a correggere i calcoli relativi alla link popularity ed al PageRank dei documenti stessi.Traduzione della sezione del brevetto di google sui dati storici riguardante la data iniziale dei documenti (scaricabile in formato PDF) Il primo parametro che il motore deve prendere in considerazione allo scopo di poter fare un’analisi dai dati storici riguardanti i documenti del web è il “momento zero”, cioè il momento dal quale i dati storici riguardanti tale documento saranno immagazzinati. Per ciò che riguarda Google la data iniziale del documento può essere determinata in vari modi, per esempio l’opzione più probabile al momento in cui scrivo è quella in cui la data iniziale corrisponde al primo incontro dello spider di Google con il documento stesso e probabilmente alla data della sua prima memorizzazione in cache. Nella sezione relativa alla data iniziale del documento Google dice chiaramente che in certi casi essa potrebbe anche, per esempio, coincidere con la segnalazione del documento all’apposita pagina di Google oppure alla data nella quale lo spider di Google trova per la prima volta un link al documento durante le sue esplorazioni. In realtà secondo me questa è un po’ una questione di lana caprina, in quanto Google stesso suggerisce che a seconda delle diverse situazioni la data iniziale del documento può essere determinata in vari modi. Quello che veramente ha un senso è cercare di capire quali sono gli utilizzi che il motore di ricerca può fare di tale data, qualunque sia la modalità con cui sia stata calcolata. La data iniziale del documento serve principalmente a stabilire l’anzianità dello stesso e questo viene fatto per diverse buone ragioni. La prima è che il calcolo dei link che puntano ad un documento (backlinks) serve a Google per effettuare importanti valutazioni sull’importanza dl documento stesso (pagerank) ma questo tipo di calcolo può essere falsato dal fatto che i documenti abbiano anzianità diverse. Per un calcolo del genere un documento vecchio di dieci anni che possiede cento backlink risulterebbe avere un’importanza maggiore di un documento vecchio di un anno che ne abbia cinquanta. Questo in lnea di principio è sbagliato perché è ovvio anche ad una analisi superficiale che il documento più nuovo ha ricevuto molti più link dell’altro nei suoi pochi mesi di vita ed è ipotizzabile che nei dieci anni a venire ne collezioni molti più di cento. A questo proposito viene per la prima volta introdotto il concetto di "ritmo di crescita" di un parametro (rate of growth in the number of back links) che sarà una delle chiavi di volta di tutto il documento. Stabilire una data iniziale per i documenti consente per esempio di calcolare un ritmo di crescita dei backlinks, di correggere la distorsione relativa nei calcoli del pagerank e quindi di “far gareggiare” ad armi pari i documenti nuovi con quelli più vecchi. Questo è importante anche perché i documenti vecchi hanno maggiore probabilità di contenere informazioni obsolete rispetto a quelli nuovi. Sappiamo tutti bene quanti siti web contengano pagine semi-abbandonate, regolarmente indicizzate dai motori di ricerca, contenenti link regolarmente conteggiati nei calcoli relativi alla link-popularity ed al pagerank, eppure una certa percentuale di questi link, in dei siti regolarmente aggiornati sarebbe stata eliminata, alterando, o meglio, migliorando il calcolo dei due importanti fattori di cui sopra. Gli ingegneri dei motori di ricerca conoscono bene questo problema, infatti nell’analisi del documento relativo al brevetto di Google sui dati storici troveremo più volte dei riferimenti a sistemi per “depotenziare” la spinta di link provenienti da documenti che attraverso l’analisi di vari parametri vengano ritenuti obsoleti o “stantii”. D’altra parte molti webmaster, proprio cercando di influenzare a loro vantaggio i calcoli che stanno alla base della link-popularity e del PageRank, provvedono a creare fin da subito numerosi link “artificiali” ai propri nuovi documenti, allo scopo di posizionarli meglio. Questo tipo di comportamento viene considerato “spam” da parte dei motori di ricerca ed è fortemente deprecato. In effetti è così malvisto che, come avremo modo di accorgerci, la maggior parte delle tecniche esposte nel documento di Google relativo al trattamento dei dati storici, hanno lo scopo preciso di rilevare tali comportamenti ed eliminarne gli effetti. Ultima modifica: 07/09/2005 - 14:42 |
Posizionamento Web
|