Riconoscere il tema trattato dai documenti

Individuare il tema trattato nei documenti indicizzati può essere molto utile ai motori di ricerca, per esempio allo scopo di verificare la tematicità di un link o di permettere la personalizzazione delle ricerche.

I link provenienti da siti esterni sono molto importanti per il posizionamento (potete trovare spiegazioni più dettagliate su questo argomento nella sezione dedicata ai fattori esterni ai siti web che influenzano il posizionamento). Molti SEO (search engines optimizers) vi diranno anche che i link provenienti da siti a tema con il vostro sono queli che aiutano di più, ebbene la chiave per “pesare” tematicamente i link è appunto questa: confrontare l’argomento trattato da due documenti presenti nel database del motore. Per fare questo però il motore deve riconoscere e memorizzare l’area tematica di ogni documento indicizzato.

Questo parametro può del resto essere utilizzato anche per migliorare gli algoritmi destinati a processare ricerche personalizzate. Molti motori di ricerca offrono agli utenti interfacce alternative che consentono in una certa misura di avere risultati più allineati con i reali interessi degli utenti, utili soprattutto nel caso di ricerche ambigue. Per esempio una ricerca per architettura può generare risultati che appartengono all’area dell’arte o dell’edilizia, ma anche a quella dell’informatica; in un caso del genere conoscendo quale è il campo di maggiore interesse dell’utente (che sia dichiarato esplicitamente o dedotto attraverso il monitoraggio della selezione di risultati di ricerche precedenti) la ricerca può essere ristretta ai documenti appartenenti a quel campo ed in definitiva migliorata.

Lo studio “The Term Vector Database: fast access to indexing terms for Web pages” risale al 2000 ed è opera di tre studenti della Stanford University: Raymie Stata, Krishna Bharat e Farzin Maghoul. Bharat è stato assunto nel 2003 da Google ed è a lui che è stata affidata la progettazione Google News, una applicazione che probabilmente ha molto a che spartire con l’oggetto di questa pubblicazione.

Nel documento viene illustrata la realizzazione di uno speciale database chiamato “database dei vettori di termini”, che permette, partendo dall’URL di un documento presente nel database principale del motore di ricerca, di accedere velocemente ad una struttura di dati contenente la lista dei termini presenti nel documento, il peso e le posizioni di ciascun termine nel documento ed il peso del termine nell’intera collezione dei documenti indicizzati dal motore.

Praticamente tutti i motori di ricerca memorizzano già delle informazioni riguardanti i “vettori di termini”, ma generalmente esse sono memorizzate in una struttura poco utile per i tipi di applicazione considerati e previsti da questo studio. In pratica i motori di ricerca normalmente memorizzano le cosiddette “liste inverse”, ovvero delle strutture nelle quali, dato un termine qualsiasi fra quelli contenuti nell’intera collezione dei documenti, si recuperano velocemente i documenti che lo contengono insieme ad altri dati utili soprattutto a servire le query, come per esempio il peso del termine nel documento e nella collezione dei documenti. Questo tipo di database velocizza di molto i processi di selezione e di ranking dei documenti quando viene effettuata una ricerca da parte degli utenti, ma avrebbe pessime prestazioni se utilizzato, per esempio, per confrontare i termini contenuti in due documenti.

Nei prossimi articoli vedremo come viene realizzato il database dei vettori di termini ipotizzato dai tre studenti della Stanford University e come questo possa servire sia a facilitare e velocizzare la classificazione del tema dei documenti che altre interessanti applicazioni.





Ultima modifica: 20/10/2005 - 14:22

Posizionamento Web
Guida al posizionamento nei motori di ricerca



Home Motori di ricercaOttimizzazione dei sitiFattori esterniRisorse

La ragnatela dei giochi di ruolo
Cardiofrequenzimetri

© 2004 www.posizionamento-web.com - Tutti i diritti riservati - Vietata la riproduzione anche parziale -