Alcune applicazioni del database dei vettori di termini

Vediamo due prime applicazioni pratiche che utilizzano il database dei vettori di termini sperimentate dai suoi stessi ideatori: la distillazione del tema e la classificazione delle pagine web per argomento.

Il database dei vettori di termini può essere utilizzato per velocizzare enormemente molte applicazioni interessanti nel campo dell’information retrieval (recupero delle informazioni), in calce allo studio esaminato negli articoli precedenti sono state realizzate applicazioni di prova riguardanti la distillazione del tema e la classificazione dei documenti per aree tematiche.

La distillazione del tema è una tecnica che utilizza la struttura dei link fra i documenti del web per eseguire l’ordinamento rispetto alle query (interrogazioni) e si basa sul seguente assunto: considerando il web come un grafo i cui nodi siano le pagine collegate ed i lati i collegamenti fra queste , le migliori pagine che trattano un certo argomento sono fortemente interconnesse fra loro in un “sotto-grafo”, una sorta di comunità virtuale specializzata nell’argomento.

L’algoritmo di distillazione del tema costruisce questo “sotto-grafo” del web estraendo le pagine più rilevanti per una data query fra i normali risultati di un motore di ricerca, poi espande questo primo insieme di pagine includendo quelle più vicine nel grafo, vale a dire quelle che contengono un link che punta ad una delle pagine estratte o quelle che ricevono un link da una di esse.

Un difetto di questo algoritmo è che nel sotto-grafo così costruito esistono pagine fortemente interconnesse ma che non sono rilevanti rispetto all’argomento della query. Questo difetto può essere eliminato usando i vettori di argomenti.

Un vettore di argomento è un particolare vettore di termini costruito utilizzando termini contenuti in tutte le pagine del primo insieme estratto. Il vettore di termini di ciascuna delle pagine dell’insieme “allargato” viene poi confrontato con il vettore di argomento della query e se il prodotto fra i due supera un certo valore di soglia (più il prodotto fra due vettori di termini è alto più le pagine sono simili) la pagina è ammessa a far parte del “sotto-grafo” relativo alla query.

Questo tipo di calcolo può essere eseguito, teoricamente, anche senza disporre di un database dei vettori di termini ma il tempo necessario per calcolare i vettori di termini delle pagine interessate a “query time” (cioè nel momento in cui l’utente esgue l’interrogazione) sarebbe proibitivo ed impedirebbe l’utilizzo pratico di questo algoritmo.

Ma l’applicazione più interessante del database di vettori di termini è probabilmente la classificazione delle pagine web. Questo algoritmo assegna a ciascun documento contenuto nell’indice del motore di ricerca un argomento selezionato da una lista di argomenti già definita. Nell’esperimento effettuato, la lista degli argomenti corrispondeva alle 12 categorie di primo livello della directory Yahoo!. Per ciascuna di queste categorie è stato precalcolato un vettore composto da 10.000 termini estratti fra quelli contenuti in circa 30.000 pagine appartenenti alla categoria stessa.

I documenti appartenenti all’indice del motore di ricerca sono poi classificati confrontando il loro vettore di termini, restituito dal database, con i vettori delle categorie. La categoria che nel confronto dei vettori ottiene il punteggio più alto viene selezionata come categoria del documento. Nell’esperimento è sempre stata scelta una sola categoria per ogni documento, e nei casi in cui la classificazione è risultata ambigua il documento non è stato classificato.

L’applicazione di esempio progettata nel 2000 da Bharat aggiungeva ai risultati dell’indice di Altavista l’indicazione dell’argomento trattato dai documenti ed un link “More on this topic”, che permetteva di raffinare la ricerca considerando solo i documenti dell’indice che condividessero la stessa classificazione di argomento.

Il database dei vettori di termini può essere però utilizzato anche per raffinare i risultati di un algoritmo come Hilltop, ideato in seguito dallo stesso Khrisna Bharat. Barat dice esplicitamente che la selezione di documenti esperti i cui link puntano a pagine che condividono la stessa classificazione di argomento è un miglioramento dell’algoritmo.

Inoltre è facile ipotizzare che, se nel database di un motore di ricerca è già presente una classificazione di massima dell’argomento trattato dai documenti indicizzati, diventi semplice calcolare in modo diverso i punteggi relativi ai link fra i documenti a seconda che questi condividano o meno la stessa classificazione di argomento.

Già al tempo della trattazione sono stati evidenziati molti campi di miglioramento per la struttura e la costruzione del database dei vettori di termini, per esempio l’inclusione dei termini presenti nei tag <alt> e di quelli presenti nel testo delle ancore dei link provenenti da altri documenti, la diversa considerazione dei termini contenuti in tag particolarmente importanti, come per esempio il tag <title>, il supporto di termini composti da più parole e l’utilizzo di sistemi più sofisticati di di stemming allo scopo di permettere un supporto multilingua.

Inoltre anche l’utilizzo di Yahoo! Come base per la selezione delle categorie e la costruzione dei vettori di argomento potrebbe oggi trovare un miglior candidato in ODP, una directory open source molto ampia e che, per la natura collaborativa e volontaria del team di editori (migliaia in tutto il mondo) può dare migliori garanzie di completezza ed imparzialità.

Almeno così pensava Taher Haveliwala, un altro studente universitario che in seguito sarebbe stato assunto da Google e che ha elaborato un sistema per rendere l’attribuzione del valore di PageRank sensibile al tema trattato dai documenti: il “topic sensitive PageRank”.





Ultima modifica: 27/10/2005 - 11:40

Posizionamento Web
Guida al posizionamento nei motori di ricerca



Home Motori di ricercaOttimizzazione dei sitiFattori esterniRisorse


© 2004 - 2006 www.posizionamento-web.com - Tutti i diritti riservati - Vietata la riproduzione anche parziale -