Information retrieval: new systems and current research: proceedings of the 16th Research Colloquium of the British Computer Society Information Retrieval Specialist Group, Drymen, 1994, edited by Ruben Leon.  London: Taylor Graham, 1996.  238 p.  ISBN 0-947568-070-0.  £ 30.


Gli atti del convegno del gruppo di specialisti di IR della British Computer Society pur affrontando, come è naturale, i temi della ricerca dell'informazione in un'ottica assai specialistica - molti interventi riguardano progetti in corso e ricerche sperimentali - forniscono tuttavia l'occasione di fare il punto sullo stato della ricerca sul recupero dell'informazione in Inghilterra. Il tema è svolto attraverso cinque sezioni: Logica e ricerca dell'informazione; Linguaggio naturale e semantica; Strategie di valutazione e di indicizzazione; Interfaccia, verifica di rilevanza e valutazione; Politica dell'informazione e ricerca dell'informazione.

Per quanto nell'IR non manchino i modelli teorici di riferimento, quello booleano, quello basato sullo spazio vettoriale, quello probabilistico e quello fuzzy, i loro limiti spingono i ricercatori a proporne sempre di nuovi. Da qui il forte accento posto sulla teoria che trova espressione soprattutto nella prima sezione. Huibers e Bruza si propongono di assiomatizzare le relazioni di aboutness ("circalità", preferito a "rilevanza") nel contesto della situation theory e giungono a definire nove assiomi da utilizzare per confrontare le prestazioni dei diversi sistemi di IR. Il secondo articolo, analizzando le scelte che vengono fatte nel corso di una sessione di navigazione ipertestuale, esamina la possibilità di prefigurare, e quindi di aiutare a definire, il probabile bisogno informativo dell'utente in base alla direzione via via intrapresa o ancora attraverso l'esplicita richiesta di feedback. Nel contributo IR by imaging il legame tra query e documento viene concepito, sulla scorta della logica modale, non sulla base della compresenza di termini, come prefigurato dalla logica booleana, bensì in virtù della comune appartenenza a "mondi di significati" costruiti sulla base di primitive relazioni di vicinanza («possible worlds semantics»): ciò permetterebbe di trasferire la probabilità di rilevanza dei documenti da termini non contenuti (per cui la query sarebbe falsa) a termini che vi sono invece presenti.

In effetti un motivo che percorre più o meno tutti gli interventi è il superamento o l'integrazione della logica booleana che continua a costituire la teoria principe dell'IR. Oltre a presentare difficoltà di applicazione anche per l'utente esperto, ciò che le viene rimproverato è di determinare una divisione netta tra documenti rilevanti - quelli che soddisfano la query - e documenti irrilevanti, mentre ogni documento è differente e descrive i diversi soggetti in grado diverso e quindi con diversa rilevanza. Da qui lo spostamento di accento verso la definizione di una misura di "importanza" dei termini. In alternativa al riscontro (feedback) dell'utente, si può far riferimento a valutazioni statistiche assumendo che un termine scarsamente presente nel documento o nella collezione abbia un'alta capacità di discriminazione (IDF, inverse document frequency, o ICF, inverse collection frequency) e come tale sia più importante per determinare la pertinenza dei documenti. Si tratta di una delle tecniche che sta alla base di molti sistemi sperimentali attuali.

Nella seconda sezione vengono affrontate varie problematiche connesse soprattutto alle basi di dati a testo completo che sollecitano un approfondimento dell'analisi semantica e lessicale del linguaggio per fondare ricerche basate sull'utilizzazione del linguaggio naturale.

In A linguistic approach to information viene esaminata la possibilità di un sistema di IR indipendente dal settore disciplinare a cui si riferisce la base di dati e perciò costruito solo sull'analisi lessicale e sintattica del linguaggio. Tale IR codifica il testo - qui rappresentato dalla raccolta del «Wall Street journal» - per mezzo di «alberi sintattici» che vengono richiamati nel processo di ricerca. L'articolo successivo analizzando le caratteristiche di un «sistema di comprensione del linguaggio naturale» (natural language understanding, NLU) affronta il problema dei rinvii, nella specie dell'anafora e dell'ellisse, che nascono nel dialogo interpersonale e si ripropongono in quello tra utente e sistema di IR nel corso del processo di definizione della query. Con ogni cautela circa la capacità delle tecniche di analisi del linguaggio naturale di interpretare dialoghi più complessi, l'autore suggerisce che tale approccio potrebbe tuttavia risultare assai più efficace di un sistema a comandi o a menu. L'ultimo articolo di questa sezione esamina il caso delle cosiddette basi di dati federate (FDBS, definite come insiemi di basi di dati eterogenee e autonome, ma cooperanti) e descrive le funzionalità del sistema FEDDICT, una sorta di dizionario tutt'ora in corso di elaborazione, che stabilisce corrispondenze semantiche tra parole e concetti di basi dati di diversa struttura e gestite da sistemi diversi.

Nella sezione Weighting and indexing strategies la problematica principale riguarda le strategie di indicizzazione a fronte dello sviluppo di grandi basi di dati testuali. Sotto accusa è qui il tempo necessario per generare e mantenere i tradizionali inverted files e lo spazio che essi vengono a occupare, a volte superiore a quello della base di dati stessa, soprattutto se devono tenere traccia anche di informazioni sulla posizione delle parole. Da qui lo sviluppo dei signature files che rappresentano una sorta di archivio di "impronte digitali" delle parole, cioè codici di lunghezza fissa che identificano in modo univoco una determinata parola: quando queste impronte digitali vengono combinate formano un abstract del file testuale. Il signature file viene poi suddiviso in modo che ogni "firma" simile si trovi nella stessa partizione: in tal modo, oltre a un complessivo risparmio di spazio, si produce un risparmio di tempo di ricerca.

Un altro signature file volto al risparmio di spazio, ma concettualmente diverso dal precedente, viene proposto con la codon signature che codifica le relazioni tra termini e documenti creando un intermediario (codon structure) tra di essi. In tal modo documenti analoghi vengono indicizzati con lo stesso codon (una stringa binaria di lunghezza definita in cui ogni bit rappresenta l'indirizzo di un documento). I test teorici e pratici condotti su tre diverse collezioni danno risultati accettabili rispetto al metodo convenzionale di utilizzo dei signature files.

Nell'intervento Discovery of optimal weights in a concept selection system l'analisi del documento, al fine di riassumerne automaticamente il contenuto, utilizza la sua struttura formale. In primo luogo viene presa in esame la struttura del documento (titolo, inizio dell'introduzione, sezioni interne, ecc.), poi le frasi delle diverse parti vengono confrontate con comuni costrutti linguistici, in modo da selezionare le parti del discorso significative. Il peso di ogni termine viene stabilito in base al numero di occorrenze e alla posizione occupata nel testo. Per condurre quest'analisi viene utilizzato un "algoritmo genetico" cosiddetto perché richiama meccanismi biologici (valutazione, selezione, generazione, mutazione) che a una prima prova si dimostra più efficiente dell'analisi manuale.

Nella sezione sulle interfacce il primo contributo esamina l'evoluzione del Men-USE System, che si pone come intermediario nella ricerca di basi di dati bibliografiche fornite di thesaurus, e in particolare il modo con cui presentare i documenti ritrovati in ordine di rilevanza. Vengono così discussi i principali metodi di riordinamento per importanza, in primo luogo quello statistico che valuta le tre principali componenti per determinare il "peso" di un termine: frequenza inversa nella collezione, frequenza del termine nel documento e normalizzazione - che significa rapportare le occorrenze del termine alla lunghezza del documento. Essendo stato dimostrato che anche nei migliori sistemi che utilizzano informazioni di frequenza, solo tre quarti degli articoli reperiti sono rilevanti e viene ritrovato solo un quinto degli articoli rilevanti della base di dati, sono stati elaborati metodi alternativi a quello statistico, dando origine a sistemi che utilizzano l'intelligenza artificiale per raffinare la query (CANSEARCH, EP-X, SIMPR, ecc.) o per analizzare la struttura del testo da ritrovare. L'intervento successivo illustra il disegno di un'interfaccia grafica per l'utente ispirata alla metafora del gioco che, tra l'altro, prevede la possibilità di un'espansione interattiva della query tramite la selezione di termini proposti dal sistema. L'ultimo intervento di questa sezione presenta la collezione per test Reuters e spiega come questa base di dati si presti agli esperimenti di IR.

L'ultimo intervento, dal curioso titolo Mrs Thatcher's handbag modem, vuol infine sottolineare, sulla scorta dell'esperienza inglese degli ultimi quindici anni, che gli aspetti economici e sociali hanno avuto sullo sviluppo dello IR effetti più incisivi e profondi delle metodologie per trattare automaticamente i testi o dell'applicazione dell'intelligenza artificiale.

Nicola Benvenuti, Biblioteca di architettura, Università di Firenze