RECENSIONI E SEGNALAZIONI
Information retrieval: new systems and current research: proceedings of the 15th Research Colloquium of the British Computer Society Information Retrieval Specialist Group, Glasgow, 1993, edited by Ruben Leon. London: Taylor Graham, 1994. 161 p. ISBN 0-947568-62-X. £ 30.
Generalmente i bibliotecari sono all'oscuro degli sviluppi tecnologici nei sistemi di recupero dell'informazione, che pure hanno e avranno un gran peso nel loro lavoro quotidiano di intermediari dell'informazione. Il libro che riporta gli atti del British Computer Society Information Retrieval Specialist Group (BCSIRSG) può colmare questa lacuna, ma per essere compreso, poiché è scritto da informatici con un linguaggio tecnico che potrebbe risultare incomprensibile, va inquadrato nell'evoluzione attuale dei sistemi di recupero dell'informazione.
Sinteticamente, si può dire che dall'IR (information retrieval) si è passati al FTR (inteso dapprima come free text retrieval e successivamente come full text retrieval). La nuova generazione di sistemi di IR tende infatti a combinare le possibilità della ricerca con la gestione e la fornitura del documento a testo completo. Oltre a ciò l'architettura client/server ha reso disponibili interfacce per gli utenti più flessibili e più facili da usare della ricerca booleana.
Questa estensione di funzionalità ha aumentato la complessità dei sistemi di ricerca che sono oggi disponibili in commercio e che consentono non solo la semplice ricerca booleana ma anche la ricerca per peso dei termini, l'analisi di rilevanza dei risultati, la realizzazione di reti semantiche e il clustering automatico oltre ad applicazioni di gestione dei documenti. Questi sistemi di ricerca vanno però usati criticamente, cercando di sfruttare tutto quello che sanno fare meglio e non sottoutilizzandoli, cercando di fargli fare quello che fanno meno bene. Ad esempio, quello che questi sistemi fanno ancora non molto bene è la presentazione a video dei documenti. I primi sistemi FTR consentivano la gestione del documento come immagine, soluzione che dava possibilità migliori di visualizzazione oltre che garanzia di sicurezza sulla correttezza del testo, ma limitava le possibilità dell'indicizzazione, legata a una citazione bibliografica che era una descrizione breve del documento collegata all'immagine con un numero di riferimento. Se il testo non viene trattato come immagine, la scelta alternativa è gestire testi in ASCII o testi formattati con SGML. Nel caso di testi in ASCII i documenti sono visti come unico file sequenziale su cui si costruiscono gli indici di tutte le parole significative: è il caso della ricerca a testo libero. Nel caso di testi formattati (cioè con una struttura interna e non come unico archivio sequenziale), il testo è considerato e gestito o come testo narrativo o testo con tavole e immagini collegate e l'indicizzazione segue la formattazione del documento. CALS, una delle applicazioni presentate nel volume recensito, è uno dei primi esempi di gestione di documenti in SGML.
SGML (ISO 8879/9069) permette di dichiarare la struttura del documento non per la forma tipografica ma per le parti che compongono il testo, come ad esempio autore, sintesi, bibliografia; ciò consente di indicizzare la struttura del documento con facilità. Le convenzioni per la presentazione della pagina usate da altri standard, come ODA (Office Document Architecture), sono meno facili da gestire con gli FTR perché sono nate come estensioni dei sistemi di scrittura.
Quello che lo sviluppo dei nuovi motori di ricerca FTR sa fare proprio bene è l'indicizzazione. Usando varie tecniche arriva anche alla classificazione automatica di parti del documento. È un tema di attualità che è ripreso in più saggi del volume ed è anche il tema che suscita la maggiore diffidenza dei bibliotecari, giustamente gelosi delle loro competenze professionali tradizionali. Premesso che occorre naturalmente cautela nell'affidarsi ai nuovi sistemi di classificazione automatica, c'è però anche da considerare che nel campo della ricerca di documenti a testo pieno i bibliotecari non possono pensare di trasportare acriticamente la loro esperienza, acquisita nell'indicizzazione di citazioni bibliografiche di documenti. Le difficoltà e le esigenze di ricerca sono completamente diverse. Sarà opportuno studiare bene le nuove possibilità per usarle con creatività, integrando vecchie conoscenze e nuovi strumenti di lavoro. È quindi consigliabile la lettura nel volume della descrizione di alcuni prototipi (BEAD, IRAS, IMAGING) che realizzano un'indicizzazione dei documenti basata su schemi di classificazione, usati per attribuire ai documenti esaminati valori probabili in una certa categoria di soggetto. L'indicizzazione automatica può essere effettuata anche dallo stesso utente, che potrebbe costruirsi propri profili di ricerca durante la sessione di lavoro.
Un'area di attività molto promettente è nell'uso dell'ipertesto per aumentare le possibilità di ricerca o aggiungere collegamenti dal testo alle immagini. Uno strumento prima considerato alternativo all'IR, come l'ipertesto, è ora perfettamente integrato nella ricerca, arricchita delle possibilità di navigazione. Anche qui il volume presenta un'esperienza significativa condotta dall'Università di Sheffield, che ha applicato la teoria dei grafi per misurare la consistenza dei collegamenti ipertestuali, e una applicazione ipermediale costruita per gli orti botanici.
Partire da alcune applicazioni non è forse il modo migliore per farsi una conoscenza critica dei problemi degli FTR, ma è sicuramente utile per capire cosa fa un FTR. In particolare un FTR deve effettuare:
- l'indicizzazione automatica del linguaggio naturale in testi o formattati o liberi;
- la ricerca con and, or, not e con il troncamento per comprendere tutte le variazioni del lemma e i sinonimi oltre alle parole collegate al termine di ricerca dal tesauro;
- la ricerca non solo di parole ma anche di frasi nello stesso paragrafo o nell'intero testo con l'elencazione dei risultati in ordine di rilevanza;
- la navigazione tra legami ipertestuali;
- la visualizzazione selettiva di sezioni del documento e il contesto in cui si trovano i termini di ricerca;
- il passaggio a stampa oppure la trasmissione del file per rielaborazioni;
- la memorizzazione della strategia di ricerca e/o la possibilità di costruire un profilo di ricerca per riutilizzarlo in altre sessioni.
Concludendo, per costruire la biblioteca elettronica sarà necessario dotarsi di un FTR. Anzi, probabilmente molti bibliotecari dispongono già di un sistema simile, che però utilizzano (o meglio sottoutilizzano) per gli OPAC. Credo che quindi tutti potranno convenire con me che è urgente saperne di più degli FTR. Suscitare l'interesse in questo campo potrebbe essere davvero un risultato augurabile per questo volume.
Anna Maria Tammaro, Università di Firenze