ISKO Italia. Partecipazione al GRIS2

Indici semantici e ricerca nel catalogo elettronico

Andrea Fabbrizzi

(GRIS: Gruppo di ricerca sull'indicizzazione per soggetto)

testo dell'intervento al seminario "L'indicizzazione semantica nei cataloghi italiani", organizzato dalla Sezione Toscana dell'AIB e dalla Biblioteca nazionale centrale di Firenze, Firenze, Biblioteca nazionale centrale, 13 settembre 2004

versione provvisoria


In questo intervento sono trattati alcuni aspetti della ricerca per soggetto e per classe negli opac, sulla base delle funzioni che vengono attribuite al catalogo elettronico.

1: Le funzioni del catalogo

L'opac è il catalogo elettronico, come lo vede e lo utilizza il suo destinatario, il pubblico. Secondo il draft delle Guidelines for OPAC displays, le visualizzazioni degli opac devono essere disegnate per servire le funzioni del catalogo, e, in ultima analisi, per soddisfare i bisogni informativi degli utenti delle biblioteche [1].

Le Guidelines for OPAC displays fanno riferimento al rapporto FRBR [2], che intende "fornire uno schema ben definito e strutturato con chiarezza per correlare i dati che vengono registrati in record bibliografici ai bisogni degli utenti di quei record" (2.1), e definisce quattro funzioni/esigenze generiche dell'utente, in relazione agli usi più comuni che l'utente fa dei dati. Sono anche le funzioni dell'opac:

La Dichiarazione di principi internazionali di catalogazione (bozza finale, 19 dicembre 2003, approvata da IFLA Meeting of Experts on an International Cataloguing Code, IMEICC, Francoforte), esamina le funzioni del catalogo dal punto di vista dell'utente, riprende le funzioni utente definite da FRBR ne aggiunge una quinta:

Nella Dichiarazione di principi internazionali di catalogazione, sotto la funzione "trovare" sono elencate, attualizzate, le tradizionali funzioni del catalogo (3.1):

"Le funzioni del catalogo devono consentire all'utente:

Queste funzioni sono riconducibili fondamentalmente a due:

Per soddisfare la funzione di reperimento e la funzione organizzativa (in particolare la seconda) sono necessari indici controllati, che devono essere univoci (in modo da differenziare punti di accesso simili), e uniformi, in modo che il medesimo attributo che accomuna più oggetti bibliografici sia individuato in un solo modo in tutto il catalogo.

2: La ricerca sui soggetti alfabetici

Tratterò in particolare  una  modalità di ricerca che il GRIS ha chiesto di inserire nella lista di controllo dell'indagine Opac semantici: la ricerca per termine e stringa.

Si tratta di una ricerca a due stadi, la quale prevede che il passaggio dai termini di indicizzazione alle notizie bibliografiche sia mediato dalla rappresentazione dei soggetti a cui ciascun termine di indicizzazione è collegato.

Questo tipo di ricerca era già stata raccomandato nel 1985 dal Gruppo di ricerca indicizzazione per soggetto - SBN [5], e dalle precedenti Guidelines [6].

2.1: Termini di indicizzazione

Ma prima di tutto occorre chiarire il significato di "termine". Per la Guida all'indicizzazione per soggetto, nel progetto per il Nuovo soggettario e anche per la norma ISO 2788 sui thesauri [7], il termine di indicizzazione è la rappresentazione lessicale di un concetto utilizzato nell'indicizzazione, sotto forma di nome o sintagma nominale; come tale, oltre che di una o più stringhe, fa parte del vocabolario controllato, organizzato nelle relazioni del thesaurus.

Il termine di indicizzazione può essere un nome proprio: in questo caso, piuttosto che rappresentare un concetto, indica una precisa entità individuale [8].

Il termine di indicizzazione può essere un termine preferito, di norma utilizzato nelle stringhe di soggetto, oppure un termine non preferito, che costituisce un punto di accesso collegato nel vocabolario a un termine preferito. Ad ogni termine preferito corrisponde un'entità, concetto o individuo, e non ci sono due forme per la stessa entità (uniformità) o due entità rappresentate dalla stessa forma (univocità).

Una stringa di soggetto è composta di uno o più termini di indicizzazione. Il controllo si esercita sui singoli termini di indicizzazione, non sulle intere stringhe di soggetto, tantomeno sulle singole parole di cui un termine, ad esempio Politica economica, può essere costituito (termine composto).

Se per una stringa GRIS il controllo dovrebbe riguardare non la stringa nel suo complesso ma le espressioni significative in essa contenute, che possono essere anche composte, per una voce di soggetto tradizionale si può dire che dal punto di vista della ricerca la situazione non è molto diversa. Per esempio, nella voce di soggetto:

Donna nella letteratura drammatica inglese

i termini significativi dovrebbero essere Donna e Letteratura drammatica inglese; del tutto irrilevanti o scarsamente significative sono le singole parole: "nella", "letteratura", "drammatica", "inglese".

In opac, la ricerca per parola su termini composti che rappresentano o indicano precise entità disperde il significato contenuto nelle espressioni controllate. Così, ad esempio, se si effettua una ricerca per parola nel campo soggetti con la stringa di caratteri "casa", si possono ottenere in risposta documenti che contengono nelle stringhe di soggetto termini di indicizzazione di assai diverso significato, come:

Casa Buonarroti
Aragona <casa>
Beck <casa editrice>

L'individuazione e selezione da parte di un sistema automatico della parola "casa" produce rumore nella ricerca, perché spezza l'unità delle espressioni significative, dissolve gli indici, e vanifica almeno in parte il lavoro di controllo, spesso complesso, degli indicizzatori, che aveva portato a costruire la stringa utilizzando certe espressioni linguistiche e non altre.

2.2: Stringhe di soggetto

Nella risposta a un'interrogazione, la presentazione dell'elenco delle stringhe di soggetto collegate a un particolare termine di indicizzazione permette all'utente di scegliere il soggetto tra quelli che condividono uno stesso termine di indicizzazione, per poi ottenere le registrazioni bibliografiche che si riferiscono alle opere alle quali quel soggetto è attribuito: in questo modo realizza la funzione "selezionare" di FRBR.

La stringa descrive l'entità oggetto della ricerca, il soggetto, ma gli opac in genere omettono di presentare l'unico passaggio che lo evidenzia, l'elenco delle stringhe di soggetto che contengono lo stesso termine di indicizzazione, e di fatto tolgono all'utente la possibilità di scegliere il soggetto che lo interessa.

La ricerca per parola sui campi soggetto può essere realmente efficace rispetto alla funzione organizzativa del catalogo, solo se è integrata con la ricerca per termini. A cascata, vengono mostrati:

Un esempio: da una ricerca per parola con troncamento, con la stringa "politic" si ottengono i seguenti termini di indicizzazione:

Politica economica
Politiche sociali

L'utente sceglie il secondo; nella ricerca successiva, con "politiche sociali" si ottengono le seguenti stringhe di soggetto:

Famiglie – Politiche sociali – Modena (Provincia)
Famiglie di madri e figli – Politiche sociali
Natalità – Effetti delle politiche sociali – Italia

Fra esse l'utente può scegliere la stringa o le stringhe di soggetto più vicine ai suoi interessi di ricerca, ed ottenere tutte le registrazioni bibliografiche ad essa associate.

Se a un termine di indicizzazione corrispondono molte stringhe di soggetto (più di una schermata), si può ipotizzare un ulteriore passaggio nella visualizzazione: prima si possono visualizzare le stringhe con i soli elementi nucleari [9]; in un secondo tempo l'utente può richiedere tutte le stringhe corrispondenti a una particolare stringa composta di soli elementi nucleari. Questa modalità di ricerca è possibile se nei formati per la registrazione dei dati bibliografici e di autorità sono individuati i termini di indicizzazione per i concetti extranucleari. In UNIMARC ai concetti extranucleari corrispondono sottocampi diversi da quelli nei quali sono contenuti i termini di indicizzazione per i concetti nucleari: $y, luogo geografico; $z, tempo; $j, forma.

2.3: La registrazione dei dati

Attualmente, nessun opac offre all'utente la possibilità di una ricerca per soggetto per passaggi successivi, con le caratteristiche sopra esposte [10]. Per quale ragione?

In genere i termini di indicizzazione non sono registrati in quanto tali nel record bibliografico e nel record di autorità (quando esiste un archivio di autorità: il controllo di autorità non è ancora una pratica diffusa nelle biblioteche italiane, anche se il formato internazionale UNIMARC/Authorities è stato pubblicato ormai da molti anni [11]).

Le modalità di registrazione dei dati nei formati bibliografici seguono ancora la distinzione tradizionale tra prima voce e suddivisioni, efficace nel catalogo cartaceo che prevedeva l'accesso solo secondo l'ordinamento alfabetico, ma del tutto inadeguata al catalogo elettronico, che permette il controllo e la ricerca per singoli termini anche all'interno della stringa di soggetto.

In genere, le entità registrate nel formato bibliografico sono le espressioni all'inizio della stringa di soggetto fino al primo trattino (prima voce), oppure comprese fra due trattini (suddivisioni): in SBN queste stringhe di caratteri sono chiamate descrittori. Essi possono coincidere con il termine di indicizzazione, e quindi rappresentare un concetto unitario o indicare un'entità individuale, ma in molti casi non coincidono affatto.

Le voci di soggetto tradizionali, come si è già visto con l'esempio Donna nella letteratura drammatica inglese, possono contenere più di una espressione di significato unitario e anche parole non significative; nelle stringhe GRIS è prevista la presenza di elementi aggiuntivi, i connettivi, preposizioni, locuzioni e congiunzioni che servono a legare un termine di indicizzazione a quello successivo, favorendo la corretta interpretazione della stringa di soggetto.

Le stringhe GRIS spesso sono registrate come se fossero composte di descrittori. Se i termini di indicizzazione non si possono registrare in quanto tali, non si possono neanche visualizzare isolatamente.

Gli esempi che seguono mostrano registrazioni di stringhe di soggetto compilate in base alla Guida all'indicizzazione per soggetto in campi codificati secondo UNIMARC. I connettivi e i termini di indicizzazione non controllati sono in corsivo:

$aFamiglie – $xPolitiche sociali – $yModena (Provincia)
$aFamiglie di madri e figli – $xPolitiche sociali
$aNatalità – $xEffetti delle politiche sociali – $yItalia
$aUnione Europea – $xPolitica economica – $xInflusso dei bisogni dei bambini

Un esempio tratto dall'opac dell'Università di Firenze: browse su soggetto, ricerca della parola "ruolo": si ottiene la seguente lista di  descrittori:

Ruolo degli alimenti
Ruolo degli animali
Ruolo degli archeologi francesi
Ruolo degli artisti
Ruolo degli elaboratori elettronici
Ruolo degli enti locali
Ruolo degli imprenditori
Ruolo degli intellettuali
Ruolo degli intellettuali bizantini
Ruolo degli intellettuali cattolici
Ruolo degli organi di senso
Ruolo degli ormoni
Ruolo degli ormoni sessuali
Ruolo degli Stati Uniti d'America
Ruolo degli ufficiali giudiziari
Ruolo dei campionati sportivi
Ruolo dei caratteri sessuali secondari
Ruolo dei chelati
Ruolo dei comuni
Ruolo dei desmodontidi
Ruolo dei feromoni
Ruolo dei genitori
Ruolo dei lavoratori

Nessuno di questi descrittori ha, in quanto tale, interesse per il controllo terminologico e per la ricerca. Non ha alcun interesse, ad esempio, Ruolo degli alimenti, e non è isolabile il termine di indicizzazione Alimenti in esso contenuto, che sarebbe invece significativo.

Le espressioni con significato unitario, i termini di indicizzazione, e gli elementi aggiuntivi devono essere individuati e registrati in quanto tali, se si vuole successivamente ottenere una ricerca precisa ed esaustiva: questo con le correnti modalità di registrazione dei dati non è possibile.

Prima di riguardare gli opac, l'arretratezza dei nostri cataloghi riguarda dunque i formati e le modalità di registrazione dei dati catalografici, che spesso non permettono di distinguere nelle stringhe di soggetto le espressioni che dovrebbero essere oggetto del controllo terminologico e della ricerca, siano esse formulate in base alla Guida all'indicizzazione per soggetto oppure secondo il Soggettario di Firenze [12].

 

[segue discussione della ricerca per classi]

Note

1: Guidelines for online public access catalogue (OPAC) displays : September 30, 2003 draft for worldwide review, p. 8. Il Final report è del maggio 2005 (München: Saur).

2: Functional requirements for bibliographic records : final report / IFLA study group on the functional requirements for bibliographic records ; approved by the Standing committee of the IFLA section on cataloguing. München : Saur, 1998.

3: Guidelines for online public access catalogue (OPAC) displays : September 30, 2003 draft for worldwide review, p. 8-9.

4: Dichiarazione di principi internazionali di catalogazione. Bozza finale, 19 dicembre 2003, 3.5 [traduzione italiana, <http://www.ddb.de/standardisierung/pdf/statement_italian.pdf>].

5: Cf. Bilancio di un lavoro di ricerca / Gruppo di ricerca indicizzazione per soggetto - SBN, in: Il recupero dell'informazione : atti del Convegno-Esposizione bibliografica "Indicizzazione per soggetto e automazione", Trieste, 21-22 ottobre 1985 / a cura di Adriano Dugulin, Antonia Ida Fontana, Annamaria Zecchia.

6: Guidelines for OPAC display, prepared for the IFLA task force on Guideline for OPAC display by Martha M. Yee. IFLA, november 1998.

7: Guidelines for the establishment and development of monolingual thesauri / International organization for standardization; traduzione italiana: Linee guida per la costruzione e lo sviluppo di thesauri monolingue. 1993.

8: "Il nome proprio svolge la funzione di indicare un'entità individuale senza specificare alcuna caratteristica dell'entità denominata", Guida all'indicizzazione per soggetto, p. 77.

9: Gli elementi nucleari costituiscono il nucleo del soggetto e ne rappresentano i concetti essenziali, cf. Guida all'indicizzazione per soggetto, cit., p. 24

10: Si vedano i risultati dell'indagine Opac semantici, <http://www-dimat.unipv.it/biblio/sem/risultati.htm>, Tipo di accesso per soggetti, U: Per termine e stringa.

11: UNIMARC/authorities : universal format for authorities / recommended by the IFLA steering group on a UNIMARC format for A ; approved by the Standing committees of the IFLA sections on cataloguing and information technology. München ; London : Saur, 1991.

12: Questo problema è trattato in uno studio di caso riguardante il software CDS-ISIS Teca, L'applicazione delle norme GRIS in CDS-ISIS TECA / di Andrea Fabbrizzi. <http://www-dimat.unipv.it/biblio/sem/gris-isis.rtf>.

 


Indici semantici e ricerca nel catalogo elettronico / Andrea Fabbrizzi = (ISKO Italia. Partecipazione al GRIS2) -- <http://www.iskoi.org/doc/catalogo.htm> : 2006.10.10 -