ISKO Italia. Documenti

Organizzazione della conoscenza

Come mi vuoi, sciolto o coordinato?

da AIDA informazioni, 27: 2009, n. 1-2, p. 63-67

di Claudio Gnoli


Al momento di cominciare questa puntata della rubrica ho aperto Del.icio.us, il famoso sito in cui è possibile condividere le proprie pagine web preferite etichettandole a piacere (social bookmarking), e ho guardato il primo segnalibro della lista: era intitolato "Memory step 1", e la comunità degli utenti l'aveva indicizzato con i tag memory, lifehacks, productivity, tips, howto. Come dire, si trattava di un sito che ha a che fare con la memoria, la soluzione di piccoli problemi quotidiani, la produttività, suggerimenti, e istruzioni. D'accordo, ma vi ha a che fare in che modo?

I tag non ce lo dicono, restano nel vago. Infatti per loro natura sono un sistema di organizzazione della conoscenza post-coordinato: i vari elementi del soggetto non sono connessi fra loro già al momento di indicizzare (come avverrebbe in un sistema pre-coordinato), ma concorrono a formare il soggetto solo a posteriori, quando l'utente li esamina. La risorsa presentata parla dunque di qualcosa che sta all'intersezione di memoria, soluzioni, produttività eccetera. Considerando queste parole-chiave tutte insieme possiamo farci un'idea del tipo di contenuto, anche se non ci viene detto esplicitamente se si tratti di suggerimenti PER la memoria, o della memoria DI suggerimenti, o altra combinazione (di fatto, la pagina in questione illustra un metodo rapido per memorizzare dei numeri convertendoli in parole significative).

È un po' la medesima differenza che passa tra usare i termini di un tesauro in modo sciolto, elencandoli uno dopo l'altro, oppure connetterli secondo le regole sintattiche di un soggettario. Tra avere, per usare un esempio della Guida GRIS, i due termini elaboratori elettronici e previsioni meteorologiche, oppure la stringa di soggetto previsioni meteorologiche – impiego degli elaboratori elettronici.

La stringa di soggetto aggiunge informazioni rispetto ai termini sciolti, perché esprime anche le relazioni che sussistono fra di loro, sia attraverso un ordine di citazione standard (prima va il concetto centrale, poi lo strumento utilizzato) sia attraverso adeguati connettivi ("impiego degli").

E che dire delle classificazioni? Normalmente sono pre-coordinate, in quanto esprimono le varie faccette di una classe nel loro ordine convenzionale, in modo da assegnare a ciascun documento una posizione precisa e prevedibile. Quando però lo scopo, più che mettere in fila i volumi sugli scaffali, è permettere il recupero da un archivio digitale, si può anche scegliere di elencare diverse classi pertinenti al documento senza specificare la relazione fra loro. Questa soluzione viene impiegata efficacemente in alcuni OPAC, come lo svizzero NEBIS [Pika, Tecniche di ricerca di documenti basati sulla CDU in un OPAC multilingue svizzero, ISKO Italia, 2007]; a ciascun documento sono associati da due a sette codici della Classificazione decimale universale che concorrono a descriverne il soggetto: per un libro che parla di elefanti e mammuth e della loro evoluzione abbiamo:

569.064 proboscidati (paleozoologia)
599.064.3 elefanti (zoologia)
59.017.2 evoluzione (animali)

Indicizzare il libro con una sola di queste classi, supponiamo quella zoologica, ci avrebbe costretto a escludere altri aspetti a essa collegati, come quelli paleontologico ed evoluzionistico; la questione è connessa al problema della costrittività delle discipline, che abbiamo discusso nella puntata precedente.

Le classificazioni usate in questo modo furono chiamate da Jean-Claude Gardin classificazioni libere, in quanto i diversi elementi concettuali vi sono combinati liberamente l'uno con l'altro [Classification research: proc. second International Study Conference, Elsinore, 1964, ed. P. Atherton, p. 161-176]. Gardin ne discusse pregi e difetti rispetto alle classificazioni a faccette, nelle quali invece si possono combinare soltanto gli elementi previsti all'interno di ciascuna classe, e necessariamente secondo l'ordine prescritto. Le classificazioni libere, e in genere i sistemi post-coordinati, si prestano molto bene al recupero in ambiente digitale: è infatti grazie alla medesima logica che in una folksonomia possiamo estrarre tutti i segnalibri in cui ricorre il tag memory combinato con qualsiasi altro; o nella Wikipedia tutte le voci associate alla categoria Georgian film directors insieme a qualsiasi altra (1934 births, living people, ecc.).

La post-coordinazione, come abbiamo notato, non ci índica il tipo di relazioni fra un concetto e l'altro. In molti casi, tutto sommato, queste relazioni non sono strettamente necessarie. Vedendo i termini turbíne, rotori, vibrazione e affaticamento, intuiamo facilmente anche il senso della loro connessione: non può che trattarsi dell'affaticamento DEI rotori DELLE turbine CAUSATO DA vibrazione. Nei primi anni Sessanta alcuni documentalisti inglesi condussero un'accurata serie di esperimenti presso il collegio di aeronautica di Cranfield, passati alla storia come i Cranfield Test, dai quali emerse che una classificazione a faccette offriva più o meno le medesime prestazioni di recupero di altri sistemi meno sofisticati, comprese le parole-chiave. Perché quindi investire tempo e risorse indicizzando in modo accurato, quando delle rozze parole-chiave ci offrono quasi il medesimo servizio?

Ma attenzione: non sempre le relazioni fra i concetti sono così scontate. Hjørland osserva che chi cercasse documenti su "figli di genitori ciechi" usando solo i termini figli, genitori e ciechi otterrebbe una gran quantità di materiale sulla combinazione di concetti più spesso discussa in letteratura, ossia i genitori di figli ciechi, che però in questo caso non è pertinente! Già Derek Austin notò che «in molte situazioni dell'indicizzazione non possiamo conoscere il ruolo di un concetto se non abbiamo prima individuato il contesto in cui è usato. Ciò può verificarsi in due modi: (1) quando stiamo indicizzando in un àmbito trasversale a diverse discipline, sicché, anche se il significato di un termine rimane costante, noi non siamo in grado di dedurne il ruolo supponendo come quadro di riferimento un singolo campo di studio; (2) quando abbiamo a che fare con un campo semantico di concetti soffici.

La prima di queste situazioni si può mostrare considerando termini come stampa, storia e bibliografie, che possono essere connessi l'uno all'altro in diversi modi, veicolanti soggetti alquanto differenti. Se questi termini venissero presentati a un utente come un insieme di parole-chiave non connesse, egli non avrebbe modo di distinguere fra, supponiamo, "storia delle bibliografie della stampa" e "stampa di bibliografie della storia" — nessuno dei quali sarebbe considerato rilevante dal lettore che avesse richiesto una "bibliografia sulla storia della stampa"...».

Il secondo caso riguarda invece le scienze soffici, corrispondenti perlopiù alle discipline sociali e umanistiche, che Austin contrappone a quelle dure come la geologia o l'ingegneria: «È stato considerato prima che un utente a conoscenza del significato comunemente accettato di termini come turbíne, rotori, affaticamento e vibrazione sarebbe anche in grado di dedurre la relazione corretta fra loro. Ma di termini quali società, responsabilità e famiglia sembrano esserci tante definizioni quanti sono i filosofi e i sociologi; e questi concetti possono essere interconnessi in una varietà di modi, che rappresentano soggetti alquanto diversi e tutti ugualmente validi. Ne deriva che qualsiasi indice proponesse ai suoi utenti concetti di questo genere come insieme di termini non collegati meriterebbe pienamente la reputazione di sistema rumoroso» [Itself an education, 2nd ed., Library association, 1971, p. 86-88].

Ecco allora che, quando si ha bisogno di un'indicizzazione accurata, ad esempio in una bibliografia specializzata di articoli, è importante esprimere anche le relazioni fra i concetti, come permette di fare un sistema a faccette. Ma come evitare nel medesimo tempo di perdere i vantaggi della classificazione libera per la ricerca in ambiente digitale, evidenziati da Gardin? Austin concepì un sistema che fosse entrambe le cose, sia libero sia a faccette, e lo chiamò freely faceted classification. In questo tipo di KOS, ogni concetto è espresso da una notazione costante, ed è quindi recuperabile autonomamente, ma le sue relazioni con altri concetti sono indicate da una sorta di faccette dette operatori di ruolo, ispirati alla teoria generale dei sistemi. I concetti, rappresentati da lettere e cifre, possono essere connessi a piacere tramite gli operatori di ruolo, scritti fra parentesi:

V67  bottiglie (classe)
V67(2)U66  tappi PER bottiglie (sottosistema)
V67(5)Z96  lavaggio DI bottiglie (effetto)
V67(5)Z96(4)T3  macchine PER lavaggio DI bottiglie (agente)

Di questo passo, Austin e i suoi colleghi del Classification Research Group avevano in mente di sviluppare un nuovo schema di classificazione, caratterizzato dalla sintassi a faccette libere. Per un insieme di ragioni, fra cui l'esaurimento di finanziamenti NATO, quel sistema però non vide mai la luce, e si tornò a un meno rivoluzionario approccio a faccette disciplinari: nacque così, soprattutto grazie a Jack Mills, la seconda edizione della Classificazione bibliografica di Bliss. Della classificazione a faccette libere si è riparlato a un recente incontro di ISKO Gran Bretagna intitolato "Ranganathan revisited", i cui interventi si possono ascoltare in Rete.

Austin invece fu assunto dalla British National Bibliography, e là tradusse il suo meccanismo a faccette libere in un sistema di indicizzazione per soggetti verbali, il PRECIS, Preserved Context Indexing System. Il sistema degli operatori venne codificato nei calcolatori, in modo che gli indicizzatori potessero specificare le relazioni fra i concetti componenti ciascuna stringa di soggetto: da queste la macchina poteva ricavare automaticamente delle stringhe ruotate, in cui a turno era messo in evidenza un termine o un altro, conservando sempre la correttezza e l'intelligibilità delle relazioni sintattiche.

Questo ingegnoso sistema era chiaramente legato alla lingua inglese, nella quale erano espressi i termini e i loro connettivi. Austin ipotizzava però che lo si potesse trasporre anche in altre lingue, ispirandosi con grande modernità culturale alla grammatica generativa di Chomsky, secondo la quale esisterebbe una struttura logica profonda degli enunciati comune a tutte le lingue [A. Cheti, "Biblioteche oggi", 8, 1990, n. 1, p. 29-49]. Perciò si propose di sperimentare il PRECIS in altre lingue, volutamente anche lontane dall'inglese, come il ceco e il singalese: viaggiò per il mondo tenendo corsi sul sistema e seguendone le sperimentazioni in diversi contesti nazionali. La possibilità di una versione italiana fu studiata a fondo da Diego Maltese e Alberto Petrucciani [Un'esperienza di indicizzazione per soggetto, AIB, 1990], mentre agli insegnamenti di Austin invece fu assunto dalla British National Bibliography, e là tradusse il suo Questo ingegnoso sistema era chiaramente legato alla lingua inglese, nella quale erano Austin si ispirò il Gruppo di ricerca sull'indicizzazione per soggetto di Alberto Cheti, Daniele Danesi e altri, che ha prodotto la già citata Guida e sta ora informando la struttura del Nuovo Soggettario.

L'approccio sintattico del PRECIS aveva già avuto antecedenti nella pionieristica indicizzazione relazionale concepita da Jason Farradane negli anni Sessanta, e nel Syntol applicato da Gardin negli anni Sessanta a documentazione specializzata francese. In America settentrionale Timothy Craven pubblicò il NEPHIS, Nested Phrase Indexing System. Anche in India i continuatori di Ranganathan hanno applicato il suo metodo di analisi a faccette a uno strumento verbale, il POPSI di Ganesh Bhattacharyya.

Come si può intuire, questi sistemi molto sofisticati da un lato permettono prestazioni di recupero eccellenti, dall'altro comportano una discreta complessità di gestione e di applicazione. Abbiamo visto che tale complessità in certi casi può risultare superflua, mentre in altri sarebbe estremamente utile. La sfida attuale sembra dunque quella di coniugare le tecniche più evolute sviluppate dalla ricerca dei decenni passati con la sostenibilità e l'immediatezza d'uso. Chissà che non sia possibile farlo applicando in modo illuminato la potenza di calcolo e la diffusione capillare che oggi abbiamo in mano a costi minimi grazie al Web, ai wiki, ai programmi e i linguaggi di programmazione open source? Se li avessimo dati in mano a Ranganathan e Austin, che cosa ne avrebbero fatto?...

 


Come mi vuoi, sciolto o coordinato? = ISKO Italia. Documenti. Organizzazione della conoscenza. 5 — <http://www.iskoi.org/doc/rubrica5.htm> : 2016.07.06 -