Come mi vuoi, ordinale o espressiva? (KO in AIDAinfo)

ISKO Italia. Documenti

Come mi vuoi, ordinale o espressiva?

da AIDA informazioni, 28: 2010, n. 3-4, p. 107-111

di Claudio Gnoli

Nei suoi classici Prolegomena to library classification, Ranganathan si preoccupa di introdurre e definire molte nozioni di base per la teoria della classificazione. Giunto a trattare del concetto stesso di classificazione, il patriarca indiano afferma che la classificazione è innanzitutto "successione conveniente": una definizione che ci sorprende, dal momento che probabilmente il nostro archetipo di una classificazione ha l'aspetto di un albero gerarchico, più che di una serie ordinata di elementi. Ma per Ranganathan, prima ancora che dividere le classi in sottoclassi, è fondamentale porsi il problema della migliore sequenza in cui disporre una schiera (array) di classi sorelle.

E in fondo è proprio questo a distinguere una classificazione da un KOS organizzato alfabeticamente, come un tesauro o una tassonomia: il fatto che le voci siano presentate in un ordine sistematico invece che secondo i capricci dell'alfabeto nella particolare lingua adottata, che proiettano nelle prime posizioni l'anonimo oritteropo solo perché in inglese si chiama aardvark. L'ordine sistematico offre una guida concettuale in più agli utenti del sistema, che possono così navigare nella conoscenza secondo percorsi più coerenti ed intuitivi (seppure mai gli unici possibili): ad esempio nel caso che non si ricordino il nome di quello strano animale, ma solo il fatto che appartiene all'ordine dei tubulidentati... Purtroppo questa arte dell'ordinamento sembra oggi dimenticata da molti architetti dell'informazione, che danno per scontata una maggiore "amichevolezza" dell'ordine alfabetico, trascurando i pregi di una disposizione ordinata dei lunghi elenchi di voci nei quali anche su Internet ci imbattiamo continuamente.

Per fissare questo ordine preferito tra i concetti, occorre affiancare ai termini che li esprimono degli equivalenti simbolici, escogitati in modo tale che i concetti da elencare per primi abbiano simboli precedenti agli altri: se ad esempio utilizziamo cifre arabe, occorre che ai primi concetti siano assegnati simboli che iniziano con 1, 2 ecc., mentre agli ultimi simboli con ...8, 9; lo stesso varrà se utilizziamo lettere maiuscole con A, B ... Y, Z.

La scelta della base della notazione è naturalmente arbitraria; tuttavia essa influisce su alcune caratteristiche più o meno vantaggiose del sistema risultante: per esempio, essendo le lettere 26 anziché solo 10, utilizzandole si possono esprimere più concetti con meno simboli, ottenendo combinazioni mediamente più corte.

Ma per quanto generosa sia la base, potrà sempre succedere di dover rappresentare una schiera di concetti in numero maggiore dei simboli a disposizione. Per risolvere questo problema, il matematico Ranganathan introdusse l'artificio del simbolo vuoto: si stabilisce che l'ultimo simbolo della base, ad esempio il 9 fra le cifre, non abbia mai significato autonomo, ma introduca soltanto delle ulteriori classi sorelle: così se gennaio è 1, febbraio è 2 ecc., dopo aver superato agosto dovremo passare a 91 per indicare settembre, 92 per ottobre ecc., preservando in tal modo l'ordine corretto. È un sistema che risulta utile anche quando dobbiamo assegnare codici a un elenco di cui non conosciamo in anticipo la lunghezza, come una raccolta di fotografie digitali archiviate man mano che ne veniamo in possesso.

Una grande varietà di notazioni possibili venne passata in rassegna in una serie di articoli sul Journal of documentation da Brian Vickery, uno dei maggiori padri delle scienze dell'informazione scomparso nel 2009 dopo essere rimasto brillantemente attivo fin'oltre i novant'anni; della questione si occupò con originalità e acume anche il polacco Zygmunt Dobrowolski.

La familiare notazione della Classificazione Dewey, che utilizza solo dieci simboli, è fra le meglio congegnate: è tra l'altro il prototipo delle classificazioni decimali, nelle quali cioè l'aggiunta a destra di nuove cifre (o lettere o altro) corrisponde ad una maggiore specificità, come appunto succede con la precisione dei numeri decimali. Una tale classificazione è dunque espressiva, nel senso che esprime nella notazione la struttura delle sue sottoclassi, faccette e ausiliari comuni. Questi ultimi elementi possono essere differenziati dalle normali sottoclassi facendoli introdurre da un simbolo riservato (lo 0 in molte parti della Dewey) o da un intero insieme di simboli (i segni di punteggiatura nella CDU e nella Colon). Anche qui è importante la base notazionale che si adotta: ad esempio le faccette dovrebbero essere introdotte da simboli che precedano quelli delle sottoclassi, in quanto dovranno essere presentate prima di quelle, per le ragioni viste nella seconda puntata.

L'espressività risulta oggi molto utile anche per le applicazioni informatiche, in quanto troncando a destra i simboli nel punto desiderato si possono recuperare automaticamente tutte le voci corrispondenti a quel soggetto o a sue specificazioni: una funzione che risponde molto bene ai bisogni informativi tipici, che notoriamente sono espressi dagli utenti all'inizio di una ricerca in modo generico, e devono successivamente essere precisati attraverso processi di feedback.

La notazione espressiva è dunque una conquista tecnica il cui abbandono sembrerebbe folle. In realtà esiste un'alternativa, studiata dal Classification Research Group e adottata nella Classificazione Bliss: la notazione può essere soltanto ordinale (ossia progettata in modo da produrre l'ordine migliore, con le classi generali prima delle loro faccette e queste prima delle sottoclassi) pur abbandonando l'espressività, a favore di una massima brevità. La classe "società" è rappresentata dalla notazione KRS, mentre la sua sottoclasse "società illetterate" è KS, un simbolo più breve rispetto alla classe genitore, ma che verrà correttamente ordinato dopo di essa. Con questo sistema si può scegliere di assegnare notazioni brevi a classi specifiche usate più spesso delle corrispondenti più generali (es. "uomo" più di "ominidi"), cosa che secondo Dobrowolski si verifica spesso. L'assegnazione di codici di lunghezza ottimale e posizionati sempre nell'ordine corretto può essere anche automatizzata [S. Liu, Online classification notation, International classification, 17: 1990, n. 1, p. 14-20].

Anche le faccette nella Bliss non sono introdotte da simboli riconoscibili, sebbene spesso possano essere identificate perché iniziano con una lettera di valore inferiore alla precedente, mentre le sottoclassi hanno di solito lettere di valori superiori (notazione retroattiva) [E. Viti, La classe T "economia" nella Classificazione bibliografica Bliss, JLIS.it, 1: 2010, n. 2, p. 331–356]: infatti QLVEPXL "servizi bibliotecari a domicilio per anziani" è formato dalle faccette LV "anziani", EPX "servizi bibliotecari" e EL "assistenza a domicilio". Come si vede, un simbolo lodevolmente corto per un concetto complesso, anche se quasi nessun utente sarebbe in grado di interpretarlo osservando soltanto la notazione. La sua traduzione in concetti comprensibili e singolarmente recuperabili sarà dunque affidata interamente al catalogo.

D'altra parte, sfruttare una notazione di questo genere per l'estrazione di informazioni da una base-dati digitale è assai più difficile di quanto avvenga con le più prolisse ma lineari notazioni espressive: qui infatti non ci si può avvalere del troncamento per determinare un certo grado di specificità, perché lo stesso numero di caratteri può corrispondere a classi di specificità diversa; e la scomposizione nelle faccette componenti richiederebbe una programmazione piuttosto complessa, che potrebbe oltretutto rallentare l'elaborazione in fase di ricerca.

Entriamo così nell'interessante campo dello sfruttamento delle notazioni per il recupero e la presentazione di informazioni bibliografiche, studiato già da tempo [Proc. First Seminar on UDC in a mechanized retrieval system, R. Freeman & P. Atherton eds., Danish Centre for Documentation, 1969] ma purtroppo a tutt'oggi ben poco applicato, come ha mostrato l'indagine Opac semantici. In questa prospettiva, le notazioni più utili sono quelle che meglio corrispondono alla sequenza standard dei caratteri ASCII, utilizzata in via predefinita da quasi tutte le funzioni software di ordinamento di voci, nella quale le cifre precedono le lettere maiuscole, queste precedono le minuscole, e sono presenti i segni di punteggiatura più comuni ma non altri. Per questo non faremmo certo contento un informatico se gli chiedessimo di ordinare dei dati bibliografici secondo le classi principali della Colon, che comprendono una delta maiuscola per la classe "misticismo", che Ranganathan prescrive di ordinare fra la M e la N!

In realtà quasi tutto si può fare, quando si ha la possibilità di progettare degli script che elaborino nei modi desiderati le stringhe di testo delle notazioni. Un caso classico in cui questo è necessario è il corretto ordinamento degli intervalli di classi (span), come 5+6 "scienze pure e applicate" nella CDU: un ordinamento automatico inevitabilmente posizionerà questa classe composta dopo la classe 5 "scienze pure" (poiché naturalmente il + viene dopo il nulla), mentre invece dovrebbe comparire prima, per il principio che il generale deve precedere lo specifico! Si può allora intervenire a livello della base-dati, creando in un campo nascosto dei codici per l'ordinamento leggermente differenti da quelli della notazione, e richiedendo di ordinare in base a questi: si aggira così il problema, seppur perdendo la semplicità di ordinamento che era lo scopo originario della notazione stessa [A. Slavic, Faceted classification: management and use, Axiomathes, 18: 2008, n. 2, p. 257-271].

Questo tipo di realizzazioni ha però un costo in termini di tempo e di competenze richieste. Inoltre, anche se potrà arrivare a funzionare perfettamente per una particolare applicazione, occorrerebbe poi trasporla in sistemi diversi ogni volta che i dati di classificazione vengono condivisi in nuovi contesti, come abbiamo visto nella puntata scorsa accadere sempre più spesso nel Web. Di fatto invece molti enti che ricavano i dati bibliografici da altri raramente possiedono la specializzazione oppure l'autorità per intervenire su di essi. Quindi, per noi che viviamo in un mondo interoperabile, meglio un KOS che adotti fin dall'inizio una notazione espressiva e formata di soli caratteri standard.

Del resto i teorici della classificazione ripetono che la notazione è una componente autonoma, che non deve condizionare a priori la struttura dello schema come un letto di Procuste (non dobbiamo dividere ogni cosa sempre in dieci parti solo perché ci capita di avere dieci dita!). La struttura di classi, sottoclassi e faccette dovrebbe essere quella che meglio rispecchia i contenuti della conoscenza, e solo successivamente va creata una notazione che la rappresenti. Questo significa anche che è possibile staccare una notazione dal suo schema e crearne un'altra, più adatta alle esigenze informatiche, per rappresentare la stessa struttura. Con un'operazione del genere confonderemo gli utenti? Non necessariamente, dal momento la notazione non è fatta direttamente per loro, bensì per l'ordinamento meccanico sugli scaffali e nelle macchine; agli utenti dovremo ricordarci di fornire sempre una ricerca e una visualizzazione tramite gli equivalenti verbali.

Come mi vuoi, ordinale o espressiva? = ISKO Italia. Documenti. Organizzazione della conoscenza. 8 — <https://www.iskoi.org/doc/rubrica8.htm> : 2023.08.10 -