ISKO Italia. Documenti
Home page | Iscrizione | Documenti | Bibliografia | Collegamenti |
---|
Organizzazione della conoscenza
Nei suoi classici Prolegomena to library classification, Ranganathan si preoccupa di introdurre e definire molte nozioni di base per la teoria della classificazione. Giunto a trattare del concetto stesso di classificazione, il patriarca indiano afferma che la classificazione è innanzitutto "successione conveniente": una definizione che ci sorprende, dal momento che probabilmente il nostro archetipo di una classificazione ha l'aspetto di un albero gerarchico, più che di una serie ordinata di elementi. Ma per Ranganathan, prima ancora che dividere le classi in sottoclassi, è fondamentale porsi il problema della migliore sequenza in cui disporre una schiera (array) di classi sorelle.
E in fondo è proprio questo a distinguere una classificazione da un KOS organizzato alfabeticamente, come un tesauro o una tassonomia: il fatto che le voci siano presentate in un ordine sistematico invece che secondo i capricci dell'alfabeto nella particolare lingua adottata, che proiettano nelle prime posizioni l'anonimo oritteropo solo perché in inglese si chiama aardvark. L'ordine sistematico offre una guida concettuale in più agli utenti del sistema, che possono così navigare nella conoscenza secondo percorsi più coerenti ed intuitivi (seppure mai gli unici possibili): ad esempio nel caso che non si ricordino il nome di quello strano animale, ma solo il fatto che appartiene all'ordine dei tubulidentati... Purtroppo questa arte dell'ordinamento sembra oggi dimenticata da molti architetti dell'informazione, che danno per scontata una maggiore "amichevolezza" dell'ordine alfabetico, trascurando i pregi di una disposizione ordinata dei lunghi elenchi di voci nei quali anche su Internet ci imbattiamo continuamente.
Per fissare questo ordine preferito tra i concetti, occorre affiancare ai termini che li
esprimono degli equivalenti simbolici, escogitati in modo tale che i concetti da elencare per primi
abbiano simboli precedenti agli altri: se ad esempio utilizziamo cifre arabe, occorre che ai primi
concetti siano assegnati simboli che iniziano con 1
, 2
ecc., mentre agli ultimi simboli con ...8
, 9
;
lo stesso varrà se utilizziamo lettere maiuscole con A
, B
... Y
, Z
.
La scelta della base della notazione è naturalmente arbitraria; tuttavia essa influisce su alcune caratteristiche più o meno vantaggiose del sistema risultante: per esempio, essendo le lettere 26 anziché solo 10, utilizzandole si possono esprimere più concetti con meno simboli, ottenendo combinazioni mediamente più corte.
Ma per quanto generosa sia la base, potrà sempre succedere di dover rappresentare una
schiera di concetti in numero maggiore dei simboli a disposizione. Per risolvere questo
problema, il matematico Ranganathan introdusse l'artificio del simbolo vuoto: si stabilisce che
l'ultimo simbolo della base, ad esempio il 9
fra le cifre, non abbia mai significato autonomo, ma
introduca soltanto delle ulteriori classi sorelle: così se gennaio è 1
, febbraio è 2
ecc., dopo aver
superato agosto dovremo passare a 91
per indicare settembre, 92
per ottobre ecc.,
preservando in tal modo l'ordine corretto. È un sistema che risulta utile anche quando dobbiamo
assegnare codici a un elenco di cui non conosciamo in anticipo la lunghezza, come una raccolta
di fotografie digitali archiviate man mano che ne veniamo in possesso.
Una grande varietà di notazioni possibili venne passata in rassegna in una serie di articoli sul Journal of documentation da Brian Vickery, uno dei maggiori padri delle scienze dell'informazione scomparso nel 2009 dopo essere rimasto brillantemente attivo fin'oltre i novant'anni; della questione si occupò con originalità e acume anche il polacco Zygmunt Dobrowolski.
La familiare notazione della Classificazione Dewey, che utilizza solo dieci simboli, è fra le
meglio congegnate: è tra l'altro il prototipo delle classificazioni decimali, nelle quali cioè
l'aggiunta a destra di nuove cifre (o lettere o altro) corrisponde ad una maggiore specificità,
come appunto succede con la precisione dei numeri decimali. Una tale classificazione è dunque
espressiva, nel senso che esprime nella notazione la struttura delle sue sottoclassi, faccette e
ausiliari comuni. Questi ultimi elementi possono essere differenziati dalle normali sottoclassi
facendoli introdurre da un simbolo riservato (lo 0
in molte parti della Dewey) o da un intero
insieme di simboli (i segni di punteggiatura nella CDU e nella Colon). Anche qui è importante la
base notazionale che si adotta: ad esempio le faccette dovrebbero essere introdotte da simboli
che precedano quelli delle sottoclassi, in quanto dovranno essere presentate prima di quelle,
per le ragioni viste nella seconda puntata.
L'espressività risulta oggi molto utile anche per le applicazioni informatiche, in quanto troncando a destra i simboli nel punto desiderato si possono recuperare automaticamente tutte le voci corrispondenti a quel soggetto o a sue specificazioni: una funzione che risponde molto bene ai bisogni informativi tipici, che notoriamente sono espressi dagli utenti all'inizio di una ricerca in modo generico, e devono successivamente essere precisati attraverso processi di feedback.
La notazione espressiva è dunque una conquista tecnica il cui abbandono sembrerebbe
folle. In realtà esiste un'alternativa, studiata dal Classification Research Group e adottata nella
Classificazione Bliss: la notazione può essere soltanto ordinale (ossia progettata in modo da
produrre l'ordine migliore, con le classi generali prima delle loro faccette e queste prima delle
sottoclassi) pur abbandonando l'espressività, a favore di una massima brevità. La classe
"società" è rappresentata dalla notazione KRS
, mentre la sua sottoclasse "società illetterate" è KS
, un simbolo più breve rispetto alla classe genitore, ma che verrà correttamente ordinato dopo di essa. Con questo sistema si può scegliere di assegnare notazioni brevi a classi specifiche usate più spesso delle corrispondenti più generali (es. "uomo" più di "ominidi"), cosa che secondo Dobrowolski si verifica spesso. L'assegnazione di codici di lunghezza ottimale e posizionati sempre nell'ordine corretto può essere anche automatizzata [S. Liu, Online
classification notation, International classification, 17: 1990, n. 1, p. 14-20].
Anche le faccette nella Bliss non sono introdotte da simboli riconoscibili, sebbene spesso
possano essere identificate perché iniziano con una lettera di valore inferiore alla precedente,
mentre le sottoclassi hanno di solito lettere di valori superiori (notazione retroattiva) [E. Viti, La
classe T
"economia" nella Classificazione bibliografica Bliss, JLIS.it, 1: 2010, n. 2, p. 331–356]: infatti QLVEPXL
"servizi bibliotecari a domicilio per anziani" è formato dalle faccette LV
"anziani", EPX
"servizi
bibliotecari" e EL
"assistenza a domicilio". Come si vede, un simbolo lodevolmente corto per un
concetto complesso, anche se quasi nessun utente sarebbe in grado di interpretarlo
osservando soltanto la notazione. La sua traduzione in concetti comprensibili e singolarmente
recuperabili sarà dunque affidata interamente al catalogo.
D'altra parte, sfruttare una notazione di questo genere per l'estrazione di informazioni da una base-dati digitale è assai più difficile di quanto avvenga con le più prolisse ma lineari notazioni espressive: qui infatti non ci si può avvalere del troncamento per determinare un certo grado di specificità, perché lo stesso numero di caratteri può corrispondere a classi di specificità diversa; e la scomposizione nelle faccette componenti richiederebbe una programmazione piuttosto complessa, che potrebbe oltretutto rallentare l'elaborazione in fase di ricerca.
Entriamo così nell'interessante campo dello sfruttamento delle notazioni per il recupero e
la presentazione di informazioni bibliografiche, studiato già da tempo [Proc. First Seminar on
UDC in a mechanized retrieval system, R. Freeman & P. Atherton eds., Danish Centre for
Documentation, 1969] ma purtroppo a tutt'oggi ben poco applicato, come ha mostrato l'indagine
Opac semantici. In questa prospettiva, le notazioni più
utili sono quelle che meglio corrispondono alla sequenza standard dei caratteri ASCII, utilizzata
in via predefinita da quasi tutte le funzioni software di ordinamento di voci, nella quale le cifre
precedono le lettere maiuscole, queste precedono le minuscole, e sono presenti i segni di
punteggiatura più comuni ma non altri. Per questo non faremmo certo contento un informatico
se gli chiedessimo di ordinare dei dati bibliografici secondo le classi principali della Colon, che
comprendono una delta maiuscola per la classe "misticismo", che Ranganathan prescrive di
ordinare fra la M
e la N
!
In realtà quasi tutto si può fare, quando si ha la possibilità di progettare degli script che elaborino nei modi desiderati le stringhe di testo delle notazioni. Un caso classico in cui questo
è necessario è il corretto ordinamento degli intervalli di classi (span), come 5+6
"scienze pure e applicate" nella CDU: un ordinamento automatico inevitabilmente posizionerà questa classe
composta dopo la classe 5
"scienze pure" (poiché naturalmente il +
viene dopo il nulla), mentre invece dovrebbe comparire prima, per il principio che il generale deve precedere lo specifico! Si
può allora intervenire a livello della base-dati, creando in un campo nascosto dei codici per
l'ordinamento leggermente differenti da quelli della notazione, e richiedendo di ordinare in base
a questi: si aggira così il problema, seppur perdendo la semplicità di ordinamento che era lo
scopo originario della notazione stessa [A. Slavic, Faceted classification: management and use,
Axiomathes, 18: 2008, n. 2, p. 257-271].
Questo tipo di realizzazioni ha però un costo in termini di tempo e di competenze richieste. Inoltre, anche se potrà arrivare a funzionare perfettamente per una particolare applicazione, occorrerebbe poi trasporla in sistemi diversi ogni volta che i dati di classificazione vengono condivisi in nuovi contesti, come abbiamo visto nella puntata scorsa accadere sempre più spesso nel Web. Di fatto invece molti enti che ricavano i dati bibliografici da altri raramente possiedono la specializzazione oppure l'autorità per intervenire su di essi. Quindi, per noi che viviamo in un mondo interoperabile, meglio un KOS che adotti fin dall'inizio una notazione espressiva e formata di soli caratteri standard.
Del resto i teorici della classificazione ripetono che la notazione è una componente autonoma, che non deve condizionare a priori la struttura dello schema come un letto di Procuste (non dobbiamo dividere ogni cosa sempre in dieci parti solo perché ci capita di avere dieci dita!). La struttura di classi, sottoclassi e faccette dovrebbe essere quella che meglio rispecchia i contenuti della conoscenza, e solo successivamente va creata una notazione che la rappresenti. Questo significa anche che è possibile staccare una notazione dal suo schema e crearne un'altra, più adatta alle esigenze informatiche, per rappresentare la stessa struttura. Con un'operazione del genere confonderemo gli utenti? Non necessariamente, dal momento la notazione non è fatta direttamente per loro, bensì per l'ordinamento meccanico sugli scaffali e nelle macchine; agli utenti dovremo ricordarci di fornire sempre una ricerca e una visualizzazione tramite gli equivalenti verbali.
Come mi vuoi, ordinale o espressiva? = ISKO Italia. Documenti. Organizzazione della conoscenza. 8 — <http://www.iskoi.org/doc/rubrica8.htm> : 2023.08.10 -