Arricchire i dati bibliografici con SPARQL e i Linked Open Data

Query federate, interlinking e data visualization per conoscere meglio il catalogo del CoBiS

lod3

LOD cloud diagram 2017, by A. Abele, J. P. McCrae, P. Buitelaar, A. Jentzsch, R. Cyganiak. License CC-BY-SA.

In conformità agli standard proposti dalla comunità Linked Open Data, i dati catalografici delle biblioteche aderenti al progetto LOD del CoBiS sono esposti tramite un endpoint SPARQL pubblicamente accessibile (https://dati.cobis.to.it/sparql) e configurato per supportare le query SPARQL federate.

I grafici di questo percorso visualizzano i risultati di query formulate secondo la sintassi SPARQL, il linguaggio di interrogazione per dati rappresentati in forma di triple RDF (https://www.w3.org/TR/rdf-sparql-query/). Nel definire insiemi di pattern di triple soggetto-predicato-oggetto, SPARQL è in grado non solo di navigare nei singoli grafi RDF, ma anche di raccogliere, tramite le query federate, informazioni da tutti i database che condividono il formalismo RDF. Impiegando un’unica sintassi di interrogazione le query SPARQL federate, che nel corso del progetto sono state oggetto di ricerca e sviluppo al fine di ottimizzarne il funzionamento, esprimono le massime potenzialità dei Linked Open Data: accessibilità, interoperabilità, arricchimento costante dei dati.

Quando sono state pubblicate le edizioni presenti nel catalogo?

cronologia-edizioni-query

Query: cronologia delle edizioni per biblioteca

Le informazioni relative alle date di pubblicazione delle edizioni sono state raccolte utilizzando congiuntamente le ontologie BIBFRAME 2.0 e schema.org. Prendendo ispirazione dal modello FRBR, BIBFRAME è articolata in 3 livelli di descrizione bibliografica: Work (opera), Instance (edizione) e Item (esemplare).

La query SPARQL interroga il livello Item per recuperare informazioni circa le edizioni possedute dalle biblioteche; interroga il livello Instance per ottenere le date di pubblicazione delle edizioni. La proprietà rdfs:label, appartenente a una delle ontologie più diffuse nella comunità Linked Open Data, collega l’URI della biblioteca alla sua etichetta espressa in linguaggio naturale: grazie al riuso delle ontologie chiunque interroghi l’endpoint è messo in condizione di ricavare parte dei dati o fare ricerche esplorative, anche se non conosce che cosa esso contiene.

cronologia-tutte-NEW

Cronologia complessiva

I risultati della ricerca sono visualizzati nei seguenti grafici. Le più antiche opere possedute dalle biblioteche del CoBiS partecipanti al progetto sono state pubblicate a partire dai primi anni del XVI secolo. L’andamento della cronologia complessiva evidenzia che una parte significativa del posseduto è stato pubblicato a cavallo del XIX secolo, mentre si osserva un naturale andamento esponenziale delle edizioni a partire dal secondo dopoguerra fino ad oggi.

Analizzando il grafico relativo alla cronologia dettagliata, che circoscrive la ricerca a partire dal 1800, è possibile avere una visione panoramica del posseduto delle singole biblioteche.

cronologie-singole

Cronologia dettagliata delle edizioni dal 1800 a oggi

Balrog e le query SPARQL federate

Le query SPARQL federate esprimono al massimo le potenzialità delle tecnologie Linked Open Data: l’adozione di un unico linguaggio di interrogazione per recuperare informazioni provenienti da fonti eterogenee consente di fare data enrichment in un contesto di elevata interoperabilità semantica. Purtroppo, soprattutto per motivi dipendenti dalla configurazione e dal design degli endpoint open source più diffusi, le ricerche fatte tramite query federate vanno spesso incontro a problemi tecnici che ne diminuiscono o annullano l’efficacia. Nell’ambito del progetto LOD del CoBiS Synapta ha realizzato balrog (https://github.com/synapta/balrog), un software open source che effettua la federazione delle query esternamente agli endpoint SPARQL, in modo da ridurre le limitazioni temporali e gli errori tipici degli endpoint open source, e ottimizzare tempi e risultati della ricerca.

Di quali società e accademie scientifiche sono stati membri gli autori del CoBiS?

query-federata

Query SPARQL federata: società e accademie

Tramite l’interfaccia grafica di balrog, la query SPARQL federata chiama contemporaneamente gli endpoint del CoBiS e di Wikidata, il progetto di Wikimedia Foundation per costituire una base di conoscenza libera e collaborativa (https://www.wikidata.org). La query, che raccoglie le informazioni sugli autori presenti in due basi di dati diverse, è resa possibile dagli allineamenti che connettono i due grafi (interlinking); nel caso specifico, come chiave per individuare in maniera univoca le entità corrispondenti agli autori, è stato adottato il codice identificativo del Virtual International Authority File (https://viaf.org/).

La query federata chiede all’endpoint del CoBiS tutti i codici identificativi VIAF degli autori presenti nel grafo. Allo stesso tempo individua nel grafo di Wikidata tutti gli autori che possiedono un identificativo VIAF e sono (o sono stati) membri di una società o di un’accademia. Vengono scaricati i dati relativi al Paese di appartenenza della società/accademia, e i risultati sono filtrati in base alla data di morte dell’autore.

I risultati delle singole ricerche sono uniti e raggruppati dal software, che effettua infine un conteggio del numero di autori membri di ciascuna accademia. I grafici che seguono, alimentati da query svolte su diversi intervalli temporali, mostrano l’incidenza delle accademie scientifiche nel contesto culturale a cui appartengono gli autori del catalogo CoBiS, differenziando i dati per Paese e intervallo di tempo.

Per analizzare le informazioni dettagliate sul nome delle accademie e sul numero dei membri cliccare sulle didascalie: l’immagine si apre in formato .svg e i dati sono visualizzati al mouseover.

Di che cosa si occupano gli autori del CoBiS?

occupazioni-NEW

Occupazioni degli autori

Utilizzando lo stesso procedimento abbiamo raccolto da Wikidata i dati sulle occupazioni degli autori. Questa informazione ci fornisce un’idea su quello che può essere l’argomento delle opere del catalogo, anche in mancanza di informazioni strutturate (o comunque con una copertura omogenea tra i cataloghi delle biblioteche) sul soggetto dei libri. Nel grafico si può notare, per esempio, la presenza di diverse professioni legate ad ambiti artistici, dovuta all’ingresso di due biblioteche musicali al progetto Linked Open Data.

Dove hanno studiato gli autori del CoBiS?

Le voci di Wikidata che fanno riferimento ad un luogo possono essere oggetto di georeferenziazione. Tramite una query SPARQL federata abbiamo chiesto a Wikidata presso quali istituzioni hanno studiato gli autori del CoBiS, e ne abbiamo scaricato le coordinate geografiche secondo il sistema WGS84. Utilizzando una piattaforma online (http://umap.openstreetmap.fr/it/) i risultati della ricerca sono stati incrociati con i dati di OpenStreetMap, il progetto collaborativo finalizzato a creare mappe a contenuto libero (https://www.openstreetmap.org/).

Ogni punto sulla mappa rappresenta una relazione fra autore e istituto di formazione; tecnicamente, ogni punto visualizza una tripla RDF presente su Wikidata (del tipo “autore-ha studiato presso-istituto”). Ne consegue che possono essere presenti più punti per ogni autore, se questi ha frequentato diversi istituti di formazione. Le cifre all’interno dei cluster sono i risultati della somma delle triple comprese in una certa area.

Cliccando sui cluster o zoomando progressivamente sulla mappa si possono analizzare i dati in maniera più dettagliata. Cliccando su un singolo punto della mappa si apre una scheda che mostra i dati che lo hanno generato; tra questi è presente un URI che, tramite dereferenziazione, collega alla pagina dell’autore sul portale del CoBiS.