SlideShare a Scribd company logo
1 of 138
Download to read offline
Introduzione a Linked
Open data e Web
semantico
Antonella Iacono
Sapienza Università di Roma. Dipartimento di scienze documentarie,
linguistico–filologiche e geografiche.
Ciclo di conferenze a.a. 2015-2016
10 maggio 2016
Contenuti della lezione
1. Cosa sono i linked open data (LOD). Linked data e Web semantico
2. Linked data, LOD, principi dei linked data. Il modello RDF
3. Vocabolari e ontologie. Il Web dei dati
4. Pubblicare I linked data
/
2
0
1
5
Linked data e Web Semantico.
Corso di aggiornamento
Che cosa sono i linked open data?
https://vimeo.com/49232562
Cosa sono i linked data?
Linked open data= ‘buone pratiche’ per pubblicare e collegare dati
strutturati sul Web (Tim Berners Lee)
Attraverso i Linked data è possibile pubblicare sul Web i dati in una
modalità leggibile e interpretabile da una macchina, il cui significato è
definito da una stringa di parole e marcatori (‘tripla’) per costituire un
reticolo di dati collegati appartenenti a un dominio e collegabili ad altri
dataset relativi ad altri domini presenti nel Web. Si costruisce così una
rete di dati globale, i cui contenuti possono essere scambiati e
interpretati dalle macchine, ovvero la base per il Web semantico
(*Berners-Lee; Hendler; Lassila 2001, Guerrini; Possemato 2012)
«creare dati che siano ‘del Web’ e non solo ‘sul Web’» (Coyle 2013)
Di cosa stiamo parlando?
Necessità di utilizzare dati
Aperti : gli OD sono dati che possono essere liberamente utilizzati,
ridistribuiti da chiunque, (con poche limitazioni: citare la fonte, o
tramite licenze copyleft)
Collegati: il rilascio di dati aperti non basta da solo a valorizzare e
collegare l’informazione, questi devono essere collegati ad altri dati
Riutilizzabili: cioè di dati tra loro interoperabili (interoperabilità a
più livelli: semantica, tecnologica, di risorse umane e competenze,
organizzativa)
Perché interessarsi ai linked data?
Anche le biblioteche di trovano tra quegli enti che oggi producono
dati esclusi dal Web
Gli utenti che fanno ricerca si rivolgono in prima battuta ai motori di
ricerca (circa il 90%)
Le biblioteche hanno bisogno ormai da tempo di recuperare visibilità
e credibilità nel Web
Se i dati delle biblioteche non sono compatibili = interoperabili con il
Web gli utenti ignoreranno la biblioteca e i suoi servizi
Perché interessarsi ai linked data?
I LOD consentono alle biblioteche di produrre dati ‘aperti’,
interoperabili e riutilizzabili per produrre applicazioni basate sui LOD
che potranno sfruttare i dati delle biblioteche in nuovo modi.
Le biblioteche potranno portare i loro dati autorevoli nel Web
Il Web potrà servirsi dei dati autorevoli delle biblioteche per produrre
applicazioni basate su dati affidabili
Ci sarà un ritorno di utenza verso la biblioteca e i suoi servizi attraverso
i ‘dati’ se questi verranno mescolati ad altri dati in contesti diversi
I linked data hanno una profonda ricaduta nella possibilità di creare
piattaforme di interrogazione e integrazione del patrimonio culturale.
1. linked data e
web semantico
Il Semantic Web
«I have a dream for the Web...»
Tim Berners-Lee 1999
Il Semantic Web
Proposto da Tim Berners Lee nel 2001 in un articolo pubblicato sula
rivista «Scientific American» come Web pensante, versione avanzata
dell’intelligenza collettiva.
Evolvere il Web attuale «machine readable» in un nuovo Web
«machine understandable».
Creazione di una rete semantica che consenta ai computer di gestire
autonomamente le informazioni e imparare processi per sviluppare
una cooperazione efficace tra l’uomo e le macchine.
Agenti intelligenti: comprendono il significato delle risorse
informative presenti in rete
Collegano le informazioni in base a relazioni logiche e semantiche
effettuando ragionamenti deduttivi.
Il Semantic Web
«un’estensione del Web attuale, nella quale all’informazione viene
dato un significato ben definito, permettendo così ai computer e alle
persone di lavorare meglio in cooperazione» (Berners-Lee; Handler;
Lassila 2001)
Associare all’informazione un ben preciso significato in modo da
supportare una comunicazione uomo-macchina più efficace e
migliorare l’interoperabilità tra sistemi informativi
Dal WWW al Web Semantico
Con il termine ‘Web semantico’ si intende la trasformazione del World Wide
Web in un ambiente in cui i documenti sono provvisti di metadati che ne
connotano semanticamente il contenuto in un formato adatto
all’interrogazione e all’elaborazione da parte delle macchine. (Wood et al.
2013)
L’attenzione si sposta dai documenti ai contenuti dei documenti ( i dati)
Nel Semantic Web hanno grande importanza i metadati: associare ai dati
meta-informazioni che ne descrivano il contenuto semantco
 Il Semantic Web è un Web interpretabile dalle macchine
Ad ogni informazione (dato) viene dato un significato ben definito
(formalizzato)
Obiettivo: trovare un linguaggio logico per esprimere i dati e consentire il
ragionamento automatico
Il Semantic Web
E’ un web in grado di interpretare il significato dei documenti che lo
popolano
Nasce per superare i limiti del Web attuale:
Problemi legati all’organizzazione e al recupero dell’informazione
Informazione del Web caotica e scollegata ad esclusivo uso degli
essere umani
La prospettiva del Web semantico interessa direttamente i sistemi
di recupero delle informazioni compresi i cataloghi delle
biblioteche: superamento dell’ information retrieval tradizionale e
recupero basato sui contenuti (dati) e sui concetti.
L’architettura del web semantico
/
2
0
1
5
Interfaccia utente /applicazioni
Credibilità (trust)
Dimostrazione (proof)
Logica unificante
Ontologie: OWLInterrogazioni:
SPARQL
Protocolli: HTTP
Tassonomie: RDFS
Sintassi: XML+XMLNS
Interoperabilità: RDF
Identificatori: URI/IRI Testo: UNICODE
Crittografia/firmadigitale
Regole:SWRL/RIF
Il Web Semantico 1/
Web semantico = ragionare sui dati = rendere i dati processabili
identificatori non ambigui che permettano anche una associazione
tra i dati e gli oggetti del mondo reale (URI);
un modello comune per i dati in modo da accedere, connettere e
descrivere tali oggetti (RDF);
un linguaggio per accedere a questo modello dei dati (SPARQL);
un vocabolario comune (RDFS e le ontologie)
una logica per il ragionamento (OWL, RULES)
/
2
0
1
5
Web semantico e linked data
Possiamo distinguere due principali fasi del Web Semantico
• la prima fase (1999-2006) dominata da un approccio ‘forte’ e
sintetico (top down) dell’ontologia fondazionale inteso come sistema
di rappresentazione della conoscenza a priori;
• la seconda fase (2006-in corso) governata dall’approccio ‘debole’ e
analitico (bottom up) dei Linked data.
/
2
0
1
5
Web semantico e linked data
Le ontologie sono concettualizzazioni di porzioni di conoscenza
(domini).
Le ontologie fondazionali sono interdisciplinari e costituiscono la
base per la creazione del Web semantico
Le ontologie di dominio invece modellano specifiche porzioni del
sapere individuando le entità di interesse e le loro relazioni e per
essere pienamente operative dovrebbero basarsi sulle prime.
Entrambe hanno la funzione di disambiguare termini mediante la
‘categorizzazione’ degli oggetti o delle cose, cioè tramite l’inserimento
di questi in categorie stabilite
Usate nel campo della Knowledge Organization servono a migliorare
gli strumenti di ricerca, ma purtroppo hanno scarsa applicazione
L’approccio forte - le ontologie
L’originaria visione di Tim Berners Lee è detta ‘approccio forte’ essa si
basa su una serie di ontologie fondazionali (ovvero schemi generali) e
su una serie di altre ontologie più specifiche (di dominio) che fanno
riferimento alle prime.
Attraverso di essere si crea un reticolo ontologico , ovvero un substrato
di ontologie in grado di modellare e rappresentare la conoscenza
Purtroppo questo approccio dall’alto aveva una serie di limiti sia
tecnologici (proliferazione di ontologie non più controllabili), sia etico-
filosofici (come modellare il mondo e il Web)
L’approccio ‘debole’: i linked data
Rispetto all’originario disegno del Web semantico, che si basava sulla
possibilità di sviluppare l’intelligenza artificiale tramite l’uso di agenti
intelligenti e substrato ontologico creato e imposto ‘dall’alto ‘il
paradigma dei linked open data è un approccio ‘dal basso’
‘Debole’: poiché all’imposizione dall’altro sostituisce
l’interoperabilità dei dati, dunque si indebolisce l’originario disegno
‘semantico’
‘Bottom up’: i collegamenti tra le cose e i concetti si formano dal
basso, rendendo i dati interoperabili tra loro
Dunque potremmo affermare che le nuove tecnologie del Web 2.0,
partecipative e collaborative, hanno avuto un certo peso nel
modificare l’approccio di base al Web Semantico e inaugurare il
nuovo corso dei linked data.
Linked data e Web semantico
“A causa della natura del World Wide Web come ambiente aperto,
decentralizzato e spesso caotico, gli approcci tradizionali alla
rappresentazione della conoscenza non possono essere direttamente
utilizzabili. Questi sistemi sono in genere stati concepiti in maniera
centralizzata, richiedendo a tutti di condividere le stesse definizioni di concetti
comuni nel loro vocabolario del discorso. Un controllo centralizzato, tuttavia,
può essere soffocante e aumentare la dimensione e il campo di applicazione di
questi sistemi diventa rapidamente ingestibile. In definitiva, i sistemi che sono
costruiti per sfruttare il Web semantico devono accettare che paradossi e
informazioni mancanti o contraddittorie sono un prezzo da pagare per
ottenere la versatilità. […] un obiettivo più pratico e a breve termine dell’idea
di Web semantico, è quella di consentire uno scambio di informazioni
flessibile e aperto. In quanto tale l’idea di Linked data può essere pensata
come una forma ‘ridotta o diluita’ della versione originale del Web semantico
[…] qualcosa che può essere ottenuto senza un ampio utilizzo di tecniche
dell’intelligenza artificiale”. Ora Lassila
L’interoperabilità semantica
I LINKED DATA DUNQUE FAVORISCONO L’INTEROPERABILITA’ E SI
CONFIGURANO COME UNO STRUMENTO PIU’ DINAMICO PER IL
RAGGIUNGIMENTO DEL WEB SEMANTICO.
L’interoperabilità semantica è dunque considerata come la ‘capacità di
elaborare le informazioni provenienti da fonti diverse senza perdere il
reale significato delle informazioni stesse nel processo di
elaborazione’
Open Data e Linked Open Data (LOD)
La tecnologia Linked data è profondamente legata al concetto di
apertura dei dati (opennes), che ne costituisce la base intellettuale,
tanto che si parla più propriamente di Linked open data (LOD), a
identificare dati non solo collegati, ma ‘aperti’.
E’ importante per il SW parlare di LOD e non solo di LD
Oggi viviamo, infatti, in un ecosistema informativo fortemente basato
sui dati; non solo siamo continuamente circondati dai dati, ma essi
giocano un ruolo sempre più importante nella vita delle persone:
siamo entrati nell’era della data economy (Heath; Bizer 2011).
L’importanza dei dati da qualche tempo è stata compresa dalle aziende
che su questi dati hanno costruito i propri successi commerciali.
Google, Amazon etc. si basano sui cosiddetti ‘big data’. Questi dati però
sono chiusi, e vengono utilizzati per scopi di business.
Open data
Perché oggi è importante disporre di dati aperti?
nei dati aperti si individua una tassello importante per la crescita
il libero accesso alla conoscenza consente di risparmiare soldi
pubblici (e privati) e facilita l'innovazione
Attraverso dati aperti si accelera il progresso economico e culturale
Il movimento Open Data nasce per promuovere la trasparenza
nella gestione di organizzazioni pubbliche e private
 consapevolezza che ‘ i dati sono di tutti’: chiunque deve poterli
utilizzare per progettare servizi innovativi per la società
 però è indispensabile che i dati siano alla portata di tutti (aperti)
Un aspetto fondamentale degli Open data è la possibilità di
riutilizzo dei dati tramite appropriate licenze
Open data
Gli Open Data nascono e si sviluppano principalmente in due contesti:
Pubblica amministrazione e governo : OPEN DATA come derivante
dall’Open Government (che a sua volta deriva dall’e-government)= si
parla più propriamente di open government data
Ricerca scientifica (R&S): OPEN DATA associato al fenomeno OPEN
ACCESS
Gli open data nella Pubblica Amministrazione
Open government: trasparenza dei governi e delle PA nelle loro
funzioni e nei servizi per garantire un controllo pubblico del loro
operato tramite le nuove tecnologie
L’‘Economia dei dati’: costituisce un settore emergente nel
panorama economico ed è sostenuta da iniziative politiche
dell’Unione Europea come l’Agenda digitale e rientra nella strategia
Europa 2020 (che fissa obiettivi per la crescita nell’Unione europea
(UE) da raggiungere entro il 2020)
OPEN DATA e PA: per saperne di più
Sul portale http://www.dati.gov.it/ è presente una sezione sullo stato
dell’open data in Italia
quanti dataset sono stati rilasciati (sono oltre 9.000)
quali enti hanno pubblicato
le applicazioni costruite sui dati aperti (es. app turistiche, meteo,
traffico, parcheggi, servizi vari)
In definitiva tutti gli sforzi vertono verso il raggiungimento
dell’interoperabilità semantica
OPEN DATA e ricerca scientifica/1
Accesso alle conoscenze prodotte dalla comunità come principale
mezzo per sviluppare non solo le attività economiche, ma anche
quelle intellettuali (progresso, sviluppo, conoscenza)
Dati delle ricerche finanziate con denaro pubblico = beni comuni,
devono poter essere fruiti liberamente dalla comunità che li ha
prodotti
OPEN DATA legato anche al fenomeno OPEN ACCESS
Il punto di riferimento per le comunità open (cioè che pubblicano
dati aperti) è l’Open Knowledge Foundation (OKFN), organizzazione
non-profit nata nel 2004 per promuovere la conoscenza aperta e la
condivisione dei dati e delle conoscenze a fini benefici.
OPEN DATA e ricerca scientifica/2
Dati della ricerca= risultanti da osservazioni, dati di laboratorio,
modelli, dati di banche dati genetiche, dati spaziali etc.
Benefici dell’accesso ai dati aperti scientifici
rafforzamento indagine scientifica e ricerca cross-disciplinare;
promozione della diversità di analisi e di opinioni;
possibilità di testare nuove ipotesi di ricerca e metodi di analisi
alternativi;
esplorazione di nuovi ambiti di ricerca
la creazione dataset tramite la combinazione di dati provenienti da
fonti diverse
The Policy RECommendations for Open Access to Research Data in
Europe (RECODE)
Linked data e Open data
La produzione e la domanda di dati è crescente
Bisogna trovare i mezzi per fornire l’accesso e rendere più facile il
riutilizzo dei dati nel Web su scala mondiale
L’esposizione dei dati in LOD facilita la scoperta, lo scambio l’uso e il
riutilizzo dei dati
Open data= rimuovere le barriere concettuali e intellettuali
all’apertura dei dati e al loro utilizzo
Linked data= rimuovere gli ostacoli tecnologici alla libera
condivisione dei dati nel Web
/
2
0
1
5
I LOD sono già in uso
La presenza di dati aperti e riutilizzabili
sta creando le premesse per applicazioni
sempre più sofisticate
Le applicazioni stanno cambiando sotto i
nostri occhi grazie alla presenza di dati
‘aperti’ e ‘collegati’
Google Knowledge graph
Hummingbird
0
6
/
0
3
/
2
0
1
5
I LOD sono già in uso
3
/
1
7
/
2
0
1
4
Dal Web dei documenti al Web dei dati
Applicare i Linked Data vuol dire passare da un Web di documenti a un
Web di dati.
Nel Web semantico non ci sono più solo documenti ma ‘dati’ o
‘risorse’:
Ogni dato è ben definito, indipendente (atomo) e collegato agli altri
dati.
Ogni dato descrive se stesso (autodescrittivo)
/
2
0
1
5
IL WWW ATTUALE
È formato da:
oHTML
oUntyped links
oAPI
oDATABASE
oAttraverso HTML
nel Web si crea IL
Web of
documents, cioè
una rete di
documenti e di
oggetti connessi
tramite link non
classificati (non
espliciti).
/
2
0
1
5
A B C D
API
xmlHTML HTML HTML
LINK NON QUALIFICATI
Le API e i mashups
DIFETTI DELLE
API:
oHanno
interfacce
proprietarie
oNon si creano
link tra i dati
delle varie API
oE’ possibile
creare mashups
da un numero
ben definito di
fonti
oNo database
globale!
/
2
0
1
5
A
API
B
API
C
API
D
API
MASH UP
Le API dividono i dati presenti nel web
Il Web dei dati o semantico
/
2
0
1
5
A B C D
thing
thing
thing
thing
thing
thing
thing
thing
Things: cose del
mondo reale:
persone, luoghi
oggetti, concetti
Typed links: legami
qualificati relazioni
esplicite
Database: A,B,C,D
= banche dati
entro le quali sono
immagazzinate ed
estratte le
informazioni
Linked data
Nuovo modo di pubblicare, condividere, connettere i dati nel WEB
Linked data collega dati o ‘cose’ e non documenti testuali;
i collegamenti sono ‘qualificati’ (typed) cioè esprimono la natura
della connessione e consentono di scoprire altri dati.
oEs. Torino si trova in Piemonte
oDante ha scritto La divina commedia
A differenza di altri modelli (es. XML) ogni risorsa è collegata alle
altre senza che vi siano risorse predominanti sulle altre.
/
2
0
1
5
2. I Principi dei LOD e Il modello
rdf
I principi dei LOD
1.usare gli URI per i nomi degli oggetti;
2.usare HTTP URIs per dare modo agli utenti di trovare questi nomi;
3.una volta trovato un URI, fornire informazioni utili utilizzando
standard (RDF e SPARQL);
4.includere links ad altri URIs in modo si che possano scoprire più
cose.
Berners Lee (2006)
/
2
0
1
5
1. USARE GLI URI (identificazione)
1. Usare gli URI per i nomi degli oggetti (o cose)
le ‘cose ‘nel SW devono essere ‘identificate’ attraverso gli URI
URI come nomi e accessi all’informazione
Cos’è un URI? L’URI è un identificativo persistente.
 A differenza del Web dei documenti dove si usano gli URI per
identificare i documenti, nel Web Semantico si identificano non
solo i documenti ma anche oggetti del mondo reale e concetti
astratti
/
2
0
1
5
1.USARE GLI URI (identificazione)
Andranno identificati e dotati di URI anche cose luoghi oggetti concetti
presenti all’interno dei documenti:
• Persone (es. Dante Alighieri, Barack Obama)
• Luoghi (es. Torino, Fiume Po, Monte Bianco)
• Cose (Jaguar, Apple, battaglia delle Termopili)
• Relazioni tra oggetti e concetti(es. è amico di, è autore di, vive a)
/
2
0
1
5
Stieg Larsson http://dbpedia.org/page/Stieg_Larsson
èAutoreDi http://dbpedia.org/ontology/author
La ragazza che giocava con il fuoco
http://dbpedia.org/page/The_Girl_Who_Played_with_Fire
Dare un URI ad ogni ‘cosa’ presente nel Web
Il libro
L’autore
È autore di
2. USARE URI HTTP (accesso)
Il secondo principio afferma :
• che bisogna usare solo identificativi HTTP (e non ftp, urn, DOI o altri)
per ‘rendere accessibili ‘i dati
• che gli URI devono essere ‘dereferenziabili’, intendendo per
‘dereferenziazione’ la possibilità di accedere alle descrizioni delle
risorse identificate dall’URI
• Il protocollo http è un meccanismo di accesso e recupero universale
nel Word Wide Web
• Ciò significa che un client HTTP che trova un URI può usare il
protocollo HTTP per recuperare una descrizione della risorsa
• Tutte le descrizioni di oggetti destinate alle macchine devono essere
rappresentate da dati in RDF. In tal modo HTML verrà usato per
rendere le informazioni comprensibili agli essere umani e RDF alle
macchine
/
2
0
1
5
DEREFERENZIAZIONE
URI DEREFERENZIABILI
Il secondo principio richiede che gli URI siano HTTP in modo da poter
essere dereferenziati in modo cioè che le macchine (client http)
possano accedere attraverso il protocollo HTTP a una descrizione
dell’oggetto o del concetto identificato dall’URI
Le descrizioni di documenti e cose sono dunque presenti sul Web in
due modalità:
Html per l’uso da parte delle persone
Rdf per l’uso da parte delle macchine.
L’uri del documento e quello della ‘cosa’ contenuta devono essere
diversi e non devono essere confusi
Negoziazione dei contenuti
/
2
0
1
5
DEREFERENZIAZIONE
• Per costruire un URI dereferenziabile è necessario fornire una
rappresentazione della risorsa che si vuole pubblicare non solo in
formato HTML ma in formato RDF cioè leggibile da una macchina
• Le linee guida per pubblicare URI sono state dettate dal W3C:
http://www.w3.org/TR/cooluris/
• Esempio di URI deferenziabile:
• Da Dbpedia:
• http://www.dbpedia.org/page/Stieg_Larsson
• http://www.dbpedia.org/page/Pablo_Picasso
• Dal set di elementi Dublin Core
• http://dublincore.org/documents/2012/06/14/dcmi-
terms/?v=elements#creator
/
2
0
1
5
3. Usare RDF (contenuti)
Il terzo principio prescrive l’utilizzo di un unico modello di dati (data
model) per pubblicare dati strutturati sul Web e cioè RDF , modello di
dati a grafo particolarmente progettato per il Web semantico.
• Avanzamento rispetto al Web attuale dove esistono vari modelli di
dati per strutturare le informazioni (tabellari/CSV/gerarchici
(XML)/relazionali (DBMS)
/
2
0
1
5
4. USARE LINK RDF (collegare i dati)
Il quarto principio prescrive di creare link tra le ‘cose’ (non tra i
documenti)
oI LINK IPERTESTUALI: collegano documenti, non qualificati
oI LINK RDF: collegano cose, sono qualificati o‘tipizzati’ cioè indicano
la relazione che sussiste tra le cose
Es. Antonella è amica di Maria
Antonella risiede in Biella
Le cose su cui vengono fatte asserzioni vengono dette ‘risorse’
Vi sono diversi tipi di links che devono essere attivati nel Web
Semantico
/
2
0
1
5
Il data model RDF
Produrre Linked data significa esprimere il contenuto delle
informazioni, rendendole condivisibili e riutilizzabili nel Web
Il Web semantico codifica l’informazione tramite un unico modello di
dati
Il modello di riferimento è Resource Description Framework (RDF),
uno standard sviluppato e mantenuto dal consorzio W3C per
descrivere semanticamente le risorse e le loro relazioni.
/
2
0
1
5
Resource Description Framework (RDF)
Il modello RDF codifica i dati (l’informazione) nella forma di asserzioni
(statements) formate da tre parti:
soggetto: la parte della tripla che identifica la cosa descritta ovvero
la ‘risorsa’
predicato: la proprietà della risorsa
oggetto: il valore della proprietà della risorsa.
Esempi:
Antonella | vive a | Biella
Antonella | è autore di | Linked data
Antonella | è amica di | Maria
/
2
0
1
5
Resource Description Framework (RDF)
Viene espresso visivamente sotto forma di nodi e archi
• Soggetto (nodo)
• Predicato (freccia orientata dal soggetto all’oggetto)
• Oggetto (nodo) si rappresenta con:
• URI=
• Letterale o stringa=
Le asserzioni sono dette ‘triple’ e sono concetti atomici ovvero unità
minime di significato
/
2
0
1
5
RDF: la tripla
/
2
0
1
5
soggetto
predicato
oggetto
Una tripla è una dichiarazione nella quale si afferma che una cosa o un’entità
(soggetto della tripla) possiede una certa proprietà
Tripla (triple) = l’insieme di soggetto/predicato/oggetto
Asserzioni e triple
06/03/2015
Stieg Larsson è autore di La ragazza che giocava con il fuoco
Soggetto Predicato Oggetto
Risorsa Proprietà Valore
Una tripla viene rappresentata come un grafo orientato
Stieg Larsson
La ragazza che
giocava con il
fuoco
È autore di
E codificata tramite una sintassi basata su XML
http://miosito.it/autori/1234
http://miosito.it/vocab/Autoredi
http://miosito.it/risorse/1234
Asserzione e sua codifica XML (RDF/XML)
/
2
0
1
5
La ragazza che giocava
con il fuoco
Larsson, Stieg
è autore di
<rdf:Description
rdf:about=http://miosito.it/autori/1234>
<name xml:lang=“eng“>Stieg Larsson</name>
<authorOf
rdf:resource=“http://miosito.it/risorse/1234
</rdf:Description>
<rdf:Description rdf:about=
http://miosito.it/risorse/1234>
<type xml:lang=“it“>libro</type>
<title>La ragazza che giocava con il
fuoco</title>
</rdf:Description>
/
2
0
1
5
Linked data e Web Semantico.
Corso di aggiornamento
vino
Barbaresco
Piemonte
rosso
Ha nome
È prodotto in
Ha
prezzo
Ha
colore
“3 euro”
Creare asserzioni (triple)
/
2
0
1
5
• Nome: Barbaresco Starderi 2005
• Luogo di provenienza: Piemonte
• Tipo: Fermo Rosso
• Produttore: Cantina La Spinetta
• Formato: 0.75 L
• Prezzo: €121
• Grado alcolico: 14 %
• Colore: Rosso intenso
• Vitigno: Nebbiolo
• Certificazione: DOCG
Esempio: informazioni su un vino
RDF come modello di dati
RDF è un nuovo modo di codificare l’informazione diverso rispetto a
quelli che finora si sono imposti e che hanno una serie di limitazioni
(es. modello relazionale). E però compatibile con i modelli precedenti
RDF è più flessibile
In particolare, c’è un rapporto diretto con i database relazionali
/
2
0
1
5
Linked data e Web Semantico.
Corso di aggiornamento
Creare asserzioni/2
ID NOME LUOGO TIPO PRODUTTORE FORMATO
1234 Barbaresco
Starderi 2005
Piemonte Fermo rosso La Spinetta 75 cl.
/
2
0
1
5
Linked data e Web Semantico.
Corso di aggiornamento
Rapporto diretto con i database relazionali (database di vini)
1 record = 1 risorsa
Campi = proprietà (metadati)
Contenuto dei campi = valori/dati
Creare asserzioni/3
• Da un campo del database a un’asserzione
/
2
0
1
5
ha come colore: Rosso
Dai campi alle asserzioni
/
2
0
1
5
ha per Nome: ‘Barbaresco Starderi 2005’
ha come luogo di produzione: Piemonte
ha come produttore: Cantina La Spinetta
ha come colore: Rosso
ha come formato: 0,75 l
Ogni campo del record con il suo valore nel SW può essere espresso tramite
un’asserzione (tripla)
Unione di grafi (merging)
Merging di grafi : quando i grafi hanno identificatori in comune questi
vengono uniti per formare grafi più vasti:
Es. nel caso l’oggetto di una tripla sia il soggetto di un’altra si ha
un’unione delle due triple, formando così un grafo più vasto
/
2
0
1
5
miovino Piemonte
Ha come luogo di
produzione
Piemonte Italia
Si trova in
miovino Piemonte
Italia
Ha come
luogo di
produzione
Si trova
in
Riutilizzare dati e metadati
Nel Web semantico è indispensabile non solo riutilizzare i dati
(fornendo loro URI), ma anche rendere interoperabili e riutilizzabili i
metadati.
I grafi sono delle strutture flessibili che possono ospitare nuove
triple se qualcuno vi aggiunge delle informazioni in più
Il paradigma del Web dei dati è un paradigma aperto in cui chiunque
può collegare i dati alla mia informazione, formando un grafo più
vasto.
Ragionare sui grafi: l’inferenza
Stieg Larsson è uno scrittore
Stieg Larsson scrive gialli
Stieg Larsson ha come nazionalità Svezia
Stieg Larsson ha come data di morte 2004
Stoccolma è in Svezia
Agatha Christie è uno scrittore
Agatha Cristie scrive gialli
Agatha Christie ha come come data di morte 1976
Inferenza: Agatha Christie e Stieg Larsson sono scrittori di gialli non più
viventi.
/
2
0
1
5
‘cose’ e ‘stringhe’
Regola di RDF: generalmente è meglio, se possibile, esprimere tutte
le parti della tripla (s p o) tramite URI
E’ obbligatorio che il soggetto (s) e il predicato (p) siano espressi
tramite URI
L’oggetto (o) può essere espresso tramite una stringa o un URI
Quando l’oggetto è espresso tramite una stringa diventa un punto
morto del grafo
/
2
0
1
5
Link del Web Semantico (LINK RDF)
i link relazionali esprimono un collegamento tra diversi dataset
puntando a cose, persone, luoghi presenti in un altro dataset o
insieme di dati collegati
Attraverso i links relazionali si collegano entità di diversi dataset
Si può ad esempio collegare una persona (autore) alle sue opere
presenti in un altro dataset e ad un’altra persona descritta in un altro
dataset
/
2
0
1
5
Link del Web Semantico (LINK RDF)
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
<http://miosito.it/persone/Antonella_Iacono>
rdf:type foaf:Person ;
foaf:name “Antonella Iacono" ;
foaf:based_near <http://sws.geonames.org/3182043/> ;
foaf:based_near <http://dbpedia.org/page/Biella> ;
foaf:topic_interest <http://dbpedia.org/resource/Semantic_Web>;
foaf:knows http://altrosito.it/persone/Mario_Rossi
Le proprietà vengono espresse facendo riferimento ad altre entità
presenti in altri dataset (es. Dbpedia, Geonames, altrosito)
/
2
0
1
5
Link del Web Semantico (LINK RDF)
i link di identità (‘alias URI’) collegano tra loro URI di dataset diversi
che si riferiscono alla stessa cosa o allo stesso concetto
Es. Beethoven in Freebase, Dbpedia, Musicbrainz, NYTimes
http://rdf.freebase.com/ns/en.ludwig_van_beethoven
http://dbpedia.org/resource/Ludwig_van_Beethoven
http://musicbrainz.org/artist/1f9df192-a621-4f54-8850-
2c5373b7eac9#
http://data.nytimes.com/N30866506154608358173
/
2
0
1
5
Link del Web Semantico (LINK RDF)
• I linked data prescrivono la necessità di collegare tutti gli URI alias
attraverso dei link
• Per convenzione si utilizza la proprietà owl:sameAs che afferma che
due URI si riferiscono alla stessa cosa, alla stessa persona o luogo.
• Questa tipologia di collegamento è una delle più importanti del Web
semantico
/
2
0
1
5
Link del Web Semantico (LINK RDF)
• i link di vocabolario puntano dal dato alle definizioni dei termini dei
vocabolari usati per descrivere il dato stesso e o alle definizioni dello
stesso concetto date in altri vocabolari (es. collego la voce di soggetto
del Nuovo soggettario con un soggetto LCSH) . In tal modo è possibile
un’integrazione tra vocabolari diversi (Heath; Bizer 2011)
• Servono a contrastare l’eterogeneità del Web semantico integrando
vocabolari diversi
• RDF consente di rappresentare in un unico grafo informazioni
provenienti da diversi modelli, mescolando termini da diversi
vocabolari
/
2
0
1
5
Altri links
Un’ulteriore distinzione è quella tra link interni ed esterni: i primi si
riferiscono allo stesso dataset, i secondi collegano invece due diverse
fonti di dati, ovvero dati che risiedono in namespaces diversi.
Questi ultimi costituiscono il ‘collante’ del Web semantico
trasformando il Web in uno spazio globale di dati interconnessi
/
2
0
1
5
‘SCRIVERE’ IN RDF
• RDF è un modello di dati pertanto se dobbiamo scrivere del codice
non possiamo direttamente utilizzare nodi e grafi, ma dobbiamo
esprimere i nostri dati in un formato adatto alla lettura da parte delle
macchine
• Serializzazioni RDF= rappresentazioni testuali adatte all’elaborazione
automatica
• Il W3C mantiene alcuni formati per la serializzazione
oRDF/XML = è il formato ‘ufficiale’ di RDF basato sul XML
oRDFa= serve per incorporare triple RDF in un documento HTML
/
2
0
1
5
SCRIVERE’ IN RDF
W3C URIs for Identifying RDF Serialization Formats
URI Format
http://www.w3.org/ns/formats/N3 Notation3 (N3): A readable RDF syntax: W3C Team Submission 28
March 2011
http://www.w3.org/ns/formats/N-Triples N-Triples (in RDF Test Cases: W3C Working Group Note 25 February
2014)
http://www.w3.org/ns/formats/RDF_XML RDF/XML Syntax Specification: W3C Recommendation 10 February
2004
http://www.w3.org/ns/formats/RDFa RDFa in XHTML: Syntax and Processing: 3C Recommendation 22
August 2013
http://www.w3.org/ns/formats/Turtle Turtle - Terse RDF Triple Language: W3C Team Submission 28 March
2011
RDF/XML /1
• Sebbene sia il linguaggio ‘ufficiale’ di RDF, RDF/XML è spesso
accusato di prolissità (verbosità) quindi si preferiscono forme più
abbreviate come Turtle o più comprensibili all’uomo come N-Triples
• Utilizza i namespaces per la dichiarazione dei prefissi usati
• Utilizza la nidificazione
• Ha alcuni termini predefiniti come type e property
• Type anche abbreviato in a=assegna il soggetto alla classe oggetto
della tripla
• Es. es: Antonella rdf:type foaf: person
• Es. es:la divina commedia rdf:type dbpedia:owl book
• (oppure es:la divina commedia a dbpedia:owl book)
/
2
0
1
5
RDF/XML /2
Il termine property denota un attributo
Esempi :
• es:Antonella foaf:knows es:Maria
• Foaf:knows a rdf:property
• Vi sono poi alcuni costrutti utili nella scrittura del codice come i blank
nodes (risorse anonime): queste sono risorse che non necessitano di
URI perchè non sono identificabili o non devono essere identificabili
nel WS. (es- devono rappresentare risorse valide all’interno di un
determinato dataset). Sono indicate con _:
• Esempio: _:qualcuno foaf:knows es:Maria
/
2
0
1
5
RDF/XML: la sintassi
[… dichiarazione dei prefissi …]
<rdf:RDF …>
<rdf:Description rdf:about=“Risorsa soggetto della tripla">
<PredicateResource>Risorsa oggetto della tripla espresso come
letterale</PredicateResource>
<PredicateResource rdf:resource=“Risorsa oggetto della tripla"/>
…
</rdf:Description>
…
</rdf:RDF>
/
2
0
1
5
Annotazione semantica di pagine web
RDFa /1
• RDF in Attributes è una recommendation del W3C
• fornisce una serie di attributi per annotare semanticamente una
pagina web, includendo metadati RDF in un documento XML,
consentendo di annotare in RDF una pagina web in maniera nativa
• In questo modo è possibile unire il Web dei documenti al Web dei
dati cioè è possibile inserire in pagine web in XHTML delle
annotazioni semantiche che possono essere comprese dalle
macchine.
/
2
0
1
5
Annotazione semantica di pagine web RDFa
/2
Inserisce elementi semantici nelle pagine utilizzando alcuni attributi
(about, property, resource)
Le macchine leggendo un documento XHTML contenente codice RDFa
possono operare un processo di estrazione di contenuti semantici
(parsing) generando delle triple RDF
Il soggetto della tripla è individuato dall’attributo about al quale
vengono associati i valori di Rev e Property
In questo modo anche i documenti pubblicati come XHTML possono
contenere alcuni contenuti semantici che possono essere interpretati
dalle applicazioni del Semantic Web collegando il web dei documenti al
web dei dati
Schemi per l’annotazione semantica sono Schema.org e Open Graph
Protocol
/
2
0
1
5
3. Vocabolari e ontologie
I vocabolari e le ontologie
Nel Web semantico i vocabolari e le ontologie definiscono concetti e
termini usati per descrivere e rappresentare una particolare area di
interesse
Classificano i termini che vengono usati in un particolare settore
disciplinare, indicano le relazioni semantiche tra i concetti di un
dominio di conoscenza
Costituiscono, insieme a RDF e URI, il cuore del Web Semantico
Distinzione tra vocabolari e ontologie: nel Web semantico non è netta,
generalmente si usano:
Vocabolario = lista chiusa di termini da usare come valori (come
oggetto della tripla) esempio: book format di RDA per il formato di un
libro http://www.rdaregistry.info/termList/bookFormat
Ontologia: classi e proprietà per esprimere un dominio di
conoscenza (concettualizzazione)
/
2
0
1
5
Ontologie e modelli formali
Sono necessari per la comunicazione umana
Descrivono un determinato ambito (dominio) favorendo la creazione
conoscenza.
Un’ontologia è una «specificazione esplicita di una
concettualizzazione» ovvero uno schema strutturato e condiviso di
concetti tra loro correlati che descrive un’area della conoscenza
utilizzando linguaggi non ambigui e, dunque, processabili da una
macchina (Thomas Robert Gruber)
Le ontologie sono un insieme di classi e di proprietà
Vocabolari e ontologie sono necessari per offrire a tutte le comunità
che operano nel Web semantico la possibilità di esprimersi in merito
a qualsiasi cosa utilizzando le entità, le relazioni e la terminologia più
appropriata (Allemang; Hendler 2008)
/
2
0
1
5
FOAF
Vocabolari e ontologie più diffusi:
Friend of a Friend (FOAF) http://xmlns.com/foaf/spec/
E’ un’ontologia che descrive persone, attività e relazioni con altre
persone.
Viene spesso usata per costruire liste di autorità, descrivere
comunità online, community
Chiunque può utilizzare FOAF per descriversi nel Semantic Web.
/
2
0
1
5
Classi e proprietà di FOAF
Category:Person (Foaf:Person)
Category:Organization (Foaf:Organization)
Property:Foaf:knows
Property:Foaf:member
Property:Name (Foaf:name)
Property:Homepage (Foaf:homepage
Property:Foaf:mbox
Property:Foaf:depiction
Property:Foaf:phone
/
2
0
1
5
Il mio profilo FOAF
<rdf:RDF
xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:foaf="http://xmlns.com/foaf/0.1/"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#">
<foaf:Person rdf:about="#Aiacono">
<foaf:name>Antonella Iacono</foaf:name>
<foaf:mbox rdf:resource="mailto:aiacono88@gmail.com" />
<foaf:homepage rdf:resource="http://www.antonellaiacono.it" />
<foaf:nick>Librarian_Anto</foaf:nick>
<foaf:depiction rdf:resource="http://www.antonellaiacono.it/immagine.jpg" />
<foaf:interest> <rdf:Description rdf:about="http://www.dbpedia.org/page/Linked_data "
rdfs:label=“Linked data /> </foaf:interest>
<foaf:knows> <foaf:Person> <foaf:name>Maria Rossi</foaf:name> </foaf:Person>
</foaf:knows> </foaf:Person>
</rdf:RDF>
/
2
0
1
5
Lo stesso esempio in Turtle
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
<#AIacono> a foaf:Person ;
foaf:name «Antonella Iacono" ;
foaf:mbox <mailto:aiacono88@gmail.com> ;
foaf:homepage < http://www.antonellaiacono.it > ;
foaf:nick «Librarian_72" ;
foaf:depiction < http://www.antonellaiacono.it/img.jpg > ;
foaf:interest < http://www.dbpedia.org/page/Linked_data > ;
foaf:knows [
a foaf:Person ; foaf:name «Maria Rossi" ] .
/
2
0
1
5
DUBLIN CORE
E’ uno schema per di metadati per definire attributi di risorse come
titolo, creatore, data, soggetto etc.
Possiamo usare Dublin Core per descrivere le proprietà di una qualsiasi
risorsa bibliografica presente nel Web
Si trova in:
http://dublincore.org/documents/dces/ (DCMES), prefisso dc:
Oppure
http://dublincore.org/documents/dcmi-terms/
Prefisso dct:
/
2
0
1
5
ALTRE ONTOLOGIE
• BIO ONTOLOGY: definisce termini per descrivere info biografiche
• THE MUSIC ONTOLOGY: definisce termini per descrivere vari aspetti
relativi alla musica: artisti (le relazioni tra artisti, l’attività), album,
tracce audio etc.
• THE EVENT ONTOLOGY: definisce termini per descrivere eventi
• BIBLIOGRAPHIC ONTOLOGY O BIBLIONTOLOGY: definisce termini per
descrivere concetti e proprietà nelle citazioni bibliografiche
• PROGRAMMES ONTOLOGY (BBC) definisce termini per descrivere
entità e proprietà relativi ai programmi televisivi
http://www.bbc.co.uk/ontologies/po
• CREATIVE COMMONS SCHEMA: definisce i termini per descrivere le
licenze in RDF http://creativecommons.org/schema.rdf
/
2
0
1
5
ALTRE ONTOLOGIE
• SEMANTICALLY-INTERLINKED ONLINE COMMUNITY (SIOC): definisce
termini per esprimere aspetti delle comunità online, come forum,
utenti, post, ecc.
• THE GOOD RELATIONS ONTOLOGY definisce termini per descrivere
prodotti e servizi commerciali online
• RDA definisce termini per descrizioni bibliografiche
Esistono ontologie per descrivere quasi ogni ambito di conoscenza,
possiamo crearne di nuove es. un’ontologia di un’organizzazione (es.
Università, un’ontologia di vini, etc.
/
2
0
1
5
0
6
/
0
3
/
2
0
1
5
Linked data e Web Semantico.
DESCRIVERE LE ONTOLOGIE
• Numerosi linguaggi a crescenti livelli di complessità
• Questi si presentano come ‘ontologie per creare ontologie’ (hanno al
loro interno classi e proprietà)
• dal più semplice al più complesso:
/
2
0
1
5
Linked data e Web Semantico.
Corso di aggiornamento
OWL
SKOS
RdfS
SKOS /1
• Simple Knowledge Organisation System (SKOS) è un vocabolario
sviluppato dal W3C Semantic Web Deployment Working Group
(SWDWG) per esprimere gerarchie di concetti e progettato per
supportare l’uso di sistemi di organizzazione delle conoscenze (KOS)
come thesauri, schemi di classificazione, soggettari e tassonomie
nell’ambito del Web semantico.
• Es. possiamo affermare con SKOS che i gatti appartengono alla classe
felini, o che concetto ‘Rifiuti solidi urbani’ ha come concetto più
ampio ‘‘Rifiuti’
• Tutti i progetti di conversione di KOS bibliotecari si basano su questo
vocabolario. (LCSH, Nuovo Soggettario, LCC, CDD)
/
2
0
1
5
SKOS /2
La classe principale è skos:Concept alla quale appartengono i concetti,
i quali sono indipendenti dai termini utilizzati per descriverli o
etichette (labels).
L’ontologia definisce poi le relazioni thesaurali tra concetti tramite
alcuni predicati (proprietà):
 skos: broader, skos:narrower, skos:related (per relazionare i
concetti)
skos:prefLabel, skos:altLabel e skos:hiddenLabel (per relazionare
concetti ed etichette)
/
2
0
1
5
SKOS/3
/
2
0
1
5
Linked data e Web Semantico.
Corso di aggiornamento
Relazione thesaurale Equivalente SKOS
BT broader term skos:broader
NT Narrower term skos:narrower
RT Related term skos:related
USE/USE FOR skos:altLabel
SKOS/4
L’aspetto più interessante è quello di poter mettere in relazione
schemi concettuali differenti
Si realizzano nuovi collegamenti che prima erano impensabili:
mappature semantiche tra concetti appartenenti a schemi diversi
Questi collegamenti sono resi possibili da alcune proprietà
Skos:scheme consente di enunciare uno schema
skos:inScheme consente di attribuire un concetto allo schema
skos:exactMatch, closeMatch, broaderMatch, narrowerMatch e
relatedMatch consentono di esprimere vari tipi di relazioni e gradi di
sovrapposizione tra concetti simili appartenenti a schemi diversi (es.
nuovo soggettario, Rameau, LCSH, folksonomies)
/
2
0
1
5
Esempio: nuovo soggettario in SKOS
/
2
0
1
5
Voce del NS in RDF con uso di SKOS
<?xml version="1.0" encoding="UTF-8"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:skos="http://www.w3.org/2004/02/skos/core#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:dcterms="http://purl.org/dc/terms/"
xmlns:nsogi="http://prefix.cc/nsogi">
<rdf:Description rdf:about="http://purl.org/bncf/tid/39080">
<rdf:type rdf:resource="http://www.w3.org/2004/02/skos/core#Concept"/>
<skos:prefLabel xml:lang="it">Abrasivi</skos:prefLabel>
<skos:inScheme rdf:resource="http://purl.org/bncf/tid/ThesCF3"/>
<skos:inScheme rdf:resource="http://purl.org/bncf/tid/Thes"/>
<skos:broader rdf:resource="http://purl.org/bncf/tid/791"/>
<skos:narrower rdf:resource="http://purl.org/bncf/tid/39082"/>
<skos:related rdf:resource="http://purl.org/bncf/tid/39081"/>
<skos:related rdf:resource="http://purl.org/bncf/tid/43089"/>
<skos:closeMatch rdf:resource="http://id.loc.gov/authorities/sh85000218"/>
<skos:closeMatch rdf:resource="http://data.bnf.fr/ark:/12148/cb13162965j"/>
<skos:closeMatch rdf:resource="http://it.dbpedia.org/resource/Abrasivo"/>
<skos:editorialNote>FONTE: Soggettario; Treccani.it; ESG; CIS-ISPESL; ThIST; RAMEAU: Abrasifs; DDC22;
Wikipedia(IT)</skos:editorialNote>
</rdf:Description>
</rdf:RDF>
/
2
0
1
5
Mappature
esterne con altri
KOS: LCSH,
Rameau, dbpedia
Relazioni
semantiche
tesaurali BT,NT,RT
Usare le ontologie nel Web Semantico
Quali ontologie scegliere per descrivere i nostri dati?
Nei nostri dataset dovremo utilizzare molte ontologie diverse, a
seconda dei nostri scopi di progettazione
In particolare rdfs e Owl consentono inferire le informazioni, ovvero di
dedurre conoscenza per sussunzione, tramite il ragionamento
inferenziale.
I ragionatori sono programmi che utilizzano le regole della logica per
produrre inferenze Es. tutti gli insegnanti sono anche persone
Dotare il nostro dataset di descrizioni in OWL e RdfS dunque consente
alle macchine di operare ragionamenti logici
/
2
0
1
5
L’inferenza/1
«Affinché il web semantico possa funzionare, i computer devono avere
accesso a raccolte strutturate di informazioni e a una serie di regole di
inferenza utilizzabili per condurre ragionamenti automatici». (T.B.Lee)
Caratteristica del Web semantico è la capacità delle macchine di
combinare i dati per creare nuova informazione.
L’INFERENZA E’ LA CAPACITA’ DI DEDURRE CONOSCENZA TRAMITE
PERCORSI.
Un esempio semplice= sillogismo
tutti gli insegnanti sono persone, Maria è un’insegnante, Maria è una
persona
/
2
0
1
5
Esercizio: costruiamo inferenze
Nella costruzione di dataset possiamo utilizzare più fonti di dati. Un
ragionatore (es. un motore di ricerca ‘semantico’) sfrutterà queste
fonti per dedurre nuova conoscenza tramite il processo inferenziale
/
2
0
1
5
L’inferenza: Un esempio semplice
Stieg Larsson è uno scrittore
Stieg Larsson scrive gialli
Stieg Larsson ha come nazionalità Svezia
Stieg Larsson ha come data di morte 2004
Stoccolma è in Svezia
Agatha Christie è uno scrittore
Agatha Cristie scrive gialli
Agatha Christie ha come data di morte 1976
Inferenza: Agatha Christie e Stieg Larsson sono scrittori di gialli non
più viventi.
/
2
0
1
5
Inferenza: un esempio più complesso /1
Immaginiamo di descrivere la proprietà ‘ha scritto’ in un’ontologia
facendo un esempio complesso con RDFS:
@prefix ex: <http://esempio.it/miaontologia#>
@prefix rdf: <http://www.w3.org/1999/02/22/rdf-syntax-ns#>
@prefix rdfs: < http://www.w3.org/2000/01/rdf-schema#>
@prefix foaf: < http://xmlns.com/foaf/spec/#>
ex:ha scritto rdf:type rdf:Property: [stiamo affermando che ‘ha scritto’
è una proprietà]
rdfs:domain foaf:Person [affermiamo che soggetto della tripla che ha
come predicato questa proprietà possono essere solo le persone]
rdfs:range ex:operaletteraria [solo le opere letterarie possono essere
oggetto della tripla]
rdfs:subpropertyOf ex:ha creato [è una sottoproprietà di ex:ha creato]
/
2
0
1
5
Inferenza: un esempio più complesso /2
Adesso immaginiamo che un ragionatore o un motore di ricerca
semantico recuperi questa tripla da qualche parte
:Collodi :ha scritto :Pinocchio
A questo punto il ragionatore recupera la proprietà ha scritto tramite la
sua URL e trova la sua ‘descrizione’
Potrà quindi per inferenza produrre le seguenti triple:
:Collodi a foaf:Person [Collodi è una persona]
:Pinocchio a ex:operaletteraria [Pinocchio è un’opera letteraria]
Collodi ex:ha creato :Pinocchio [Collodi ha creato Pinocchio]
/
2
0
1
5
3.1. Il web dei dati
Il Web dei dati
Il Web dei dati (Web of Data) è un gigantesco grafo che collega i diversi
dataset presenti in rete.
I dataset o data set = collezioni di risorse tra loro collegate in grafi che
hanno una caratteristica comune: coprono lo stesso ambito
disciplinare (dataset geografici, governativi, bibliografici, di musica) e/o
si originano dalla stessa fonte di dati (es. dbpedia è un dataset
originato dai dati di Wikipedia).
2007 Linked Open Data Project, progetto del W3C Semantic Web
Education and Outreach Interest Group SWEO IG.
I dati provengono da domini pubblici o privati.
E’ necessario rispettare i requisiti esposti in http://lod-cloud.net/
/
2
0
1
5
Requisiti
• There must be resolvable http:// (or https://) URIs.
• They must resolve, with or without content negotiation, to RDF
data in one of the popular RDF formats (RDFa, RDF/XML, Turtle, N-
Triples).
• The dataset must contain at least 1000 triples.
• The dataset must be connected via RDF links to a dataset that is
already in the diagram. This means, either your dataset must use
URIs from the other dataset, or vice versam. We arbitrarily require at
least 50 links.
• Access of the entire dataset must be possible via RDF crawling, via
an RDF dump, or via a SPARQL endpoint.
Stato della Linked open data cloud nel maggio 2007
Stato della Linked open data cloud nel 2008
Stato della Linked open data cloud nel 2009
Stato della Linked open data cloud al settembre 2011 (Linking open data cloud diagram, di Richard
Cyganiak e Anja Jentzsch < http://lod-cloud.net/versions/2011-09-19/lod-cloud_colored.html>
La nuvola dei LOD nel 2014 http://lod-cloud.net/
Quanto è grande la nuvola dei LOD?
A partire dal 2007 venne creato ad opera di due studiosi di Berlino il
registro CKAN, nato per ospitare le notizie relative ai nuovi dataset che
venivano pubblicati nella nuvola
Nel 2011 Richard Cyganiak e Anja Jentzsch hanno misurato l’ampiezza
della nuvola dei lod fino ad allora pubblicati (http://lod-
cloud.net/state/).
Versione aggiornata al 2014:
<http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/>
Mannheim Linked Data Catalog conta 1917 dataset
Ogni dataset presente nell’immagine della nuvola linka alla descrizione
presente sul portale predisposto della University of Mannheim
/
2
0
1
5
Datasets by topical domain.
Topic Datasets %
Government 183 18.05%
Publications 96 9.47%
Life sciences 83 8.19%
User-generated content 48 4.73%
Cross-domain 41 4.04%
Media 22 2.17%
Geographic 21 2.07%
Social web 520 51.28%
Total 1014
Dataset con più collegamenti in entrata
Datasets with the ten highest indegrees
Dataset Category Indegree
dbpedia.org cross-domain 207
geonames.org geographic 141
w3.org cross-domain 117
quitter.se social web 64
status.net social web 63
postblue.info social web 56
skilledtests.com social web 55
reference.data.gov.uk government 45
data.semanticweb.org publications 44
fragdev.com social web 41
lexvo.org cross-domain 37
Dataset: interdisciplinari: DBPEDIA
E’ un RDf store contenente dati strutturati automaticamente estratti
da Wikipedia, l’enciclopedia collaborativa online.
Estrae i dati semi-strutturati che sono contenuti nella maggior parte
degli articoli di Wikipedia nella cosiddetta ‘infobox” che consistono in
una elencazione di parole chiave e i relativi valori
Es. Una pagina di Wikipedia:
https://en.wikipedia.org/wiki/Stieg_Larsson
La corrispondente pagina di DbPedia
http://dbpedia.org/page/Stieg_Larsson
Altri dataset interdisciplinari: Freebase= knowledge base che ricava
dati da Dbpedia e Geonames
/
2
0
1
5
I principali dataset: geografici
/
2
0
1
5
I principali dataset: geografici
Geonames: www.geonames.org/
è una knowledge base ossia un database geografico contenente oltre
otto milioni di toponimi di tutti i paesi del globo che sono disponibili
per il download gratuito
http://www.geonames.org/search.html?q=Torino&country=
Espone i dati via web services
Il database è accessibile gratuitamente, i files sono scaricabili come
data dumps (aggiornamento giornaliero)
licenza cc-by (creative commons attributions license), consentito l'uso
anche commerciale dei dati
/
2
0
1
5
I principali dataset: governativi, media
/
2
0
1
5
I principali dataset: governativi, media
Dati governi USA e Britannico
In italia dati.gov.it e dati.piemonte.it
 http://data.gov.uk/data/search
Dati di vario tipo: informazioni sul traffico in tempo reale, dati
statistici (es. obesità), dati sulla sicurezza delle strade, indici
economici e statistici, ‘social trends”)
Media: BBC, BBC Wildlife finder, Nature, New York Times
/
2
0
1
5
Editoria, biblioteche, User Gen Content
/
2
0
1
5
4. Pubblicare linked open data
workflow
tecnologie
licenze
Pubblicare i linked data. Il Workflow
1. Scelta dei
dataset
2. Bonifica
3. Modellazione
semantica
4. Arricchimento5. Interlinking
6. Validazione
7. Pubblicazione
1. Scelta dei dataset
Selezionare i dataset sulla base degli obiettivi e o priorità che si
intendono raggiungere:
Prestare attenzione ai vincoli di natura giuridica e organizzativa
Privilegiare ove possibile l’apertura di dati più atomici rispetto alle
forme aggregate
Predisporre una pre-analisi di dominio: principali entità e relazioni
da rappresentare
Affrontare questioni preliminari: scelta degli URI e del namespace,
scelta della licenza più appropriata
/
2
0
1
5
2. Bonifica dei dati
Necessaria a volte quando ci si trova di fronte a dataset disomogenei
Facendo una pulizia a monte si migliora la qualità dei dati
La qualità è un requisito indispensabile nel web semantico, poiché il
mio dataset poi sarà aperto a collegamenti da parte di altri dataset
che esistono nel web semantico
Altre problematiche (es completezza dei dati immessi) non sono così
rilevanti nel contesto del Web semantico
/
2
0
1
5
3. Analisi e modellazione semantica
Formalizzare la semantica del dataset (il modello concettuale)
Refactoring della propria base dati
Il modello concettuale dovrà essere espresso in RDF
Gli elementi dovranno essere identificati con URI ed essere
dereferenziabili
/
2
0
1
5
3. Analisi e modellazione semantica
Il processo prevede diverse fasi (non necessariamente sequenziali):
Analisi delle fonti dati
Creazione del modello di dati (data model) attraverso l’uso di una o
più ontologie
 Predisposizione del modello di rappresentazione dei dati scegliendo
le ontologie più appropriate.
Viene predisposta una mappatura dei formati MARC con gli elementi
scelti per rappresentare i dati, in base alle ontologie scelte e alle
specifiche del data model
Reingegnerizzazione e trasformazione in RDF
/
2
0
1
5
Il data model della BNB
0
6
/
0
3
/
2
0
1
5
0
6
/
0
3
/
2
0
1
5
Prefix URI
bibo http://purl.org/ontology/bibo/
bio http://vocab.org/bio/0.1/
Dc http://purl.org/dc/elements/1.1/
dcmi-box http://dublincore.org/documents/dcmi-box/
Dcterms http://purl.org/dc/terms/
foaf http://xmlns.com/foaf/0.1/
frbr-rda http://rdvocab.info/uri/schema/FRBRentitiesRDA/
geo http://www.w3.org/2003/01/geo/wgs84_pos#
geonames http://www.geonames.org/ontology#
ign http://data.ign.fr/ontology/topo.owl#
insee http://rdf.insee.fr/geo/
isni http://isni.org/ontology#
marcrel http://id.loc.gov/vocabulary/relators/
mo http://musicontology.com/
ore http://www.openarchives.org/ore/terms/
owl http://www.w3.org/2002/07/owl#
rdagroup1elements http://rdvocab.info/Elements/
rdagroup2elements http://RDVocab.info/ElementsGr2/
rdarelationships http://rdvocab.info/RDARelationshipsWEMI/
rdfs http://www.w3.org/2000/01/rdf-schema#
skos http://www.w3.org/2004/02/skos/core#
0
6
/
0
3
/
2
0
1
5
Bibliotheque Nationale de France. Principali vocabolari e ontologie
Mappatura ‘persona’ in Data.bnf.frLibellé catalogue Zone intermarc Unimarc Correspondance RDF
Nationalité 008 position 12-13 102 $a rdagroup2elements:countryAssociatedWithThePerson
Langue 008 position 14-16 101 $a RDAgroup2elements: languageOfThePerson
Sexe 008 position 17 120 $a foaf:gender
Date de naissance 008 position 27-36 340 $a RDAgroup2elements:dateOfBirth
Date de mort 008 position 37-46 340 $a RDAgroup2elements:dateOfDeath
Début d'activité 008 position 47-51 340 $a RDAgroup2elements:periodOfActivityOfThePerson
Fin d'activité 008 position 52-55 340 $a RDAgroup2elements:periodOfActivityOfThePerson
Forme retenue
(prénom) 100 $m 200 $b, 700 $b foaf:givenName
Forme retenue 100200, 700 skos:prefLabel @in_lang
Forme retenue 100200, 700 foaf:name
Dates 100 $d 200 $f, 700 $f dc:date
Forme retenue
(nom) 100 $a 200 $a, 700 $a foaf:familyName
Formes rejetées 400 400 skos:altLabel @in_lang
Note d'information
publique 600 $a
300$a, 305$a$b,
310$a$b, 320$a,
330$a, 340$a,
830$a RDAgroup2elements: biographicalInformation
Lieu de naissance 603 $a 340$a RDAgroup2elements:placeOfBirth
Lieu de mort 603 $b 340$a RDAgroup2elements:placeOfDeath
Note publique sur les
sources consultées avec
profit 610 $a 810 $a skos:editorialNote
Note de regroupement
par domaine 624 $a 686 $a RDAgroup2elements: fieldOfActivityOfThePerson
0
6
/
0
3
/
2
0
1
5
Convertire i formati tradizionali in RDF
Dati contenuti in database relazionali
Triplify, D2RQ RDB2RDF
A partire da files XML.
RDF possiede già una sintassi basata su XML, si possono rendere
compatibili con RDF, utilizzando XSLT (eXtensible Stylesheet Language
Transformations).
Da formati tabellari e fogli di calcolo
Open Refine (prima Google Refine) <http://openrefine.org/>
Importa dati da formati differenti (MS Excel, Google Spreadsheet and
CSV) con RDF Extension per esportare RDF.
0
6
/
0
3
/
2
0
1
5
Convertire formati tradizionali in RDF
Per i dati bibliografici
marcmods2rdf converte record catalografici in RDF
oai2rdf estrarre RDF dagli archivi OAI (OAI-PMH)
Marimba soluzione completa per l’estrazione e la trasformazione di
record MARC come linked data, basato su mappature personalizzate.
0
6
/
0
3
/
2
0
1
5
4. Arricchimento. Metadatazione
Nella fase dell’arricchimento i dati, una volta bonificati e modellati,
vengono arricchiti per favorirne il riutilizzo tramite tecniche di
inferenza
La metadatazione è importante perché semplifica la ricerca e la
fruizione e il riutilizzo dei dati
Metadati importanti per la fruibilità e interoperabilità del dataset sono:
metadati sulla semantica (commenti, etichette, definizioni)
metadati sul contesto (confini di validità dei dati o del dataset,
licenza)
metadati sulla provenienza (descrivono come e chi ha prodotto i
dati). Seguire un’ontologia o uno schema proprietario o le specifiche
del Provenance Interchange Working Group del W3C.
/
2
0
1
5
4. Arricchimento. Metadatazione
Alcune raccomandazioni:
Gestire questa operazione in modo adeguato per offrire garanzie di
autenticità e qualità dei dati
Elementi:
Il produttore dei dati
Il riferimento temporale dei dati e l’eventuale periodo di validità (Es.
Afflusso turistico nelle strutture alberghiere della Valle d’Aosta. 2010)
Una descrizione puntuale della semantica delle informazioni che
vengono distribuite
La licenza
E’ consigliabile adottare le Raccomandazioni del W3C
(http://www.w3.org/2011/prov/wiki/Main_Page) e se possibile
l’ontologia PROV –O (http://www.w3.org/TR/prov-o/) o VOID
/
2
0
1
5
4. Arricchimento. Inferenza
Un altro modo di arricchire i dati è la possibilità di ‘inferire’ cioè
derivare nuovi collegamenti attraverso opportuni ‘ragionatori
automatici’ basati su OWL o regole, oppure costruendo apposite
interrogazioni (Query) in SPARQL
Queste tecniche necessitano di specifiche competenze informatiche
/
2
0
1
5
5. Interlinking
Per interlinking si intende il collegamento (linking) esterno del mio
dataset con altri dataset presenti nel Web dei dati
Significa creare triple in cui soggetto e oggetto fanno parte dataset
differenti (links relazionali)
Allineare entità appartenenti a diversi dataset (alias links)
Creare link di identità (owl:sameAs) è fondamentale
Si potrà ad esempio collegare l’URI relativo alla città di Madrid nel
dataset di partenza, ad esempio miodataset.it/… Madrid con gli URI
relativi a una stessa città in due dataset differenti come DBpedia e
Geonames: http://dbpedia.org/resource/Madrid e
http://sws.geonames.org/6355233/.
Ciò consente al mio dataset di raggiungere il livello più alto (5 stelle)
della classifica dei LOD, cioè un dataset aperto e collegato
/
2
0
1
5
Data model di BNF: allineamenti interni ed esterni
06/03/2015
6. Validazione
Si possono eseguire tre tipologie di validazione
• Sintattica: il contenuto dei dati è conforme alla sintassi prevista dal
W3C. ( W3C RDF Validation Service
<http://www.w3.org/RDF/Validator/>
• Logica: si effettuano dei test per appurare se vi sono errori logici
nella modellazione (es. trova tutte le persone che sono anche città)
• Concettuale: si valuta se il modello concettuale su cui si basa il
dataset risponde alle finalità che ci si era prefissi. Ad esempio se
tutte le entità e le relazioni sono state previste.
• W3C RDF Validation Service (http://www.w3.org/RDF/Validator/)
/
2
0
1
5
7. Pubblicazione
• Gestire al meglio la pubblicazione (risorse, staff, tempo)
• Pubblicare in maniera incrementale il dataset
• Permettere di interrogare i dati (dotarsi di un endpoint) e garantire
vari metodi di accesso
• Piattaforma di hosting affidabile
• Garantire l’aggiornamento costante dei dati
/
2
0
1
5
Pubblicare i dati: la checklist
Prima di pubblicare i dati, è importante porsi delle domande che
costituiranno una sorta di checklist, ovvero misureranno la rispondenza
del proprio dataset a una lista di qualità necessarie per la
pubblicazione:
Qualità dei dati di provenienza
Link agli altri dataset
Scelta della licenza più appropriata
Utilizzo dei vocabolari
Dereferenziabilità degli URI
Mappatura dei vocabolari
Dati relativi al dataset
Metodi di accesso al dataset (dump, endpoint, API etc. )
/
2
0
1
5
DOMANDE?
Grazie!
Antonella Iacono PHD
antonella.iacono@fastwebnet.it

More Related Content

What's hot

Lezione n. 11 (2 ore) - La responsabilità nella PA: i reati della e contro la...
Lezione n. 11 (2 ore) - La responsabilità nella PA: i reati della e contro la...Lezione n. 11 (2 ore) - La responsabilità nella PA: i reati della e contro la...
Lezione n. 11 (2 ore) - La responsabilità nella PA: i reati della e contro la...Simone Chiarelli
 
DSpace implementation of the COAR Notify Project - status update
DSpace implementation of the COAR Notify Project - status updateDSpace implementation of the COAR Notify Project - status update
DSpace implementation of the COAR Notify Project - status update4Science
 
Wimmics Research Team Overview 2017
Wimmics Research Team Overview 2017Wimmics Research Team Overview 2017
Wimmics Research Team Overview 2017Fabien Gandon
 
Introduction to Linked Data
Introduction to Linked DataIntroduction to Linked Data
Introduction to Linked DataJuan Sequeda
 
GDPR: principi - 21 maggio 2018
GDPR: principi - 21 maggio 2018GDPR: principi - 21 maggio 2018
GDPR: principi - 21 maggio 2018Simone Chiarelli
 
GDPR e privacy - 6 dicembre 2018
GDPR e privacy - 6 dicembre 2018GDPR e privacy - 6 dicembre 2018
GDPR e privacy - 6 dicembre 2018Simone Chiarelli
 
7. El repertorio bibliografico
7. El repertorio bibliografico7. El repertorio bibliografico
7. El repertorio bibliograficoJesús Tramullas
 
Open Source Library Automation Software - NewGenLib
Open Source Library Automation Software - NewGenLibOpen Source Library Automation Software - NewGenLib
Open Source Library Automation Software - NewGenLibVerus Solutions Pvt ltd
 

What's hot (9)

Lezione n. 11 (2 ore) - La responsabilità nella PA: i reati della e contro la...
Lezione n. 11 (2 ore) - La responsabilità nella PA: i reati della e contro la...Lezione n. 11 (2 ore) - La responsabilità nella PA: i reati della e contro la...
Lezione n. 11 (2 ore) - La responsabilità nella PA: i reati della e contro la...
 
DSpace implementation of the COAR Notify Project - status update
DSpace implementation of the COAR Notify Project - status updateDSpace implementation of the COAR Notify Project - status update
DSpace implementation of the COAR Notify Project - status update
 
Wimmics Research Team Overview 2017
Wimmics Research Team Overview 2017Wimmics Research Team Overview 2017
Wimmics Research Team Overview 2017
 
Introduction to Linked Data
Introduction to Linked DataIntroduction to Linked Data
Introduction to Linked Data
 
Introducing RDA
Introducing RDAIntroducing RDA
Introducing RDA
 
GDPR: principi - 21 maggio 2018
GDPR: principi - 21 maggio 2018GDPR: principi - 21 maggio 2018
GDPR: principi - 21 maggio 2018
 
GDPR e privacy - 6 dicembre 2018
GDPR e privacy - 6 dicembre 2018GDPR e privacy - 6 dicembre 2018
GDPR e privacy - 6 dicembre 2018
 
7. El repertorio bibliografico
7. El repertorio bibliografico7. El repertorio bibliografico
7. El repertorio bibliografico
 
Open Source Library Automation Software - NewGenLib
Open Source Library Automation Software - NewGenLibOpen Source Library Automation Software - NewGenLib
Open Source Library Automation Software - NewGenLib
 

Viewers also liked

Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia C...
Ontologie per i linked open  data / Stefano De Luca, Paola De Caro, Claudia C...Ontologie per i linked open  data / Stefano De Luca, Paola De Caro, Claudia C...
Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia C...libriedocumenti
 
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...Open access : verso un nuovo modello di disseminazione della conoscenza e di ...
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...libriedocumenti
 
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...libriedocumenti
 
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...libriedocumenti
 
Il profilo del "bibliotecario-professionista" in Italia : norma uni e legge 4...
Il profilo del "bibliotecario-professionista" in Italia : norma uni e legge 4...Il profilo del "bibliotecario-professionista" in Italia : norma uni e legge 4...
Il profilo del "bibliotecario-professionista" in Italia : norma uni e legge 4...libriedocumenti
 
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...libriedocumenti
 

Viewers also liked (6)

Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia C...
Ontologie per i linked open  data / Stefano De Luca, Paola De Caro, Claudia C...Ontologie per i linked open  data / Stefano De Luca, Paola De Caro, Claudia C...
Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia C...
 
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...Open access : verso un nuovo modello di disseminazione della conoscenza e di ...
Open access : verso un nuovo modello di disseminazione della conoscenza e di ...
 
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
Il portale CulturaItalia nel quadro delle collaborazioni europee / Sara Di Gi...
 
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...
Europeana e cultura italia per lo sviluppo del semantic web e dei linked open...
 
Il profilo del "bibliotecario-professionista" in Italia : norma uni e legge 4...
Il profilo del "bibliotecario-professionista" in Italia : norma uni e legge 4...Il profilo del "bibliotecario-professionista" in Italia : norma uni e legge 4...
Il profilo del "bibliotecario-professionista" in Italia : norma uni e legge 4...
 
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...
Deposito legale 10 anni dopo la legge 106 : applicazione della normativa, spe...
 

Similar to Introduzione a Linked Open data e Web semantico / Antonella Iacono

DBpedia nel contesto Linked Data
DBpedia nel contesto Linked DataDBpedia nel contesto Linked Data
DBpedia nel contesto Linked DataAndrea Casagrande
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei datiMau-Messenger
 
Linked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoLinked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoCELI
 
Lezione22 semantic web
Lezione22 semantic webLezione22 semantic web
Lezione22 semantic webAntimoDig
 
La Semantica e il Web dei Dati
La Semantica e il Web dei DatiLa Semantica e il Web dei Dati
La Semantica e il Web dei DatiIrene Celino
 
Biblioteche 2.0
Biblioteche 2.0Biblioteche 2.0
Biblioteche 2.0nomenick
 
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...Patrimonio culturale FVG
 
Sviluppo di ontologie per gli Open Data
Sviluppo di ontologie per gli Open DataSviluppo di ontologie per gli Open Data
Sviluppo di ontologie per gli Open DataGiorgia Lodi
 
OntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italianaOntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italianaGiorgia Lodi
 
Lezione 8 Il Web Semantico
Lezione 8   Il Web SemanticoLezione 8   Il Web Semantico
Lezione 8 Il Web SemanticoStefano Epifani
 
Indicizzare nel mondo digitale
Indicizzare nel mondo digitaleIndicizzare nel mondo digitale
Indicizzare nel mondo digitaleMichele Santoro
 
Presentazione piattaforma semantica per gestione della conoscenza (scuole)
Presentazione piattaforma semantica per gestione della conoscenza (scuole)Presentazione piattaforma semantica per gestione della conoscenza (scuole)
Presentazione piattaforma semantica per gestione della conoscenza (scuole)Matteo Busanelli
 
Linked Open Data - una panoramica per i beni culturali
Linked Open Data - una panoramica per i beni culturaliLinked Open Data - una panoramica per i beni culturali
Linked Open Data - una panoramica per i beni culturalisilviamazzini
 
3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDF3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDFMau-Messenger
 
Architetturadellinformazione.ppt
Architetturadellinformazione.pptArchitetturadellinformazione.ppt
Architetturadellinformazione.pptAnna Maria Tammaro
 
Lodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive
 

Similar to Introduzione a Linked Open data e Web semantico / Antonella Iacono (20)

DBpedia nel contesto Linked Data
DBpedia nel contesto Linked DataDBpedia nel contesto Linked Data
DBpedia nel contesto Linked Data
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati
 
9. Il Web semantico
9. Il Web semantico9. Il Web semantico
9. Il Web semantico
 
5a. Linked Data
5a. Linked Data5a. Linked Data
5a. Linked Data
 
Linked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoLinked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di Tomaso
 
Lezione22 semantic web
Lezione22 semantic webLezione22 semantic web
Lezione22 semantic web
 
La Semantica e il Web dei Dati
La Semantica e il Web dei DatiLa Semantica e il Web dei Dati
La Semantica e il Web dei Dati
 
Dati, cataloghi e Web
Dati, cataloghi e WebDati, cataloghi e Web
Dati, cataloghi e Web
 
Biblioteche 2.0
Biblioteche 2.0Biblioteche 2.0
Biblioteche 2.0
 
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
 
Sviluppo di ontologie per gli Open Data
Sviluppo di ontologie per gli Open DataSviluppo di ontologie per gli Open Data
Sviluppo di ontologie per gli Open Data
 
OntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italianaOntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italiana
 
Lezione 8 Il Web Semantico
Lezione 8   Il Web SemanticoLezione 8   Il Web Semantico
Lezione 8 Il Web Semantico
 
Indicizzare nel mondo digitale
Indicizzare nel mondo digitaleIndicizzare nel mondo digitale
Indicizzare nel mondo digitale
 
9a. Il web semantico
9a. Il web semantico 9a. Il web semantico
9a. Il web semantico
 
Presentazione piattaforma semantica per gestione della conoscenza (scuole)
Presentazione piattaforma semantica per gestione della conoscenza (scuole)Presentazione piattaforma semantica per gestione della conoscenza (scuole)
Presentazione piattaforma semantica per gestione della conoscenza (scuole)
 
Linked Open Data - una panoramica per i beni culturali
Linked Open Data - una panoramica per i beni culturaliLinked Open Data - una panoramica per i beni culturali
Linked Open Data - una panoramica per i beni culturali
 
3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDF3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDF
 
Architetturadellinformazione.ppt
Architetturadellinformazione.pptArchitetturadellinformazione.ppt
Architetturadellinformazione.ppt
 
Lodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive - browsing the web of data
Lodlive - browsing the web of data
 

More from libriedocumenti

Dai repository alle altmetrics. Un nuovo rischio di disintermediazione per l...
Dai repository alle altmetrics. Un nuovo rischio di  disintermediazione per l...Dai repository alle altmetrics. Un nuovo rischio di  disintermediazione per l...
Dai repository alle altmetrics. Un nuovo rischio di disintermediazione per l...libriedocumenti
 
La gestione dei diritti nella valutazione dei prodotti della ricerca nelle sc...
La gestione dei diritti nella valutazione dei prodotti della ricerca nelle sc...La gestione dei diritti nella valutazione dei prodotti della ricerca nelle sc...
La gestione dei diritti nella valutazione dei prodotti della ricerca nelle sc...libriedocumenti
 
Norma UNI per la figura professionale del bibliotecario / Flavia Cancedda
Norma UNI per la figura professionale del bibliotecario / Flavia CanceddaNorma UNI per la figura professionale del bibliotecario / Flavia Cancedda
Norma UNI per la figura professionale del bibliotecario / Flavia Canceddalibriedocumenti
 
Diritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De RobbioDiritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De Robbiolibriedocumenti
 
Valutazione in scienze sociali e umanistiche, il contributo della bibliometri...
Valutazione in scienze sociali e umanistiche, il contributo della bibliometri...Valutazione in scienze sociali e umanistiche, il contributo della bibliometri...
Valutazione in scienze sociali e umanistiche, il contributo della bibliometri...libriedocumenti
 
Open AIRE / Paola Gargiulo
Open AIRE / Paola GargiuloOpen AIRE / Paola Gargiulo
Open AIRE / Paola Gargiulolibriedocumenti
 
Teoria comunicativa de la Biblioteconomia/Documentacion/Cienca de la Informac...
Teoria comunicativa de la Biblioteconomia/Documentacion/Cienca de la Informac...Teoria comunicativa de la Biblioteconomia/Documentacion/Cienca de la Informac...
Teoria comunicativa de la Biblioteconomia/Documentacion/Cienca de la Informac...libriedocumenti
 
Politica della ricerca e Documentazione: l'eredità di Paolo Bisogno / Paola C...
Politica della ricerca e Documentazione: l'eredità di Paolo Bisogno / Paola C...Politica della ricerca e Documentazione: l'eredità di Paolo Bisogno / Paola C...
Politica della ricerca e Documentazione: l'eredità di Paolo Bisogno / Paola C...libriedocumenti
 
Eugène Morel (1869-1934) estimatore di Otlet / Andrea Capaccioni
Eugène Morel (1869-1934) estimatore di Otlet / Andrea CapaccioniEugène Morel (1869-1934) estimatore di Otlet / Andrea Capaccioni
Eugène Morel (1869-1934) estimatore di Otlet / Andrea Capaccionilibriedocumenti
 
Verso una traduzione italiana del Traite de documentation di Otlet / Elena Ranfa
Verso una traduzione italiana del Traite de documentation di Otlet / Elena RanfaVerso una traduzione italiana del Traite de documentation di Otlet / Elena Ranfa
Verso una traduzione italiana del Traite de documentation di Otlet / Elena Ranfalibriedocumenti
 
Transforming FRBR into FRBRoo / Patrick Le Boeuf
Transforming FRBR into FRBRoo / Patrick Le BoeufTransforming FRBR into FRBRoo / Patrick Le Boeuf
Transforming FRBR into FRBRoo / Patrick Le Boeuflibriedocumenti
 
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...libriedocumenti
 
La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide ...
La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide ...La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide ...
La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide ...libriedocumenti
 
Knowledge Management & Knowledge Organization / Domenico (Ingo) Bogliolo
Knowledge Management & Knowledge Organization / Domenico (Ingo) BoglioloKnowledge Management & Knowledge Organization / Domenico (Ingo) Bogliolo
Knowledge Management & Knowledge Organization / Domenico (Ingo) Bogliololibriedocumenti
 
La conservazione a lungo termine : ricerche e strategie / Giuliana Sgambati
La conservazione a lungo termine : ricerche e strategie / Giuliana SgambatiLa conservazione a lungo termine : ricerche e strategie / Giuliana Sgambati
La conservazione a lungo termine : ricerche e strategie / Giuliana Sgambatilibriedocumenti
 
Corso Sapienza NILDE 4.0 / Laura Armiero, Elena De Carolis, Susanna Rospo, El...
Corso Sapienza NILDE 4.0 / Laura Armiero, Elena De Carolis, Susanna Rospo, El...Corso Sapienza NILDE 4.0 / Laura Armiero, Elena De Carolis, Susanna Rospo, El...
Corso Sapienza NILDE 4.0 / Laura Armiero, Elena De Carolis, Susanna Rospo, El...libriedocumenti
 
E-LIS : Un Open Archive disciplinare: problematiche e gestione / Antonella De...
E-LIS : Un Open Archive disciplinare: problematiche e gestione / Antonella De...E-LIS : Un Open Archive disciplinare: problematiche e gestione / Antonella De...
E-LIS : Un Open Archive disciplinare: problematiche e gestione / Antonella De...libriedocumenti
 
Mmir : Introduzione alla ricerca multimediale di documenti digitali: il Multi...
Mmir : Introduzione alla ricerca multimediale di documenti digitali: il Multi...Mmir : Introduzione alla ricerca multimediale di documenti digitali: il Multi...
Mmir : Introduzione alla ricerca multimediale di documenti digitali: il Multi...libriedocumenti
 

More from libriedocumenti (18)

Dai repository alle altmetrics. Un nuovo rischio di disintermediazione per l...
Dai repository alle altmetrics. Un nuovo rischio di  disintermediazione per l...Dai repository alle altmetrics. Un nuovo rischio di  disintermediazione per l...
Dai repository alle altmetrics. Un nuovo rischio di disintermediazione per l...
 
La gestione dei diritti nella valutazione dei prodotti della ricerca nelle sc...
La gestione dei diritti nella valutazione dei prodotti della ricerca nelle sc...La gestione dei diritti nella valutazione dei prodotti della ricerca nelle sc...
La gestione dei diritti nella valutazione dei prodotti della ricerca nelle sc...
 
Norma UNI per la figura professionale del bibliotecario / Flavia Cancedda
Norma UNI per la figura professionale del bibliotecario / Flavia CanceddaNorma UNI per la figura professionale del bibliotecario / Flavia Cancedda
Norma UNI per la figura professionale del bibliotecario / Flavia Cancedda
 
Diritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De RobbioDiritto d'autore e riforma del copyright / Antonella De Robbio
Diritto d'autore e riforma del copyright / Antonella De Robbio
 
Valutazione in scienze sociali e umanistiche, il contributo della bibliometri...
Valutazione in scienze sociali e umanistiche, il contributo della bibliometri...Valutazione in scienze sociali e umanistiche, il contributo della bibliometri...
Valutazione in scienze sociali e umanistiche, il contributo della bibliometri...
 
Open AIRE / Paola Gargiulo
Open AIRE / Paola GargiuloOpen AIRE / Paola Gargiulo
Open AIRE / Paola Gargiulo
 
Teoria comunicativa de la Biblioteconomia/Documentacion/Cienca de la Informac...
Teoria comunicativa de la Biblioteconomia/Documentacion/Cienca de la Informac...Teoria comunicativa de la Biblioteconomia/Documentacion/Cienca de la Informac...
Teoria comunicativa de la Biblioteconomia/Documentacion/Cienca de la Informac...
 
Politica della ricerca e Documentazione: l'eredità di Paolo Bisogno / Paola C...
Politica della ricerca e Documentazione: l'eredità di Paolo Bisogno / Paola C...Politica della ricerca e Documentazione: l'eredità di Paolo Bisogno / Paola C...
Politica della ricerca e Documentazione: l'eredità di Paolo Bisogno / Paola C...
 
Eugène Morel (1869-1934) estimatore di Otlet / Andrea Capaccioni
Eugène Morel (1869-1934) estimatore di Otlet / Andrea CapaccioniEugène Morel (1869-1934) estimatore di Otlet / Andrea Capaccioni
Eugène Morel (1869-1934) estimatore di Otlet / Andrea Capaccioni
 
Verso una traduzione italiana del Traite de documentation di Otlet / Elena Ranfa
Verso una traduzione italiana del Traite de documentation di Otlet / Elena RanfaVerso una traduzione italiana del Traite de documentation di Otlet / Elena Ranfa
Verso una traduzione italiana del Traite de documentation di Otlet / Elena Ranfa
 
Transforming FRBR into FRBRoo / Patrick Le Boeuf
Transforming FRBR into FRBRoo / Patrick Le BoeufTransforming FRBR into FRBRoo / Patrick Le Boeuf
Transforming FRBR into FRBRoo / Patrick Le Boeuf
 
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
 
La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide ...
La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide ...La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide ...
La gestione dei dati della ricerca e il ruolo delle biblioteche: quali sfide ...
 
Knowledge Management & Knowledge Organization / Domenico (Ingo) Bogliolo
Knowledge Management & Knowledge Organization / Domenico (Ingo) BoglioloKnowledge Management & Knowledge Organization / Domenico (Ingo) Bogliolo
Knowledge Management & Knowledge Organization / Domenico (Ingo) Bogliolo
 
La conservazione a lungo termine : ricerche e strategie / Giuliana Sgambati
La conservazione a lungo termine : ricerche e strategie / Giuliana SgambatiLa conservazione a lungo termine : ricerche e strategie / Giuliana Sgambati
La conservazione a lungo termine : ricerche e strategie / Giuliana Sgambati
 
Corso Sapienza NILDE 4.0 / Laura Armiero, Elena De Carolis, Susanna Rospo, El...
Corso Sapienza NILDE 4.0 / Laura Armiero, Elena De Carolis, Susanna Rospo, El...Corso Sapienza NILDE 4.0 / Laura Armiero, Elena De Carolis, Susanna Rospo, El...
Corso Sapienza NILDE 4.0 / Laura Armiero, Elena De Carolis, Susanna Rospo, El...
 
E-LIS : Un Open Archive disciplinare: problematiche e gestione / Antonella De...
E-LIS : Un Open Archive disciplinare: problematiche e gestione / Antonella De...E-LIS : Un Open Archive disciplinare: problematiche e gestione / Antonella De...
E-LIS : Un Open Archive disciplinare: problematiche e gestione / Antonella De...
 
Mmir : Introduzione alla ricerca multimediale di documenti digitali: il Multi...
Mmir : Introduzione alla ricerca multimediale di documenti digitali: il Multi...Mmir : Introduzione alla ricerca multimediale di documenti digitali: il Multi...
Mmir : Introduzione alla ricerca multimediale di documenti digitali: il Multi...
 

Recently uploaded

Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxlorenzodemidio01
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxtecongo2007
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileNicola Rabbi
 
Confronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptConfronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptcarlottagalassi
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoyanmeng831
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxtecongo2007
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaSalvatore Cianciabella
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxtecongo2007
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxlorenzodemidio01
 

Recently uploaded (11)

Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
Confronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptConfronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.ppt
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 

Introduzione a Linked Open data e Web semantico / Antonella Iacono

  • 1. Introduzione a Linked Open data e Web semantico Antonella Iacono Sapienza Università di Roma. Dipartimento di scienze documentarie, linguistico–filologiche e geografiche. Ciclo di conferenze a.a. 2015-2016 10 maggio 2016
  • 2. Contenuti della lezione 1. Cosa sono i linked open data (LOD). Linked data e Web semantico 2. Linked data, LOD, principi dei linked data. Il modello RDF 3. Vocabolari e ontologie. Il Web dei dati 4. Pubblicare I linked data / 2 0 1 5 Linked data e Web Semantico. Corso di aggiornamento
  • 3. Che cosa sono i linked open data? https://vimeo.com/49232562
  • 4. Cosa sono i linked data? Linked open data= ‘buone pratiche’ per pubblicare e collegare dati strutturati sul Web (Tim Berners Lee) Attraverso i Linked data è possibile pubblicare sul Web i dati in una modalità leggibile e interpretabile da una macchina, il cui significato è definito da una stringa di parole e marcatori (‘tripla’) per costituire un reticolo di dati collegati appartenenti a un dominio e collegabili ad altri dataset relativi ad altri domini presenti nel Web. Si costruisce così una rete di dati globale, i cui contenuti possono essere scambiati e interpretati dalle macchine, ovvero la base per il Web semantico (*Berners-Lee; Hendler; Lassila 2001, Guerrini; Possemato 2012) «creare dati che siano ‘del Web’ e non solo ‘sul Web’» (Coyle 2013)
  • 5. Di cosa stiamo parlando? Necessità di utilizzare dati Aperti : gli OD sono dati che possono essere liberamente utilizzati, ridistribuiti da chiunque, (con poche limitazioni: citare la fonte, o tramite licenze copyleft) Collegati: il rilascio di dati aperti non basta da solo a valorizzare e collegare l’informazione, questi devono essere collegati ad altri dati Riutilizzabili: cioè di dati tra loro interoperabili (interoperabilità a più livelli: semantica, tecnologica, di risorse umane e competenze, organizzativa)
  • 6. Perché interessarsi ai linked data? Anche le biblioteche di trovano tra quegli enti che oggi producono dati esclusi dal Web Gli utenti che fanno ricerca si rivolgono in prima battuta ai motori di ricerca (circa il 90%) Le biblioteche hanno bisogno ormai da tempo di recuperare visibilità e credibilità nel Web Se i dati delle biblioteche non sono compatibili = interoperabili con il Web gli utenti ignoreranno la biblioteca e i suoi servizi
  • 7. Perché interessarsi ai linked data? I LOD consentono alle biblioteche di produrre dati ‘aperti’, interoperabili e riutilizzabili per produrre applicazioni basate sui LOD che potranno sfruttare i dati delle biblioteche in nuovo modi. Le biblioteche potranno portare i loro dati autorevoli nel Web Il Web potrà servirsi dei dati autorevoli delle biblioteche per produrre applicazioni basate su dati affidabili Ci sarà un ritorno di utenza verso la biblioteca e i suoi servizi attraverso i ‘dati’ se questi verranno mescolati ad altri dati in contesti diversi I linked data hanno una profonda ricaduta nella possibilità di creare piattaforme di interrogazione e integrazione del patrimonio culturale.
  • 8. 1. linked data e web semantico
  • 9. Il Semantic Web «I have a dream for the Web...» Tim Berners-Lee 1999
  • 10. Il Semantic Web Proposto da Tim Berners Lee nel 2001 in un articolo pubblicato sula rivista «Scientific American» come Web pensante, versione avanzata dell’intelligenza collettiva. Evolvere il Web attuale «machine readable» in un nuovo Web «machine understandable». Creazione di una rete semantica che consenta ai computer di gestire autonomamente le informazioni e imparare processi per sviluppare una cooperazione efficace tra l’uomo e le macchine. Agenti intelligenti: comprendono il significato delle risorse informative presenti in rete Collegano le informazioni in base a relazioni logiche e semantiche effettuando ragionamenti deduttivi.
  • 11. Il Semantic Web «un’estensione del Web attuale, nella quale all’informazione viene dato un significato ben definito, permettendo così ai computer e alle persone di lavorare meglio in cooperazione» (Berners-Lee; Handler; Lassila 2001) Associare all’informazione un ben preciso significato in modo da supportare una comunicazione uomo-macchina più efficace e migliorare l’interoperabilità tra sistemi informativi
  • 12. Dal WWW al Web Semantico Con il termine ‘Web semantico’ si intende la trasformazione del World Wide Web in un ambiente in cui i documenti sono provvisti di metadati che ne connotano semanticamente il contenuto in un formato adatto all’interrogazione e all’elaborazione da parte delle macchine. (Wood et al. 2013) L’attenzione si sposta dai documenti ai contenuti dei documenti ( i dati) Nel Semantic Web hanno grande importanza i metadati: associare ai dati meta-informazioni che ne descrivano il contenuto semantco  Il Semantic Web è un Web interpretabile dalle macchine Ad ogni informazione (dato) viene dato un significato ben definito (formalizzato) Obiettivo: trovare un linguaggio logico per esprimere i dati e consentire il ragionamento automatico
  • 13. Il Semantic Web E’ un web in grado di interpretare il significato dei documenti che lo popolano Nasce per superare i limiti del Web attuale: Problemi legati all’organizzazione e al recupero dell’informazione Informazione del Web caotica e scollegata ad esclusivo uso degli essere umani La prospettiva del Web semantico interessa direttamente i sistemi di recupero delle informazioni compresi i cataloghi delle biblioteche: superamento dell’ information retrieval tradizionale e recupero basato sui contenuti (dati) e sui concetti.
  • 14. L’architettura del web semantico / 2 0 1 5 Interfaccia utente /applicazioni Credibilità (trust) Dimostrazione (proof) Logica unificante Ontologie: OWLInterrogazioni: SPARQL Protocolli: HTTP Tassonomie: RDFS Sintassi: XML+XMLNS Interoperabilità: RDF Identificatori: URI/IRI Testo: UNICODE Crittografia/firmadigitale Regole:SWRL/RIF
  • 15. Il Web Semantico 1/ Web semantico = ragionare sui dati = rendere i dati processabili identificatori non ambigui che permettano anche una associazione tra i dati e gli oggetti del mondo reale (URI); un modello comune per i dati in modo da accedere, connettere e descrivere tali oggetti (RDF); un linguaggio per accedere a questo modello dei dati (SPARQL); un vocabolario comune (RDFS e le ontologie) una logica per il ragionamento (OWL, RULES) / 2 0 1 5
  • 16. Web semantico e linked data Possiamo distinguere due principali fasi del Web Semantico • la prima fase (1999-2006) dominata da un approccio ‘forte’ e sintetico (top down) dell’ontologia fondazionale inteso come sistema di rappresentazione della conoscenza a priori; • la seconda fase (2006-in corso) governata dall’approccio ‘debole’ e analitico (bottom up) dei Linked data. / 2 0 1 5
  • 17. Web semantico e linked data Le ontologie sono concettualizzazioni di porzioni di conoscenza (domini). Le ontologie fondazionali sono interdisciplinari e costituiscono la base per la creazione del Web semantico Le ontologie di dominio invece modellano specifiche porzioni del sapere individuando le entità di interesse e le loro relazioni e per essere pienamente operative dovrebbero basarsi sulle prime. Entrambe hanno la funzione di disambiguare termini mediante la ‘categorizzazione’ degli oggetti o delle cose, cioè tramite l’inserimento di questi in categorie stabilite Usate nel campo della Knowledge Organization servono a migliorare gli strumenti di ricerca, ma purtroppo hanno scarsa applicazione
  • 18. L’approccio forte - le ontologie L’originaria visione di Tim Berners Lee è detta ‘approccio forte’ essa si basa su una serie di ontologie fondazionali (ovvero schemi generali) e su una serie di altre ontologie più specifiche (di dominio) che fanno riferimento alle prime. Attraverso di essere si crea un reticolo ontologico , ovvero un substrato di ontologie in grado di modellare e rappresentare la conoscenza Purtroppo questo approccio dall’alto aveva una serie di limiti sia tecnologici (proliferazione di ontologie non più controllabili), sia etico- filosofici (come modellare il mondo e il Web)
  • 19. L’approccio ‘debole’: i linked data Rispetto all’originario disegno del Web semantico, che si basava sulla possibilità di sviluppare l’intelligenza artificiale tramite l’uso di agenti intelligenti e substrato ontologico creato e imposto ‘dall’alto ‘il paradigma dei linked open data è un approccio ‘dal basso’ ‘Debole’: poiché all’imposizione dall’altro sostituisce l’interoperabilità dei dati, dunque si indebolisce l’originario disegno ‘semantico’ ‘Bottom up’: i collegamenti tra le cose e i concetti si formano dal basso, rendendo i dati interoperabili tra loro Dunque potremmo affermare che le nuove tecnologie del Web 2.0, partecipative e collaborative, hanno avuto un certo peso nel modificare l’approccio di base al Web Semantico e inaugurare il nuovo corso dei linked data.
  • 20. Linked data e Web semantico “A causa della natura del World Wide Web come ambiente aperto, decentralizzato e spesso caotico, gli approcci tradizionali alla rappresentazione della conoscenza non possono essere direttamente utilizzabili. Questi sistemi sono in genere stati concepiti in maniera centralizzata, richiedendo a tutti di condividere le stesse definizioni di concetti comuni nel loro vocabolario del discorso. Un controllo centralizzato, tuttavia, può essere soffocante e aumentare la dimensione e il campo di applicazione di questi sistemi diventa rapidamente ingestibile. In definitiva, i sistemi che sono costruiti per sfruttare il Web semantico devono accettare che paradossi e informazioni mancanti o contraddittorie sono un prezzo da pagare per ottenere la versatilità. […] un obiettivo più pratico e a breve termine dell’idea di Web semantico, è quella di consentire uno scambio di informazioni flessibile e aperto. In quanto tale l’idea di Linked data può essere pensata come una forma ‘ridotta o diluita’ della versione originale del Web semantico […] qualcosa che può essere ottenuto senza un ampio utilizzo di tecniche dell’intelligenza artificiale”. Ora Lassila
  • 21. L’interoperabilità semantica I LINKED DATA DUNQUE FAVORISCONO L’INTEROPERABILITA’ E SI CONFIGURANO COME UNO STRUMENTO PIU’ DINAMICO PER IL RAGGIUNGIMENTO DEL WEB SEMANTICO. L’interoperabilità semantica è dunque considerata come la ‘capacità di elaborare le informazioni provenienti da fonti diverse senza perdere il reale significato delle informazioni stesse nel processo di elaborazione’
  • 22. Open Data e Linked Open Data (LOD) La tecnologia Linked data è profondamente legata al concetto di apertura dei dati (opennes), che ne costituisce la base intellettuale, tanto che si parla più propriamente di Linked open data (LOD), a identificare dati non solo collegati, ma ‘aperti’. E’ importante per il SW parlare di LOD e non solo di LD Oggi viviamo, infatti, in un ecosistema informativo fortemente basato sui dati; non solo siamo continuamente circondati dai dati, ma essi giocano un ruolo sempre più importante nella vita delle persone: siamo entrati nell’era della data economy (Heath; Bizer 2011). L’importanza dei dati da qualche tempo è stata compresa dalle aziende che su questi dati hanno costruito i propri successi commerciali. Google, Amazon etc. si basano sui cosiddetti ‘big data’. Questi dati però sono chiusi, e vengono utilizzati per scopi di business.
  • 23. Open data Perché oggi è importante disporre di dati aperti? nei dati aperti si individua una tassello importante per la crescita il libero accesso alla conoscenza consente di risparmiare soldi pubblici (e privati) e facilita l'innovazione Attraverso dati aperti si accelera il progresso economico e culturale Il movimento Open Data nasce per promuovere la trasparenza nella gestione di organizzazioni pubbliche e private  consapevolezza che ‘ i dati sono di tutti’: chiunque deve poterli utilizzare per progettare servizi innovativi per la società  però è indispensabile che i dati siano alla portata di tutti (aperti) Un aspetto fondamentale degli Open data è la possibilità di riutilizzo dei dati tramite appropriate licenze
  • 24. Open data Gli Open Data nascono e si sviluppano principalmente in due contesti: Pubblica amministrazione e governo : OPEN DATA come derivante dall’Open Government (che a sua volta deriva dall’e-government)= si parla più propriamente di open government data Ricerca scientifica (R&S): OPEN DATA associato al fenomeno OPEN ACCESS
  • 25. Gli open data nella Pubblica Amministrazione Open government: trasparenza dei governi e delle PA nelle loro funzioni e nei servizi per garantire un controllo pubblico del loro operato tramite le nuove tecnologie L’‘Economia dei dati’: costituisce un settore emergente nel panorama economico ed è sostenuta da iniziative politiche dell’Unione Europea come l’Agenda digitale e rientra nella strategia Europa 2020 (che fissa obiettivi per la crescita nell’Unione europea (UE) da raggiungere entro il 2020)
  • 26. OPEN DATA e PA: per saperne di più Sul portale http://www.dati.gov.it/ è presente una sezione sullo stato dell’open data in Italia quanti dataset sono stati rilasciati (sono oltre 9.000) quali enti hanno pubblicato le applicazioni costruite sui dati aperti (es. app turistiche, meteo, traffico, parcheggi, servizi vari) In definitiva tutti gli sforzi vertono verso il raggiungimento dell’interoperabilità semantica
  • 27. OPEN DATA e ricerca scientifica/1 Accesso alle conoscenze prodotte dalla comunità come principale mezzo per sviluppare non solo le attività economiche, ma anche quelle intellettuali (progresso, sviluppo, conoscenza) Dati delle ricerche finanziate con denaro pubblico = beni comuni, devono poter essere fruiti liberamente dalla comunità che li ha prodotti OPEN DATA legato anche al fenomeno OPEN ACCESS Il punto di riferimento per le comunità open (cioè che pubblicano dati aperti) è l’Open Knowledge Foundation (OKFN), organizzazione non-profit nata nel 2004 per promuovere la conoscenza aperta e la condivisione dei dati e delle conoscenze a fini benefici.
  • 28. OPEN DATA e ricerca scientifica/2 Dati della ricerca= risultanti da osservazioni, dati di laboratorio, modelli, dati di banche dati genetiche, dati spaziali etc. Benefici dell’accesso ai dati aperti scientifici rafforzamento indagine scientifica e ricerca cross-disciplinare; promozione della diversità di analisi e di opinioni; possibilità di testare nuove ipotesi di ricerca e metodi di analisi alternativi; esplorazione di nuovi ambiti di ricerca la creazione dataset tramite la combinazione di dati provenienti da fonti diverse The Policy RECommendations for Open Access to Research Data in Europe (RECODE)
  • 29. Linked data e Open data La produzione e la domanda di dati è crescente Bisogna trovare i mezzi per fornire l’accesso e rendere più facile il riutilizzo dei dati nel Web su scala mondiale L’esposizione dei dati in LOD facilita la scoperta, lo scambio l’uso e il riutilizzo dei dati Open data= rimuovere le barriere concettuali e intellettuali all’apertura dei dati e al loro utilizzo Linked data= rimuovere gli ostacoli tecnologici alla libera condivisione dei dati nel Web / 2 0 1 5
  • 30. I LOD sono già in uso La presenza di dati aperti e riutilizzabili sta creando le premesse per applicazioni sempre più sofisticate Le applicazioni stanno cambiando sotto i nostri occhi grazie alla presenza di dati ‘aperti’ e ‘collegati’ Google Knowledge graph Hummingbird 0 6 / 0 3 / 2 0 1 5
  • 31. I LOD sono già in uso 3 / 1 7 / 2 0 1 4
  • 32. Dal Web dei documenti al Web dei dati Applicare i Linked Data vuol dire passare da un Web di documenti a un Web di dati. Nel Web semantico non ci sono più solo documenti ma ‘dati’ o ‘risorse’: Ogni dato è ben definito, indipendente (atomo) e collegato agli altri dati. Ogni dato descrive se stesso (autodescrittivo) / 2 0 1 5
  • 33. IL WWW ATTUALE È formato da: oHTML oUntyped links oAPI oDATABASE oAttraverso HTML nel Web si crea IL Web of documents, cioè una rete di documenti e di oggetti connessi tramite link non classificati (non espliciti). / 2 0 1 5 A B C D API xmlHTML HTML HTML LINK NON QUALIFICATI
  • 34. Le API e i mashups DIFETTI DELLE API: oHanno interfacce proprietarie oNon si creano link tra i dati delle varie API oE’ possibile creare mashups da un numero ben definito di fonti oNo database globale! / 2 0 1 5 A API B API C API D API MASH UP
  • 35. Le API dividono i dati presenti nel web
  • 36. Il Web dei dati o semantico / 2 0 1 5 A B C D thing thing thing thing thing thing thing thing Things: cose del mondo reale: persone, luoghi oggetti, concetti Typed links: legami qualificati relazioni esplicite Database: A,B,C,D = banche dati entro le quali sono immagazzinate ed estratte le informazioni
  • 37. Linked data Nuovo modo di pubblicare, condividere, connettere i dati nel WEB Linked data collega dati o ‘cose’ e non documenti testuali; i collegamenti sono ‘qualificati’ (typed) cioè esprimono la natura della connessione e consentono di scoprire altri dati. oEs. Torino si trova in Piemonte oDante ha scritto La divina commedia A differenza di altri modelli (es. XML) ogni risorsa è collegata alle altre senza che vi siano risorse predominanti sulle altre. / 2 0 1 5
  • 38. 2. I Principi dei LOD e Il modello rdf
  • 39. I principi dei LOD 1.usare gli URI per i nomi degli oggetti; 2.usare HTTP URIs per dare modo agli utenti di trovare questi nomi; 3.una volta trovato un URI, fornire informazioni utili utilizzando standard (RDF e SPARQL); 4.includere links ad altri URIs in modo si che possano scoprire più cose. Berners Lee (2006) / 2 0 1 5
  • 40. 1. USARE GLI URI (identificazione) 1. Usare gli URI per i nomi degli oggetti (o cose) le ‘cose ‘nel SW devono essere ‘identificate’ attraverso gli URI URI come nomi e accessi all’informazione Cos’è un URI? L’URI è un identificativo persistente.  A differenza del Web dei documenti dove si usano gli URI per identificare i documenti, nel Web Semantico si identificano non solo i documenti ma anche oggetti del mondo reale e concetti astratti / 2 0 1 5
  • 41. 1.USARE GLI URI (identificazione) Andranno identificati e dotati di URI anche cose luoghi oggetti concetti presenti all’interno dei documenti: • Persone (es. Dante Alighieri, Barack Obama) • Luoghi (es. Torino, Fiume Po, Monte Bianco) • Cose (Jaguar, Apple, battaglia delle Termopili) • Relazioni tra oggetti e concetti(es. è amico di, è autore di, vive a) / 2 0 1 5
  • 42. Stieg Larsson http://dbpedia.org/page/Stieg_Larsson èAutoreDi http://dbpedia.org/ontology/author La ragazza che giocava con il fuoco http://dbpedia.org/page/The_Girl_Who_Played_with_Fire Dare un URI ad ogni ‘cosa’ presente nel Web Il libro L’autore È autore di
  • 43. 2. USARE URI HTTP (accesso) Il secondo principio afferma : • che bisogna usare solo identificativi HTTP (e non ftp, urn, DOI o altri) per ‘rendere accessibili ‘i dati • che gli URI devono essere ‘dereferenziabili’, intendendo per ‘dereferenziazione’ la possibilità di accedere alle descrizioni delle risorse identificate dall’URI • Il protocollo http è un meccanismo di accesso e recupero universale nel Word Wide Web • Ciò significa che un client HTTP che trova un URI può usare il protocollo HTTP per recuperare una descrizione della risorsa • Tutte le descrizioni di oggetti destinate alle macchine devono essere rappresentate da dati in RDF. In tal modo HTML verrà usato per rendere le informazioni comprensibili agli essere umani e RDF alle macchine / 2 0 1 5
  • 44. DEREFERENZIAZIONE URI DEREFERENZIABILI Il secondo principio richiede che gli URI siano HTTP in modo da poter essere dereferenziati in modo cioè che le macchine (client http) possano accedere attraverso il protocollo HTTP a una descrizione dell’oggetto o del concetto identificato dall’URI Le descrizioni di documenti e cose sono dunque presenti sul Web in due modalità: Html per l’uso da parte delle persone Rdf per l’uso da parte delle macchine. L’uri del documento e quello della ‘cosa’ contenuta devono essere diversi e non devono essere confusi Negoziazione dei contenuti / 2 0 1 5
  • 45. DEREFERENZIAZIONE • Per costruire un URI dereferenziabile è necessario fornire una rappresentazione della risorsa che si vuole pubblicare non solo in formato HTML ma in formato RDF cioè leggibile da una macchina • Le linee guida per pubblicare URI sono state dettate dal W3C: http://www.w3.org/TR/cooluris/ • Esempio di URI deferenziabile: • Da Dbpedia: • http://www.dbpedia.org/page/Stieg_Larsson • http://www.dbpedia.org/page/Pablo_Picasso • Dal set di elementi Dublin Core • http://dublincore.org/documents/2012/06/14/dcmi- terms/?v=elements#creator / 2 0 1 5
  • 46. 3. Usare RDF (contenuti) Il terzo principio prescrive l’utilizzo di un unico modello di dati (data model) per pubblicare dati strutturati sul Web e cioè RDF , modello di dati a grafo particolarmente progettato per il Web semantico. • Avanzamento rispetto al Web attuale dove esistono vari modelli di dati per strutturare le informazioni (tabellari/CSV/gerarchici (XML)/relazionali (DBMS) / 2 0 1 5
  • 47. 4. USARE LINK RDF (collegare i dati) Il quarto principio prescrive di creare link tra le ‘cose’ (non tra i documenti) oI LINK IPERTESTUALI: collegano documenti, non qualificati oI LINK RDF: collegano cose, sono qualificati o‘tipizzati’ cioè indicano la relazione che sussiste tra le cose Es. Antonella è amica di Maria Antonella risiede in Biella Le cose su cui vengono fatte asserzioni vengono dette ‘risorse’ Vi sono diversi tipi di links che devono essere attivati nel Web Semantico / 2 0 1 5
  • 48. Il data model RDF Produrre Linked data significa esprimere il contenuto delle informazioni, rendendole condivisibili e riutilizzabili nel Web Il Web semantico codifica l’informazione tramite un unico modello di dati Il modello di riferimento è Resource Description Framework (RDF), uno standard sviluppato e mantenuto dal consorzio W3C per descrivere semanticamente le risorse e le loro relazioni. / 2 0 1 5
  • 49. Resource Description Framework (RDF) Il modello RDF codifica i dati (l’informazione) nella forma di asserzioni (statements) formate da tre parti: soggetto: la parte della tripla che identifica la cosa descritta ovvero la ‘risorsa’ predicato: la proprietà della risorsa oggetto: il valore della proprietà della risorsa. Esempi: Antonella | vive a | Biella Antonella | è autore di | Linked data Antonella | è amica di | Maria / 2 0 1 5
  • 50. Resource Description Framework (RDF) Viene espresso visivamente sotto forma di nodi e archi • Soggetto (nodo) • Predicato (freccia orientata dal soggetto all’oggetto) • Oggetto (nodo) si rappresenta con: • URI= • Letterale o stringa= Le asserzioni sono dette ‘triple’ e sono concetti atomici ovvero unità minime di significato / 2 0 1 5
  • 51. RDF: la tripla / 2 0 1 5 soggetto predicato oggetto Una tripla è una dichiarazione nella quale si afferma che una cosa o un’entità (soggetto della tripla) possiede una certa proprietà Tripla (triple) = l’insieme di soggetto/predicato/oggetto
  • 52. Asserzioni e triple 06/03/2015 Stieg Larsson è autore di La ragazza che giocava con il fuoco Soggetto Predicato Oggetto Risorsa Proprietà Valore Una tripla viene rappresentata come un grafo orientato Stieg Larsson La ragazza che giocava con il fuoco È autore di E codificata tramite una sintassi basata su XML http://miosito.it/autori/1234 http://miosito.it/vocab/Autoredi http://miosito.it/risorse/1234
  • 53. Asserzione e sua codifica XML (RDF/XML) / 2 0 1 5 La ragazza che giocava con il fuoco Larsson, Stieg è autore di <rdf:Description rdf:about=http://miosito.it/autori/1234> <name xml:lang=“eng“>Stieg Larsson</name> <authorOf rdf:resource=“http://miosito.it/risorse/1234 </rdf:Description> <rdf:Description rdf:about= http://miosito.it/risorse/1234> <type xml:lang=“it“>libro</type> <title>La ragazza che giocava con il fuoco</title> </rdf:Description>
  • 54. / 2 0 1 5 Linked data e Web Semantico. Corso di aggiornamento vino Barbaresco Piemonte rosso Ha nome È prodotto in Ha prezzo Ha colore “3 euro”
  • 55. Creare asserzioni (triple) / 2 0 1 5 • Nome: Barbaresco Starderi 2005 • Luogo di provenienza: Piemonte • Tipo: Fermo Rosso • Produttore: Cantina La Spinetta • Formato: 0.75 L • Prezzo: €121 • Grado alcolico: 14 % • Colore: Rosso intenso • Vitigno: Nebbiolo • Certificazione: DOCG Esempio: informazioni su un vino
  • 56. RDF come modello di dati RDF è un nuovo modo di codificare l’informazione diverso rispetto a quelli che finora si sono imposti e che hanno una serie di limitazioni (es. modello relazionale). E però compatibile con i modelli precedenti RDF è più flessibile In particolare, c’è un rapporto diretto con i database relazionali / 2 0 1 5 Linked data e Web Semantico. Corso di aggiornamento
  • 57. Creare asserzioni/2 ID NOME LUOGO TIPO PRODUTTORE FORMATO 1234 Barbaresco Starderi 2005 Piemonte Fermo rosso La Spinetta 75 cl. / 2 0 1 5 Linked data e Web Semantico. Corso di aggiornamento Rapporto diretto con i database relazionali (database di vini) 1 record = 1 risorsa Campi = proprietà (metadati) Contenuto dei campi = valori/dati
  • 58. Creare asserzioni/3 • Da un campo del database a un’asserzione / 2 0 1 5 ha come colore: Rosso
  • 59. Dai campi alle asserzioni / 2 0 1 5 ha per Nome: ‘Barbaresco Starderi 2005’ ha come luogo di produzione: Piemonte ha come produttore: Cantina La Spinetta ha come colore: Rosso ha come formato: 0,75 l Ogni campo del record con il suo valore nel SW può essere espresso tramite un’asserzione (tripla)
  • 60. Unione di grafi (merging) Merging di grafi : quando i grafi hanno identificatori in comune questi vengono uniti per formare grafi più vasti: Es. nel caso l’oggetto di una tripla sia il soggetto di un’altra si ha un’unione delle due triple, formando così un grafo più vasto / 2 0 1 5 miovino Piemonte Ha come luogo di produzione Piemonte Italia Si trova in miovino Piemonte Italia Ha come luogo di produzione Si trova in
  • 61. Riutilizzare dati e metadati Nel Web semantico è indispensabile non solo riutilizzare i dati (fornendo loro URI), ma anche rendere interoperabili e riutilizzabili i metadati. I grafi sono delle strutture flessibili che possono ospitare nuove triple se qualcuno vi aggiunge delle informazioni in più Il paradigma del Web dei dati è un paradigma aperto in cui chiunque può collegare i dati alla mia informazione, formando un grafo più vasto.
  • 62. Ragionare sui grafi: l’inferenza Stieg Larsson è uno scrittore Stieg Larsson scrive gialli Stieg Larsson ha come nazionalità Svezia Stieg Larsson ha come data di morte 2004 Stoccolma è in Svezia Agatha Christie è uno scrittore Agatha Cristie scrive gialli Agatha Christie ha come come data di morte 1976 Inferenza: Agatha Christie e Stieg Larsson sono scrittori di gialli non più viventi. / 2 0 1 5
  • 63. ‘cose’ e ‘stringhe’ Regola di RDF: generalmente è meglio, se possibile, esprimere tutte le parti della tripla (s p o) tramite URI E’ obbligatorio che il soggetto (s) e il predicato (p) siano espressi tramite URI L’oggetto (o) può essere espresso tramite una stringa o un URI Quando l’oggetto è espresso tramite una stringa diventa un punto morto del grafo / 2 0 1 5
  • 64. Link del Web Semantico (LINK RDF) i link relazionali esprimono un collegamento tra diversi dataset puntando a cose, persone, luoghi presenti in un altro dataset o insieme di dati collegati Attraverso i links relazionali si collegano entità di diversi dataset Si può ad esempio collegare una persona (autore) alle sue opere presenti in un altro dataset e ad un’altra persona descritta in un altro dataset / 2 0 1 5
  • 65. Link del Web Semantico (LINK RDF) @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix foaf: <http://xmlns.com/foaf/0.1/> . <http://miosito.it/persone/Antonella_Iacono> rdf:type foaf:Person ; foaf:name “Antonella Iacono" ; foaf:based_near <http://sws.geonames.org/3182043/> ; foaf:based_near <http://dbpedia.org/page/Biella> ; foaf:topic_interest <http://dbpedia.org/resource/Semantic_Web>; foaf:knows http://altrosito.it/persone/Mario_Rossi Le proprietà vengono espresse facendo riferimento ad altre entità presenti in altri dataset (es. Dbpedia, Geonames, altrosito) / 2 0 1 5
  • 66. Link del Web Semantico (LINK RDF) i link di identità (‘alias URI’) collegano tra loro URI di dataset diversi che si riferiscono alla stessa cosa o allo stesso concetto Es. Beethoven in Freebase, Dbpedia, Musicbrainz, NYTimes http://rdf.freebase.com/ns/en.ludwig_van_beethoven http://dbpedia.org/resource/Ludwig_van_Beethoven http://musicbrainz.org/artist/1f9df192-a621-4f54-8850- 2c5373b7eac9# http://data.nytimes.com/N30866506154608358173 / 2 0 1 5
  • 67. Link del Web Semantico (LINK RDF) • I linked data prescrivono la necessità di collegare tutti gli URI alias attraverso dei link • Per convenzione si utilizza la proprietà owl:sameAs che afferma che due URI si riferiscono alla stessa cosa, alla stessa persona o luogo. • Questa tipologia di collegamento è una delle più importanti del Web semantico / 2 0 1 5
  • 68. Link del Web Semantico (LINK RDF) • i link di vocabolario puntano dal dato alle definizioni dei termini dei vocabolari usati per descrivere il dato stesso e o alle definizioni dello stesso concetto date in altri vocabolari (es. collego la voce di soggetto del Nuovo soggettario con un soggetto LCSH) . In tal modo è possibile un’integrazione tra vocabolari diversi (Heath; Bizer 2011) • Servono a contrastare l’eterogeneità del Web semantico integrando vocabolari diversi • RDF consente di rappresentare in un unico grafo informazioni provenienti da diversi modelli, mescolando termini da diversi vocabolari / 2 0 1 5
  • 69. Altri links Un’ulteriore distinzione è quella tra link interni ed esterni: i primi si riferiscono allo stesso dataset, i secondi collegano invece due diverse fonti di dati, ovvero dati che risiedono in namespaces diversi. Questi ultimi costituiscono il ‘collante’ del Web semantico trasformando il Web in uno spazio globale di dati interconnessi / 2 0 1 5
  • 70. ‘SCRIVERE’ IN RDF • RDF è un modello di dati pertanto se dobbiamo scrivere del codice non possiamo direttamente utilizzare nodi e grafi, ma dobbiamo esprimere i nostri dati in un formato adatto alla lettura da parte delle macchine • Serializzazioni RDF= rappresentazioni testuali adatte all’elaborazione automatica • Il W3C mantiene alcuni formati per la serializzazione oRDF/XML = è il formato ‘ufficiale’ di RDF basato sul XML oRDFa= serve per incorporare triple RDF in un documento HTML / 2 0 1 5
  • 71. SCRIVERE’ IN RDF W3C URIs for Identifying RDF Serialization Formats URI Format http://www.w3.org/ns/formats/N3 Notation3 (N3): A readable RDF syntax: W3C Team Submission 28 March 2011 http://www.w3.org/ns/formats/N-Triples N-Triples (in RDF Test Cases: W3C Working Group Note 25 February 2014) http://www.w3.org/ns/formats/RDF_XML RDF/XML Syntax Specification: W3C Recommendation 10 February 2004 http://www.w3.org/ns/formats/RDFa RDFa in XHTML: Syntax and Processing: 3C Recommendation 22 August 2013 http://www.w3.org/ns/formats/Turtle Turtle - Terse RDF Triple Language: W3C Team Submission 28 March 2011
  • 72. RDF/XML /1 • Sebbene sia il linguaggio ‘ufficiale’ di RDF, RDF/XML è spesso accusato di prolissità (verbosità) quindi si preferiscono forme più abbreviate come Turtle o più comprensibili all’uomo come N-Triples • Utilizza i namespaces per la dichiarazione dei prefissi usati • Utilizza la nidificazione • Ha alcuni termini predefiniti come type e property • Type anche abbreviato in a=assegna il soggetto alla classe oggetto della tripla • Es. es: Antonella rdf:type foaf: person • Es. es:la divina commedia rdf:type dbpedia:owl book • (oppure es:la divina commedia a dbpedia:owl book) / 2 0 1 5
  • 73. RDF/XML /2 Il termine property denota un attributo Esempi : • es:Antonella foaf:knows es:Maria • Foaf:knows a rdf:property • Vi sono poi alcuni costrutti utili nella scrittura del codice come i blank nodes (risorse anonime): queste sono risorse che non necessitano di URI perchè non sono identificabili o non devono essere identificabili nel WS. (es- devono rappresentare risorse valide all’interno di un determinato dataset). Sono indicate con _: • Esempio: _:qualcuno foaf:knows es:Maria / 2 0 1 5
  • 74. RDF/XML: la sintassi [… dichiarazione dei prefissi …] <rdf:RDF …> <rdf:Description rdf:about=“Risorsa soggetto della tripla"> <PredicateResource>Risorsa oggetto della tripla espresso come letterale</PredicateResource> <PredicateResource rdf:resource=“Risorsa oggetto della tripla"/> … </rdf:Description> … </rdf:RDF> / 2 0 1 5
  • 75. Annotazione semantica di pagine web RDFa /1 • RDF in Attributes è una recommendation del W3C • fornisce una serie di attributi per annotare semanticamente una pagina web, includendo metadati RDF in un documento XML, consentendo di annotare in RDF una pagina web in maniera nativa • In questo modo è possibile unire il Web dei documenti al Web dei dati cioè è possibile inserire in pagine web in XHTML delle annotazioni semantiche che possono essere comprese dalle macchine. / 2 0 1 5
  • 76. Annotazione semantica di pagine web RDFa /2 Inserisce elementi semantici nelle pagine utilizzando alcuni attributi (about, property, resource) Le macchine leggendo un documento XHTML contenente codice RDFa possono operare un processo di estrazione di contenuti semantici (parsing) generando delle triple RDF Il soggetto della tripla è individuato dall’attributo about al quale vengono associati i valori di Rev e Property In questo modo anche i documenti pubblicati come XHTML possono contenere alcuni contenuti semantici che possono essere interpretati dalle applicazioni del Semantic Web collegando il web dei documenti al web dei dati Schemi per l’annotazione semantica sono Schema.org e Open Graph Protocol / 2 0 1 5
  • 77. 3. Vocabolari e ontologie
  • 78. I vocabolari e le ontologie Nel Web semantico i vocabolari e le ontologie definiscono concetti e termini usati per descrivere e rappresentare una particolare area di interesse Classificano i termini che vengono usati in un particolare settore disciplinare, indicano le relazioni semantiche tra i concetti di un dominio di conoscenza Costituiscono, insieme a RDF e URI, il cuore del Web Semantico Distinzione tra vocabolari e ontologie: nel Web semantico non è netta, generalmente si usano: Vocabolario = lista chiusa di termini da usare come valori (come oggetto della tripla) esempio: book format di RDA per il formato di un libro http://www.rdaregistry.info/termList/bookFormat Ontologia: classi e proprietà per esprimere un dominio di conoscenza (concettualizzazione) / 2 0 1 5
  • 79. Ontologie e modelli formali Sono necessari per la comunicazione umana Descrivono un determinato ambito (dominio) favorendo la creazione conoscenza. Un’ontologia è una «specificazione esplicita di una concettualizzazione» ovvero uno schema strutturato e condiviso di concetti tra loro correlati che descrive un’area della conoscenza utilizzando linguaggi non ambigui e, dunque, processabili da una macchina (Thomas Robert Gruber) Le ontologie sono un insieme di classi e di proprietà Vocabolari e ontologie sono necessari per offrire a tutte le comunità che operano nel Web semantico la possibilità di esprimersi in merito a qualsiasi cosa utilizzando le entità, le relazioni e la terminologia più appropriata (Allemang; Hendler 2008) / 2 0 1 5
  • 80. FOAF Vocabolari e ontologie più diffusi: Friend of a Friend (FOAF) http://xmlns.com/foaf/spec/ E’ un’ontologia che descrive persone, attività e relazioni con altre persone. Viene spesso usata per costruire liste di autorità, descrivere comunità online, community Chiunque può utilizzare FOAF per descriversi nel Semantic Web. / 2 0 1 5
  • 81. Classi e proprietà di FOAF Category:Person (Foaf:Person) Category:Organization (Foaf:Organization) Property:Foaf:knows Property:Foaf:member Property:Name (Foaf:name) Property:Homepage (Foaf:homepage Property:Foaf:mbox Property:Foaf:depiction Property:Foaf:phone / 2 0 1 5
  • 82. Il mio profilo FOAF <rdf:RDF xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns# xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"> <foaf:Person rdf:about="#Aiacono"> <foaf:name>Antonella Iacono</foaf:name> <foaf:mbox rdf:resource="mailto:aiacono88@gmail.com" /> <foaf:homepage rdf:resource="http://www.antonellaiacono.it" /> <foaf:nick>Librarian_Anto</foaf:nick> <foaf:depiction rdf:resource="http://www.antonellaiacono.it/immagine.jpg" /> <foaf:interest> <rdf:Description rdf:about="http://www.dbpedia.org/page/Linked_data " rdfs:label=“Linked data /> </foaf:interest> <foaf:knows> <foaf:Person> <foaf:name>Maria Rossi</foaf:name> </foaf:Person> </foaf:knows> </foaf:Person> </rdf:RDF> / 2 0 1 5
  • 83. Lo stesso esempio in Turtle @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix foaf: <http://xmlns.com/foaf/0.1/> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . <#AIacono> a foaf:Person ; foaf:name «Antonella Iacono" ; foaf:mbox <mailto:aiacono88@gmail.com> ; foaf:homepage < http://www.antonellaiacono.it > ; foaf:nick «Librarian_72" ; foaf:depiction < http://www.antonellaiacono.it/img.jpg > ; foaf:interest < http://www.dbpedia.org/page/Linked_data > ; foaf:knows [ a foaf:Person ; foaf:name «Maria Rossi" ] . / 2 0 1 5
  • 84. DUBLIN CORE E’ uno schema per di metadati per definire attributi di risorse come titolo, creatore, data, soggetto etc. Possiamo usare Dublin Core per descrivere le proprietà di una qualsiasi risorsa bibliografica presente nel Web Si trova in: http://dublincore.org/documents/dces/ (DCMES), prefisso dc: Oppure http://dublincore.org/documents/dcmi-terms/ Prefisso dct: / 2 0 1 5
  • 85. ALTRE ONTOLOGIE • BIO ONTOLOGY: definisce termini per descrivere info biografiche • THE MUSIC ONTOLOGY: definisce termini per descrivere vari aspetti relativi alla musica: artisti (le relazioni tra artisti, l’attività), album, tracce audio etc. • THE EVENT ONTOLOGY: definisce termini per descrivere eventi • BIBLIOGRAPHIC ONTOLOGY O BIBLIONTOLOGY: definisce termini per descrivere concetti e proprietà nelle citazioni bibliografiche • PROGRAMMES ONTOLOGY (BBC) definisce termini per descrivere entità e proprietà relativi ai programmi televisivi http://www.bbc.co.uk/ontologies/po • CREATIVE COMMONS SCHEMA: definisce i termini per descrivere le licenze in RDF http://creativecommons.org/schema.rdf / 2 0 1 5
  • 86. ALTRE ONTOLOGIE • SEMANTICALLY-INTERLINKED ONLINE COMMUNITY (SIOC): definisce termini per esprimere aspetti delle comunità online, come forum, utenti, post, ecc. • THE GOOD RELATIONS ONTOLOGY definisce termini per descrivere prodotti e servizi commerciali online • RDA definisce termini per descrizioni bibliografiche Esistono ontologie per descrivere quasi ogni ambito di conoscenza, possiamo crearne di nuove es. un’ontologia di un’organizzazione (es. Università, un’ontologia di vini, etc. / 2 0 1 5
  • 88. DESCRIVERE LE ONTOLOGIE • Numerosi linguaggi a crescenti livelli di complessità • Questi si presentano come ‘ontologie per creare ontologie’ (hanno al loro interno classi e proprietà) • dal più semplice al più complesso: / 2 0 1 5 Linked data e Web Semantico. Corso di aggiornamento OWL SKOS RdfS
  • 89. SKOS /1 • Simple Knowledge Organisation System (SKOS) è un vocabolario sviluppato dal W3C Semantic Web Deployment Working Group (SWDWG) per esprimere gerarchie di concetti e progettato per supportare l’uso di sistemi di organizzazione delle conoscenze (KOS) come thesauri, schemi di classificazione, soggettari e tassonomie nell’ambito del Web semantico. • Es. possiamo affermare con SKOS che i gatti appartengono alla classe felini, o che concetto ‘Rifiuti solidi urbani’ ha come concetto più ampio ‘‘Rifiuti’ • Tutti i progetti di conversione di KOS bibliotecari si basano su questo vocabolario. (LCSH, Nuovo Soggettario, LCC, CDD) / 2 0 1 5
  • 90. SKOS /2 La classe principale è skos:Concept alla quale appartengono i concetti, i quali sono indipendenti dai termini utilizzati per descriverli o etichette (labels). L’ontologia definisce poi le relazioni thesaurali tra concetti tramite alcuni predicati (proprietà):  skos: broader, skos:narrower, skos:related (per relazionare i concetti) skos:prefLabel, skos:altLabel e skos:hiddenLabel (per relazionare concetti ed etichette) / 2 0 1 5
  • 91. SKOS/3 / 2 0 1 5 Linked data e Web Semantico. Corso di aggiornamento Relazione thesaurale Equivalente SKOS BT broader term skos:broader NT Narrower term skos:narrower RT Related term skos:related USE/USE FOR skos:altLabel
  • 92. SKOS/4 L’aspetto più interessante è quello di poter mettere in relazione schemi concettuali differenti Si realizzano nuovi collegamenti che prima erano impensabili: mappature semantiche tra concetti appartenenti a schemi diversi Questi collegamenti sono resi possibili da alcune proprietà Skos:scheme consente di enunciare uno schema skos:inScheme consente di attribuire un concetto allo schema skos:exactMatch, closeMatch, broaderMatch, narrowerMatch e relatedMatch consentono di esprimere vari tipi di relazioni e gradi di sovrapposizione tra concetti simili appartenenti a schemi diversi (es. nuovo soggettario, Rameau, LCSH, folksonomies) / 2 0 1 5
  • 93. Esempio: nuovo soggettario in SKOS / 2 0 1 5
  • 94. Voce del NS in RDF con uso di SKOS <?xml version="1.0" encoding="UTF-8"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:skos="http://www.w3.org/2004/02/skos/core#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:nsogi="http://prefix.cc/nsogi"> <rdf:Description rdf:about="http://purl.org/bncf/tid/39080"> <rdf:type rdf:resource="http://www.w3.org/2004/02/skos/core#Concept"/> <skos:prefLabel xml:lang="it">Abrasivi</skos:prefLabel> <skos:inScheme rdf:resource="http://purl.org/bncf/tid/ThesCF3"/> <skos:inScheme rdf:resource="http://purl.org/bncf/tid/Thes"/> <skos:broader rdf:resource="http://purl.org/bncf/tid/791"/> <skos:narrower rdf:resource="http://purl.org/bncf/tid/39082"/> <skos:related rdf:resource="http://purl.org/bncf/tid/39081"/> <skos:related rdf:resource="http://purl.org/bncf/tid/43089"/> <skos:closeMatch rdf:resource="http://id.loc.gov/authorities/sh85000218"/> <skos:closeMatch rdf:resource="http://data.bnf.fr/ark:/12148/cb13162965j"/> <skos:closeMatch rdf:resource="http://it.dbpedia.org/resource/Abrasivo"/> <skos:editorialNote>FONTE: Soggettario; Treccani.it; ESG; CIS-ISPESL; ThIST; RAMEAU: Abrasifs; DDC22; Wikipedia(IT)</skos:editorialNote> </rdf:Description> </rdf:RDF> / 2 0 1 5 Mappature esterne con altri KOS: LCSH, Rameau, dbpedia Relazioni semantiche tesaurali BT,NT,RT
  • 95. Usare le ontologie nel Web Semantico Quali ontologie scegliere per descrivere i nostri dati? Nei nostri dataset dovremo utilizzare molte ontologie diverse, a seconda dei nostri scopi di progettazione In particolare rdfs e Owl consentono inferire le informazioni, ovvero di dedurre conoscenza per sussunzione, tramite il ragionamento inferenziale. I ragionatori sono programmi che utilizzano le regole della logica per produrre inferenze Es. tutti gli insegnanti sono anche persone Dotare il nostro dataset di descrizioni in OWL e RdfS dunque consente alle macchine di operare ragionamenti logici / 2 0 1 5
  • 96. L’inferenza/1 «Affinché il web semantico possa funzionare, i computer devono avere accesso a raccolte strutturate di informazioni e a una serie di regole di inferenza utilizzabili per condurre ragionamenti automatici». (T.B.Lee) Caratteristica del Web semantico è la capacità delle macchine di combinare i dati per creare nuova informazione. L’INFERENZA E’ LA CAPACITA’ DI DEDURRE CONOSCENZA TRAMITE PERCORSI. Un esempio semplice= sillogismo tutti gli insegnanti sono persone, Maria è un’insegnante, Maria è una persona / 2 0 1 5
  • 97. Esercizio: costruiamo inferenze Nella costruzione di dataset possiamo utilizzare più fonti di dati. Un ragionatore (es. un motore di ricerca ‘semantico’) sfrutterà queste fonti per dedurre nuova conoscenza tramite il processo inferenziale / 2 0 1 5
  • 98. L’inferenza: Un esempio semplice Stieg Larsson è uno scrittore Stieg Larsson scrive gialli Stieg Larsson ha come nazionalità Svezia Stieg Larsson ha come data di morte 2004 Stoccolma è in Svezia Agatha Christie è uno scrittore Agatha Cristie scrive gialli Agatha Christie ha come data di morte 1976 Inferenza: Agatha Christie e Stieg Larsson sono scrittori di gialli non più viventi. / 2 0 1 5
  • 99. Inferenza: un esempio più complesso /1 Immaginiamo di descrivere la proprietà ‘ha scritto’ in un’ontologia facendo un esempio complesso con RDFS: @prefix ex: <http://esempio.it/miaontologia#> @prefix rdf: <http://www.w3.org/1999/02/22/rdf-syntax-ns#> @prefix rdfs: < http://www.w3.org/2000/01/rdf-schema#> @prefix foaf: < http://xmlns.com/foaf/spec/#> ex:ha scritto rdf:type rdf:Property: [stiamo affermando che ‘ha scritto’ è una proprietà] rdfs:domain foaf:Person [affermiamo che soggetto della tripla che ha come predicato questa proprietà possono essere solo le persone] rdfs:range ex:operaletteraria [solo le opere letterarie possono essere oggetto della tripla] rdfs:subpropertyOf ex:ha creato [è una sottoproprietà di ex:ha creato] / 2 0 1 5
  • 100. Inferenza: un esempio più complesso /2 Adesso immaginiamo che un ragionatore o un motore di ricerca semantico recuperi questa tripla da qualche parte :Collodi :ha scritto :Pinocchio A questo punto il ragionatore recupera la proprietà ha scritto tramite la sua URL e trova la sua ‘descrizione’ Potrà quindi per inferenza produrre le seguenti triple: :Collodi a foaf:Person [Collodi è una persona] :Pinocchio a ex:operaletteraria [Pinocchio è un’opera letteraria] Collodi ex:ha creato :Pinocchio [Collodi ha creato Pinocchio] / 2 0 1 5
  • 101. 3.1. Il web dei dati
  • 102. Il Web dei dati Il Web dei dati (Web of Data) è un gigantesco grafo che collega i diversi dataset presenti in rete. I dataset o data set = collezioni di risorse tra loro collegate in grafi che hanno una caratteristica comune: coprono lo stesso ambito disciplinare (dataset geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte di dati (es. dbpedia è un dataset originato dai dati di Wikipedia). 2007 Linked Open Data Project, progetto del W3C Semantic Web Education and Outreach Interest Group SWEO IG. I dati provengono da domini pubblici o privati. E’ necessario rispettare i requisiti esposti in http://lod-cloud.net/ / 2 0 1 5
  • 103. Requisiti • There must be resolvable http:// (or https://) URIs. • They must resolve, with or without content negotiation, to RDF data in one of the popular RDF formats (RDFa, RDF/XML, Turtle, N- Triples). • The dataset must contain at least 1000 triples. • The dataset must be connected via RDF links to a dataset that is already in the diagram. This means, either your dataset must use URIs from the other dataset, or vice versam. We arbitrarily require at least 50 links. • Access of the entire dataset must be possible via RDF crawling, via an RDF dump, or via a SPARQL endpoint.
  • 104. Stato della Linked open data cloud nel maggio 2007
  • 105. Stato della Linked open data cloud nel 2008
  • 106. Stato della Linked open data cloud nel 2009
  • 107. Stato della Linked open data cloud al settembre 2011 (Linking open data cloud diagram, di Richard Cyganiak e Anja Jentzsch < http://lod-cloud.net/versions/2011-09-19/lod-cloud_colored.html>
  • 108. La nuvola dei LOD nel 2014 http://lod-cloud.net/
  • 109. Quanto è grande la nuvola dei LOD? A partire dal 2007 venne creato ad opera di due studiosi di Berlino il registro CKAN, nato per ospitare le notizie relative ai nuovi dataset che venivano pubblicati nella nuvola Nel 2011 Richard Cyganiak e Anja Jentzsch hanno misurato l’ampiezza della nuvola dei lod fino ad allora pubblicati (http://lod- cloud.net/state/). Versione aggiornata al 2014: <http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/> Mannheim Linked Data Catalog conta 1917 dataset Ogni dataset presente nell’immagine della nuvola linka alla descrizione presente sul portale predisposto della University of Mannheim / 2 0 1 5
  • 110. Datasets by topical domain. Topic Datasets % Government 183 18.05% Publications 96 9.47% Life sciences 83 8.19% User-generated content 48 4.73% Cross-domain 41 4.04% Media 22 2.17% Geographic 21 2.07% Social web 520 51.28% Total 1014
  • 111. Dataset con più collegamenti in entrata Datasets with the ten highest indegrees Dataset Category Indegree dbpedia.org cross-domain 207 geonames.org geographic 141 w3.org cross-domain 117 quitter.se social web 64 status.net social web 63 postblue.info social web 56 skilledtests.com social web 55 reference.data.gov.uk government 45 data.semanticweb.org publications 44 fragdev.com social web 41 lexvo.org cross-domain 37
  • 112. Dataset: interdisciplinari: DBPEDIA E’ un RDf store contenente dati strutturati automaticamente estratti da Wikipedia, l’enciclopedia collaborativa online. Estrae i dati semi-strutturati che sono contenuti nella maggior parte degli articoli di Wikipedia nella cosiddetta ‘infobox” che consistono in una elencazione di parole chiave e i relativi valori Es. Una pagina di Wikipedia: https://en.wikipedia.org/wiki/Stieg_Larsson La corrispondente pagina di DbPedia http://dbpedia.org/page/Stieg_Larsson Altri dataset interdisciplinari: Freebase= knowledge base che ricava dati da Dbpedia e Geonames / 2 0 1 5
  • 113. I principali dataset: geografici / 2 0 1 5
  • 114. I principali dataset: geografici Geonames: www.geonames.org/ è una knowledge base ossia un database geografico contenente oltre otto milioni di toponimi di tutti i paesi del globo che sono disponibili per il download gratuito http://www.geonames.org/search.html?q=Torino&country= Espone i dati via web services Il database è accessibile gratuitamente, i files sono scaricabili come data dumps (aggiornamento giornaliero) licenza cc-by (creative commons attributions license), consentito l'uso anche commerciale dei dati / 2 0 1 5
  • 115. I principali dataset: governativi, media / 2 0 1 5
  • 116. I principali dataset: governativi, media Dati governi USA e Britannico In italia dati.gov.it e dati.piemonte.it  http://data.gov.uk/data/search Dati di vario tipo: informazioni sul traffico in tempo reale, dati statistici (es. obesità), dati sulla sicurezza delle strade, indici economici e statistici, ‘social trends”) Media: BBC, BBC Wildlife finder, Nature, New York Times / 2 0 1 5
  • 117. Editoria, biblioteche, User Gen Content / 2 0 1 5
  • 118. 4. Pubblicare linked open data workflow tecnologie licenze
  • 119. Pubblicare i linked data. Il Workflow 1. Scelta dei dataset 2. Bonifica 3. Modellazione semantica 4. Arricchimento5. Interlinking 6. Validazione 7. Pubblicazione
  • 120. 1. Scelta dei dataset Selezionare i dataset sulla base degli obiettivi e o priorità che si intendono raggiungere: Prestare attenzione ai vincoli di natura giuridica e organizzativa Privilegiare ove possibile l’apertura di dati più atomici rispetto alle forme aggregate Predisporre una pre-analisi di dominio: principali entità e relazioni da rappresentare Affrontare questioni preliminari: scelta degli URI e del namespace, scelta della licenza più appropriata / 2 0 1 5
  • 121. 2. Bonifica dei dati Necessaria a volte quando ci si trova di fronte a dataset disomogenei Facendo una pulizia a monte si migliora la qualità dei dati La qualità è un requisito indispensabile nel web semantico, poiché il mio dataset poi sarà aperto a collegamenti da parte di altri dataset che esistono nel web semantico Altre problematiche (es completezza dei dati immessi) non sono così rilevanti nel contesto del Web semantico / 2 0 1 5
  • 122. 3. Analisi e modellazione semantica Formalizzare la semantica del dataset (il modello concettuale) Refactoring della propria base dati Il modello concettuale dovrà essere espresso in RDF Gli elementi dovranno essere identificati con URI ed essere dereferenziabili / 2 0 1 5
  • 123. 3. Analisi e modellazione semantica Il processo prevede diverse fasi (non necessariamente sequenziali): Analisi delle fonti dati Creazione del modello di dati (data model) attraverso l’uso di una o più ontologie  Predisposizione del modello di rappresentazione dei dati scegliendo le ontologie più appropriate. Viene predisposta una mappatura dei formati MARC con gli elementi scelti per rappresentare i dati, in base alle ontologie scelte e alle specifiche del data model Reingegnerizzazione e trasformazione in RDF / 2 0 1 5
  • 124. Il data model della BNB 0 6 / 0 3 / 2 0 1 5
  • 126. Prefix URI bibo http://purl.org/ontology/bibo/ bio http://vocab.org/bio/0.1/ Dc http://purl.org/dc/elements/1.1/ dcmi-box http://dublincore.org/documents/dcmi-box/ Dcterms http://purl.org/dc/terms/ foaf http://xmlns.com/foaf/0.1/ frbr-rda http://rdvocab.info/uri/schema/FRBRentitiesRDA/ geo http://www.w3.org/2003/01/geo/wgs84_pos# geonames http://www.geonames.org/ontology# ign http://data.ign.fr/ontology/topo.owl# insee http://rdf.insee.fr/geo/ isni http://isni.org/ontology# marcrel http://id.loc.gov/vocabulary/relators/ mo http://musicontology.com/ ore http://www.openarchives.org/ore/terms/ owl http://www.w3.org/2002/07/owl# rdagroup1elements http://rdvocab.info/Elements/ rdagroup2elements http://RDVocab.info/ElementsGr2/ rdarelationships http://rdvocab.info/RDARelationshipsWEMI/ rdfs http://www.w3.org/2000/01/rdf-schema# skos http://www.w3.org/2004/02/skos/core# 0 6 / 0 3 / 2 0 1 5 Bibliotheque Nationale de France. Principali vocabolari e ontologie
  • 127. Mappatura ‘persona’ in Data.bnf.frLibellé catalogue Zone intermarc Unimarc Correspondance RDF Nationalité 008 position 12-13 102 $a rdagroup2elements:countryAssociatedWithThePerson Langue 008 position 14-16 101 $a RDAgroup2elements: languageOfThePerson Sexe 008 position 17 120 $a foaf:gender Date de naissance 008 position 27-36 340 $a RDAgroup2elements:dateOfBirth Date de mort 008 position 37-46 340 $a RDAgroup2elements:dateOfDeath Début d'activité 008 position 47-51 340 $a RDAgroup2elements:periodOfActivityOfThePerson Fin d'activité 008 position 52-55 340 $a RDAgroup2elements:periodOfActivityOfThePerson Forme retenue (prénom) 100 $m 200 $b, 700 $b foaf:givenName Forme retenue 100200, 700 skos:prefLabel @in_lang Forme retenue 100200, 700 foaf:name Dates 100 $d 200 $f, 700 $f dc:date Forme retenue (nom) 100 $a 200 $a, 700 $a foaf:familyName Formes rejetées 400 400 skos:altLabel @in_lang Note d'information publique 600 $a 300$a, 305$a$b, 310$a$b, 320$a, 330$a, 340$a, 830$a RDAgroup2elements: biographicalInformation Lieu de naissance 603 $a 340$a RDAgroup2elements:placeOfBirth Lieu de mort 603 $b 340$a RDAgroup2elements:placeOfDeath Note publique sur les sources consultées avec profit 610 $a 810 $a skos:editorialNote Note de regroupement par domaine 624 $a 686 $a RDAgroup2elements: fieldOfActivityOfThePerson 0 6 / 0 3 / 2 0 1 5
  • 128. Convertire i formati tradizionali in RDF Dati contenuti in database relazionali Triplify, D2RQ RDB2RDF A partire da files XML. RDF possiede già una sintassi basata su XML, si possono rendere compatibili con RDF, utilizzando XSLT (eXtensible Stylesheet Language Transformations). Da formati tabellari e fogli di calcolo Open Refine (prima Google Refine) <http://openrefine.org/> Importa dati da formati differenti (MS Excel, Google Spreadsheet and CSV) con RDF Extension per esportare RDF. 0 6 / 0 3 / 2 0 1 5
  • 129. Convertire formati tradizionali in RDF Per i dati bibliografici marcmods2rdf converte record catalografici in RDF oai2rdf estrarre RDF dagli archivi OAI (OAI-PMH) Marimba soluzione completa per l’estrazione e la trasformazione di record MARC come linked data, basato su mappature personalizzate. 0 6 / 0 3 / 2 0 1 5
  • 130. 4. Arricchimento. Metadatazione Nella fase dell’arricchimento i dati, una volta bonificati e modellati, vengono arricchiti per favorirne il riutilizzo tramite tecniche di inferenza La metadatazione è importante perché semplifica la ricerca e la fruizione e il riutilizzo dei dati Metadati importanti per la fruibilità e interoperabilità del dataset sono: metadati sulla semantica (commenti, etichette, definizioni) metadati sul contesto (confini di validità dei dati o del dataset, licenza) metadati sulla provenienza (descrivono come e chi ha prodotto i dati). Seguire un’ontologia o uno schema proprietario o le specifiche del Provenance Interchange Working Group del W3C. / 2 0 1 5
  • 131. 4. Arricchimento. Metadatazione Alcune raccomandazioni: Gestire questa operazione in modo adeguato per offrire garanzie di autenticità e qualità dei dati Elementi: Il produttore dei dati Il riferimento temporale dei dati e l’eventuale periodo di validità (Es. Afflusso turistico nelle strutture alberghiere della Valle d’Aosta. 2010) Una descrizione puntuale della semantica delle informazioni che vengono distribuite La licenza E’ consigliabile adottare le Raccomandazioni del W3C (http://www.w3.org/2011/prov/wiki/Main_Page) e se possibile l’ontologia PROV –O (http://www.w3.org/TR/prov-o/) o VOID / 2 0 1 5
  • 132. 4. Arricchimento. Inferenza Un altro modo di arricchire i dati è la possibilità di ‘inferire’ cioè derivare nuovi collegamenti attraverso opportuni ‘ragionatori automatici’ basati su OWL o regole, oppure costruendo apposite interrogazioni (Query) in SPARQL Queste tecniche necessitano di specifiche competenze informatiche / 2 0 1 5
  • 133. 5. Interlinking Per interlinking si intende il collegamento (linking) esterno del mio dataset con altri dataset presenti nel Web dei dati Significa creare triple in cui soggetto e oggetto fanno parte dataset differenti (links relazionali) Allineare entità appartenenti a diversi dataset (alias links) Creare link di identità (owl:sameAs) è fondamentale Si potrà ad esempio collegare l’URI relativo alla città di Madrid nel dataset di partenza, ad esempio miodataset.it/… Madrid con gli URI relativi a una stessa città in due dataset differenti come DBpedia e Geonames: http://dbpedia.org/resource/Madrid e http://sws.geonames.org/6355233/. Ciò consente al mio dataset di raggiungere il livello più alto (5 stelle) della classifica dei LOD, cioè un dataset aperto e collegato / 2 0 1 5
  • 134. Data model di BNF: allineamenti interni ed esterni 06/03/2015
  • 135. 6. Validazione Si possono eseguire tre tipologie di validazione • Sintattica: il contenuto dei dati è conforme alla sintassi prevista dal W3C. ( W3C RDF Validation Service <http://www.w3.org/RDF/Validator/> • Logica: si effettuano dei test per appurare se vi sono errori logici nella modellazione (es. trova tutte le persone che sono anche città) • Concettuale: si valuta se il modello concettuale su cui si basa il dataset risponde alle finalità che ci si era prefissi. Ad esempio se tutte le entità e le relazioni sono state previste. • W3C RDF Validation Service (http://www.w3.org/RDF/Validator/) / 2 0 1 5
  • 136. 7. Pubblicazione • Gestire al meglio la pubblicazione (risorse, staff, tempo) • Pubblicare in maniera incrementale il dataset • Permettere di interrogare i dati (dotarsi di un endpoint) e garantire vari metodi di accesso • Piattaforma di hosting affidabile • Garantire l’aggiornamento costante dei dati / 2 0 1 5
  • 137. Pubblicare i dati: la checklist Prima di pubblicare i dati, è importante porsi delle domande che costituiranno una sorta di checklist, ovvero misureranno la rispondenza del proprio dataset a una lista di qualità necessarie per la pubblicazione: Qualità dei dati di provenienza Link agli altri dataset Scelta della licenza più appropriata Utilizzo dei vocabolari Dereferenziabilità degli URI Mappatura dei vocabolari Dati relativi al dataset Metodi di accesso al dataset (dump, endpoint, API etc. ) / 2 0 1 5