Conceptual Friday 29 januari 2016

Locatie: Geonovum, Amersfoort
Route: Route naar Geonovum

Op de agenda stonden 2 onderwerpen: inferencing en stelselcatalogi. Het eerste onderwerp is n.a.v. een eerdere unconference waarin het onderwerp is besproken (zie Werksessie 2 december 2015 ). Onderstaand het verslag van de conceptual friday op 29 januari (aanvullingen en verbeteringen zijn welkom).

Inferencing

Er zijn rondom Linked Data allerlei standaarden en faciliteiten m.b.t. inferencing. Inferencing is het afleiden van nieuwe gegevens uit bestaande gegevens. De basis wordt gevormd met RDFS. Hierin kun je bijvoorbeeld aangeven dat een resource van een bepaalde klasse is die subklasse is van een andere klasse. Een “entailment regime” geeft aan hoe hier al bepaalde gegevens van kunnen worden afgeleid. Als een artikel een publicatie is dan kun je afleiden dat een specifiek artikel dus ook een publicatie is.

Met OWL zijn er uitgebreidere inferences mogelijk. OWL DL is de beslisbare subset van OWL die het meest interessant is omdat deze door inference engines (reasoners) kan worden ondersteund. De inferences zijn echter nog steeds relatief beperkt; het gaat alleen over het redeneren over de ontologie.

Shacl is een relatief nieuwe standaard die al weer meer uitgebreide faciliteiten gebruikt. Anders dan OWL gaat het uit van de “closed world” assumption. Het gaat ervan uit dat je alle feiten kent. Dit is typisch relevant in de context van een specifieke applicatie. Shacl heeft meer uitdrukkingskracht dan OWL; je kunt er bijvoorbeeld ook reguliere expressies in gebruiken. Hierdoor is het erg geschikt om invoervalidaties mee uit te voeren. Daarnaast kan het erg goed gebruikt worden om bijvoorbeeld inzicht te geven in de datakwaliteit van een bestaande gegevensverzameling.

SPARQL Inferincing Notation is een interessante standaard die zorgt dat SPARQL beter inzetbaar is voor het definieren van kennisregels. Het maakt het mogelijk om SPARQL queries op te slaan in RDF, ze via een URL beschikbaar te stellen en ze als een soort "stored procedure" te gebruiken in andere SPARQL queries.

RIF is een standaard uitwisselingsformaat van het W3C voor het uitwisselen van regels. Het is onbekend hoe breed RIF wordt ondersteund. RIF bouwt op RDF en OWL en voegt daar met name productieregels aan toe. Dit zijn IF-THEN regels waarmee een veel rijkere vorm van inferencing ontstaat. SWRL is een standaard die hier op lijkt; het is de Linked Data versie van RuleML.

In de groep is nog beperkte ervaring met inferencing. Lieke Verhelst heeft wel een aantal ervaringen, bijvoorbeeld met het bepalen van de impact van zieke dieren in de vleesvarkensketen. Er lijken wel allerlei kansen, bijvoorbeeld in de context van de omgevingswet. Het Kadaster heeft hierin een casus gedefinieerd waarin je kunt zoeken naar een restaurant die goed past bij je eisen en de beperkingen van de omgeving. Het RCE is aan het nadenken over hoe regels in de omgevingswet context kunnen helpen bij het bepalen wat goede locaties zijn die rekening houden met het aanwezige cultureel erfgoed.

Er is afgesproken dat de restaurant casus van het Kadaster wordt gedeeld en dat er een keer een sessie wordt gepland waarin verder wordt gesproken over de toepassing van regels in deze casus. De casus is hier te vinden.

Stelselcatalogi

Het is belangrijk om te zorgen dat gegevens vindbaar en betekenisvol zijn. Dit is wat de stelselcatalogus en de gegevenscatalogus in het kader van de omgevingswet ondersteunen. Deze worden op elkaar afgestemd qua meta-model en inhoud.

Een vraagstuk is hoe om te gaan met de scheidslijn tussen een thesausus (SKOS) en ontologie (OWL). Het Kadaster ziet deze nadrukkelijk naast elkaar, maar wel aan elkaar verbonden. De thesaurus beschrijft de begrippen, de ontologie hoe deze worden gerepresenteerd in gegevens.

RCE geeft aan ook een link te leggen tussen hun informatiemodellen en erfgoedthesaurus. In de informatiemodellen zit een datatype dat verwijst naar de thesaurus.

Een vraag is in welke mate waardenlijsten ook in de ontologie als klassen zouden moeten terugkomen. Hier is geen eenduidig antwoord in te geven. Leidend zou het beoogd gebruik van de ontologie moeten zijn. Als er bijvoorbeeld geautomatiseerd over de termen geredeneerd moet kunnen worden dan zou dat een reden kunnen zijn om ze als klassen in de ontologie op te nemen.

Een andere vraag is hoe om te gaan met waardelijsten waarvan niet alle waarden bekend zijn en dan bijvoorbeeld een “overig” of “onduidelijk” waarde hebben. Zou je deze wel of niet moeten opnemen in de thesaurus. Ook daar zijn geen ultieme antwoorden. Wel is duidelijk dat er situaties zijn waarbij het weten dat iets “overig” of “onduidelijk” is wel waardevol is om te weten.

Stelselcatalogi (originele aankondiging)

Vanuit het initiatief voor een Gegevenscatalogus voor de Omgevingswet (Kadaster) en de Stelselcatalogus van Basisregistraties (Logius) willen we starten met een nieuwe reeks van Conceptual Fridays. Er staan verschillende grotere ontwerpbeslissingen op ons te wachten, die vragen om een weloverwogen oordeel en om een door zoveel mogelijk (overheids-)organisaties gedragen gezamenlijke gedragslijn.

Onderwerpen die we willen agenderen behoren:

  • Een model van gebeurtenissen, in het bijzonder een model dat gebeurtenissen in de ‘buitenwereld’ relateert aan de administratieve weerspiegeling daarvan binnen een organisatie;
  • Hoe te harmoniseren naar Europese interoperabiliteitsraamwerken als ISA;
  • De verhouding van waardenlijsten en controlled vocabularies tot domeinmodellen: hoe brengen we begrippen en hun onderlinge verhouding (dat is: hoe vanuit een bepaalde invalshoek, bijvoorbeeld juridisch, over een stand van zaken wordt gesproken) in verband met de ‘feitelijke’ weergave van die stand van zaken in bijvoorbeeld OWL DL?
  • Op welke manier kan de Stelselcatalogus voor de Omgevingwet, die nu ontworpen en gebouwd wordt, zoveel mogelijk aansluiten op andere (meta-)datasets van de overheid?
  • De plaats van verzamelingen van bedrijfsregels en regelontologieën binnen modellen van (al dan niet gedeelde) registraties;
  • Het verrijken van de (meta-)data in de stelselcatalogi met een model van het berichtenverkeer binnen overheden, en daarbinnen vooral een typologie van het soort berichten dat wordt uitgewisseld. In dit verband is het ook zeer wenselijk, dat een gemeenschappelijk databestand van overheidsorganisaties (bijv. op basis van het OIN) wordt opgebouwd.


De Conceptual Fridays worden in principe gehouden elke vrijdag van 9:30 – 12:00 u, bij Geonovum in Amersfoort. De 29e starten we iets later omdat dan ook het onderwerp 'inference engines' op de agenda staat. De agenda voor de eerstvolgende bijeenkomsten is als volgt:

  • De eerste Conceptual Friday is op 29 januari, en is gewijd aan de verschillen tussen een thesaurustaal zoals SKOS en een domeinbeschrijvende taal zoals OWL, en hoe daarmee om te gaan;
  • De Conceptual Friday van 5 februari is een zogeheten agendabijeenkomst, dat wil zeggen een bijeenkomst die - anders dan de gebruikelijke sessies - moet leiden tot afspraken. Op 5 februari zal dat gaan over afspraken tussen de Stelselcatalogus Omgevingswet en de Stelselcatalogus Basisregistraties. 5 februari starten we om 10 uur met een projectoverleg tussen Logius en het Kadaster. Vanaf 11 uur, na de BBC presentatie die parallel aan het projectoverleg plaatsvindt, kunnen geïntereseerden en belanghebben aanschuiven;
  • Op vrijdag 12 februari zal er GEEN Conceptual Friday zijn voor het onderwerp catalogi in verband met de 6e Community Meeting van DBpedia in Den Haag;
  • Op vrijdag 19 februari gaan we de kaders bepalen voor de eerstvolgende sessie van het platform Wetgeving in Verbinding;


Het thema van de nog volgende bijeenkomsten zal nader worden bepaald. Wij hopen alle geïnteresseerden te mogen begroeten.

Met vriendelijke groet, Arjen Santema (Kadaster) en Gerard Kuys (Logius)