Conceptual Friday 20 maart 2015

Locatie: Geonovum, Amersfoort
Route: Route naar Geonovum

Tijdens deze Conceptual Friday willen we bespreken wat we moeten doen om ervoor te zorgen dat de server in Almere meer gebruikt gaat worden.

Inhoud

Aanwezigen


Agenda

Theorie:

  • Big Data Value Center als PLDN partner
  • Algemene inleiding over de server in Almere
  • Detailverhaal van wat je ermee kan doen


Praktijk:

  • Hoe je toegang tot de server krijgt
  • Welke datasets nu beschikbaar zijn
  • Hoe je nieuwe datasets toevoegt
  • Welke software nu geïnstalleerd is
  • Hoe je nieuwe software installeert
  • Wat belangrijk is voor beheerders
  • Wat belangrijk is voor ontwikkelaars
  • Wat als er meer capaciteit nodig is


Voorbeeld uit de praktijk:

  • BGT pilot als best practice voorbeeld
  • Wat is de volgende praktijkcase?


De server in Almere wordt ons aangeboden door het Big Data Value Center en een aantal gebruikers hebben deze server al gebruikt, zoals voor de BGT pilot.

We willen duidelijk aan alle mogelijke gebruikers communiceren, dat de server in Almere door alle deelnemers aan Platform Linked Data Nederland gratis gebruikt mag worden, dat nieuwe datasets mogen worden toegevoegd en dat nieuwe software mag worden geïnstalleerd.

Ook moet duidelijk worden welke documentatie minimaal nodig is voor beheerders en ontwikkelaars om de server optimaal te kunnen gebruiken. Er is al documentatie beschikbaar, maar deze willen we actualiseren naar de laatste stand van zaken en zo laagdrempelig mogelijk maken dat iedereen zo makkelijk mogelijk aan de slag kan gaan met de server als men iets met Linked Data wil experimenteren in een Proof of Concept (PoC) of pilot.

Bij de onderwerpen Theorie en Praktijk hierboven staan een aantal bullets, waarvoor we tijdens deze Conceptual Friday moeten bepalen wat er minimaal aan documentatie nodig is voor beheerders en ontwikkelaars en welke huidige documentatie we goed kunnen hergebruiken.

Als laatste willen we bekijken welke praktijkcases we kunnen bedenken en welke organisaties we daarbij kunnen aanhaken om dit verder met elkaar uit te werken binnen een PoC of pilot. De BGT pilot is goed voorbeeld van een geslaagde pilot en we zoeken naar cases die we op eenzelfde manier kunnen uitvoeren met een steeds groter wordende groep Linked Data experts.

Verslag

In dit verslag is ook de input meegenomen die we via de mail hebben ontvangen van Erwin Folmer, Arjen Santema, Marco Brattinga, Richard Nagelmaeker en Thijs Brentjens. Deze input is ook besproken tijdens deze Conceptual Friday met de aanwezigen.

Doelstelling van de server in Almere

De doelstelling van de server in Almere is het aanbieden van een open proeftuin voor iedereen binnen onze PLDN community die met Linked Data aan de slag wil. Het enige criterium om actief te mogen zijn op de server in Almere is dat de activiteit met Linked Data te maken moet hebben en dat de resultaten van deze pilot activiteiten binnen onze PLDN community gepresenteerd kunnen worden.

BGT demo

Om een concreet resultaat te laten zien van wat we al op de server in Almere gedaan hebben, heeft Linda eerst een korte demo gegeven van de resultaten van de BGT pilot met data uit verschillende bronnen van de stad Leiden.

De BGT als Linked Data (bericht op Geonovum site)
De BGT als Linked Data (werkende prototype)

Server configuratie

Op de volgende Wiki pagina staat de configuratie van de server in Almere:

Server configuratie

Als er meer capaciteit nodig is voor de PLDN pilot activiteiten dan kan deze server configuratie opgeschaald worden. Neem hiervoor contact op met Erwin Folmer om dit verder te bespreken.

Server documentatie

Een eerste ingang van de documentatie over de server kan gevonden worden op de volgende Wiki-pagina:

Server documentatie

De verschillende onderdelen van deze documentatie zoals we die tijdens deze sessies besproken hebben, zullen in de secties hieronder verder beschreven worden.

Datasets

Op de Wiki is nog geen lijst opgenomen met de datasets die op de server in Almere beschikbaar zijn om te gebruiken. Aan de Wiki zal daarom een pagina worden toegevoegd met dezelfde lay-out als de RDF Endpoints pagina om de beschikbare datasets te benoemen en te beschrijven.

http://www.pilod.nl/wiki/Rdfendpoints

Het zou mooi zijn als we naast deze lijst een lijst kunnen vinden met alle beschikbare RDF Endpoints in de wereld. Een aantal sites geven wel een eerste overzicht, maar deze zijn nog verre van volledig. Zie bijv.

SPARQL Endpoints Status (lijst van CKAN-based openbare SPARQL endpoints)

Ook zou het mooi zijn als we meer diversiteit in de datasets kunnen aanbrengen door o.a. data te verzamelen van de NVWA (Nederlandse Voedsel- en Warenautoriteit) over bijv. markten en cafetaria, vrije tijd en amusementsdata, zoals evenementsdata van diverse steden uit verschillende bronnen, data over bijv. voetbalteams en voetbaluitslagen, bierbrouwerijen en biermerken en ga zo maar door. We kunnen van deze data dan Linked Data maken en gebruiken binnen pilot activiteiten.

We kunnen het makkelijker maken om triples toe te voegen aan de triple store door het stappenplan voor het uploaden van triples toe te voegen op de Wiki. Richard had hiervoor een beschrijving gemaakt en deze zullen we op de Wiki zetten, zodat iedereen deze dan kan gebruiken.

Software

De volgende software staat op de server in Almere. Zie:

http://www.pilod.nl/wiki/Pilod_installed_software

Aan deze lijst moet nog de volgende software worden toegevoegd om de actuele status van de server m.b.t. de geinstalleerde software goed weer te geven:

  • Apache (wat precies? TomCat, Jena?)
  • PHP (algemene informatie)
  • mongoDB (algemene informatie)
  • MySQL (algemene informatie)
  • Framework/API van Marco
  • Oracle Graph (Wiki pagina)


Waarbij Oracle Graph geinstalleerd is op een aparte VM.

Bij de BGT-pilot is ook nog gebruik gemaakt van:


Daarnaast is het interessant om de volgende software op de server toe te voegen:


En kunnen we de ontwikkelde API’s op GitHub zetten om zo de mogelijkheden van de open source community beter te kunnen benutten. Dit wordt meer en meer gedaan, ook internationaal, vanuit en open en linked data communities, zodat ontwikkelaars makkelijker met elkaar kunnen samenwerken.

Bevindingen tot nu toe met het gebruik van de server

Beheerders en ontwikkelaars kunnen goed uit de voeten met de huidige opzet van de server. De huidige documentatie is voldoende, maar moet wel geactualiseerd worden.

Daarnaast zou het voor ontwikkelaars prettig zijn als er naast de prive users ook developer users kunnen worden aangemaakt voor een groep van ontwikkelaars die gezamenlijk aan een pilot werken.

Virtuoso is behoorlijk performance-gevoelig en kan derhalve traag worden, ook bij niet al te complexe queries (bijv. het opvragen van een lijst met alle graphs die in de triplestore zitten). Als de performance onacceptabel wordt, moet bekeken worden hoe de hardware opgeschaald kan worden.

Alle triples over verschillende thema’s en onderwerpen zitten nu in 1 triple store. Het zou mooi zijn als we met meerdere triple stores zouden kunnen werken, zodat we kunnen experimenteren met SPARQL queries over verschillende bronnen heen.

Het is nog niet gelukt om geo-data op een goede manier in Virtuoso te laden. Dit moet nog een keer bekeken worden met Virtuoso experts die ons daarbij kunnen helpen. In het verleden hebben we via Marcel contact gehad met Patrick van Kleef om een aantal zaken rondom Virtuoso geregeld te krijgen.

Ook moet duidelijk zijn wie waarvoor benaderd kan worden om vragen te kunnen stellen over de activiteiten op de server. Naast de beheerders zullen we ook een lijst moeten hebben met de aanspreekpunten van de datasets en software die op de server zijn gezet en per pilot initiatief, zodat altijd de juiste persoon benaderd kan worden als men een vraag over de server heeft.

Mogelijke nieuwe cases en uitbreidingen op bestaande cases

  • BGT-case. BGT-pilot uitbreiden met:
    • logo’s van de databronnen die nu al gebruikt worden bij de pilot
    • inspectiegegevens van de NVWA (bijv. cafetaria data voor Leiden)
    • OpenKvK gegevens (bijv. het KvK vestigingsnummer gebruiken)
    • evenementsdata uit verschillende bronnen voor de stad Leiden
  • Basisregistratie cases. Arjen Santema heeft via de mail de volgende ambities met ons gedeeld in relatie tot activiteiten op de server in Almere:
    • Ik heb nog een aantal ambities om de BAG linked data implementatie uit te bouwen tot een complete showcase. Als het goed is gaat dat leiden dat deze implementatie ook intensiever wordt gebruikt. Het blijft natuurlijk een pilot omgeving. Als het echt serieus wordt dan moet deze implementatie over naar een productieomgeving a la PDOK die hierop is ingericht.
    • Vanuit het Kadaster willen we ook de BRT (TOP10NL) omzetten naar linked data. Dat zou ik ook het liefst doen vanuit de PLDN community. Ook hier eerst in een pilot situatie op de Almere server en als het echt serieus wordt overgaan naar een productieomgeving a la PDOK.
    • We zijn bezig met linked data 'catalogy' zoals die nu zijn gepubliceerd op brk.kadaster.nl en bag.kadaster.nl. Deze bevatten begripsdefinities (SKOS), datamodellen (SHACL), metadata (DCAT), ontologieën (OWL) en 'handelingen'/events (ODRL?). Deze omgeving wil ik ook graag op de Almere server hebben om ook andere catalogy zoals het NGR in dit linked data raamwerk te representeren. Dit gaat niet over grote massa's (meta)data, maar om duizenden triples, i.t.t. de tientallen miljoenen voor de BAG en de BRT.
  • GOAL-case. Voor het het GOAL-programma uitzoeken hoe de requirements van dit programma (1 loket voor de omgevingswet) geimplementeerd kunnen worden met Linked Data. Belangrijk is dan dat ook beslisbomen en algoritmes in Linked Data (of op een alternatieve wijze) gerealiseerd kunnen worden. Uit praktische overwegingen zou kunnen blijken, dat Linked Data dan het beste gecombineerd kan worden met technieken uit de Artificial Intelligence (AI) om tot een goed werkende oplossing te kunnen komen voor GOAL.
  • Dimitri heeft voor ons mogelijk ook nog een interessante bedrijfscase. We zullen hierover meer communiceren als over case meer concreet wordt.


De uitbreidingen op de BGT-pilot zouden op de korte termijn gerealiseerd kunnen worden (voor de zomervakantie). De ideeen over het doen van een pilot voor het GOAL-programma zijn meer lange termijn (na de zomervakantie).

Evenementsdata is vaak zeer gefragmenteerd als open data beschikbaar vanuit verschillende bronnen (bijv. VVV data en data op evenementen websites die vaak meer vanuit een bepaald thema zijn opgezet). Bekeken moet worden of deze dat via slimme data crawling technieken makkelijker en vollediger verzameld kan worden, zodat we deze bijv. kunnen gebruiken binnen de BGT-pilot.

Andere ideeen

Marco Brattinga, de trekker van de PLDN Linked Data Service, heeft via de mail aangegeven dat we de server in Almere meer moeten gaan gebruiken, door de scope van de Linked Data Service uit te breiden met niet alleen het omzetten van data naar Linked Data, maar ook door deze te publiceren als Linked Data op de server in Almere. Omdat je daarvoor ook publicatiesoftware nodig hebt, ligt het voor de hand om hiervoor beschikbare (open source) software te gebruiken die daarvoor geschikt is. Dit zal op een volgende Conceptual Friday, die ergens half april ingepland gaat worden, verder besproken worden.

Met behulp van de ‘making of’ van een demo moet het voor gebruikers mogelijk worden om alle stappen in het proces na te spelen en beter te begrijpen wat er allemaal voor nodig is om een demo achter de schermen goed geregeld te krijgen. Voor de BGT-pilot is dit voor een deel al goed gedocumenteerd in de presentatie die Linda gegeven heeft op de werksessie op 12 februari in Eindhoven, maar dit kunnen we verder uitbreiden met bijv. de beschrijving van het proces om data op de server te zetten, met hoe DBpedia gebruikt is binnen de pilot en meer in het algemeen welke SPARQL queries die binnen de BGT-pilot gebruikt worden om de resultaten op het scherm te kunnen laten zien. Door deze SPARQL-queries als voorbeeld queries op de Wiki te publiceren, kunnen ontwikkelaars, die nog geen of weinig ervaring hebben met Linked Data, sneller aan de slag met Linked Data gerelateerde activiteiten op de server.

De server moet meer een playground worden, waar je kunt experimenteren met Linked Data, waarbij je meerdere triple stores kunt benaderen en dus SPARQL queries kan uitvoeren over meerdere bronnen heen. Wat gebeurt er bijv. als er ergens een waarde verandert en wat zie je dan op het scherm, etc.

Voor ontwikkelaars is het veel makkelijker als je aan hen API’s aanbiedt in een formaat waar ze makkelijk mee kunnen werken (bijv. in JSON-formaat) i.p.v. data in formaten waar ontwikkelaars moeilijk mee uit de voeten kunnen. Dit kunnen we stimuleren door ontwikkelaars in de markt uit te dagen om verschillende API’s te ontwikkelen op basis van dezelfde data, waarbij de beste wint. Dit zou je ook kunnen formuleren als ontwikkel voor ons stekkers op de data die ervoor zorgen dat de data makkelijker gebruikt kan worden in applicaties. Op die manier kunnen we de marktwerking rondom open data verder stimuleren en ervoor zorgen dat overheidsorganisaties minder applicaties zelf hoeven te bouwen. De overheid biedt in deze visie alleen de data en de regels aan en de ontwikkelaars kunnen daar dan mee aan de slag. Dit is een visie zoals deze binnen de Conceptual Friday is geformuleerd door de aanwezige Linked Data experts en is dus geen officiele overheidsvisie.

Communicatie

We merken dat we tot nu toe te weinig en te ad-hoc over de server hebben gecommuniceerd, zodat de server niet de aandacht krijgt binnen onze PLDN community die het verdient.

Het eerste idee is om regelmatig een nieuwsbrief uit te sturen naar de deelnemers binnen onze community over de wijzigingen die op de server hebben plaatsgevonden waar gebruikers van de server rekening mee moeten houden. We moeten even kijken of we dit willen combineren met de nieuwsbrief die al verstuurd wordt aan de PLDN community (over alle PLDN activiteiten) of dat we dit toch in een aparte nieuwsbrief willen doen. Te veel verschillende nieuwsbrieven is mogelijk niet handig, maar het eventueel combineren van nieuwsbrieven moet nog verder besproken worden.

Conclusies

Met de uitvoering van de BGT-pilot hebben we gezien, dat we in korte tijd tot goede resultaten kunnen komen met het uitvoeren van een Linked Data pilot op de server in Almere. Dit willen we graag uitbreiden met nieuwe pilot activiteiten die op eenzelfde manier georganiseerd kunnen worden.

Ook zien we dat techneuten goed met de server uit de voeten kunnen zonder dat daar heel veel documentatie voor nodig is. Wat er nu is, is in principe genoeg om aan de slag te kunnen met de server en we zullen de verdere actiepunten uit deze sessie oppakken, zodat de documentatie op de Wiki weer up to date is en is aangevuld met de ontbrekende gegevens

Vervolgacties

Samengevat kunnen we volgende vervolgsacties in gang zetten n.a.v. deze Conceptual Friday.

Nr Actie Eigenaar Status
1 Verslag maken van deze Conceptual Friday (deze pagina) Pieter van Everdingen afgerond
2 Datasets pagina toevoegen op Wiki met dezelfde lay-out als de RDF Endpoints pagina Gerard Persoon onderhanden
3 RDF Endpoints pagina op de Wiki uitbreiden met alle RDF Endpoints die in de wereld beschikbaar zijn Gerard Persoon, Pieter van Everdingen, onderhanden
4 Instructie voor het uploaden van triples toevoegen op de Wiki (stappenplan van Richard) Linda van den Brink, Richard Nagelmaeker onderhanden
5 Inspectiedata van de NVWA omzetten naar Linked Data, zodat deze gebruikt kan worden als nieuwe databron binnen de BGT-pilot (cafetaria data) Linda van den Brink, Willem Jongkind, Marco Brattinga onderhanden
6 SPARQL queries van BGT pilot als voorbeeld queries op de Wiki zetten Linda van den Brink, Richard Nagelmaeker onderhanden
7 SPARQL voorbeelden van Lieke op de Wiki zetten als Lieke daarmee akkoord gaat (boekenkast data & queries) Linda van den Brink, Lieke Verhelst onderhanden
8 Nieuwe open data bronnen zoeken om de diversiteit aan data te verhogen en bepalen hoe we data crawling technieken daarbij slim kunnen inzetten allemaal nog verder bespreken
9 Ontbrekende software toevoegen op de software pagina op de Wiki Gerard Persoon onderhanden
10 Ontwikkelde pilot API’s op GitHub zetten om zo de mogelijkheden van de open source community beter te kunnen benutten allemaal nog verder bespreken
11 Lijst met aanspreekpunten toevoegen op de Wiki om ervoor te zorgen dat er voor elke pilot of PoC activiteit op de server een aanspreekpunt is ? nog verder bespreken
12 Image backup en data backup regelen voor de server in Almere. Linda bespreekt dit verder met Erwin om te bepalen wat de mogelijkheden zijn. Linda van den Brink, Erwin Folmer onderhanden
13 Afspraak inplannen met Arjen Santema om de mogelijke nieuwe cases en activiteiten op de server in Almere meer in detail te bespreken Arjen Santema nog verder bespreken
14 Conceptual Friday inplannen voor het bespreken van nieuwe activiteiten rondom de PLDN Linked Data Service en welke open source publicatiesoftware voor ons doel het meest geschikt is (ergens half april) Marco Brattinga onderhanden
15 Oracle sessie organiseren met een goede Oracle expert die hands-on ervaring heeft met Oracle Spatial & Graph (eind mei) Linda van den Brink onderhanden
16 Het verzenden van nieuwsbrieven en de verdere communicatie rondom de server afspreken, zodat gebruikers van de server regelmatig geinformeerd worden over wijzigingen op de server ? nog verder bespreken