Kwaliteitskader Big Data (bijlage bij 29628,nr.948)

1.

Kerngegevens

Officiële titel Kwaliteitskader Big Data (bijlage bij 29628,nr.948)
Document­datum 29-05-2020
Publicatie­datum 04-06-2020
Nummer 2020D21248
Kenmerk 29628, nr. 948
Externe link origineel bericht
Originele document in PDF

2.

Tekst

Kwaliteitskader Big Data

OM en Politie

Programma Toekomstbestendig Opsporen en Vervolgen

Extern

Versie 1.0

Versie datum: 11 mei 2020

Status: Versie voor eerste implementatie

Inhoudsopgave

Inhoudsopgave ............................................................................................................................. 2

Maatschappelijke vraagstukken en achtergrond bij het Kwaliteitskader Big Data ................................. 3

Kwaliteitskader ............................................................................................................................. 3

Checkvragen kwaliteitskader .......................................................................................................... 5

Maatschappelijke vraagstukken en achtergrond bij het Kwaliteitskader Big Data

Het gebruik van kennistechnologie, met in het bijzonder het gebruik van algoritmen, data analysemethoden en Big Data (en daarmee ‘Big Data-technologie’) voor effectievere opsporing en vervolging brengt maatschappelijke, juridische en ethische vraagstukken en dilemma’s met zich mee. Het inventariseren, het doen beantwoorden van deze vragen en het kaderstellend maken van de antwoorden voor andere Big Data-initiatieven is van belang om betrouwbare analyse-instrumenten te ontwikkelen of aan te kopen om zodoende te resulteren in betrouwbare informatie.

Het Wetboek van Strafvordering en de Politiewet geven de voorschriften voor het verzamelen van gegevens. De Wet politiegegevens geeft de voorschriften voor het verwerken van deze gegevens voor zover het politiegegevens betreft. Het uitgangspunt is dat het gebruik van Big Data-technologie altijd is gebaseerd op rechtmatig verkregen, verwerkte en gecombineerde informatie. De verwerking en analyse van gegevens (automatisch of handmatig) is controleerbaar, reproduceerbaar en kritisch toetsbaar. Algoritmen en modelparameters die voor bijvoorbeeld risicotaxatie en toekomstverwachtingen worden gebruikt zijn bekend, wetenschappelijk getoetst en controleerbaar (inzichtelijk en transparant). Een belangrijk uitgangspunt is dat altijd wordt voldaan aan de wet en dat dit ook inzichtelijk is. Het Openbaar Ministerie (OM) en de politie nemen, na de beantwoording van (de vragen in) het kwaliteitskader en het geschetste plan van aanpak van het Big Data initiatief of project, gezamenlijk een moreel standpunt in over het gebruik en de inzetbaarheid van de technologie en de daaruit voortvloeiende informatie.

Kwaliteitskader

Dit kwaliteitskader is een product van het programma Toekomstbestendig Opsporen en Vervolgen, opgesteld in nauwe samenwerking tussen Politie en OM. De opzet van dit kwaliteitskader is meerledig. De benaming Kwaliteitskader Big Data is specifiek gekozen omdat dit kader verschillende doelen dient. Het is zowel een beschrijvings- als een toetsingskader. Het is geen voorschrijvend kader of ‘control framework’. Het kader wil op een methodologische wijze vooral inzichtelijk maken hoe een Big Data project of activiteit is opgezet, wordt uitgevoerd en welke ‘checks and balances’ aanwezig zijn. Het creëren van bewustzijn in de uitvoering is een belangrijk aspect om daar waar nodig ook (al dan niet mitigerende) maatregelen te kunnen nemen. In de opzet van het kader wordt op hoofdlijnen de stappen gevolgd zoals in de methode CRISP-DM 1 zijn beschreven, aangevuld en gemengd met specifieke vragen geënt op juridische, maatschappelijke en ethische aspecten welke voortkomen uit geldende wet- en regelgeving alsmede belangrijk te beschermen normen en waarden. Hierbij moet worden aangetekend dat de te stellen vragen niet uitputtend en limitatief zijn en er geen goede of foute antwoorden zijn. Verder is het van belang om de beantwoording van de vragen in de vorm van een interview met betrokkenen uit te voeren en te doorlopen waardoor een gedegen risico-inschatting en plan van aanpak kan worden geformuleerd.

Het kader kent geen harde (cijfermatige) normen waar tegen gemeten kan worden, het maakt eventueel aanwezige risico’s wel inzichtelijk. Hiermee is het geschikt om als hulpmiddel in te zetten bij risico-inschatting en toetsing, waaronder een toetsing door een Officier van Justitie (OvJ) vanuit het OM. Dit is specifiek van toepassing wanneer er sprake is van een directe relatie naar de opsporing. Op basis van de verkregen inzichten kan vervolgens worden gehandeld. Daarbij kan het gebruikt worden om een

Gegevensbeschermingseffectbeoordeling (GEB) op te stellen. Of dit noodzakelijk is blijkt uit een pre-GEB. De vragen uit het Kwaliteitskader komen overeen met die van de pre-GEB.

1 CRISP-DM staat voor Cross-industry standard process for data mining. Dit is een open standaard procesmodel wat sinds 1996 in gebruik is en wereldwijd tot op heden het meest gehanteerde model voor data mining. De keuze voor CRISP-DM als basis voor het kwaliteitskader is mede gebaseerd op het gebruik van deze methode binnen de politie voor Data Science projecten.

Pagina 3 van 15 Kwaliteitskader Big Data

Externe versie 1.0

Officieren van justitie willen kunnen toetsen/sturen op het moment dat een Big Data project wordt gestart in de pre-opsporingsfase (lees: intelligence fase), binnen bestaande opsporingsonderzoeken of opsporingsonderzoek overstijgend. Dit is afhankelijk van de werking en toepasbaarheid van de te ontwikkelen of in te zetten technologie. Dit alles zodat in de vervolgingsfase geen risico’s ontstaan als het gaat om de herkomst van data, kwaliteit van data, bevoegdheid of betrouwbaarheid van toegepaste analysemethoden of gebruikte systemen. Wat wel of niet goed is willen we tot uiting brengen via het kwaliteitskader waarbij we de overwegingspunten inzichtelijk maken.

Daarmee is het kader geen methode om specifiek en expliciet inzicht te krijgen in de algoritmes zelf, zoals bijvoorbeeld de integriteit, uitlegbaarheid en redelijkheid van het algoritme. De Politie en OM willen door middel van het kwaliteitskader inzicht verkrijgen om een zo goed mogelijke en proportionele afweging te kunnen maken. De OvJ kan een toetsende rol hebben als het gaat om het aangeven van deze grens.

Dit kwaliteitskader is een ’levend’ document. Het gebruik in de praktijk zal wijzigingen opleveren om dit kader verder te verbeteren. Daarbij zal o.a. ook worden gekeken naar ontwikkelingen m.b.t. het gebruik van data en literatuur over verantwoord gebruik van Data Science. Ook de zeer snelle ontwikkelingen in technologie hebben invloed op de verdere ontwikkeling. Het kwaliteitskader is de afgelopen tijd met veel zorgvuldigheid opgesteld en is in lijn met nationale en internationale ontwikkelingen op het gebied van kaders en richtlijnen in dit verband. Momenteel zijn Politie en OM in beide organisaties bezig met de implementatie en inbedding van het kwaliteitskader. De implementatie ziet op opleiding, organisatorische en technische inbedding.

Pagina 4 van 15 Kwaliteitskader Big Data

Externe versie 1.0

Checkvragen kwaliteitskader

Fase Vraag Toelichting vraag Zwaartepunt te beschermen waarden

Fase 0 – Titel • Hoe zou je jullie aanpak / voorgenomen plan • T.b.v. de herkenbaarheid van het projectplan Communicatie, transparantie,

plan/aanpak willen omschrijven? Wat is de naam van de en de eerste potentiele doelbeschrijving. vertrouwen, taakgetrouwheid als

aanpak / het plan? uitvoerende organisatie in een

rechtsstaat

Fase 1a – Inzicht • Wat is het doel van het voornemen/ big data • Vooral relevant bij de toepassing van nieuwe Veiligheid en toetsing van het

bedrijfsdoelstelling traject? technologieën die risico's kunnen opleveren in systeem, gelijkheid (fairness),

(algemeen) • Welk probleem wil je oplossen met behulp van de strafzaak. Denk aan voorspellende en privacybescherming,

data? voorschrijvende analyse vormen. transparantie, vertrouwen,

  • • 
    Wie is de opdrachtgever/ verantwoordelijke? • Enorm belangrijke fase aangezien dit de

taakgetrouwheid als uitvoerende

meetlat vormt voor de in te zetten organisatie in een rechtsstaat

  • • 
    Welke andere partners zijn betrokken? databronnen/ te hanteren technieken etc.
  • • 
    Is het (eind)doel om inzicht in data te verkrijgen • Dwingt juridisch gezien tot doel bepaling en tot of om een model te ontwikkelen? kritische beschouwing datagebruik.
  • • 
    Welk soort beslissingen wil je ermee nemen

    (operationeel, tactisch of strategisch)? •

    Dwingt om kritisch te kijken naar de grenzen van artikel 3 Politiewet en aanpalende

  • • 
    Achtergrond van het plan/idee/werk (eerdere wetgeving waar Politie bevoegdheid uit ervaringen, gebruik in buitenland, op de oude ontleent.

    manier ging het niet, beleidsuitvoering, omdat

    het kan, nieuwe werkvormen uitproberen,…)? • Kijkend naar de laatste vraag van dit blok kan het qua risico-inschatting uitmaken of een

  • • 
    Zijn er KPI's benoemd? Expliciet of impliciet? project direct in de operatie wordt ingezet of
  • • 
    Wanneer is het plan/idee tot een succes te dat het in de R&D omgeving blijft voor nader

benoemen? Welk probleem ga je hiermee onderzoek >> ruimte voor innovatie.

oplossen? Bij de inzet van nieuwe technologieën met een

  • • 
    Met welke dataset/ type data zou je dit risico voor de rechten van betrokkenen is een

plan/idee willen oplossen? Verwerk je GEB verplicht en als de maatregelen niet

bijzondere persoonsgegevens of gegevens van toereikend zijn de AP moet worden ingelicht.

kwetsbare personen (minderjarigen, Vraag is relevant voor de pre-GEB.

vluchtelingen, etc.)? Wat is de onderbouwing • Deze en de voorgaande vraag zijn relevant in hiervan? (NB: hier wordt in fase 2 uitgebreid op het kader van een pre-GEB. ingegaan).

Pagina 5 van 15 Kwaliteitskader Big Data

Externe versie 1.0

  • • 
    Is er een voornemen om een prognose of een • Breng verwachtingen helder in kaart.

    voorspelling te doen op basis

    persoonskenmerken (profilering)? • Let op een eventuele ‘scope creep’ (ongecontroleerde wijzigingen in de

  • • 
    Binnen welke onderzoeksfase wordt het oorspronkelijk opzet).

    project/plan gestart? (intelligence/opsporing/vervolging)?

  • • 
    Op basis van welke politiële grondslag (politiewet/politietaak) wordt dit doel gerealiseerd?
  • • 
    Wat is de scope van het project en wat ga je nu afbakenen in relatie tot het doel?
  • • 
    Gaat er gebruik gemaakt worden van een ‘innovation space’ tussen TRL fases en

    eventueel een ‘safe harbor’ of experimenteeromgeving?

  • • 
    Op welke wijze wordt het resultaat van het project gebruikt? Wordt het in de operatie (kan gaan om alle fasen van onderzoek, de

    intelligence fase en de opsporingsfase) geïmplementeerd?

  • • 
    Betreft het een nieuwe technologische methode, waarbij persoonsgegevens worden verwerkt? Of betreft het de verbetering van bestaande analyse toepassingen/systemen?

Fase 1b – Inzicht • Welke vorm van analyse of analytics beoog je • Deze vragen dienen om te voorkomen dat er Controle over de technologie, bedrijfsdoelstelling te gebruiken? Beschrijvend, verklarend, wordt gedaan aan een ‘fishing expedition’ en inclusiviteit, gelijkheid, (methode) voorspellend of voorschrijvend? dwingt tot kritische reflectie op de inzet van de autonomie, voorkomen willekeur,

  • • 
    Ligt er een hypothese aan de doelstelling ten methodieken in relatie tot de initiële scope balans machtsverhoudingen

grondslag? onder fase 1a. (rechtszekerheid in

  • • 
    Is deze hypothese gestaafd met operationele • Ook dit draagt bij aan uitlegbaarheid van de

    taakuitvoering)

    feiten en kennis en/of ook wetenschappelijk? analyse. Het behoeft geen uitleg dat

    Graag uitvoerige toelichting. wetenschappelijke validatie sterk de voorkeur heeft.

  • • 
    Zijn er naast data scientists ook

    materiedeskundigen betrokken bij het project? • Domeindeskundigheid is cruciaal.

Pagina 6 van 15 Kwaliteitskader Big Data

Externe versie 1.0

Denk aan criminologen of psychologen. Welke • Validatie is van groot belang. Kun je materiedeskundigen zijn betrokken en waarom hypothesen valideren door nieuwe denk je deze specifieke competenties nodig te experimenten te doen > validatie experiment > hebben? nieuwe data of data zoeken.

  • • 
    Welke experimenten zou je moeten doen om • Let op. Niet elke “(domein)expert” is de hypothese te valideren? daadwerkelijk een expert het gebied van data
  • • 
    In hoeverre is het instrument een direct of science. Goed identificeren > houd de

indirect sturend instrument, wie beslist wat en combinatie met het echte veldwerk!

wat betekent dit voor de operationele inzet? • Betrekken van materiedeskundigen heeft sterk

  • • 
    Welke vastleggingen ga je doen tijdens de de voorkeur in een project aangezien data

uitvoering van het te doorlopen traject? scientists alleen niet voldoende zijn gezien

beperkte kennis van de operatie/ het kennis gebied. Het is van groot belang dat materiedeskundigen evenals privacy deskundigen al aan de tekentafel betrokken worden. Het streven is met een multidisciplinair team te werken aan een plan van aanpak.

  • • 
    Laatste vraag zit op de functie van het instrument in de operationele fase. Hoeveel impact heeft het instrument in de operatie en beoog je dit ook?

Fase 1c – Inzicht • Zijn er risico's op maatschappelijk/ethisch of • Meestal gaat het over bijzondere Voorkomen van discriminatie, bedrijfsdoelstelling juridisch gebied? Zo ja wat zijn de mitigerende persoonsgegevens wanneer men beoogt om autonomie, inclusiviteit, privacy, (risico’s) maatregelen? Zijn er eventueel ook nog andere bijvoorbeeld sensing technologie te transparantie, gelijkheid, risico’s? ontwikkelen of data in te zetten. Met deze voorkomen detournement de

  • • 
    Wordt er gebruik gemaakt van gegevens waar vragen kunnen we risico’s als het gaat om pouvoir, controle over data

een machtiging voor moet worden gegeven? projecten waar vanuit het bevoegd gezag bescherming

goedkeuring/ machtiging voor afgegeven had

  • • 
    Kan de in te zetten of te ontwikkelen moeten worden.

    technologie gekwalificeerd worden als een

    BOB-middel? > denk aan OSINT tooling of • Het gaat hierbij ook om stelselmatige en vergaande profile ontwikkeling tussen datasets grootschalige monitoring. Deze vraag is of sensing, relevant in het kader van de pre-GEB.

    • • 
      Het gaat hierbij om gegevensverzamelingen die aan elkaar gekoppeld of met elkaar

      gecombineerd zijn (in combinatie verwerken

Pagina 7 van 15 Kwaliteitskader Big Data

Externe versie 1.0

  • • 
    Worden er datasets gecombineerd die heet dat nu in de Wpg) waarvan de betrokkene voortkomen uit gegevensverwerkingen met dat redelijkerwijs niet zou verwachten (vraag

    verschillende doelen? uit pre-GEB).

  • • 
    Wordt het landelijk vastgestelde • Het autorisatiemodel is vastgesteld door zowel autorisatiemodel gevolgd? Zo nee; wat is politie als OM. Dus noodzaak om hier van af te hiervoor de reden? Wie heeft daar mee wijken moet serieus worden onderbouwd. Wil ingestemd? en zo nee waarom niet? Zijn er je hier van afwijken dan is er een handmatige problemen te voorzien wanneer mensen niet procedure maar dat moet wel in overleg met

    de toegang krijgen tot gegevens waar zij de teamchefs (is bestaand proces voor formeel (rol gebaseerd) toegang toe hebben? ingericht).

    Leidt dit bijvoorbeeld tot uitkomsten die In de eigen beheerde omgevingen of disproportioneel zijn? omgevingen waarop de technologie wordt

  • • 
    Op welke wijze wordt er gecontroleerd dat er ontwikkeld of gedraaid wordt de autorisatie aan het landelijk autorisatiemodel van de gebruikt vanuit functie en rol. Dit is soms lastig politie wordt voldaan? Wordt dit bijvoorbeeld omdat je in een protocol soms minder mag. gelogd of op een andere wijze? Eveneens dient dit gecontroleerd te worden
  • • 
    Is de autorisatie anders bij de ontwikkeling van vanuit logging.

    het project versus het gebruik van het • Toelichting op laatste vraag: ontwikkelaars eindresultaat? hebben andere autorisaties dan eindgebruikers

    > dit dient goed uit elkaar gehouden te worden in het plan van aanpak en de uiteindelijke uitrol.

    Bij de autorisatie wellicht kijken naar logging. Wat je zou kunnen beperken aan de output kant > dat de Data Scientist er niet verder mee mag en kan. Een optie is een scheiding tussen sec het Data Science werk (ontwikkelen) versus het in de praktijk gaan testen en gebruiken. Denkrichting voor een extra waarborg. Je kunt dan vrijheid geven voor de verbinding en anderen het vervolg laten oppakken.

Fase 1d – Inzicht • Van welke tools en technieken wordt er • Deze vragen zijn voornamelijk bedoeld om Vertrouwen in technologie, bedrijfsdoelstelling gebruik gemaakt? Wordt er gebruik gemaakt tegemoet te komen aan het principe van controle over technologie, ((externe) tooling) van Open Source code / software? Zo ja, transparantie en uitlegbaarheid in de transparantie, gelijkheid, controle hebben we ook inzicht in de aard van deze data rechtszaal. Indien sprake is van een NDA op algoritme, voorkomen betekent dit dat we niet kunnen komen tot detournement de pouvoir,

Pagina 8 van 15 Kwaliteitskader Big Data

Externe versie 1.0

waarop is getraind en de gehanteerde volledige transparantie kijkend naar bepaalde machtsverhoudingen parameters? conclusies. Uiteraard is de beantwoording van (rechtszekerheid in

  • • 
    Wordt het werk/plan vormgegeven in deze vraag wel afhankelijk van het type Big taakuitvoering), voorkomen van

samenwerking met een commerciële/ externe Data project. willekeur, vrijheid van

partij? En zo ja, welke • Let op >> in toekomst is de verwachting dat in meningsuiting,

informatieveiligheid

  • • 
    Wordt er gebruik gemaakt van data toenemende mate gebruik wordt gemaakt van

aangeleverd door externe/ commerciële “off the shelf” algoritmes. Deze algoritmen

partijen ofwel direct ofwel indirect voor de zitten soms al in commerciële tools of kunnen

training van een algoritme? openbaar door Data Scientist worden

gedownload. Daardoor kan transparantie van

  • • 
    Is er voldoende inzicht in de verkrijging van de algoritmen lastiger worden.

    data ook indien dit door een commerciële of

    externe partij is vergaard? Op welke wijze is dit • Zou bepaalde tooling aan onafhankelijke gevalideerd? keuring onderworpen kunnen worden als er

    een grote maatschappelijke impact is te

  • • 
    Heeft de externe/commerciële partij een NDA verwachten?

    afgekondigd waardoor je onvoldoende inzicht

    hebt in de werking van het product of er wordt • Is het mogelijk om een tool in te zetten voor de opgelegd dat politie/OM als contractspartij in validatie van de eerste “hunch” (zit je in de de rechtszaal niet kunt spreken over de goede richting of heb je een redelijk

    totstandkoming van het product? vermoeden) > daarna helemaal valideren en afpellen tot de kern > context discovery

  • • 
    Zijn er afspraken gemaakt met de commerciële verkennen>> Op welke wijze kun je dit of externe partij over het eigenaarschap van de vertrouwen in het project vergroten?

    data met deze commerciële partij?

  • • 
    Is er volledig zicht op de werkzaamheid van het algoritme?

Fase 1 Inzicht • Zijn er – als het gaat om de het inzicht in de • Indien wordt gesignaleerd dat aanpassing in Controleerbaarheid van het bedrijfsdoelstelling bedrijfsdoelstelling - nog andere onderwerpen eerdere fase noodzakelijk is dienen alle vragen systeem, transparantie, validiteit (afsluitende vraag die je ter sprake wilt brengen? wederom doorlopen te worden.

fase 1) • Hebben de inzichten na de beantwoording van

dit eerste blok geleidt tot andere ideeën of inzichten? Is het noodzakelijk om de bedrijfsdoelstelling hierop aan te passen?

Fase 2a – Inzicht • Wat is de bron van de data set? Wat is de • Denk hierbij aan bronnen als SummIT, OSINT, Validiteit, controleerbaarheid, data (bron) methode van data verzameling geweest? BVH, KvK, GBA etc. transparantie, voorkomen Bijvoorbeeld interne politie data//BD/OSINT censuur, inclusiviteit, privacy,

Pagina 9 van 15 Kwaliteitskader Big Data

Externe versie 1.0

etc. Of wat zijn de bronnen van de • De OSINT vraag is expliciet opgenomen informatieveiligheid, commerciële of derde partij? aangezien in veel gevallen nog de overtuiging is databescherming, vrijheid van

  • • 
    In hoeverre ben je gaan ‘grasduinen’ door de dat OSINT data per definitie gebruikt kan meningsuiting,

data om er een goed begrip van te krijgen? worden. Het tegendeel is natuurlijk geval machtsverhoudingen

gezien de huidige discussies in het licht van (rechtszekerheid in

  • • 
    Heb je een volledig begrip van de data die je Modernisering Wetboek Sv en BOB middelen. taakuitvoering)

    beoogde te gaan gebruiken of zitten er

onbekende elementen in? Zo ja, hoe wil je daar • Er zijn ook algoritmes inzetbaar om de kwaliteit

mee omgaan? van de data te versterken (cleansing) > breed

kijken naar de totstandkoming van de

  • • 
    Wat is de overweging geweest om de gebruikte data.

    geselecteerde data te kiezen? • Dit kan bewerkstelligt worden door een

  • • 
    Is overwogen om ook synthetische data te veelvoud aan peer reviews. Het is belangrijk gebruiken (bijvoorbeeld door het ontbreken dat bij elke stap in het proces er

    van data of om een grotere hoeveelheid bewustwording op het risico van bias aanwezig beschikbaar te hebben)? is.

  • • 
    Wat is de juridische grondslag om van deze • Je zou een kennisgroep kunnen creëren die bron data te verkrijgen? boven de partijen gaat staan> een
  • • 
    Indien politiedata wordt gebruikt; welke Wpg multidisciplinair gebruikerspanel. OP deze verwerkingscategorie gebruik je? 8/9/10 Wpg manier kan geborgd dat verschillende

of bijzondere wetgeving. achtergronden kijken naar de data en manier

  • • 
    Gebruik je informatie welke niet direct onder van data verwerving.

    het regime van de Wpg valt? Bijvoorbeeld • M.b.t. het gebruik van data t.b.v. het OSINT informatie. projectdoel: Zo kun je bijvoorbeeld niet in alle

  • • 
    Is er toestemming voor het gebruik van de fasen van onderzoek gebruik maken van alle

gegevens nodig door degene die deze heeft functies van de KvK en is artikel 10 en/of 9 info

verzameld? Vooral aan de orde bij alleen toegankelijk onder bepaalde

samenwerkingen met derde of commerciële omstandigheden.

partijen. • Probeer de eventuele fouten van andere

  • • 
    Is het nodig om degene die de data van partijen betrokken bij de ontwikkeling van

oorsprong heeft verzameld te infomeren over externe tooling of de samenstelling van de te

het gebruik ervan? analyseren of trainingsdata goed inzichtelijk te krijgen.

  • • 
    Op welke wijze wordt er rekening gehouden met de wettelijke bewaartermijnen van de te gebruiken datasets? Hoe heb je deze

Pagina 10 van 15 Kwaliteitskader Big Data

Externe versie 1.0

waarborgen geïmplementeerd in je project/plan?

  • • 
    Zijn er door de eigenaar van de data of door andere betrokkenen verder voorwaarden

    gesteld aan het gebruik van de data of de resultaten die uit de analyse volgen?

  • • 
    Op welke wijze is er getoetst of beoogde data voor het genoemde projectdoel gebruikt kan worden?

Fase 2b – Inzicht • Wat vind je van de kwaliteit van de data? • Notatie/ entry velden zijn niet altijd gelijk Vertrouwen, gelijkheid, privacy, data (assess & waardoor het lastig is om de kwaliteit van de autonomie, transparantie,

ingest) • Welke vervuiling zou er in de data kunnen zitten? > denk aan notatie vormen, verkeerde dataset te waarborgen. Dit is vooral van inclusiviteit, voorkomen

invulvelden of vooringenomen/biased entries, toepassing in BVH. Op welke wijze ondervang discriminatie, voorkomen (bijvoorbeeld aangiftebereidheid kijkend naar je dit in het project? censuur

specifieke regio)? • Dit probleem kan zelfs blijven ontstaan nadat

  • • 
    Is er mogelijk sprake van unfairness in de data? de BI&K afdeling erdoorheen gaat. • Is het nodig om de kwaliteit van de data te • Welke checks en balances worden tijdens verbeteren voordat verder wordt gegaan? Hoe analyse of ontwikkeling ingebouwd of op welke gaat dat worden gedaan? wijze is er achteraf sprake van validatie van de

    resultaten. Op welke wijze wordt achteraf

  • • 
    Is er sprake van foutmarges in de data en hoe rekening gehouden met de bias die ook daar ga je daar mee om? aanwezig kan zijn voordat er conclusies
  • • 
    Zijn er aanwijzingen dat de dataset biased of worden verbonden aan de uitkomst?

    vertekend is, bijvoorbeeld selectie bias in de • Hoe ga je dit integer gebruiken, denk ook aan datasets die als basis zijn gebruikt. Is het nodig de inzet van een divers gebruikerspanel.

    om deze te verminderen? Hoe ga je dat doen?

  • • 
    Leidt deze fase tot andere inzichten in de business/ tot aanpassing van het doel?
  • • 
    Zijn de inhoudsdeskundigen ook betrokken bij het valideren van de kwaliteit van de data?

Fase 2 – Inzicht • Zijn er nog andere onderwerpen die men ter • Indien wordt gesignaleerd dat aanpassing in Controleerbaarheid van het data (afsluitende sprake wenst te laten komen? eerdere fase noodzakelijk is dienen alle vragen systeem, transparantie, validiteit

vraag fase 2) Heeft men iets geleerd waardoor aanpassing in wederom doorlopen te worden.

de bedrijfsdoelstelling noodzakelijk is?

Pagina 11 van 15 Kwaliteitskader Big Data

Externe versie 1.0

Fase 3 – Preparatie • Is het nodig om persoonsgegevens te • Beoordeel in hoeverre het daadwerkelijk nodig Privacy, gelijkheid, inclusiviteit, data verwerken of kan het gewenste resultaat is om data weg te laten. Een goed algoritme autonomie, transparantie, worden bereikt met geanonimiseerde / maken is belangrijker dan data limiteren. databescherming, voorkomen

gepseudonimiseerde gegevens? • Train algoritmes op zo compleet mogelijke sets willekeur, validiteit, menselijke

  • • 
    Als er bijzondere persoonsgegevens worden aan data waardigheid

verwerkt, worden deze gegevens ingezet om • Controleer in hoeverre deelsets aan data bias

bias tegen te gaan in het te ontwikkelen opleveren.

project? Kun je omschrijven welke eventueel

extra waarborgen in acht zijn genomen om • Het gebruik van (bijzondere) deze persoonsgegevens te beschermen? persoonsgegevens moet goed worden

afgewogen. Dit kan het geval zijn voor (alleen)

  • • 
    Zijn de condities waaronder pseudonimisering het optimaal trainen van een model maar ook

    opgeheven kan worden vooraf bekend? Hoe is

    dit geregeld? Bijvoorbeeld bij een derde om het in de praktijk te kunnen gebruiken.

    partij? Is dit vastgelegd?

  • • 
    Op welke manier wordt de data gereed gemaakt voor analyse? En in hoeverre wordt dit vastgelegd?
  • • 
    Welke bewerkingen worden er uitgevoerd op de (ruwe) data om deze geschikt te maken

    voor gebruik? (denk bijvoorbeeld aan crunchen en combineren, patronen of anomaliteiten ontdekken)

  • • 
    Zijn de keuzes bij het gereedmaken, wijzigen of verwijderen van de data(onderdelen)

    vastgelegd?

  • • 
    Als geanonimiseerde data uit verschillende bronnen worden gecombineerd, is er dan een risico dat alsnog personen kunnen worden geïdentificeerd? Is dit risico geaccepteerd? Wat is de actie als het in werkelijkheid gebeurd.

Fase 3 – Preparatie • Zijn er nog andere onderwerpen die men ter • Indien wordt gesignaleerd dat aanpassing in Controleerbaarheid van het data (afsluitende sprake wenst te laten komen? eerdere fase noodzakelijk is dienen alle vragen systeem, transparantie, validiteit

vraag fase 3) Heeft men iets geleerd waardoor aanpassing wederom doorlopen te worden.

in de bedrijfsdoelstelling noodzakelijk is?

Pagina 12 van 15 Kwaliteitskader Big Data

Externe versie 1.0

Fase 4 – • Op welke wijze zijn de statistische • Let op: Indien nieuwe data in beeld komt is het Controle over technologie/

Modelrealisatie modelleringstechnieken gekozen en zijn deze noodzakelijk de voorgaande stappen opnieuw algoritmes, vertrouwen,

vastgelegd? Zijn deze gevalideerd en zo ja, hoe te doorlopen. veiligheid van het systeem,

is dit gedaan? Er kunnen ook meerdere

technieken naast elkaar gebruikt worden juist • Kijk naar de experts die noodzakelijk zijn voor

transparantie, gelijkheid,

de validatie van algoritmen. Op welke wijze inclusiviteit, voorkomen

om de validiteit te verhogen. hebben zij dit in eerdere trajecten uitgevoerd willekeur, voorkomen

  • • 
    Op welke wijze is het toegepaste model (ook en welke methodieken zijn hierbij gehanteerd? discriminatie

indien commercieel aangeschaft) getraind? Welke lessen kunnen hieruit getrokken worden

  • • 
    Is er een plan voor trainen, testen en evalueren voor jouw traject? Er is altijd een veelvoud aan

van het model? validatie technologie aanwezig maar probeer

aan te sluiten bij peers uit het veld die

  • • 
    Wordt er gebruik gemaakt van separate soortgelijke analyses hebben toegepast in data

trainingsets en testsets? In hoeverre zijn deze trajecten.

sets random gesplitst? • Interpreteer de modellen op basis van

  • • 
    Hoe werkt het model, is er een beschrijving domeinkennis, succescriteria en het gewenste

aanwezig van de gehanteerde features en de testontwerp en check met bedrijfsanalisten en

betekenis? domeinexperts om de resultaten te bespreken.

  • • 
    Welke foutmarge is (situatie afhankelijk) is Houd ook rekening met alle andere resultaten

acceptabel voor gebruik in de praktijk en ben je die in de loop van het project zijn

in staat deze goed te interpreteren? geproduceerd.

  • • 
    Op welke wijze (=hoe) is dit model/ het profiel/ • Kijk ook naar Europese standaarden voor

AI gevalideerd? Welke statistische principes statistiek, welke statistische principes worden

zijn hierbij gehanteerd? gehanteerd.

  • • 
    Wanneer er gebruik gemaakt wordt van Deep • Pas de principes van responsible Data Science –

Learning Netwerken, wat zijn de zoals FACT (Fairness – Accountability –

achterliggende overwegingen om voor een Confidentiallity – Transparancy) toe.

specifiek netwerk te kiezen (zoals RNN, CNN • Wat kun je in en proeftuinvoorziening verder

etc.)? uittesten, door ontwikkelen of weer een stap

  • • 
    Is er gekozen voor een bepaald terug doen.

    modelleringsdesign? Bijvoorbeeld • Onderzoek ook welke trainingsinstanties kruisvalidatie, afzonderlijke trainingsmodellen. eventueel verantwoordelijk waren voor fouten

  • • 
    Is het uiteindelijk gekozen model beschreven: (o.a. bij het toepassen van RNN’s).

    o Wat gaat er in aan data? • Een optie is om falsificatie te gebruiken, bijvoorbeeld als correlaties verschillen, is dan

Pagina 13 van 15 Kwaliteitskader Big Data

Externe versie 1.0

o Wat doet het met de data duidelijk wie wat vindt? Dit kan gezien worden

(parametrisering) als een interne challenge, een soort PEN-test.

o Wat komt er uit (selectie, patroon)? • Probeer ook de frictie op te zoeken en het niet

o Wat is de kwaliteit of de fit van het alleen met elkaar eens te zijn ten aanzien van

model? het komen tot uitkomsten van een model.

  • • 
    In hoeverre wordt door het model • Welke specifieke infrastructuurvoorziening

geproduceerde data ‘vastgehouden’ i.v.m. de moet hiervoor 'in place’ zijn.

reproduceerbaarheid van de uitkomsten van een model?

  • • 
    Op welke wijze voegen deze methodieken daadwerkelijke informatie waarde toe aan de analyse kijkend naar de aard van de dataset?

    Beschrijf de feedbackloop in het modelleringsproces > heeft het modelleren geleid tot aanpassingen in de datapreparatie?

  • • 
    Is het model getoetst door andere partijen, zo

    ja door wie en op welke wijze?

Fase 4 – • Zijn er nog andere onderwerpen die men ter • Indien wordt gesignaleerd dat aanpassing in Controleerbaarheid van het (afsluitende vraag sprake wenst te laten komen? eerdere fase noodzakelijk is dienen alle vragen systeem, transparantie, validiteit

fase 4) • Heeft men iets geleerd waardoor aanpassing in wederom doorlopen te worden.

de bedrijfsdoelstelling noodzakelijk is?

Fase 5 – Evaluatie • Draagt de modellering bij aan het beoogde • Indien er fouten zichtbaar zijn >> niet Controleerbaarheid van het business doel? Zijn er onverwachte deployen. De implementatie moet geen doel systeem, transparantie, validiteit, uitkomsten? Toetsen aan KPI's? KSF's? op zich worden. Ook een niet succesvol traject voorkomen detournement de

  • • 
    Welke resultaten laten eerste tests zien? Doet is een resultaat. pouvoir, machtsverhoudingen

het wat het doen moet of levert het vreemde • R&D is ook falen in ontwikkeling aangezien ook (rechtszekerheid in

dingen op? Zijn er dingen die je niet verwacht hier wetenschap uit wordt verkregen. taakuitvoering), privacy

had? • Gaat het nu om het toepassingsresultaat of

  • • 
    Zijn er nieuwe juridische/ethische/ mag het een leerstap naar het volgende zijn? maatschappelijke risico's zichtbaar geworden Er moet worden nagedacht over

    die vooraf niet ingeschat zijn? vooruitstappen na de pilot. Ook leren van je

  • • 
    Check het gehele ontwikkeltraject > zijn er fouten en willen doorstappen naar andere

stappen over het hoofd gezien? toepassing.

Pagina 14 van 15 Kwaliteitskader Big Data

Externe versie 1.0

  • • 
    Als er bepaalde veranderingen noodzakelijk zijn niet in de infrastructuur zelf aanpassen maar in de proeftuin voorziening zodat je

    kennis hebt in de pilot en vervolgstappen.

  • • 
    Leer slim van je fouten en denk van te voren na over tussenliggende infrastructuur die je nodig hebt.

Fase 6 – Deploy • Uitrol, is dit voldoende? Welke verbeteringen • Let op, bij zelflerende algoritmen moeten we Voorkomen detournement de zijn nog mogelijk. nog steeds goed signaleren in hoeverre er pouvoir, machtsverhoudingen

  • • 
    Het model tijdens het gebruik constant blijven verschillen in uitkomsten optreden op basis (rechtszekerheid in

evalueren. van o.a. feedback loops er hertrainen. Dit kan taakuitvoering), privacy, controle

ook resulteren in een ongewenste bias. op technologie en algoritme,

  • • 
    Hoe is beheer op het model geborgd? • De laatste vraag is om te kunnen bepalen of er transparantie, veiligheid van de
  • • 
    Klopt het model of zijn er ergens fouten sprake is van automatische besluitvorming maatschappij, bescherming

gemaakt? (pre-GEB). mensenrechten,

  • • 
    Klopt de datapreparatie? Kloppen de databescherming, voorkomen

aannames over de data (bijvoorbeeld van willekeur

verdeling) en passen deze bij het model?

  • • 
    Is er een continue feedbackloop ingebouwd na de deploy?
  • • 
    Hoe worden de resultaten gevalideerd?
  • • 
    Hoe worden de resultaten gebruikt in de Operatien, is er sprake van autonoom gebruik of ‘human in the loop’.

Pagina 15 van 15 Kwaliteitskader Big Data

Externe versie 1.0


3.

Hoofddocument

 
 
 

4.

Meer informatie

 

5.

Parlementaire Monitor

Met de Parlementaire Monitor volgt u alle parlementaire dossiers die voor u van belang zijn en bent u op de hoogte van alles wat er speelt in die dossiers. Helaas kunnen wij geen nieuwe gebruikers aansluiten, deze dienst zal over enige tijd de werkzaamheden staken.