Ontwerp: Externe Datasets & 'Scrubbing' Kennisinstituten¶

Datum: 13/14 maart 2026 Onderwerp: Hoe gebruiken we externe, betrouwbare open data uit het Nederlandse sociaal domein om het Bayesiaanse Netwerk (BNS) te initialiseren en het RAG-model te voeden, zónder afhankelijk te zijn van uitsluitend lokale data?

1. Het "Cold Start" Probleem Oplossen¶

Voordat een zelflerend intern netwerk op dreef is, heb je 'Priors' (vooringestelde waarschijnlijkheden) nodig. Als we alleen de hoofden van eigen experts gebruiken, importeren we lokale biases. Door BORIS te voeden met nationale macro-data via externe datasets, creëren we een objectieve "Evidence-Based Baseline". Vanaf daar kalibreert het systeem zichzelf gaandeweg op de lokale wijk-realiteit.

2. De "Gold Standard" Kennisinstituten in NL¶

In Nederland is de informatiehuishouding voor het sociaal domein extreem rijk en betrouwbaar. De Onderzoeksagent van BORIS mag uitsluitend putten uit de 'Gold Tier' bronnen om hallucinaties te voorkomen.

A. Kwantitatieve Data (Voor de BNS Causal Engine)¶

Dit zijn de harde statistieken. De agent voedt hiermee directe percentages (priors) in de Conditionele Waarschijnlijkheidstabellen (CPT's) van het Bayesiaanse model.

CBS (Centraal Bureau voor de Statistiek) / StatLine:
- Toepassing: Basis-risicoprofielen op wijkniveau.
- Data: Armoedecijfers, WMO-gebruik, eenoudergezinnen, demografie per viercijferige of zescifferige postcode.
- Techniek: Geen web-scraping nodig. Het CBS heeft een fenomenale OData v4 API. De BORIS-agent kan wekelijks JSON-data pullen.
Waarstaatjegemeente.nl (VNG Data):
- Toepassing: Benchmarken. Doet onze inloop het beter of slechter dan het landelijk gemiddelde op thema Y?

B. Kwalitatieve Data (Voor de LLM / RAG Vector Database)¶

Dit zijn de langetermijn-onderzoeken over "Wat werkt wel en niet?". Deze input wordt in ChromaDB/Pinecone geladen zodat de VERA-bril direct nationale 'Best Practices' kan citeren.

Movisie (Hét kennisinstituut sociaal domein):
- Toepassing: Vraagt VERA zich af hoe je moet omgaan met eenzaamheid bij ouderen? Movisie's databank "Wat Werkt" is de heilige graal.
NJi (Nederlands Jeugdinstituut):
- Toepassing: Alles rondom jeugdzorg, multiprobleemgezinnen en LVB jeugd.
SCP (Sociaal en Cultureel Planbureau):
- Toepassing: Grote trendrapporten (bijv. groei van economisch daklozen of verschuivingen in het landschap van armoede).
Trimbos-instituut:
- Toepassing: Expertise op snijvlak sociaal domein, verslaving en GGZ.

3. Strategie voor de "Research Agent" (De Scrubber)¶

Hoe richt je de Onderzoeksagent in zodat deze niet zomaar het hele internet kopieert en vervuiling veroorzaakt?

Stap 1: De "Targeted API Harvester" (Statistiek)¶

Voor het CBS en VNG hoeven we geen webpagina's te 'lezen'. De agent draait een Python-script dat specifieke API-endpoints aanroept. * Voorbeeld: De agent trekt de data Woningontruimingen_Gemeente_X binnen. Het script vertaalt dit wiskundig: "De baseline kans (prior) op dakloosheid in wijk Y was vorig jaar 1.2%. Zet dit als uitgangswaarde in het BNS."

Stap 2: De "PDF & Rapportage Scraper" (Tekst)¶

Instituten als Movisie en het SCP publiceren veelal PDF's. De Research Agent wordt hiermee gevoed via een geautomatiseerde pipeline: 1. Monitor RSS/Nieuwsbrieven: De agent volgt de officiële RSS-feeds van bijvoorbeeld movisie.nl/publicaties. 2. Download & OCR: Zodra een nieuw rapport verschijnt (bijv. "Effectieve schuldhulpverlening 2026"), downloadt de agent de PDF en maakt de tekst leesbaar. 3. LLM Chunking & Vectorization: De agent knipt het rapport van 100 pagina's op in 'chunks' (hapklaar) en voegt UDS-metadata toe (bijv. #Schulden, #Jongeren, #Gold_Evidence). 4. Injectie in RAG: Vanaf de volgende ochtend kan VERA, als een sociaal werker een vraag stelt over jeugdschulden, citeren: "Volgens het laatste rapport van Movisie (maart 2026), is interventie X het meest effectief..."

4. Lokale Data versus Nationale Data (De Weegschaal)¶

Een cruciaal ontwerpprincipe voor het Bayesiaans Netwerk: Nationale data is algemeen, jullie eigen praktijkdata is specifiek.

We programmeren een Data Decay Rate (Verouderingsfactor): 1. Maand 1: De BNS tabellen (Priors) zijn voor 80% gebaseerd op externe CBS/NJi data en voor 20% op de meningen van jullie Aandachtsfunctionarissen. 2. Maand 12: Het systeem heeft duizenden lokale, anonieme intakes verwerkt. BORIS "leert" dat de werkelijkheid in júllie specifieke wijken afwijkt van de Movisie-gemiddelden. 3. Gevolg: De weging van de lokale data (Bayesian Updating) neemt langzaam de overhand ten opzichte van de nationale cijfers. BORIS transformeert van een "Nationale Kennisbot" naar een "Hyper-Lokale Buurt-Intelligentie".

5. Implementatie Route¶

Voor de Developers (Claude Code): Implementeer in de backend een ExternalDataIngestion-service. Voeg de Python cbsodata package toe om naadloos met de CBS open data te praten.
Voor de Content Staf: Stel een hard-coded "Whitelist" (witte lijst) in van geaccepteerde domeinen (*.cbs.nl, *.movisie.nl, *.nji.nl, *.scp.nl). De Research Agent mag uitsluitend van deze lijst kennis plukken om LLM-hallucinaties en onbetrouwbare theorieën 100% uit te sluiten.