Digitaal grasduinen door boevenbronnen

Werken met een enorme hoeveelheid gescand bronnenmateriaal is niet eenvoudig. Daarom maken we in het onderzoeksproject gebruik van een programma dat speciaal hiervoor ontwikkeld is. In deze blog vertellen we wat we hiermee – tot nu toe – wel en niet kunnen.

De procesdossiers en vonnissen van de arrondissementsrechtbanken ’s-Hertogenbosch en Haarlem uit de periode 1936-1949 zijn inmiddels grotendeels gescand. In totaal gaat het om meer dan 200.000 pagina’s. Die zijn doorzoekbaar gemaakt met behulp van Optical Character Recognition (OCR). Dat betekent dat getypte bronnen leesbaar zijn voor computers. Programmeur Wessel Stoop van het Humanities Lab van de Radboud Universiteit heeft een computerprogramma ontwikkeld dat de onderzoeker helpt bij het doorzoe­ken van deze enorme berg bronnenmateriaal.

Trefwoorden

Met een zoekfunctie kunnen we al die scans doorzoeken op trefwoorden of woordcombinaties. Interessante hits kunnen we in het programma opslaan. Stel bijvoorbeeld dat we willen weten of verdachten tijdens verhoren of rechtszittingen expliciet de bezettingsomstandigheden inriepen als belangrijkste verklaring of motief voor hun misdrijf. Om te weten welke woorden zij daarvoor gebruikten moeten we van alles uitproberen. De zoekterm ‘oorlogsomstandigheden’ levert slechts 20 hits op, maar de term ‘tijdsomstandigheden’ al 58. Door zoekfilters te gebruiken kunnen we de resultaten verder toespitsen op jaar of archief.

Werken met de tool: twee van de 58 resultaten bij de zoekactie ’tijdsomstandigheden’.

Het verzinnen van zoektermen vergt oefening: je moet kunnen inschatten wat mensen vroeger bedoelden met een bepaald woord. Ook komt het nauw hoe precies of algemeen een term is: een veelomvattende term als ‘omstandigheden’ levert 16.849 hits op – onmogelijk om die allemaal te bekijken! Het computerprogramma helpt een handje door bij iedere zoekactie suggesties te doen voor vergelijkbare woorden. Soms lijken die op de zoekterm (‘standigheden’ bij zoekterm ‘omstandigheden’) en soms is het moeilijk te doorgronden waar de suggesties vandaan komen (‘Frankrijk’ en ‘schrik’ bij zoekterm ‘armoede’). Met behulp van de weergave van een fragment uit de bron waarin dit woord is vermeld, kan de onderzoeker inschatten of dit een zaak is om verder uit te zoeken.

Een verdachte van heling verklaart waarom hij in 1941 overging tot zijn misdrijf
(NHA 411, inv. nr. 36, WL nr. 1769C).

Pareltjes

Deze zoekstrategie is heel nuttig om ‘pareltjes’ uit de tienduizenden scans te ‘vissen’, maar vergt ook een bronkritische houding van de onderzoeker. Er is geen enkele garantie dat alle vermeldingen van het woord te vinden zijn via een zoekactie, want de leesbaarheid (OCR) kent een foutmarge en het computerprogramma herkent handgeschreven tekst niet. Daarnaast is het belangrijk om te beseffen dat je in zo’n groot bronnencorpus bijna altijd wel iets vindt. Maar betekent dat dan ook dat zo’n vondst typerend of veelzeggend is? Hier is het aan de historicus om de resultaten op wetenschappelijk verantwoorde wijze te interpreteren.

Verzamelen

Een andere zoekstrategie betreft het verzamelen van bepaalde soorten documenten. Door te zoeken op termen uit een brievenhoofd kunnen we een verzameling van éénzelfde type bron samenstellen. Soms is het zelfs mogelijk om hiermee beperkingen van de OCR te omzeilen. Een mooi voorbeeld daarvan zijn brieven die verdachten vanuit de gevangenis schreven aan rechters of officieren van justitie. De brieven schreven ze met de hand, waardoor de computer ze niet kan lezen. Maar het voorgedrukte briefpapier van de gevangenissen is wél getypt, zoals te zien is op het voorbeeld hieronder. Door te zoeken op termen uit dit voorgedrukte papier (‘LEES DIT!’) kunnen we dit soort brieven verzamelen en vervolgens structureel bestuderen, bijvoorbeeld om te zien welke argumenten verdachten gebruikten om hun eigen zaak te bepleiten.

Een verdachte bepleit zijn zaak (BHIC 810 inv. nr. 14, procesdossier 9177).

Volgende stap

In de volgende, meer experimentele, fase van de ontwikkeling van het computerprogramma gaan we bekijken of we het kunnen ‘aanleren’ zelfstandig interessante bronnen of tekstfragmenten te herkennen. Hiervoor maken we gebruik van kunstmatige intelligentie. Eerst merken we stukken uit een selectie van het bronnenmateriaal zelf aan als ‘interessant’ of ‘niet interessant’. Op basis daarvan trainen we het programma. Kan het patronen in deze stukken ontdekken die we zelf nog niet kennen? Wordt vervolgd!

Gepubliceerd op
Gecategoriseerd als Nieuws

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *