Data opschonen en voorbereiden voor Process Mining
Effectieve process mining begint bij data van hoge kwaliteit. Een belangrijk onderdeel hiervan is het opschonen en voorbereiden van de data. Een gebrekkige datakwaliteit leidt vaak tot onjuiste of onvolledige inzichten, wat procesverbetering lastiger maakt. In dit document behandelen we de belangrijkste stappen voor het opschonen en voorbereiden van data, zodat je datasets klaar zijn voor succesvolle process mining.
Waarom is Data cleaning en voorbereiding Belangrijk?
Process mining draait om event logs: datasets die de volgorde van activiteiten in een bedrijfsproces vastleggen. Zijn deze onvolledig, fout of inconsistent, dan zijn de inzichten onbetrouwbaar. Schone en goed gestructureerde data zorgt dat je process mining-tool workflows helder mapt, knelpunten vindt en verbeterpunten duidelijk maakt.
Belangrijke Stappen in Data cleaning en voorbereiding
1. Datacollectie en integratie
De eerste stap is zorgen dat alle relevante data verzameld wordt uit de verschillende systemen die binnen je proces gebruikt worden. Data komt vaak uit bronnen als ERP, CRM of andere operationele systemen. Hier is data-integratie belangrijk.
- Consolideer databronnen: Verzamel data uit alle systemen die bijdragen aan het proces. Analyseer je bijvoorbeeld een order-to-cash-proces? Dan heb je data nodig uit zowel je sales-systeem (zoals Salesforce) als je financiële systeem (zoals SAP).
- Zorg voor consistente formaten: Standaardiseer vóórdat je verder gaat hoe de data wordt geëxporteerd en opgemaakt. Let op dat alle tijdstempels, valuta en ID’s hetzelfde format hebben.
Nu de data compleet is, kun je deze opschonen en klaarmaken voor process mining.
2. Verwijderen van Dupliceren
Dubbele records kunnen process mining-analyses flink verstoren doordat activiteiten dubbel geteld worden of dezelfde gebeurtenis vaker zichtbaar is. Het herkennen en verwijderen van duplicaten zorgt voor een nauwkeurige event log.
- Identificeer duplicaten: Zoek naar records waar case ID, activiteit en timestamp identiek zijn; dit zijn waarschijnlijk duplicaten.
- Verwijder of voeg samen: Verwijder gevonden duplicaten, of voeg soortgelijke records samen als dat nodig is.
3. Omgaan met Ontbrekende Data
Ontbrekende waardes zijn een veelvoorkomend probleem dat je process miningresultaten beïnvloedt. Denk aan ontbrekende tijdstempels, activiteiten of case-ID’s, die de volgorde van gebeurtenissen kunnen verstoren en zorgen voor onvolledige procesmodellen.
- Identificeer ontbrekende waardes: Gebruik tools of scripts om ontbrekende velden te vinden, zoals lege tijdstempels, activiteiten zonder naam of lege case-ID’s.
- Vul aan waar mogelijk: Vul missende data aan met externe bronnen, domeinkennis, of door te schatten op basis van andere data. Ontbreekt bijvoorbeeld een timestamp van een activiteit, schat deze dan op basis van omringende gebeurtenissen.
- Imputatiestrategieën: Bij kritieke ontbrekende data zoals tijdstempels of case-ID’s: gebruik imputatie (bijvoorbeeld gemiddelde invullen of regressiemodellen), of verwijder de betreffende cases als herstel niet kan.
Consistentie in dataformaten is belangrijk zodat de process mining-tool de event log goed begrijpt. Daarbij hoort het opmaken van tijdstempels, standaardiseren van activiteitsnamen en zorgen voor uniforme case ID-structuren.
- Timestamps: Zorg dat alle datums en tijden hetzelfde format hebben, zoals
YYYY-MM-DD HH:MM:SS. Heeft je data tijdzones, zet alles dan om naar één tijdzone of gebruik UTC om verwarring te voorkomen. Meer over ondersteunde datumformaten vind je hier - Activiteitsnamen: Activiteiten kunnen in verschillende systemen anders zijn vastgelegd. Standaardiseer de namen voor consistentie (bv. “Approve Order” en “Order Approval” samenvoegen).
- Case-IDs: Zorg dat de case ID hetzelfde is in alle systemen en elke procesinstantie uniek identificeert.
5. Verwijder Irrelevante Data
Niet elke activiteit of gebeurtenis in je systeem is relevant voor je process mining-analyse. Sommige achtergrondtaken of niet-proces gerelateerde gebeurtenissen vervuilen de dataset.
- Filter irrelevante gebeurtenissen weg: Haal activiteiten eruit die niet bijdragen aan het proces dat je onderzoekt. Bijvoorbeeld: system logins of niet-gerelateerde administratieve taken kunnen worden uitgesloten voor een overzichtelijke procesmap.
- Focus op kernactiviteiten: Gebruik domeinkennis om te bepalen welke gebeurtenissen echt belangrijk zijn en richt de dataset daar op in.
6. Omgaan met Uitschieters (outliers) en Ruis
Uitschieters (outliers) of ‘ruis’ kunnen je resultaten vertekenen en een verkeerd beeld geven van hoe het proces normaal verloopt. Bijvoorbeeld als een taak door iets zeldzaams extreem lang duurt, kan dat je analyse misleiden.
- Identificeer outliers: Gebruik statistiek om outliers te vinden, zoals taken die veel langer duren dan normaal.
- Behouden of verwijderen?: Kijk of de outliers nuttige inzichten bieden (bijvoorbeeld zeldzame procesfouten) of dat ze beter weg kunnen voor een zuiver beeld van het proces.
7. Consistente Volgorde van Cases en Activiteiten
Een van de belangrijkste punten in process mining is zorgen voor de juiste volgorde van gebeurtenissen. Als de data niet goed gesorteerd is, kan de tool de processtroom fout lezen.
- Controleer volgorde van activiteiten: Zorg dat activiteiten logisch volgen op basis van tijdstempels. Bijvoorbeeld: een “Order Approved” mag nooit vóór een “Order Created” komen in dezelfde procesinstantie.
- Sorteer gebeurtenissen op timestamp: Sorteer de data per case op het timestamp veld, zodat gebeurtenissen in de juiste volgorde staan.
8. Maak een Event Log
Is je data opgeschoond, geformatteerd en consistent? Dan maak je nu de event log: de belangrijkste dataset voor process mining. Deze bevat:
- Case-ID: Uniek nummer voor elke procesinstantie.
- Activiteitsnaam: Naam van elke processtap.
- Timestamp: Het precieze tijdsTip per activiteit, voor de juiste volgorde.
- Optionele velden: Voeg extra velden toe zoals verantwoordelijke, afdeling of procescategorie, afhankelijk van je analyse.
9. Valideer de Dataset
Na het opschonen en structureren is het belangrijk de dataset te bevestigen, zodat je zeker weet dat deze echt het proces weergeeft en klaar is voor analyse.
- Cases controleren: Kijk handmatig enkele procesinstanties na: klopt de datavolgorde?
- Testanalyse uitvoeren: Voer waar mogelijk een testanalyse uit in je process mining-tool en kijk of er fouten of inconsistenties opduiken.
- Feedbackronde: Check samen met business experts of de dataset het echte procesgedrag weergeeft.
Verschillende tools helpen bij het automatiseren van datacleaning en voorbereiding. Veelgebruikte opties zijn:
- Python/Pandas: Een krachtige programmeertaal en library voor data-manipulatie en cleaning. Je kunt er eigen datacleaning workflows mee scripten, zoals het weghalen van duplicaten en normaliseren van formaten.
- Excel/Google Sheets: Handig voor kleinere datasets, met functies als het verwijderen van duplicaten, filteren van rijen en kolommen formatteren.
- ETL Tools (Extract, Transform, Load): Tools als talend, Informatica of Apache Nifi automatiseren het ophalen, omzetten en laden van data uit verschillende systemen naar een process mining-tool.
- OpenRefine: Een gratis open source-tool voor datacleaning waarmee je rommelige data op kunt schonen, duplicaten verwijdert en formaten standaardiseert.
Conclusie
Data cleaning en voorbereiding zijn essentiële stappen binnen de process mining-levenscyclus. Door te zorgen dat je datasets compleet, consistent en accuraat zijn, voorkom je misleidende analyses en krijg je nuttige inzichten in het verloop van je processen. Volg de stappen in dit document, zoals het verwijderen van duplicaten, aanvullen van missende data, standaardiseren van formaten en het aanmaken van een schone event log, om het maximale uit je process mining te halen.