Op deze pagina

> bronnen > docs > probleemoplossing > Problemen met data oplossen

Problemen met data oplossen

Veelvoorkomende dataproblemen en oplossingen

Bij het voorbereiden van data voor Process Mining kunnen er verschillende veelvoorkomende datagerelateerde problemen ontstaan die de nauwkeurigheid en kwaliteit van de analyse beïnvloeden. Hieronder vind je een handige probleemoplossingsgids om deze issues te herkennen en op te lossen.

1. Dubbele records in event logs

Symptomen

Hetzelfde gebeurtenis komt meerdere keren voor bij dezelfde procesinstantie (zelfde Case-ID, Activiteit en Timestamp).
Ongebruikelijk hoge aantallen van bepaalde activiteiten of gebeurtenissen in de procesmap.

Mogelijke oorzaken

Data is meerdere keren vastgelegd door integratiefouten of logfouten.
Het data-importproces heeft per ongeluk gebeurtenissen dubbel verwerkt.

Oplossing

Verwijder duplicaten: Gebruik tools voor datacleaning om dubbele regels te vinden en te verwijderen. In Excel of Google Sheets kun je ‘Dupliceren verwijderen’ gebruiken, of met SQL dubbele gegevens verwijderen op Case-ID, Activiteit en Timestamp.
Filter bij importeren: Stel filters in tijdens het importeren zodat alleen unieke gebeurtenissen in de Process Mining tool komen.

2. Ontbrekende tijdstempels

Symptomen

Onvolledige of ontbrekende tijdstempels maken het onmogelijk om gebeurtenissen goed te ordenen.
De procesmap toont gaten of ontbrekende verbindingen tussen activiteiten.

Mogelijke oorzaken

Sommige systemen loggen niet bij elke activiteit een timestamp.
Handmatige of niet-digitale taken worden niet voorzien van een timestamp.

Oplossing

Schat ontbrekende tijdstempels: Schat, als mogelijk, ontbrekende tijdstempels op basis van bekende data (bijv. gemiddelde tijd tussen taken).
Vul aan met handmatige data: Vul handmatig schattingen in voor handmatige of niet-digitale taken, bijvoorbeeld aan de hand van andere logs.
Data imputation: Vul data aan via imputatie, zoals het voorspellen van ontbrekende tijdstempels met andere gebeurtenissen of de gemiddelde doorlooptijd.

3. Inconsistente Case-IDs

Symptomen

Events van dezelfde procesinstantie staan verdeeld over verschillende Case-IDs, waardoor het procesmodel versnipperd raakt.
Meerdere weergaven van dezelfde instantie veroorzaken verwarring en onnauwkeurige analyses.

Mogelijke oorzaken

Verschillende systemen of afdelingen hanteren andere naamgevingen of structuren voor Case-IDs.
Invoervouten of een inconsistent formaat tussen systemen.

Oplossing

Case-ID Mapping: Ontwikkel een mappingstrategie voor Case-IDs zodat ze eenduidig zijn over alle systemen. Gebruik tools zoals ETL-platforms of SQL om Case-IDs samen te voegen en te standaardiseren.
Gebruik datatransformatietools: Hebben Case-IDs verschillende formaten? Gebruik transformatietools om deze vóór import consistent te maken.

4. Onjuiste volgorde van activiteiten

Symptomen

Events staan in de verkeerde volgorde, bijvoorbeeld “Order Completed” verschijnt vóór “Order Placed”.
De procesmap toont onlogische flows of lussen.

Mogelijke oorzaken

Timestamps zijn verkeerd ingevuld of ontbreken.
Data is geïmporteerd zonder correcte volgorde.

Oplossing

Sorteer op timestamp: Sorteer gebeurtenissen per Case-ID oplopend op timestamp. Gebruik bijvoorbeeld Excel, SQL of Pandas (Python).
Controleer timestamp-formaten: Check dat alle tijdstempels hetzelfde formaat en tijdzone hebben. Zet ze gebeurtenisueel om naar ISO 8601 (YYYY-MM-DD HH:MM:SS).
Valideer datakwaliteit: Controleer handmatig een paar cases of de volgorde klopt en of er geen volgordefouten zijn ontstaan.

5. Data-inconsistentie tussen systemen

Symptomen

Niet-overeenkomende data tussen verschillende systemen die aan hetzelfde proces bijdragen.
Events komen voor in de data van het ene systeem, maar ontbreken in een ander, waardoor gaten in de procesmap ontstaan.

Mogelijke oorzaken

Verschillende systemen gebruiken eigen meetwaarden, naamgevingen of formaten voor dezelfde gebeurtenissen.
Onvolledige data-extractie of gedeeltelijke systeemintegratie.

Oplossing

Standaardiseer data: Zorg ervoor dat velden als Case-ID, activiteitsnaam en Timestamps overal hetzelfde zijn voordat je data inlaadt. Gebruik hiervoor datatransformatietools.
Combineer datasets zorgvuldig: Gebruik ETL-tools om data uit meerdere systemen samen te voegen tot één samenhangend geheel. Zorg voor gelijke gebeurtenis-namen, tijdstempels en case-ID’s voor het samenvoegen.

6. Grote datavolumes veroorzaken prestaties-issues

Symptomen

Trage prestaties bij het laden of analyseren van grote datasets in de process mining-tool.
Systeemcrashes of time-outs tijdens het inladen van data.

Mogelijke oorzaken

De dataset bevat te veel records om ze efficiënt te processen.
De Process Mining tool kan grote datavolumes niet in één keer processen.

Oplossing

Data-sampling: Gebruik een representatief deel van de dataset in plaats van alles te processen. Zo blijft het overzichtelijk én inzichtvol.
Filter onnodige gebeurtenissen: Verwijder irrelevante of niet-waardevolle gebeurtenissen (zoals system logs) vóór het uploaden.
Incrementeel laden van data: Laad data stapsgewijs in, niet alles tegelijk – en analyseer delen los van elkaar.

7. Irrelevante of ruisende data

Symptomen

De procesmap is rommelig door gebeurtenissen die niet bij het hoofdproces horen.
Te veel onbeduidende variaties maken het lastig om belangrijke inzichten te vinden.

Mogelijke oorzaken

Achtergrondsystemen, system logs of niet-gerelateerde taken komen in de dataset terecht.
Ruis door laag-prioriteit taken of systeemprocessen.

Oplossing

Filter onnodige gebeurtenissen: Sluit gebeurtenissen uit die niet bij het te analyseren proces horen. Verwijder bijvoorbeeld system logs of activiteiten buiten de workflow.
Groepeer low-level gebeurtenissen: Bundel indien nodig technische gebeurtenissen tot hogere activiteiten voor een overzichtelijker model waarbij we ons richten op kernactiviteiten.

8. Omgaan met outliers

Symptomen

De procesmap toont extreme verschillen in taakduur of bron-allocatie die niet passen bij de normale prestaties.
De analyse wordt beïnvloed door zeldzame of uitzonderlijke cases.

Mogelijke oorzaken

Uitschieters (outliers) (zoals taken die extreem lang duurden of cases met afwijkende patronen) komen in de dataset voor.
Uitzonderingsgevallen of zeldzame incidenten beïnvloeden de procesmap onevenredig.

Oplossing

Identificeer outliers: Gebruik statistische analyse om outliers op te sporen, bijv. op taakduur of brongebruik.
Beslis over meenemen of uitsluiten: Bepaal of outliers waardevol inzicht geven (zoals zeldzame, kritieke issues) of beter verwijderd kunnen worden voor de standaard flow. Documenteer dit voor duidelijkheid.

9. Niet-uitgelijnde tijdzones in data

Symptomen

Opeenvolgende gebeurtenissen staan niet juist onder elkaar door verschil in tijdzone-instellingen.
De doorlooptijdberekening van processen is onjuist door tijdzoneverschillen.

Mogelijke oorzaken

Data uit verschillende systemen of afdelingen gebruikt mogelijk verschillende tijdzones, wat inconsistentie veroorzaakt in timestamp data.
Tijdzones zijn niet gestandaardiseerd voor het inladen van data.

Oplossing

Omkeren naar één tijdzone: Zet alle tijdstempels vóór import om naar een vaste tijdzone (zoals UTC). Tools als Excel en Python bieden tijdzone-conversies.
Documenteer tijdzone-aanpassingen: Houd de oorspronkelijke tijdzone van elke dataset bij en noteer conversies.

10. Onevenwichtige event logs

Symptomen

Sommige cases hebben te weinig gebeurtenissen, terwijl andere te veel hebben. Dit zorgt voor een onevenwichtige procesmap.
Bepaalde activiteiten of cases overheersen de analyse door een scheve dataverdeling.

Mogelijke oorzaken

Inconsistente data-logging of onvolledige vastlegging van gebeurtenissen bij bepaalde cases.
Scheve verdeling in data waardoor sommige cases te veel voorkomen.

Oplossing

Normaaliseer de event log: Controleer of elke instantie een vergelijkbaar detailniveau heeft. Ontbreken er gebeurtenissen in cases? Zoek uit waarom, vul handmatig aan of sluit zulke cases uit.
Weeg de data: Indien nodig kun je data wegen zodat oververtegenwoordigde cases geen onevenredige invloed hebben op de analyse.

Conclusie

Datakwaliteit is belangrijk voor succesvolle Process Mining. Door deze veelvoorkomende dataproblemen tijdig te signaleren en op te lossen, zorg je dat je analyses betrouwbare en concrete inzichten opleveren. Met best practices voor datacleaning, voorbereiding en validatie voorkom je veelgemaakte fouten en haal je het maximale uit je Process Mining.

Problemen met data oplossen

Veelvoorkomende dataproblemen en oplossingen

1. Dubbele records in event logs

Symptomen

Mogelijke oorzaken

Oplossing

2. Ontbrekende tijdstempels

Symptomen

Mogelijke oorzaken

Oplossing

3. Inconsistente Case-IDs

Symptomen

Mogelijke oorzaken

Oplossing

4. Onjuiste volgorde van activiteiten

Symptomen

Mogelijke oorzaken

Oplossing

5. Data-inconsistentie tussen systemen

Symptomen

Mogelijke oorzaken

Oplossing

6. Grote datavolumes veroorzaken prestaties-issues

Symptomen

Mogelijke oorzaken

Oplossing

7. Irrelevante of ruisende data

Symptomen

Mogelijke oorzaken

Oplossing

8. Omgaan met outliers

Symptomen

Mogelijke oorzaken

Oplossing

9. Niet-uitgelijnde tijdzones in data

Symptomen

Mogelijke oorzaken

Oplossing

10. Onevenwichtige event logs

Symptomen

Mogelijke oorzaken

Oplossing

Conclusie

Wij hechten veel waarde aan je privacy