Problemen met data oplossen
Veelvoorkomende dataproblemen en oplossingen
Bij het voorbereiden van data voor Process Mining kunnen er verschillende veelvoorkomende datagerelateerde problemen ontstaan die de nauwkeurigheid en kwaliteit van de analyse beïnvloeden. Hieronder vind je een handige probleemoplossingsgids om deze issues te herkennen en op te lossen.
1. Dubbele records in event logs
Symptomen
- Hetzelfde gebeurtenis komt meerdere keren voor bij dezelfde procesinstantie (zelfde Case-ID, Activiteit en Timestamp).
- Ongebruikelijk hoge aantallen van bepaalde activiteiten of gebeurtenissen in de procesmap.
Mogelijke oorzaken
- Data is meerdere keren vastgelegd door integratiefouten of logfouten.
- Het data-importproces heeft per ongeluk gebeurtenissen dubbel verwerkt.
Oplossing
- Verwijder duplicaten: Gebruik tools voor datacleaning om dubbele regels te vinden en te verwijderen. In Excel of Google Sheets kun je ‘Dupliceren verwijderen’ gebruiken, of met SQL dubbele gegevens verwijderen op Case-ID, Activiteit en Timestamp.
- Filter bij importeren: Stel filters in tijdens het importeren zodat alleen unieke gebeurtenissen in de Process Mining tool komen.
2. Ontbrekende tijdstempels
Symptomen
- Onvolledige of ontbrekende tijdstempels maken het onmogelijk om gebeurtenissen goed te ordenen.
- De procesmap toont gaten of ontbrekende verbindingen tussen activiteiten.
Mogelijke oorzaken
- Sommige systemen loggen niet bij elke activiteit een timestamp.
- Handmatige of niet-digitale taken worden niet voorzien van een timestamp.
Oplossing
- Schat ontbrekende tijdstempels: Schat, als mogelijk, ontbrekende tijdstempels op basis van bekende data (bijv. gemiddelde tijd tussen taken).
- Vul aan met handmatige data: Vul handmatig schattingen in voor handmatige of niet-digitale taken, bijvoorbeeld aan de hand van andere logs.
- Data imputation: Vul data aan via imputatie, zoals het voorspellen van ontbrekende tijdstempels met andere gebeurtenissen of de gemiddelde doorlooptijd.
3. Inconsistente Case-IDs
Symptomen
- Events van dezelfde procesinstantie staan verdeeld over verschillende Case-IDs, waardoor het procesmodel versnipperd raakt.
- Meerdere weergaven van dezelfde instantie veroorzaken verwarring en onnauwkeurige analyses.
Mogelijke oorzaken
- Verschillende systemen of afdelingen hanteren andere naamgevingen of structuren voor Case-IDs.
- Invoervouten of een inconsistent formaat tussen systemen.
Oplossing
- Case-ID Mapping: Ontwikkel een mappingstrategie voor Case-IDs zodat ze eenduidig zijn over alle systemen. Gebruik tools zoals ETL-platforms of SQL om Case-IDs samen te voegen en te standaardiseren.
- Gebruik datatransformatietools: Hebben Case-IDs verschillende formaten? Gebruik transformatietools om deze vóór import consistent te maken.
4. Onjuiste volgorde van activiteiten
Symptomen
- Events staan in de verkeerde volgorde, bijvoorbeeld “Order Completed” verschijnt vóór “Order Placed”.
- De procesmap toont onlogische flows of lussen.
Mogelijke oorzaken
- Timestamps zijn verkeerd ingevuld of ontbreken.
- Data is geïmporteerd zonder correcte volgorde.
Oplossing
- Sorteer op timestamp: Sorteer gebeurtenissen per Case-ID oplopend op timestamp. Gebruik bijvoorbeeld Excel, SQL of Pandas (Python).
- Controleer timestamp-formaten: Check dat alle tijdstempels hetzelfde formaat en tijdzone hebben. Zet ze gebeurtenisueel om naar ISO 8601 (
YYYY-MM-DD HH:MM:SS). - Valideer datakwaliteit: Controleer handmatig een paar cases of de volgorde klopt en of er geen volgordefouten zijn ontstaan.
5. Data-inconsistentie tussen systemen
Symptomen
- Niet-overeenkomende data tussen verschillende systemen die aan hetzelfde proces bijdragen.
- Events komen voor in de data van het ene systeem, maar ontbreken in een ander, waardoor gaten in de procesmap ontstaan.
Mogelijke oorzaken
- Verschillende systemen gebruiken eigen meetwaarden, naamgevingen of formaten voor dezelfde gebeurtenissen.
- Onvolledige data-extractie of gedeeltelijke systeemintegratie.
Oplossing
- Standaardiseer data: Zorg ervoor dat velden als Case-ID, activiteitsnaam en Timestamps overal hetzelfde zijn voordat je data inlaadt. Gebruik hiervoor datatransformatietools.
- Combineer datasets zorgvuldig: Gebruik ETL-tools om data uit meerdere systemen samen te voegen tot één samenhangend geheel. Zorg voor gelijke gebeurtenis-namen, tijdstempels en case-ID’s voor het samenvoegen.
6. Grote datavolumes veroorzaken prestaties-issues
Symptomen
- Trage prestaties bij het laden of analyseren van grote datasets in de process mining-tool.
- Systeemcrashes of time-outs tijdens het inladen van data.
Mogelijke oorzaken
- De dataset bevat te veel records om ze efficiënt te processen.
- De Process Mining tool kan grote datavolumes niet in één keer processen.
Oplossing
- Data-sampling: Gebruik een representatief deel van de dataset in plaats van alles te processen. Zo blijft het overzichtelijk én inzichtvol.
- Filter onnodige gebeurtenissen: Verwijder irrelevante of niet-waardevolle gebeurtenissen (zoals system logs) vóór het uploaden.
- Incrementeel laden van data: Laad data stapsgewijs in, niet alles tegelijk – en analyseer delen los van elkaar.
7. Irrelevante of ruisende data
Symptomen
- De procesmap is rommelig door gebeurtenissen die niet bij het hoofdproces horen.
- Te veel onbeduidende variaties maken het lastig om belangrijke inzichten te vinden.
Mogelijke oorzaken
- Achtergrondsystemen, system logs of niet-gerelateerde taken komen in de dataset terecht.
- Ruis door laag-prioriteit taken of systeemprocessen.
Oplossing
- Filter onnodige gebeurtenissen: Sluit gebeurtenissen uit die niet bij het te analyseren proces horen. Verwijder bijvoorbeeld system logs of activiteiten buiten de workflow.
- Groepeer low-level gebeurtenissen: Bundel indien nodig technische gebeurtenissen tot hogere activiteiten voor een overzichtelijker model waarbij we ons richten op kernactiviteiten.
8. Omgaan met outliers
Symptomen
- De procesmap toont extreme verschillen in taakduur of bron-allocatie die niet passen bij de normale prestaties.
- De analyse wordt beïnvloed door zeldzame of uitzonderlijke cases.
Mogelijke oorzaken
- Uitschieters (outliers) (zoals taken die extreem lang duurden of cases met afwijkende patronen) komen in de dataset voor.
- Uitzonderingsgevallen of zeldzame incidenten beïnvloeden de procesmap onevenredig.
Oplossing
- Identificeer outliers: Gebruik statistische analyse om outliers op te sporen, bijv. op taakduur of brongebruik.
- Beslis over meenemen of uitsluiten: Bepaal of outliers waardevol inzicht geven (zoals zeldzame, kritieke issues) of beter verwijderd kunnen worden voor de standaard flow. Documenteer dit voor duidelijkheid.
9. Niet-uitgelijnde tijdzones in data
Symptomen
- Opeenvolgende gebeurtenissen staan niet juist onder elkaar door verschil in tijdzone-instellingen.
- De doorlooptijdberekening van processen is onjuist door tijdzoneverschillen.
Mogelijke oorzaken
- Data uit verschillende systemen of afdelingen gebruikt mogelijk verschillende tijdzones, wat inconsistentie veroorzaakt in timestamp data.
- Tijdzones zijn niet gestandaardiseerd voor het inladen van data.
Oplossing
- Omkeren naar één tijdzone: Zet alle tijdstempels vóór import om naar een vaste tijdzone (zoals UTC). Tools als Excel en Python bieden tijdzone-conversies.
- Documenteer tijdzone-aanpassingen: Houd de oorspronkelijke tijdzone van elke dataset bij en noteer conversies.
10. Onevenwichtige event logs
Symptomen
- Sommige cases hebben te weinig gebeurtenissen, terwijl andere te veel hebben. Dit zorgt voor een onevenwichtige procesmap.
- Bepaalde activiteiten of cases overheersen de analyse door een scheve dataverdeling.
Mogelijke oorzaken
- Inconsistente data-logging of onvolledige vastlegging van gebeurtenissen bij bepaalde cases.
- Scheve verdeling in data waardoor sommige cases te veel voorkomen.
Oplossing
- Normaaliseer de event log: Controleer of elke instantie een vergelijkbaar detailniveau heeft. Ontbreken er gebeurtenissen in cases? Zoek uit waarom, vul handmatig aan of sluit zulke cases uit.
- Weeg de data: Indien nodig kun je data wegen zodat oververtegenwoordigde cases geen onevenredige invloed hebben op de analyse.
Conclusie
Datakwaliteit is belangrijk voor succesvolle Process Mining. Door deze veelvoorkomende dataproblemen tijdig te signaleren en op te lossen, zorg je dat je analyses betrouwbare en concrete inzichten opleveren. Met best practices voor datacleaning, voorbereiding en validatie voorkom je veelgemaakte fouten en haal je het maximale uit je Process Mining.