In questa pagina
Risoluzione Problemi di Data Quality
Problemi comuni con i dati e soluzioni
Durante la preparazione dei dati per il Process Mining, possono verificarsi problemi frequenti che influiscono su accuratezza e qualità dell’analisi. Ecco una guida rapida per identificare e risolvere questi problemi tipici.
1. Record duplicati negli event log
Sintomi
- Lo stesso event appare più volte per la stessa process instance (stesso Case ID, Activity e Timestamp).
- Conteggi anomali per alcune activity o event nella process map.
Possibili cause
- I dati sono stati registrati più volte per problemi di integrazione sistemi o errori di logging.
- Il processo di importazione ha duplicato eventi per errore.
Soluzione
- Rimuovi duplicati: Usa strumenti di data cleaning per trovare ed eliminare i record doppi. In Excel o Google Sheets usa la funzione “Rimuovi duplicati”, e nei database scrivi query SQL per eliminare i record ripetuti basandoti su Case ID, Attività e Timestamp.
- Filtra nell’importazione: Configura la fase di importazione per caricare solo eventi unici nel tool di Process Mining.
2. Timestamp mancanti
Sintomi
- Timestamp incompleti o assenti impediscono la giusta sequenza degli eventi.
- La process map presenta lacune o collegamenti mancanti tra attività.
Possibili cause
- Alcuni sistemi non registrano timestamp per ogni attività.
- Processi manuali o non digitali non tracciati tramite timestamp.
Soluzione
- Stima timestamp mancanti: Stima i timestamp mancanti usando dati noti (es. il tempo medio tra attività precedenti e successive).
- Completa con dati manuali: Per task manuali o non digitali, inserisci i timestamp manualmente usando stime o altri log disponibili.
- Data Imputation: Usa tecniche di imputazione, come la previsione dei timestamp mancanti da altri eventi o la durata media del processo.
3. Case ID incoerenti
Sintomi
- Gli eventi di una stessa istanza di processo sono distribuiti su Case ID diversi, frammentando il modello di processo.
- Più rappresentazioni della stessa istanza creano confusione e analisi imprecise.
Possibili cause
- Sistemi o reparti diversi usano convenzioni o strutture differenti per i Case ID.
- Errori di inserimento dati o formati non uniformi tra i sistemi.
Soluzione
- Case ID Mapping: Definisci una strategia di mapping dei Case ID per unificare gli identificatori tra sistemi. Usa strumenti ETL (Extract, Transform, Load) o SQL per unire e standardizzare i Case ID.
- Strumenti di trasformazione dati: Se i Case ID hanno formati diversi, convertili in uno standard prima dell’importazione.
4. Sequenza attività errata
Sintomi
- Gli eventi sono fuori sequenza, con attività successive che appaiono prima delle precedenti (es. “Order Completed” prima di “Order Placed”).
- La process map mostra flussi illogici o loop.
Possibili cause
- I timestamp sono errati o mancanti.
- I dati sono stati caricati senza ordinamento corretto.
Soluzione
- Ordina per timestamp: Assicurati che gli eventi siano ordinati in modo crescente rispetto al timestamp per ogni Case ID. Usa strumenti come Excel, SQL o Pandas (Python) per ottenere l’ordine giusto.
- Controlla i formati dei timestamp: Tutti i timestamp devono avere uguale formato e fuso orario. Converti tutto nel formato ISO 8601 (
YYYY-MM-DD HH:MM:SS). - Valida la qualità dati: Controlla a campione che la sequenza eventi sia corretta e senza errori di inserimento o importazione.
5. Incoerenze dati tra sistemi
Sintomi
- Dati non allineati tra diversi sistemi che contribuiscono allo stesso processo.
- Eventi presenti nei dati di un sistema ma assenti in un altro, con conseguenti lacune nella process map.
Possibili cause
- Sistemi diversi usano metriche, nomi o formati diversi per gli stessi eventi.
- Estrazione dati incompleta o integrazione sistemi parziale.
Soluzione
- Standardizza i dati: Prima dell’importazione, assicurati che tutti i campi chiave (Case ID, nome attività, timestamp) siano uniformi tra i sistemi. Usa strumenti di trasformazione dati per coerenza di nomi e formati.
- Unisci i dataset con attenzione: Usa tool ETL per integrare dati da diversi sistemi e creare un dataset strutturato. Controlla la coerenza di nomi eventi, timestamp e case ID prima della fusione.
6. Grandi volumi di dati che causano problemi di performance
Sintomi
- Prestazioni lente durante il caricamento o l’analisi di grandi dataset nel tool di Process Mining.
- Crash di sistema o timeout durante l’import dei dati.
Possibili cause
- Il dataset contiene troppi record per essere gestito con efficienza.
- Il tool di Process Mining non elabora grandi volumi di dati tutti insieme.
Soluzione
- Data Sampling: Analizza un campione rappresentativo invece dell’intero dataset. Così riduci la dimensione ma mantieni insight utili.
- Filtra eventi non necessari: Rimuovi eventi a basso valore o irrilevanti (ad esempio, log di sistema) prima dell’analisi.
- Caricamento dati incrementale: Carica piccoli blocchi di dati gradualmente e analizzali separatamente invece di tutto in una volta.
7. Dati irrilevanti o rumorosi
Sintomi
- La process map è piena di eventi non collegati al core process.
- Troppe variazioni poco rilevanti rendono difficile focalizzarsi sui principali insight.
Possibili cause
- Eventi di sistema di background, system log o task non correlati presenti nel dataset.
- Rumore da attività a bassa priorità o processi di sistema.
Soluzione
- Filtra eventi non necessari: Escludi gli eventi irrilevanti che non contribuiscono al processo da analizzare (esempio: log di sistema o attività fuori dal workflow operativo).
- Raggruppa eventi di basso livello: Se serve, aggrega eventi tecnici in attività di livello superiore per semplificare il modello e concentrarti sulle attività chiave.
8. Gestione outlier
Sintomi
- La process map mostra forti variazioni nella durata delle task o nell’allocazione delle risorse, non in linea con le performance tipiche.
- L’analisi è distorta da case rari o eccezionali.
Possibili cause
- Outlier presenti nel dataset (es. task con tempi insolitamente lunghi o pattern anomali).
- Casi limite o eventi rari influenzano eccessivamente la process map.
Soluzione
- Individua outlier: Utilizza analisi statistiche per identificare e segnalare outlier in base a durata attività, risorse o altre metriche.
- Valuta se includere o escludere: Decidi se questi outlier offrono insight utili (es. problemi rari ma critici) o se è meglio escluderli, documentando la scelta.
9. Fusi orari non allineati nei dati
Sintomi
- Eventi che dovrebbero essere sequenziali risultano sfalsati per fusi orari diversi.
- Il calcolo delle durate è errato a causa delle incoerenze nei fusi orari.
Possibili cause
- Dati da diversi sistemi o reparti con fusi orari diversi creano incoerenze nei timestamp.
- I fusi orari non sono stati standardizzati prima dell’importazione dati.
Soluzione
- Conversione a un fuso orario comune: Prima dell’importazione, converti tutti i timestamp in un fuso standard (es. UTC). Strumenti come Excel e Python supportano la conversione di fuso orario.
- Documenta le conversioni di fuso: Tieni traccia del fuso orario originale di ogni dataset e annota tutte le conversioni eseguite.
10. Event log sbilanciati
Sintomi
- Alcuni case hanno pochi event, altri troppi, con una process map sbilanciata.
- Alcune attività o case dominano l’analisi per una distribuzione dei dati non uniforme.
Possibili cause
- Log di dati incoerenti o cattura incompleta di eventi in alcune case.
- Squilibrio nei dati, con istanze di processo sovra-rappresentate.
Soluzione
- Normalizza gli event log: Assicurati che ogni istanza abbia un livello di dettaglio simile. Se mancano eventi chiave, verifica il motivo e valuta un’integrazione manuale o rimuovi quei casi dall’analisi.
- Pondera i dati: Se serve, assegna un peso a eventi o case per evitare che casi sovra-rappresentati alterino i risultati.
Conclusioni
La qualità dei dati è essenziale per un Process Mining di successo. Riconoscendo e correggendo questi problemi comuni ottieni analisi precise e insight concreti. Con l’adozione di best practice in pulizia, preparazione e validazione dati, eviti errori e massimizzi i benefici del Process Mining.