In questa pagina

> risorse > documenti > risoluzione problemi > Risoluzione Problemi di Data Quality

Risoluzione Problemi di Data Quality

Problemi comuni con i dati e soluzioni

Durante la preparazione dei dati per il Process Mining, possono verificarsi problemi frequenti che influiscono su accuratezza e qualità dell’analisi. Ecco una guida rapida per identificare e risolvere questi problemi tipici.

1. Record duplicati negli event log

Sintomi

Lo stesso event appare più volte per la stessa process instance (stesso Case ID, Activity e Timestamp).
Conteggi anomali per alcune activity o event nella process map.

Possibili cause

I dati sono stati registrati più volte per problemi di integrazione sistemi o errori di logging.
Il processo di importazione ha duplicato eventi per errore.

Soluzione

Rimuovi duplicati: Usa strumenti di data cleaning per trovare ed eliminare i record doppi. In Excel o Google Sheets usa la funzione “Rimuovi duplicati”, e nei database scrivi query SQL per eliminare i record ripetuti basandoti su Case ID, Attività e Timestamp.
Filtra nell’importazione: Configura la fase di importazione per caricare solo eventi unici nel tool di Process Mining.

2. Timestamp mancanti

Sintomi

Timestamp incompleti o assenti impediscono la giusta sequenza degli eventi.
La process map presenta lacune o collegamenti mancanti tra attività.

Possibili cause

Alcuni sistemi non registrano timestamp per ogni attività.
Processi manuali o non digitali non tracciati tramite timestamp.

Soluzione

Stima timestamp mancanti: Stima i timestamp mancanti usando dati noti (es. il tempo medio tra attività precedenti e successive).
Completa con dati manuali: Per task manuali o non digitali, inserisci i timestamp manualmente usando stime o altri log disponibili.
Data Imputation: Usa tecniche di imputazione, come la previsione dei timestamp mancanti da altri eventi o la durata media del processo.

3. Case ID incoerenti

Sintomi

Gli eventi di una stessa istanza di processo sono distribuiti su Case ID diversi, frammentando il modello di processo.
Più rappresentazioni della stessa istanza creano confusione e analisi imprecise.

Possibili cause

Sistemi o reparti diversi usano convenzioni o strutture differenti per i Case ID.
Errori di inserimento dati o formati non uniformi tra i sistemi.

Soluzione

Case ID Mapping: Definisci una strategia di mapping dei Case ID per unificare gli identificatori tra sistemi. Usa strumenti ETL (Extract, Transform, Load) o SQL per unire e standardizzare i Case ID.
Strumenti di trasformazione dati: Se i Case ID hanno formati diversi, convertili in uno standard prima dell’importazione.

4. Sequenza attività errata

Sintomi

Gli eventi sono fuori sequenza, con attività successive che appaiono prima delle precedenti (es. “Order Completed” prima di “Order Placed”).
La process map mostra flussi illogici o loop.

Possibili cause

I timestamp sono errati o mancanti.
I dati sono stati caricati senza ordinamento corretto.

Soluzione

Ordina per timestamp: Assicurati che gli eventi siano ordinati in modo crescente rispetto al timestamp per ogni Case ID. Usa strumenti come Excel, SQL o Pandas (Python) per ottenere l’ordine giusto.
Controlla i formati dei timestamp: Tutti i timestamp devono avere uguale formato e fuso orario. Converti tutto nel formato ISO 8601 (YYYY-MM-DD HH:MM:SS).
Valida la qualità dati: Controlla a campione che la sequenza eventi sia corretta e senza errori di inserimento o importazione.

5. Incoerenze dati tra sistemi

Sintomi

Dati non allineati tra diversi sistemi che contribuiscono allo stesso processo.
Eventi presenti nei dati di un sistema ma assenti in un altro, con conseguenti lacune nella process map.

Possibili cause

Sistemi diversi usano metriche, nomi o formati diversi per gli stessi eventi.
Estrazione dati incompleta o integrazione sistemi parziale.

Soluzione

Standardizza i dati: Prima dell’importazione, assicurati che tutti i campi chiave (Case ID, nome attività, timestamp) siano uniformi tra i sistemi. Usa strumenti di trasformazione dati per coerenza di nomi e formati.
Unisci i dataset con attenzione: Usa tool ETL per integrare dati da diversi sistemi e creare un dataset strutturato. Controlla la coerenza di nomi eventi, timestamp e case ID prima della fusione.

6. Grandi volumi di dati che causano problemi di performance

Sintomi

Prestazioni lente durante il caricamento o l’analisi di grandi dataset nel tool di Process Mining.
Crash di sistema o timeout durante l’import dei dati.

Possibili cause

Il dataset contiene troppi record per essere gestito con efficienza.
Il tool di Process Mining non elabora grandi volumi di dati tutti insieme.

Soluzione

Data Sampling: Analizza un campione rappresentativo invece dell’intero dataset. Così riduci la dimensione ma mantieni insight utili.
Filtra eventi non necessari: Rimuovi eventi a basso valore o irrilevanti (ad esempio, log di sistema) prima dell’analisi.
Caricamento dati incrementale: Carica piccoli blocchi di dati gradualmente e analizzali separatamente invece di tutto in una volta.

7. Dati irrilevanti o rumorosi

Sintomi

La process map è piena di eventi non collegati al core process.
Troppe variazioni poco rilevanti rendono difficile focalizzarsi sui principali insight.

Possibili cause

Eventi di sistema di background, system log o task non correlati presenti nel dataset.
Rumore da attività a bassa priorità o processi di sistema.

Soluzione

Filtra eventi non necessari: Escludi gli eventi irrilevanti che non contribuiscono al processo da analizzare (esempio: log di sistema o attività fuori dal workflow operativo).
Raggruppa eventi di basso livello: Se serve, aggrega eventi tecnici in attività di livello superiore per semplificare il modello e concentrarti sulle attività chiave.

8. Gestione outlier

Sintomi

La process map mostra forti variazioni nella durata delle task o nell’allocazione delle risorse, non in linea con le performance tipiche.
L’analisi è distorta da case rari o eccezionali.

Possibili cause

Outlier presenti nel dataset (es. task con tempi insolitamente lunghi o pattern anomali).
Casi limite o eventi rari influenzano eccessivamente la process map.

Soluzione

Individua outlier: Utilizza analisi statistiche per identificare e segnalare outlier in base a durata attività, risorse o altre metriche.
Valuta se includere o escludere: Decidi se questi outlier offrono insight utili (es. problemi rari ma critici) o se è meglio escluderli, documentando la scelta.

9. Fusi orari non allineati nei dati

Sintomi

Eventi che dovrebbero essere sequenziali risultano sfalsati per fusi orari diversi.
Il calcolo delle durate è errato a causa delle incoerenze nei fusi orari.

Possibili cause

Dati da diversi sistemi o reparti con fusi orari diversi creano incoerenze nei timestamp.
I fusi orari non sono stati standardizzati prima dell’importazione dati.

Soluzione

Conversione a un fuso orario comune: Prima dell’importazione, converti tutti i timestamp in un fuso standard (es. UTC). Strumenti come Excel e Python supportano la conversione di fuso orario.
Documenta le conversioni di fuso: Tieni traccia del fuso orario originale di ogni dataset e annota tutte le conversioni eseguite.

10. Event log sbilanciati

Sintomi

Alcuni case hanno pochi event, altri troppi, con una process map sbilanciata.
Alcune attività o case dominano l’analisi per una distribuzione dei dati non uniforme.

Possibili cause

Log di dati incoerenti o cattura incompleta di eventi in alcune case.
Squilibrio nei dati, con istanze di processo sovra-rappresentate.

Soluzione

Normalizza gli event log: Assicurati che ogni istanza abbia un livello di dettaglio simile. Se mancano eventi chiave, verifica il motivo e valuta un’integrazione manuale o rimuovi quei casi dall’analisi.
Pondera i dati: Se serve, assegna un peso a eventi o case per evitare che casi sovra-rappresentati alterino i risultati.

Conclusione

La qualità dei dati è essenziale per un Process Mining di successo. Riconoscendo e correggendo questi problemi comuni ottieni analisi precise e insight concreti. Con l’adozione di best practice in pulizia, preparazione e validazione dati, eviti errori e massimizzi i benefici del Process Mining.

Risoluzione Problemi di Data Quality

Problemi comuni con i dati e soluzioni

1. Record duplicati negli event log

Sintomi

Possibili cause

Soluzione

2. Timestamp mancanti

Sintomi

Possibili cause

Soluzione

3. Case ID incoerenti

Sintomi

Possibili cause

Soluzione

4. Sequenza attività errata

Sintomi

Possibili cause

Soluzione

5. Incoerenze dati tra sistemi

Sintomi

Possibili cause

Soluzione

6. Grandi volumi di dati che causano problemi di performance

Sintomi

Possibili cause

Soluzione

7. Dati irrilevanti o rumorosi

Sintomi

Possibili cause

Soluzione

8. Gestione outlier

Sintomi

Possibili cause

Soluzione

9. Fusi orari non allineati nei dati

Sintomi

Possibili cause

Soluzione

10. Event log sbilanciati

Sintomi

Possibili cause

Soluzione

Conclusione

Abbiamo a cuore la Sua privacy