Elenco documenti
In questa pagina

Risoluzione Problemi di Data Quality

Problemi comuni con i dati e soluzioni

Durante la preparazione dei dati per il Process Mining, possono verificarsi problemi frequenti che influiscono su accuratezza e qualità dell’analisi. Ecco una guida rapida per identificare e risolvere questi problemi tipici.


1. Record duplicati negli event log

Sintomi

  • Lo stesso event appare più volte per la stessa process instance (stesso Case ID, Activity e Timestamp).
  • Conteggi anomali per alcune activity o event nella process map.

Possibili cause

  • I dati sono stati registrati più volte per problemi di integrazione sistemi o errori di logging.
  • Il processo di importazione ha duplicato eventi per errore.

Soluzione

  • Rimuovi duplicati: Usa strumenti di data cleaning per trovare ed eliminare i record doppi. In Excel o Google Sheets usa la funzione “Rimuovi duplicati”, e nei database scrivi query SQL per eliminare i record ripetuti basandoti su Case ID, Attività e Timestamp.
  • Filtra nell’importazione: Configura la fase di importazione per caricare solo eventi unici nel tool di Process Mining.

2. Timestamp mancanti

Sintomi

  • Timestamp incompleti o assenti impediscono la giusta sequenza degli eventi.
  • La process map presenta lacune o collegamenti mancanti tra attività.

Possibili cause

  • Alcuni sistemi non registrano timestamp per ogni attività.
  • Processi manuali o non digitali non tracciati tramite timestamp.

Soluzione

  • Stima timestamp mancanti: Stima i timestamp mancanti usando dati noti (es. il tempo medio tra attività precedenti e successive).
  • Completa con dati manuali: Per task manuali o non digitali, inserisci i timestamp manualmente usando stime o altri log disponibili.
  • Data Imputation: Usa tecniche di imputazione, come la previsione dei timestamp mancanti da altri eventi o la durata media del processo.

3. Case ID incoerenti

Sintomi

  • Gli eventi di una stessa istanza di processo sono distribuiti su Case ID diversi, frammentando il modello di processo.
  • Più rappresentazioni della stessa istanza creano confusione e analisi imprecise.

Possibili cause

  • Sistemi o reparti diversi usano convenzioni o strutture differenti per i Case ID.
  • Errori di inserimento dati o formati non uniformi tra i sistemi.

Soluzione

  • Case ID Mapping: Definisci una strategia di mapping dei Case ID per unificare gli identificatori tra sistemi. Usa strumenti ETL (Extract, Transform, Load) o SQL per unire e standardizzare i Case ID.
  • Strumenti di trasformazione dati: Se i Case ID hanno formati diversi, convertili in uno standard prima dell’importazione.

4. Sequenza attività errata

Sintomi

  • Gli eventi sono fuori sequenza, con attività successive che appaiono prima delle precedenti (es. “Order Completed” prima di “Order Placed”).
  • La process map mostra flussi illogici o loop.

Possibili cause

  • I timestamp sono errati o mancanti.
  • I dati sono stati caricati senza ordinamento corretto.

Soluzione

  • Ordina per timestamp: Assicurati che gli eventi siano ordinati in modo crescente rispetto al timestamp per ogni Case ID. Usa strumenti come Excel, SQL o Pandas (Python) per ottenere l’ordine giusto.
  • Controlla i formati dei timestamp: Tutti i timestamp devono avere uguale formato e fuso orario. Converti tutto nel formato ISO 8601 (YYYY-MM-DD HH:MM:SS).
  • Valida la qualità dati: Controlla a campione che la sequenza eventi sia corretta e senza errori di inserimento o importazione.

5. Incoerenze dati tra sistemi

Sintomi

  • Dati non allineati tra diversi sistemi che contribuiscono allo stesso processo.
  • Eventi presenti nei dati di un sistema ma assenti in un altro, con conseguenti lacune nella process map.

Possibili cause

  • Sistemi diversi usano metriche, nomi o formati diversi per gli stessi eventi.
  • Estrazione dati incompleta o integrazione sistemi parziale.

Soluzione

  • Standardizza i dati: Prima dell’importazione, assicurati che tutti i campi chiave (Case ID, nome attività, timestamp) siano uniformi tra i sistemi. Usa strumenti di trasformazione dati per coerenza di nomi e formati.
  • Unisci i dataset con attenzione: Usa tool ETL per integrare dati da diversi sistemi e creare un dataset strutturato. Controlla la coerenza di nomi eventi, timestamp e case ID prima della fusione.

6. Grandi volumi di dati che causano problemi di performance

Sintomi

  • Prestazioni lente durante il caricamento o l’analisi di grandi dataset nel tool di Process Mining.
  • Crash di sistema o timeout durante l’import dei dati.

Possibili cause

  • Il dataset contiene troppi record per essere gestito con efficienza.
  • Il tool di Process Mining non elabora grandi volumi di dati tutti insieme.

Soluzione

  • Data Sampling: Analizza un campione rappresentativo invece dell’intero dataset. Così riduci la dimensione ma mantieni insight utili.
  • Filtra eventi non necessari: Rimuovi eventi a basso valore o irrilevanti (ad esempio, log di sistema) prima dell’analisi.
  • Caricamento dati incrementale: Carica piccoli blocchi di dati gradualmente e analizzali separatamente invece di tutto in una volta.

7. Dati irrilevanti o rumorosi

Sintomi

  • La process map è piena di eventi non collegati al core process.
  • Troppe variazioni poco rilevanti rendono difficile focalizzarsi sui principali insight.

Possibili cause

  • Eventi di sistema di background, system log o task non correlati presenti nel dataset.
  • Rumore da attività a bassa priorità o processi di sistema.

Soluzione

  • Filtra eventi non necessari: Escludi gli eventi irrilevanti che non contribuiscono al processo da analizzare (esempio: log di sistema o attività fuori dal workflow operativo).
  • Raggruppa eventi di basso livello: Se serve, aggrega eventi tecnici in attività di livello superiore per semplificare il modello e concentrarti sulle attività chiave.

8. Gestione outlier

Sintomi

  • La process map mostra forti variazioni nella durata delle task o nell’allocazione delle risorse, non in linea con le performance tipiche.
  • L’analisi è distorta da case rari o eccezionali.

Possibili cause

  • Outlier presenti nel dataset (es. task con tempi insolitamente lunghi o pattern anomali).
  • Casi limite o eventi rari influenzano eccessivamente la process map.

Soluzione

  • Individua outlier: Utilizza analisi statistiche per identificare e segnalare outlier in base a durata attività, risorse o altre metriche.
  • Valuta se includere o escludere: Decidi se questi outlier offrono insight utili (es. problemi rari ma critici) o se è meglio escluderli, documentando la scelta.

9. Fusi orari non allineati nei dati

Sintomi

  • Eventi che dovrebbero essere sequenziali risultano sfalsati per fusi orari diversi.
  • Il calcolo delle durate è errato a causa delle incoerenze nei fusi orari.

Possibili cause

  • Dati da diversi sistemi o reparti con fusi orari diversi creano incoerenze nei timestamp.
  • I fusi orari non sono stati standardizzati prima dell’importazione dati.

Soluzione

  • Conversione a un fuso orario comune: Prima dell’importazione, converti tutti i timestamp in un fuso standard (es. UTC). Strumenti come Excel e Python supportano la conversione di fuso orario.
  • Documenta le conversioni di fuso: Tieni traccia del fuso orario originale di ogni dataset e annota tutte le conversioni eseguite.

10. Event log sbilanciati

Sintomi

  • Alcuni case hanno pochi event, altri troppi, con una process map sbilanciata.
  • Alcune attività o case dominano l’analisi per una distribuzione dei dati non uniforme.

Possibili cause

  • Log di dati incoerenti o cattura incompleta di eventi in alcune case.
  • Squilibrio nei dati, con istanze di processo sovra-rappresentate.

Soluzione

  • Normalizza gli event log: Assicurati che ogni istanza abbia un livello di dettaglio simile. Se mancano eventi chiave, verifica il motivo e valuta un’integrazione manuale o rimuovi quei casi dall’analisi.
  • Pondera i dati: Se serve, assegna un peso a eventi o case per evitare che casi sovra-rappresentati alterino i risultati.

Conclusioni

La qualità dei dati è essenziale per un Process Mining di successo. Riconoscendo e correggendo questi problemi comuni ottieni analisi precise e insight concreti. Con l’adozione di best practice in pulizia, preparazione e validazione dati, eviti errori e massimizzi i benefici del Process Mining.