Risoluzione dei Problemi di Dati

Problemi comuni e Soluzioni nei Dati

Durante la preparazione dei dati per il process mining, possono insorgere diversi problemi comuni legati ai dati che influenzano l’accuratezza e la qualità dell’analisi. Di seguito una guida per aiutarvi a identificare e risolvere questi problemi comuni.


1. Record duplicati nei Log Eventi

Sintomi:
  • Lo stesso evento appare più volte per la stessa istanza di processo (stesso Case ID, Attività e Timestamp).
  • Conteggi insolitamente alti di certe attività o eventi nella process map.
Cause possibili:
  • Dati registrati più volte a causa di problemi di integrazione del sistema o errori di logging.
  • Il processo di acquisizione dati ha ripetuto eventi involontariamente.
Soluzione:
  • Rimuovi Duplicati: Usa strumenti di pulizia dati per identificare e rimuovere le voci duplicate. In Excel o Google Sheets, utilizza la funzione “Rimuovi Duplicati”, oppure se usi un database, scrivi query SQL che rimuovano le voci ripetute basate su Case ID, Attività, e Timestamp.
  • Filtra Durante l’Acquisizione: Durante l’acquisizione dei dati, configura filtri per assicurarti che solo eventi unici siano importati nello strumento di process mining.

2. Timestamps mancanti

Sintomi:
  • Timestamp incompleti o mancanti impediscono la sequenza precisa degli eventi.
  • La process map mostra lacune o connessioni mancanti tra le attività.
Cause possibili:
  • Alcuni sistemi non registrano i timestamps per ogni attività.
  • Processi manuali o attività non digitali che non sono tracciate con un timestamp.
Soluzione:
  • Stima dei Timestamps Mancanti: Se possibile, stima i timestamps mancanti basandoti su punti dati noti (es. supponendo che un’attività abbia impiegato il tempo medio tra le attività precedenti e successive).
  • Integra con Dati Manuali: Per attività manuali o non digitali, inserisci manualmente timestamps basandoti su stime o log di altre fonti.
  • Imputazione dei Dati: Usa tecniche di imputazione dati, come la previsione dei timestamps mancanti basate su altri eventi della sequenza o sulla durata media del processo.

3. Case ID incoerenti

Sintomi:
  • Eventi che appartengono alla stessa istanza di processo sono suddivisi in diversi Case ID, portando alla frammentazione del modello di processo.
  • Rappresentazioni multiple della stessa istanza di processo, causando confusione e analisi inaccurata.
Cause possibili:
  • Sistemi o dipartimenti diversi usano convenzioni di nomenclatura o strutture diverse per i Case ID.
  • Errori di inserimento dati o formattazione incoerente tra sistemi.
Soluzione:
  • Case ID Mapping: Sviluppa una strategia di mapping dei Case ID per unificare gli identificatori tra i sistemi. Usa strumenti come piattaforme ETL (Extract, Transform, Load) o SQL per unire e standardizzare i Case ID.
  • Usa Strumenti di Trasformazione Dati: Se i Case ID hanno formati diversi, utilizza strumenti di trasformazione per convertirli in un formato coerente prima di acquisire i dati.

4. Sequenza Attività errata

Sintomi:
  • Gli eventi appaiono fuori ordine, con attività successive che compaiono prima di quelle precedenti (es. “Ordine Completato” prima di “Ordine Effettuato”).
  • La process map mostra flussi o loop senza senso.
Cause possibili:
  • I timestamps sono stati inseriti in modo errato o mancano.
  • I dati sono stati acquisiti senza un ordine appropriato.
Soluzione:
  • Ordina per Timestamp: Assicurati che gli eventi siano ordinati in base ai loro timestamp in ordine crescente per ogni Case ID. Usa strumenti come Excel, SQL, o Pandas (Python) per ordinare correttamente i dati.
  • Verifica Formati Timestamp: Verifica che tutti i timestamp siano nello stesso formato e fuso orario. Converti tutti i timestamp in un formato comune, come ISO 8601 (YYYY-MM-DD HH:MM:SS).
  • Valida la Qualità dei Dati: Verifica alcuni casi manualmente per garantire che gli eventi siano nell’ordine corretto e che non si siano verificati errori di sequenziamento durante l’inserimento o l’acquisizione dei dati.

5. Incoerenza dati tra Sistemi

Sintomi:
  • Dati non allineati tra diversi sistemi che contribuiscono allo stesso processo.
  • Gli eventi appaiono nei dati di un sistema ma mancano in un altro, causando lacune nella process map.
Cause possibili:
  • Sistemi diversi usano metriche, convenzioni di nomenclatura o formati diversi per gli stessi eventi.
  • Estrazione dati incompleta o integrazione del sistema parziale.
Soluzione:
  • Standardizza i Dati: Prima dell’acquisizione, standardizza come i campi chiave (es. Case ID, Nome Attività, e Timestamps) sono rappresentati tra i diversi sistemi. Usa strumenti di trasformazione dati per garantire coerenza nei nomi dei campi e nei formati.
  • Combina i Datasets con Cura: Usa strumenti ETL per unire dati da vari sistemi e assicurati che il dataset combinato abbia una struttura coerente. Garantisci coerenza nei nomi degli eventi, nei timestamps e nei case IDs prima di combinare i datasets.

6. Grandi volumi di dati e Problemi di performance

Sintomi:
  • Prestazioni lente nel caricamento o nell’analisi di grandi dataset nello strumento di process mining.
  • Crash del sistema o timeout durante l’ingestione dei dati.
Cause possibili:
  • Il dataset contiene troppi record per essere gestito in modo efficiente dal sistema.
  • Lo strumento di process mining non può elaborare grandi volumi di dati in un’unica soluzione.
Soluzione:
  • Campionamento dei Dati: Invece di elaborare l’intero dataset, utilizza un campione rappresentativo dei dati. Questo può ridurre la dimensione pur fornendo informazioni preziose.
  • Filtra Eventi Non Necessari: Rimuovi eventi a basso valore o irrilevanti (come le voci di log di sistema) prima di caricare i dati nello strumento di process mining.
  • Caricamento Incrementale dei Dati: Invece di acquisire tutti i dati in una volta sola, carica progressivamente piccoli blocchi di dati e analizzali separatamente.

7. Dati irrilevanti o rumorosi

Sintomi:
  • La process map è ingombra di eventi non correlati al processo principale.
  • Troppe variazioni insignificanti rendono difficile concentrarsi sugli insight chiave.
Cause possibili:
  • Eventi di sistema di sfondo, log di sistema o attività non correlate sono inclusi nel dataset.
  • Rumori da attività a bassa priorità o processi di sistema.
Soluzione:
  • Filtra Eventi Non Necessari: Escludi eventi irrilevanti che non contribuiscono al processo analizzato. Ad esempio, rimuovi eventi di log di sistema o attività che non fanno parte del workflow aziendale.
  • Raggruppa Eventi di Livello Basso: Se necessario, raggruppa o aggrega eventi di sistema di livello basso in attività di livello superiore per semplificare il modello di processo e concentrarsi sulle attività principali.

8. Gestione degli Outliers

Sintomi:
  • La process map mostra variazioni estreme nella durata dei task o nell’allocazione delle risorse che non coincidono con le prestazioni tipiche.
  • L’analisi è distorta da casi rari o eccezionali.
Cause possibili:
  • Punti dati outlier (es. attività che hanno richiesto un tempo insolitamente lungo o casi con pattern anomali) sono presenti nel dataset.
  • Casi limite o incidenti rari influenzano in modo sproporzionato la process map.
Soluzione:
  • Identifica gli Outliers: Usa l’analisi statistica per rilevare e segnalare outliers basati sulla durata delle attività, l’uso delle risorse o altre metriche.
  • Decidi se Includere o Escludere: Valuta se questi outliers forniscono approfondimenti utili (es. identificando problemi rari ma critici) o devono essere esclusi per concentrarsi sui processi standard. Se li escludi, documenta la decisione per garantire chiarezza.

9. Fusi orari non allineati nei Dati

Sintomi:
  • Gli eventi che si verificano in sequenza appaiono disallineati a causa delle diverse impostazioni di fuso orario.
  • I calcoli della durata del processo sono errati a causa di incoerenze nei fusi orari.
Cause possibili:
  • Dati da diversi sistemi o dipartimenti potrebbero usare fusi orari diversi, portando a dati di timestamp incoerenti.
  • I fusi orari non sono stati standardizzati prima dell’acquisizione dei dati.
Soluzione:
  • Converti a un Fuso Orario Comune: Prima di importare i dati, converte tutti i timestamp a un fuso orario coerente (es. UTC). Molti strumenti, inclusi Excel e Python, offrono funzioni di conversione dei fusi orari.
  • Documenta le Regolazioni dei Fusi Orari: Tieni traccia del fuso orario originale per ogni dataset e documenta eventuali conversioni effettuate.

10. Log Eventi sbilanciati

Sintomi:
  • Alcuni casi hanno troppi pochi eventi, mentre altri ne hanno troppi, portando a una process map sbilanciata.
  • Alcune attività o casi dominano l’analisi a causa di una distribuzione dei dati non uniforme.
Cause possibili:
  • Registrazione dati incoerente o acquisizione incompleta di eventi per determinati casi.
  • Distorsione nei dati dove alcune istanze di processo sono sovrarappresentate.
Soluzione:
  • Normalizza il Log Eventi: Assicurati che ogni istanza di processo abbia un livello di dettaglio simile. Se determinati casi mancano di eventi chiave, indaga sulla causa e prova a colmare le lacune manualmente o a rimuovere quei casi dall’analisi.
  • Pesa i Dati: Se necessario, pesa gli eventi o i casi per garantire che i casi sovra-rappresentati non influenzino in modo sproporzionato l’analisi.

Conclusione

La qualità dei dati è essenziale per un process mining di successo. Identificando e affrontando questi problemi comuni, potrete assicurarvi che la vostra analisi fornisca informazioni accurate e utili. Implementare best practice nella pulizia, preparazione e validazione dei dati aiuta a evitare ostacoli comuni e ad ottenere il massimo dai vostri sforzi di process mining.