Risoluzione dei Problemi di Dati
Problemi comuni e Soluzioni nei Dati
Durante la preparazione dei dati per il process mining, possono insorgere diversi problemi comuni legati ai dati che influenzano l’accuratezza e la qualità dell’analisi. Di seguito una guida per aiutarvi a identificare e risolvere questi problemi comuni.
1. Record duplicati nei Log Eventi
Sintomi:
- Lo stesso evento appare più volte per la stessa istanza di processo (stesso Case ID, Attività e Timestamp).
- Conteggi insolitamente alti di certe attività o eventi nella process map.
Cause possibili:
- Dati registrati più volte a causa di problemi di integrazione del sistema o errori di logging.
- Il processo di acquisizione dati ha ripetuto eventi involontariamente.
Soluzione:
- Rimuovi Duplicati: Usa strumenti di pulizia dati per identificare e rimuovere le voci duplicate. In Excel o Google Sheets, utilizza la funzione “Rimuovi Duplicati”, oppure se usi un database, scrivi query SQL che rimuovano le voci ripetute basate su Case ID, Attività, e Timestamp.
- Filtra Durante l’Acquisizione: Durante l’acquisizione dei dati, configura filtri per assicurarti che solo eventi unici siano importati nello strumento di process mining.
2. Timestamps mancanti
Sintomi:
- Timestamp incompleti o mancanti impediscono la sequenza precisa degli eventi.
- La process map mostra lacune o connessioni mancanti tra le attività.
Cause possibili:
- Alcuni sistemi non registrano i timestamps per ogni attività.
- Processi manuali o attività non digitali che non sono tracciate con un timestamp.
Soluzione:
- Stima dei Timestamps Mancanti: Se possibile, stima i timestamps mancanti basandoti su punti dati noti (es. supponendo che un’attività abbia impiegato il tempo medio tra le attività precedenti e successive).
- Integra con Dati Manuali: Per attività manuali o non digitali, inserisci manualmente timestamps basandoti su stime o log di altre fonti.
- Imputazione dei Dati: Usa tecniche di imputazione dati, come la previsione dei timestamps mancanti basate su altri eventi della sequenza o sulla durata media del processo.
3. Case ID incoerenti
Sintomi:
- Eventi che appartengono alla stessa istanza di processo sono suddivisi in diversi Case ID, portando alla frammentazione del modello di processo.
- Rappresentazioni multiple della stessa istanza di processo, causando confusione e analisi inaccurata.
Cause possibili:
- Sistemi o dipartimenti diversi usano convenzioni di nomenclatura o strutture diverse per i Case ID.
- Errori di inserimento dati o formattazione incoerente tra sistemi.
Soluzione:
- Case ID Mapping: Sviluppa una strategia di mapping dei Case ID per unificare gli identificatori tra i sistemi. Usa strumenti come piattaforme ETL (Extract, Transform, Load) o SQL per unire e standardizzare i Case ID.
- Usa Strumenti di Trasformazione Dati: Se i Case ID hanno formati diversi, utilizza strumenti di trasformazione per convertirli in un formato coerente prima di acquisire i dati.
4. Sequenza Attività errata
Sintomi:
- Gli eventi appaiono fuori ordine, con attività successive che compaiono prima di quelle precedenti (es. “Ordine Completato” prima di “Ordine Effettuato”).
- La process map mostra flussi o loop senza senso.
Cause possibili:
- I timestamps sono stati inseriti in modo errato o mancano.
- I dati sono stati acquisiti senza un ordine appropriato.
Soluzione:
- Ordina per Timestamp: Assicurati che gli eventi siano ordinati in base ai loro timestamp in ordine crescente per ogni Case ID. Usa strumenti come Excel, SQL, o Pandas (Python) per ordinare correttamente i dati.
- Verifica Formati Timestamp: Verifica che tutti i timestamp siano nello stesso formato e fuso orario. Converti tutti i timestamp in un formato comune, come ISO 8601 (
YYYY-MM-DD HH:MM:SS
). - Valida la Qualità dei Dati: Verifica alcuni casi manualmente per garantire che gli eventi siano nell’ordine corretto e che non si siano verificati errori di sequenziamento durante l’inserimento o l’acquisizione dei dati.
5. Incoerenza dati tra Sistemi
Sintomi:
- Dati non allineati tra diversi sistemi che contribuiscono allo stesso processo.
- Gli eventi appaiono nei dati di un sistema ma mancano in un altro, causando lacune nella process map.
Cause possibili:
- Sistemi diversi usano metriche, convenzioni di nomenclatura o formati diversi per gli stessi eventi.
- Estrazione dati incompleta o integrazione del sistema parziale.
Soluzione:
- Standardizza i Dati: Prima dell’acquisizione, standardizza come i campi chiave (es. Case ID, Nome Attività, e Timestamps) sono rappresentati tra i diversi sistemi. Usa strumenti di trasformazione dati per garantire coerenza nei nomi dei campi e nei formati.
- Combina i Datasets con Cura: Usa strumenti ETL per unire dati da vari sistemi e assicurati che il dataset combinato abbia una struttura coerente. Garantisci coerenza nei nomi degli eventi, nei timestamps e nei case IDs prima di combinare i datasets.
6. Grandi volumi di dati e Problemi di performance
Sintomi:
- Prestazioni lente nel caricamento o nell’analisi di grandi dataset nello strumento di process mining.
- Crash del sistema o timeout durante l’ingestione dei dati.
Cause possibili:
- Il dataset contiene troppi record per essere gestito in modo efficiente dal sistema.
- Lo strumento di process mining non può elaborare grandi volumi di dati in un’unica soluzione.
Soluzione:
- Campionamento dei Dati: Invece di elaborare l’intero dataset, utilizza un campione rappresentativo dei dati. Questo può ridurre la dimensione pur fornendo informazioni preziose.
- Filtra Eventi Non Necessari: Rimuovi eventi a basso valore o irrilevanti (come le voci di log di sistema) prima di caricare i dati nello strumento di process mining.
- Caricamento Incrementale dei Dati: Invece di acquisire tutti i dati in una volta sola, carica progressivamente piccoli blocchi di dati e analizzali separatamente.
7. Dati irrilevanti o rumorosi
Sintomi:
- La process map è ingombra di eventi non correlati al processo principale.
- Troppe variazioni insignificanti rendono difficile concentrarsi sugli insight chiave.
Cause possibili:
- Eventi di sistema di sfondo, log di sistema o attività non correlate sono inclusi nel dataset.
- Rumori da attività a bassa priorità o processi di sistema.
Soluzione:
- Filtra Eventi Non Necessari: Escludi eventi irrilevanti che non contribuiscono al processo analizzato. Ad esempio, rimuovi eventi di log di sistema o attività che non fanno parte del workflow aziendale.
- Raggruppa Eventi di Livello Basso: Se necessario, raggruppa o aggrega eventi di sistema di livello basso in attività di livello superiore per semplificare il modello di processo e concentrarsi sulle attività principali.
8. Gestione degli Outliers
Sintomi:
- La process map mostra variazioni estreme nella durata dei task o nell’allocazione delle risorse che non coincidono con le prestazioni tipiche.
- L’analisi è distorta da casi rari o eccezionali.
Cause possibili:
- Punti dati outlier (es. attività che hanno richiesto un tempo insolitamente lungo o casi con pattern anomali) sono presenti nel dataset.
- Casi limite o incidenti rari influenzano in modo sproporzionato la process map.
Soluzione:
- Identifica gli Outliers: Usa l’analisi statistica per rilevare e segnalare outliers basati sulla durata delle attività, l’uso delle risorse o altre metriche.
- Decidi se Includere o Escludere: Valuta se questi outliers forniscono approfondimenti utili (es. identificando problemi rari ma critici) o devono essere esclusi per concentrarsi sui processi standard. Se li escludi, documenta la decisione per garantire chiarezza.
9. Fusi orari non allineati nei Dati
Sintomi:
- Gli eventi che si verificano in sequenza appaiono disallineati a causa delle diverse impostazioni di fuso orario.
- I calcoli della durata del processo sono errati a causa di incoerenze nei fusi orari.
Cause possibili:
- Dati da diversi sistemi o dipartimenti potrebbero usare fusi orari diversi, portando a dati di timestamp incoerenti.
- I fusi orari non sono stati standardizzati prima dell’acquisizione dei dati.
Soluzione:
- Converti a un Fuso Orario Comune: Prima di importare i dati, converte tutti i timestamp a un fuso orario coerente (es. UTC). Molti strumenti, inclusi Excel e Python, offrono funzioni di conversione dei fusi orari.
- Documenta le Regolazioni dei Fusi Orari: Tieni traccia del fuso orario originale per ogni dataset e documenta eventuali conversioni effettuate.
10. Log Eventi sbilanciati
Sintomi:
- Alcuni casi hanno troppi pochi eventi, mentre altri ne hanno troppi, portando a una process map sbilanciata.
- Alcune attività o casi dominano l’analisi a causa di una distribuzione dei dati non uniforme.
Cause possibili:
- Registrazione dati incoerente o acquisizione incompleta di eventi per determinati casi.
- Distorsione nei dati dove alcune istanze di processo sono sovrarappresentate.
Soluzione:
- Normalizza il Log Eventi: Assicurati che ogni istanza di processo abbia un livello di dettaglio simile. Se determinati casi mancano di eventi chiave, indaga sulla causa e prova a colmare le lacune manualmente o a rimuovere quei casi dall’analisi.
- Pesa i Dati: Se necessario, pesa gli eventi o i casi per garantire che i casi sovra-rappresentati non influenzino in modo sproporzionato l’analisi.
Conclusione
La qualità dei dati è essenziale per un process mining di successo. Identificando e affrontando questi problemi comuni, potrete assicurarvi che la vostra analisi fornisca informazioni accurate e utili. Implementare best practice nella pulizia, preparazione e validazione dei dati aiuta a evitare ostacoli comuni e ad ottenere il massimo dai vostri sforzi di process mining.