Data Cleaning e Preparazione per Process Mining
Data Cleaning e Preparazione per il Process Mining
Un process mining efficace parte da dati di qualità: la pulizia e la preparazione dei dati sono quindi fondamentali. Una cattiva qualità dei dati porta a risultati imprecisi o incompleti, rendendo difficile ottimizzare i processi. In questa guida troverai i passaggi chiave per pulire e preparare i dataset così da essere pronti per il process mining.
Perché è Importante la Data Cleaning e Preparazione?
Il process mining si basa sugli event log, ovvero dataset che descrivono la sequenza dettagliata delle attività di un processo aziendale. Se questi dati sono incompleti, incoerenti o errati, le informazioni ottenute saranno poco affidabili. Dati puliti e ben strutturati permettono ai tool di process mining di mappare i workflow, rilevare colli di bottiglia e individuare aree di miglioramento.
Step Chiave nella Data Cleaning e Preparazione
1. Raccolta e Integrazione Dati
Il primo passo è assicurarsi di aver raccolto tutti i dati necessari dai vari sistemi coinvolti. I dati possono arrivare da fonti differenti come ERP, CRM o altri sistemi aziendali. Qui interviene la data integration.
- Consolida le fonti dati: Raccogli tutte le informazioni dai sistemi coinvolti. Ad esempio, se analizzi un processo order-to-cash, raccogli dati sia dal sistema vendite (es. Salesforce) che da quello amministrativo (es. SAP).
- Assicura formati coerenti: Prima di andare avanti, standardizza il formato dei dati esportati (timestamp, valute, ID, ecc.).
Con i dati raccolti hai tutto il necessario per iniziare pulizia e preparazione per il process mining.
2. Rimozione dei Duplicati
I record duplicati possono alterare le analisi nel process mining gonfiando il numero di attività o mostrando più volte lo stesso evento. Individuare e rimuovere duplicati è fondamentale per avere event log affidabili.
- Individua duplicati: Cerca record con lo stesso case ID, attività e timestamp: probabilmente sono duplicati.
- Rimuovi o unisci: Se ci sono duplicati, eliminane oppure unisci i record dove necessario.
3. Gestione dei Dati Mancanti
La mancanza di valori è un’altra criticità comune che può compromettere i risultati del process mining. Timestamp, attività o case ID mancanti rischiano di produrre modelli di processo incompleti.
- Individua valori mancanti: Usa strumenti o script per trovare campi vuoti (es. timestamp assenti, nomi attività vuoti, case ID nulli).
- Completa dove possibile: Colma i dati mancanti tramite fonti esterne, conoscenza di dominio o stime sui dati disponibili (es. stimare un timestamp mancante usando eventi vicini).
- Strategie di imputazione: Per dati critici mancanti come timestamp o case ID, applica tecniche di imputazione (es. media o regressione) o elimina i casi irrecuperabili.
4. Normalizzazione dei Formati Dati
La coerenza nei formati è necessaria per permettere al tool di process mining di leggere correttamente l’event log. La normalizzazione riguarda timestamp, nomi attività e la struttura dei case ID.
- Timestamps: Tutte le date e orari devono seguire lo stesso formato (es.
YYYY-MM-DD HH:MM:SS). Se usi fusi orari, uniformali o adotta UTC per evitare errori. Maggiori info sui formati data supportati qui - Nomi attività: Le attività potrebbero essere nominate in modo diverso nei diversi sistemi. Uniforma i nomi simili (ad es. “Approve Order” e “Order Approval”).
- Case IDs: Verifica che il case ID sia coerente in tutti i sistemi e che ogni istanza sia identificata in modo univoco.
5. Rimozione dei Dati non Rilevanti
Non tutte le attività o eventi presenti nei sistemi sono utili per il process mining. Alcuni task di background o eventi non legati ai processi possono appesantire il dataset.
- Filtra eventi non utili: Rimuovi attività non rilevanti per il processo analizzato (es. login o task amministrativi non collegati al flow).
- Focalizzati sulle attività chiave: Usa la conoscenza del business per identificare gli eventi cruciali per la comprensione del processo e orienta il dataset su questi.
6. Gestione di Outlier e Rumori
Gli outlier o “rumori” nei dati possono falsare i risultati del process mining dando una visione sbagliata del reale funzionamento. Ad esempio, un task durato molto più a lungo per eventi eccezionali può deviare le analisi.
- Individua outlier: Usa metodi statistici per scovarli nel dataset. Task con durata molto sopra la media sono ottimi candidati.
- Valuta se tenerli o rimuoverli: Verifica se questi casi forniscono info utili (es. errori critici di processo) o se conviene eliminarli per concentrarsi sul flow standard.
7. Sequenza Coerente di Case e Attività
Uno degli aspetti fondamentali del process mining è garantire che la sequenza degli eventi sia corretta. Dati fuori ordine portano a un’interpretazione errata del processo.
- Verifica la sequenza attività: Le attività devono seguire una logica basata sul timestamp. “Order Approved” non deve mai precedere “Order Created” nello stesso case.
- Ordina per timestamp: Ordina i dati di ogni case in base al campo timestamp per assicurarti dell’ordine giusto degli eventi.
8. Crea un Event Log
Quando i dati sono puliti, formattati e coerenti, è il momento di costruire l’event log, il dataset di base per il process mining. Deve includere:
- Case ID: Identificatore unico per ogni istanza di processo.
- Activity name: Nome di ciascun step.
- Timestamp: Momento esatto in cui avviene ogni attività, per mantenere la sequenza.
- Campi opzionali: A seconda dell’analisi, puoi aggiungere dati come risorsa responsabile, reparto o categoria processo.
9. Validazione del Dataset
Dopo pulizia e strutturazione, è necessario validare il dataset per assicurarsi che rappresenti il processo e sia pronto per l’analisi.
- Verifica a campione: Controlla manualmente alcuni case per vedere che dati e sequenze siano logici.
- Fai test analysis: Se possibile, esegui un’analisi di prova con il tuo tool di process mining per individuare errori o anomalie.
- Feedback loop: Confrontati con i referenti business per confermare che il dataset rifletta il vero processo.
Strumenti per Data Cleaning e Preparazione
Sono disponibili diversi strumenti per automatizzare i processi di data cleaning e preparazione. Ecco alcune soluzioni diffuse anche in Italia e Svizzera:
- Python/Pandas: Linguaggio e libreria molto usati per manipolare e pulire dati. Permette di creare workflow personalizzati per rimuovere duplicati e normalizzare formati.
- Excel/Google Sheets: Ottimali per dataset ridotti, offrono funzioni per rimuovere duplicati, filtrare righe non rilevanti e formattare colonne.
- ETL Tools (Extract, Transform, Load): Strumenti come Talend, Informatica o Apache Nifi permettono di estrarre, trasformare e caricare dati da sistemi diversi verso tool di process mining.
- OpenRefine: Soluzione open-source gratuita per data cleaning che consente di rimuovere duplicati e standardizzare i formati.
Conclusione
La pulizia e la preparazione dei dati sono passaggi fondamentali nel ciclo di vita del process mining. Garantendo che i tuoi dataset siano completi, coerenti e accurati, puoi evitare analisi fuorvianti e ottenere insight affidabili su come funzionano i tuoi processi. Seguendo i passaggi di questo documento — come la rimozione dei duplicati, il completamento dei dati mancanti, la standardizzazione dei formati e la creazione di un event log pulito — sarai pronto a ottenere il massimo valore dalle tue iniziative di process mining.