Elenco documenti
In questa pagina

Data Cleaning e Preparazione per Process Mining

Data Cleaning e Preparazione per il Process Mining

Un process mining efficace parte da dati di qualità: la pulizia e la preparazione dei dati sono quindi fondamentali. Una cattiva qualità dei dati porta a risultati imprecisi o incompleti, rendendo difficile ottimizzare i processi. In questa guida troverai i passaggi chiave per pulire e preparare i dataset così da essere pronti per il process mining.

Perché è Importante la Data Cleaning e Preparazione?

Il process mining si basa sugli event log, ovvero dataset che descrivono la sequenza dettagliata delle attività di un processo aziendale. Se questi dati sono incompleti, incoerenti o errati, le informazioni ottenute saranno poco affidabili. Dati puliti e ben strutturati permettono ai tool di process mining di mappare i workflow, rilevare colli di bottiglia e individuare aree di miglioramento.

Step Chiave nella Data Cleaning e Preparazione

1. Raccolta e Integrazione Dati

Il primo passo è assicurarsi di aver raccolto tutti i dati necessari dai vari sistemi coinvolti. I dati possono arrivare da fonti differenti come ERP, CRM o altri sistemi aziendali. Qui interviene la data integration.

  • Consolida le fonti dati: Raccogli tutte le informazioni dai sistemi coinvolti. Ad esempio, se analizzi un processo order-to-cash, raccogli dati sia dal sistema vendite (es. Salesforce) che da quello amministrativo (es. SAP).
  • Assicura formati coerenti: Prima di andare avanti, standardizza il formato dei dati esportati (timestamp, valute, ID, ecc.).

Con i dati raccolti hai tutto il necessario per iniziare pulizia e preparazione per il process mining.

2. Rimozione dei Duplicati

I record duplicati possono alterare le analisi nel process mining gonfiando il numero di attività o mostrando più volte lo stesso evento. Individuare e rimuovere duplicati è fondamentale per avere event log affidabili.

  • Individua duplicati: Cerca record con lo stesso case ID, attività e timestamp: probabilmente sono duplicati.
  • Rimuovi o unisci: Se ci sono duplicati, eliminane oppure unisci i record dove necessario.

3. Gestione dei Dati Mancanti

La mancanza di valori è un’altra criticità comune che può compromettere i risultati del process mining. Timestamp, attività o case ID mancanti rischiano di produrre modelli di processo incompleti.

  • Individua valori mancanti: Usa strumenti o script per trovare campi vuoti (es. timestamp assenti, nomi attività vuoti, case ID nulli).
  • Completa dove possibile: Colma i dati mancanti tramite fonti esterne, conoscenza di dominio o stime sui dati disponibili (es. stimare un timestamp mancante usando eventi vicini).
  • Strategie di imputazione: Per dati critici mancanti come timestamp o case ID, applica tecniche di imputazione (es. media o regressione) o elimina i casi irrecuperabili.

4. Normalizzazione dei Formati Dati

La coerenza nei formati è necessaria per permettere al tool di process mining di leggere correttamente l’event log. La normalizzazione riguarda timestamp, nomi attività e la struttura dei case ID.

  • Timestamps: Tutte le date e orari devono seguire lo stesso formato (es. YYYY-MM-DD HH:MM:SS). Se usi fusi orari, uniformali o adotta UTC per evitare errori. Maggiori info sui formati data supportati qui 
  • Nomi attività: Le attività potrebbero essere nominate in modo diverso nei diversi sistemi. Uniforma i nomi simili (ad es. “Approve Order” e “Order Approval”).
  • Case IDs: Verifica che il case ID sia coerente in tutti i sistemi e che ogni istanza sia identificata in modo univoco.

5. Rimozione dei Dati non Rilevanti

Non tutte le attività o eventi presenti nei sistemi sono utili per il process mining. Alcuni task di background o eventi non legati ai processi possono appesantire il dataset.

  • Filtra eventi non utili: Rimuovi attività non rilevanti per il processo analizzato (es. login o task amministrativi non collegati al flow).
  • Focalizzati sulle attività chiave: Usa la conoscenza del business per identificare gli eventi cruciali per la comprensione del processo e orienta il dataset su questi.

6. Gestione di Outlier e Rumori

Gli outlier o “rumori” nei dati possono falsare i risultati del process mining dando una visione sbagliata del reale funzionamento. Ad esempio, un task durato molto più a lungo per eventi eccezionali può deviare le analisi.

  • Individua outlier: Usa metodi statistici per scovarli nel dataset. Task con durata molto sopra la media sono ottimi candidati.
  • Valuta se tenerli o rimuoverli: Verifica se questi casi forniscono info utili (es. errori critici di processo) o se conviene eliminarli per concentrarsi sul flow standard.

7. Sequenza Coerente di Case e Attività

Uno degli aspetti fondamentali del process mining è garantire che la sequenza degli eventi sia corretta. Dati fuori ordine portano a un’interpretazione errata del processo.

  • Verifica la sequenza attività: Le attività devono seguire una logica basata sul timestamp. “Order Approved” non deve mai precedere “Order Created” nello stesso case.
  • Ordina per timestamp: Ordina i dati di ogni case in base al campo timestamp per assicurarti dell’ordine giusto degli eventi.

8. Crea un Event Log

Quando i dati sono puliti, formattati e coerenti, è il momento di costruire l’event log, il dataset di base per il process mining. Deve includere:

  • Case ID: Identificatore unico per ogni istanza di processo.
  • Activity name: Nome di ciascun step.
  • Timestamp: Momento esatto in cui avviene ogni attività, per mantenere la sequenza.
  • Campi opzionali: A seconda dell’analisi, puoi aggiungere dati come risorsa responsabile, reparto o categoria processo.

9. Validazione del Dataset

Dopo pulizia e strutturazione, è necessario validare il dataset per assicurarsi che rappresenti il processo e sia pronto per l’analisi.

  • Verifica a campione: Controlla manualmente alcuni case per vedere che dati e sequenze siano logici.
  • Fai test analysis: Se possibile, esegui un’analisi di prova con il tuo tool di process mining per individuare errori o anomalie.
  • Feedback loop: Confrontati con i referenti business per confermare che il dataset rifletta il vero processo.

Strumenti per Data Cleaning e Preparazione

Sono disponibili diversi strumenti per automatizzare i processi di data cleaning e preparazione. Ecco alcune soluzioni diffuse anche in Italia e Svizzera:

  • Python/Pandas: Linguaggio e libreria molto usati per manipolare e pulire dati. Permette di creare workflow personalizzati per rimuovere duplicati e normalizzare formati.
  • Excel/Google Sheets: Ottimali per dataset ridotti, offrono funzioni per rimuovere duplicati, filtrare righe non rilevanti e formattare colonne.
  • ETL Tools (Extract, Transform, Load): Strumenti come Talend, Informatica o Apache Nifi permettono di estrarre, trasformare e caricare dati da sistemi diversi verso tool di process mining.
  • OpenRefine: Soluzione open-source gratuita per data cleaning che consente di rimuovere duplicati e standardizzare i formati.

Conclusione

La pulizia e la preparazione dei dati sono passaggi fondamentali nel ciclo di vita del process mining. Garantendo che i tuoi dataset siano completi, coerenti e accurati, puoi evitare analisi fuorvianti e ottenere insight affidabili su come funzionano i tuoi processi. Seguendo i passaggi di questo documento — come la rimozione dei duplicati, il completamento dei dati mancanti, la standardizzazione dei formati e la creazione di un event log pulito — sarai pronto a ottenere il massimo valore dalle tue iniziative di process mining.