Nettoyage et préparation des data pour le Process Mining

Un Process Mining efficace commence par des data de qualité. Le nettoyage et la préparation sont donc essentiels. Une mauvaise data peut produire des insights incomplets ou inexacts, compliquant l’optimisation de vos process. Ce document détaille les étapes essentielles du nettoyage et de la préparation pour garantir des datasets vraiment prêts à l’analyse et à la découverte de nouveaux leviers d’efficacité.

Pourquoi nettoyer et préparer les data ?

Le Process Mining s’appuie sur des event logs, datasets qui détaillent la séquence complète des activités métiers. S’ils sont incomplets, incohérents ou comportent des erreurs, vos analyses seront peu fiables. Des data propres et structurées permettent à votre outil SaaS de Process Mining de bien cartographier les workflows, trouver les blocages et proposer des axes d’amélioration.

Étapes clés pour le nettoyage et la préparation des data

1. Collecte et intégration des data

La première étape est de rassembler toutes les data utiles provenant des différents systèmes impliqués dans votre process : ERP, CRM, ou autres solutions métiers. C’est là que l’intégration des data intervient.

Centralisez les sources : Récupérez les datas de chaque système concerné par le process. Exemple : pour un order-to-cash, collectez les informations issues de votre CRM (comme Salesforce) et de votre système financier (comme SAP).
Veillez à l’homogénéité des formats : Avant d’aller plus loin, standardisez l’export et le format des données (timestamps, monnaies, IDs, etc.).

Avec les data réunies, passez au nettoyage et à la préparation pour le Process Mining.

2. Suppression des doublons

Les doublons faussent votre analyse Process Mining en gonflant artificiellement les activités ou multipliant les fois d’un même event. Les repérer et les supprimer est essentiel pour garantir un event log fiable.

Repérez les doublons : Cherchez des lignes où le case ID, l’activité et le timestamp sont identiques.
Supprimez ou fusionnez : Si besoin, supprimez ces doublons ou fusionnez les entrées proches.

3. Gérer les données manquantes

Les données manquantes (timestamps, activités, case IDs, etc.) nuisent au Process Mining en brisant la séquence des events ou en produisant des modèles incomplets.

Repérez les champs vides : Des outils ou scripts permettent de détecter les champs vides (timestamp absent, nom d’activité vide, case ID nul…).
Complétez si possible : Renseignez les données manquantes via d’autres sources, grâce à l’expertise métier ou par estimation à partir d’autres données. Par exemple, calculez un timestamp d’après les events proches.
Techniques d’imputation : Pour les champs critiques (timestamp, case ID), utilisez l’imputation (ex. : moyenne, modèles de régression) ou supprimez les cas très incomplets.

4. Normalisation des formats de data

Des formats cohérents sont essentiels pour que l’outil de Process Mining lise correctement l’event log. La normalisation concerne autant les timestamps, la standardisation des noms d’activité, que l’uniformisation des case IDs.

Timestamps : Vérifiez que toutes les dates et heures utilisent le même format (YYYY-MM-DD HH:MM:SS). Si les données couvrent plusieurs fuseaux horaires, convertissez tout dans un fuseau unique ou UTC pour éviter toute confusion. Plus d’informations sur les formats de dates supportés
Noms d’activités : Les activités sont parfois nommées différemment selon le système. Uniformisez les libellés (par exemple, fusionnez “Approve Order” et “Order Approval”).
Case IDs : Assurez-vous que chaque case ID est cohérent d’un système à l’autre et unique pour chaque instance.

5. Supprimez les données non pertinentes

Toutes les activités ou events d’un système n’apportent rien à l’analyse Process Mining. Certaines tâches techniques ou hors process surchargent votre dataset.

Filtrez les events inutiles : Identifiez puis retirez les actions sans lien avec le process étudié (ex : connexions, gestion administrative hors contexte) afin de garder une MAP claire.
Concentrez-vous sur les activités clés : Grâce à l’expertise métier, focalisez le dataset sur les events vraiment importants pour comprendre le process.

6. Gérer les valeurs aberrantes et le bruit

Les outliers (valeurs extrêmes) ou le bruit dans vos data peuvent fausser le Process Mining en donnant une image déformée du process réel. Exemple : une tâche très lente lors d’un event exceptionnel trompe l’analyse globale.

Repérez les outliers : Appliquez des méthodes statistiques pour détecter les valeurs très éloignées de la moyenne (par exemple, une étape bien plus longue que les autres).
Décidez de les garder ou non : Évaluez s’ils donnent une information précieuse (incident rare mais clé) ou s’ils doivent être écartés afin de garder le flux standard du workflow en vue.

7. Séquencement cohérent des cases et activités

Un point clé du Process Mining est d’assurer la bonne logique des enchaînements d’events. Sur des données désordonnées, l’outil pourrait mal lire le flow du process.

Contrôlez la séquence : Vérifiez que les activités suivent une suite logique grâce aux timestamps. Exemple : “Order Approved” ne doit jamais arriver avant “Order Created” pour la même case.
Classez par timestamp : Ordonnez chaque case selon le timestamp afin de respecter l’ordre réel d’exécution.

8. Création de l’event log

Quand vos data sont prêtes et fiables, créez l’event log—jeu de données clé du Process Mining. Il doit regrouper :

Case ID : Identifiant unique pour chaque instance.
Nom d’activité : Intitulé de chaque étape du process.
Timestamp : Date et heure exacte de chaque action pour garantir l’ordre du workflow.
Champs optionnels : Selon le besoin, ajoutez la ressource, le service, la catégorie du process, etc.

9. Validez votre dataset

Une fois le dataset nettoyé et structuré, validez qu’il reflète bien le process et qu’il est apte à l’analyse.

Contrôle rapide : Inspectez à la main quelques cas pour vérifier la logique des data et la cohérence de la séquence.
Faites un essai d’analyse : Si possible, testez une première analyse dans l’outil de Process Mining pour repérer d’éventuelles erreurs ou incohérences.
Boucle de feedback : Consultez des experts métier pour vérifier que le dataset correspond bien au process réel.

Outils pour le nettoyage et la préparation des data

Différents outils automatisent le nettoyage et la préparation des data. Exemples courants :

Python/Pandas : Langage et librairie très utilisés pour manipuler et nettoyer des data, parfaits pour créer des workflows personnalisés (suppression des doublons, normalisation, etc.).
Excel/Google Sheets : Pratiques pour les petits datasets, ces outils SaaS proposent des fonctions utiles : suppression de doublons, filtrage de lignes, mise en forme des colonnes.
Outils ETL (Extract, Transform, Load) : Solutions comme Talend, Informatica ou Apache Nifi automatisent extraction, transformation et chargement des data vers la plateforme de Process Mining.
OpenRefine : Outil open-source et gratuit pour nettoyer les data, supprimer les doublons et standardiser les formats, utilisé par de nombreux professionnels de l’analyse.

Conclusion

Le nettoyage et la préparation des data sont des étapes clés du cycle de vie du Process Mining. En garantissant que vos datasets sont complets, cohérents et précis, vous évitez des analyses faussées et obtenez des insights concrets sur vos processus. En suivant les étapes expliquées ici—suppression des doublons, gestion des données manquantes, standardisation des formats et création d’un event log propre—vous serez bien préparé(e) à valoriser au maximum vos démarches de Process Mining.

Nettoyage et préparation des data pour le Process Mining