Sur cette page

Nettoyage et préparation des données pour le Process Mining

La réussite du Process Mining repose sur la qualité de vos données : le nettoyage et la préparation en sont des étapes essentielles. Des données de mauvaise qualité peuvent fausser vos analyses ou les rendre incomplètes, freinant ainsi l’optimisation de vos processus. Ce guide détaille les étapes clés pour préparer vos jeux de données et garantir le succès de vos analyses de Process Mining.

Pourquoi nettoyer et préparer les données ?

Le Process Mining s’appuie sur des journaux d’événements, datasets qui détaillent la séquence complète des activités métiers. S’ils sont incomplets, incohérents ou comportent des erreurs, vos analyses seront peu fiables. Des data propres et structurées permettent à votre outil SaaS de Process Mining de bien cartographier les workflows, trouver les blocages et proposer des axes d’amélioration.

Étapes clés pour le nettoyage et la préparation des données

1. Collecte et intégration des données

La première étape est de rassembler toutes les données utiles provenant des différents systèmes impliqués dans votre process : ERP, CRM, ou autres solutions métiers. C’est là que l’intégration des données intervient.

  • Centralisez les sources : Récupérez les donnéess de chaque système concerné par le process. Exemple : pour un de la commande au paiement, collectez les informations issues de votre CRM (comme Salesforce) et de votre système financier (comme SAP).
  • Veillez à l’homogénéité des formats : Avant d’aller plus loin, standardisez l’export et le format des données (horodatages, monnaies, IDs, etc.).

Avec les données réunies, passez au nettoyage et à la préparation pour le Process Mining.

2. Suppression des doublons

Les doublons faussent votre analyse Process Mining en gonflant artificiellement les activités ou multipliant les fois d’un même event. Les repérer et les supprimer est indispensable pour garantir un journal d’événements fiable.

  • Repérez les doublons : Cherchez des lignes où le ID de cas, l’activité et l’horodatage sont identiques.
  • Supprimez ou fusionnez : Si besoin, supprimez ces doublons ou fusionnez les entrées proches.

3. Gérer les données manquantes

Les données manquantes (horodatages, activités, ID de cass, etc.) nuisent au Process Mining en brisant la séquence des événements ou en produisant des modèles incomplets.

  • Repérez les champs vides : Des outils ou scripts permettent de détecter les champs vides (horodatage absent, nom d’activité vide, ID de cas nul…).
  • Complétez si possible : Renseignez les données manquantes via d’autres sources, grâce à l’expertise métier ou par estimation à partir d’autres données. Par exemple, calculez un horodatage d’après les événements proches.
  • Techniques d’imputation : Pour les champs critiques (horodatage, ID de cas), utilisez l’imputation (ex. : moyenne, modèles de régression) ou supprimez les cas très incomplets.

4. Normalisation des formats de données

Des formats cohérents sont essentiels pour que l’outil de Process Mining lise correctement l’événement log. La normalisation concerne autant les horodatages, la standardisation des noms d’activité, que l’uniformisation des ID de cass.

  • Horodatages : Vérifiez que toutes les dates et heures utilisent le même format (YYYY-MM-DD HH:MM:SS). Si les données couvrent plusieurs fuseaux horaires, convertissez tout dans un fuseau unique ou UTC pour éviter toute confusion. Plus d’informations sur les formats de dates supportés 
  • Noms d’activités : Les activités sont parfois nommées différemment selon le système. Uniformisez les libellés (par exemple, fusionnez “Approve Order” et “Order Approval”).
  • ID du cass : Assurez-vous que chaque cas ID est cohérent d’un système à l’autre et unique pour chaque instance.

5. Supprimez les données non pertinentes

Toutes les activités ou events d’un système n’apportent rien à l’analyse Process Mining. Certaines tâches techniques ou hors process surchargent votre jeu de données de données.

  • Filtrez les événements inutiles : Identifiez puis retirez les actions sans lien avec le process étudié (ex : connexions, gestion administrative hors contexte) afin de garder une cartographie claire.
  • Concentrez-vous sur les activités clés : Grâce à l’expertise métier, focalisez le dataset sur les événements vraiment importants pour comprendre le process.

6. Gérer les valeurs aberrantes et le bruit

Les outliers (valeurs extrêmes) ou le bruit dans vos données peuvent fausser le Process Mining en donnant une image déformée du process réel. Exemple : une tâche très lente lors d’un event exceptionnel trompe l’analyse globale.

  • Repérez les outliers : Appliquez des méthodes statistiques pour détecter les valeurs très éloignées de la moyenne (par exemple, une étape bien plus longue que les autres).
  • Décidez de les garder ou non : Évaluez s’ils donnent une information précieuse (incident rare mais clé) ou s’ils doivent être écartés afin de garder le flux standard du workflow en vue.

7. Séquencement cohérent des cases et activités

Un point clé du Process Mining est d’assurer la bonne logique des enchaînements d’événements. Sur des données désordonnées, l’outil pourrait mal lire le flux du process.

  • Contrôlez la séquence : Vérifiez que les activités suivent une suite logique grâce aux horodatages. Exemple : “Order Approved” ne doit jamais arriver avant “Order Created” pour la même case.
  • Classez par horodatage : Ordonnez chaque cas selon l’horodatage afin de respecter l’ordre réel d’exécution.

8. Création de l’événement log

Quand vos données sont prêtes et fiables, créez l’journal d’événements—jeu de données clé du Process Mining. Il doit regrouper :

  • ID du cas : Identifiant unique pour chaque instance.
  • Nom d’activité : Intitulé de chaque étape du process.
  • Horodatage : Date et heure exactes de chaque action pour garantir l’ordre du workflow.
  • Champs optionnels : Selon le besoin, ajoutez la ressource, le service, la catégorie du process, etc.

9. Validez votre jeu de données de données

Une fois le dataset nettoyé et structuré, validez qu’il reflète bien le process et qu’il est apte à l’analyse.

  • Contrôle rapide : Inspectez à la main quelques cas pour vérifier la logique des données et la cohérence de la séquence.
  • Faites un essai d’analyse : Si possible, testez une première analyse dans l’outil de Process Mining pour repérer d’éventuelles erreurs ou incohérences.
  • Boucle de feedback : Consultez des experts métier pour vérifier que le dataset correspond bien au process réel.

Outils pour le nettoyage et la préparation des données

Différents outils automatisent le nettoyage et la préparation des données. Exemples courants :

  • Python/Pandas : Langage et librairie très utilisés pour manipuler et nettoyer des données, parfaits pour créer des workflows personnalisés (suppression des doublons, normalisation, etc.).
  • Excel/Google Sheets : Pratiques pour les petits datasets, ces outils SaaS proposent des fonctions utiles : suppression de doublons, filtrage de lignes, mise en forme des colonnes.
  • Outils ETL (Extract, Transform, Load) : Solutions comme Talend, Informatica ou Apache Nifi automatisent extraction, transformation et chargement des données vers la plateforme de Process Mining.
  • OpenRefine : Outil open-source et gratuit pour nettoyer les données, supprimer les doublons et standardiser les formats, utilisé par de nombreux professionnels de l’analyse.

Conclusion

Le nettoyage et la préparation des données sont des étapes clés du cycle de vie du Process Mining. En garantissant que vos donnéessets sont complets, cohérents et précis, vous évitez des analyses faussées et obtenez des informations concrètes sur vos processus. En suivant les étapes expliquées ici—suppression des doublons, gestion des données manquantes, standardisation des formats et création d’un journal d’événements propre—vous serez prêt à tirer le meilleur parti de vos initiatives de Process Mining.