Nettoyage et Préparation des Données pour le Process Mining
Nettoyage et Préparation des Données pour le Process Mining
Un process mining efficace commence par des données de bonne qualité, et une partie cruciale de cela est le nettoyage et la préparation des données. Une mauvaise qualité des données peut conduire à des insights inexacts ou incomplets, rendant plus difficile l’amélioration des processus. Dans ce document, nous couvrirons les étapes essentielles du nettoyage et de la préparation des données pour garantir que vos jeux de données sont prêts pour un process mining réussi.
Pourquoi le Nettoyage et la Préparation des Données sont-ils Importants ?
Le process mining repose sur des journaux d’événements—jeux de données contenant la séquence détaillée des activités dans un processus métier. Si ces jeux de données sont incomplets, incohérents ou contiennent des erreurs, les insights que vous tirez du process mining seront peu fiables. Des données propres et correctement structurées assurent que votre outil de process mining peut cartographier avec précision les workflows, détecter les goulets d’étranglement, et mettre en évidence les domaines à améliorer.
Étapes Clés dans le Nettoyage et la Préparation des Données
1. Collecte et Intégration de Données
La première étape du processus de nettoyage consiste à s’assurer que toutes les données pertinentes sont collectées à partir des divers systèmes impliqués dans votre processus. Les données peuvent provenir de différentes sources, telles que ERP, CRM, ou d’autres systèmes opérationnels. C’est ici que l’intégration des données entre en jeu.
- Consolider les sources de données : Rassemblez les données de tous les systèmes qui contribuent au processus. Par exemple, si vous analysez un processus de commande à encaissement, vous devrez peut-être collecter des données à la fois depuis votre système de ventes (e.g., Salesforce) et votre système financier (e.g., SAP).
- Assurer des formats cohérents : Avant de continuer, standardisez le mode d’export et de formatage des données. Par exemple, assurez-vous que tous les timestamps, monnaies, et IDs ont un format uniforme.
Une fois vos données collectées, il est temps de les nettoyer et de les préparer pour le process mining.
2. Supprimer les Duplicatas
Les enregistrements en double peuvent gravement fausser l’analyse de process mining en gonflant les comptes d’activités ou en montrant plusieurs instances du même événement. Identifier et supprimer ces duplicatas est essentiel pour créer des journaux d’événements précis.
- Identifier les duplicatas : Vérifiez les enregistrements où le case ID, l’activité et le timestamp sont identiques, car il s’agit probablement de duplicatas.
- Supprimer ou fusionner : Dans les cas où des duplicatas sont identifiés, supprimez-les ou fusionnez des enregistrements similaires si nécessaire.
3. Gérer les Données Manquantes
Les valeurs manquantes sont un autre problème courant qui peut affecter vos résultats de process mining. Les timestamps, activités ou case IDs manquants peuvent perturber la séquence d’événements et créer des modèles de processus incomplets.
- Identifier les valeurs manquantes : Utilisez des outils ou des scripts pour détecter les champs manquants (e.g., timestamps vides, noms d’activités vides ou case IDs nuls).
- Combler les lacunes : Si possible, complétez les données manquantes en utilisant des sources externes, des connaissances de domaine, ou en estimant sur la base d’autres points de données. Par exemple, si un timestamp pour une activité spécifique manque, utilisez les temps d’événements environnants pour l’approximer.
- Stratégies d’imputation : Pour les données critiques manquantes comme les timestamps ou case IDs, utilisez des techniques d’imputation (e.g., substitution par la moyenne ou modèles de régression) pour prédire les valeurs, ou supprimez les cas où les données ne peuvent être récupérées.
4. Normaliser les Formats de Données
Un formatage cohérent des données est essentiel pour s’assurer que l’outil de process mining puisse interpréter correctement le journal des événements. La normalisation des données inclut le formatage des timestamps, la standardisation des noms d’activités, et l’assurance de structures de case ID uniformes.
- Timestamps : Assurez-vous que toutes les dates et heures suivent le même format (e.g.,
YYYY-MM-DD HH:MM:SS
). Si vos données contiennent des fuseaux horaires, convertissez-les dans un format cohérent ou utilisez l’UTC pour éviter les malentendus. Plus d’infos sur nos formats de dates pris en charge sont disponibles ici - Noms d’activités : Les activités peuvent être enregistrées différemment selon les systèmes. Standardisez les noms pour assurer la cohérence (e.g., “Approve Order” et “Order Approval” doivent être fusionnés).
- Case IDs : Assurez-vous que le case ID est cohérent entre les systèmes et que chaque instance de processus est correctement identifiée par un ID unique.
5. Supprimer les Données Non Pertinentes
Toutes les activités ou événements de votre système ne seront pas pertinents pour votre analyse de process mining. Par exemple, certaines tâches de fond ou événements non liés au processus peuvent encombrer le jeu de données.
- Filtrer les événements non pertinents : Identifiez et supprimez les activités qui ne contribuent pas au processus que vous analysez. Par exemple, les connexions de système ou les tâches administratives non liées peuvent être exclues pour éviter l’encombrement du plan du processus.
- Se concentrer sur les activités clés : Utilisez des connaissances de domaine pour identifier quels événements sont cruciaux pour comprendre le processus et concentrez le jeu de données autour de ceux-ci.
6. Gérer les Valeurs Aberrantes et Bruit
Les valeurs aberrantes ou “bruit” dans votre jeu de données peuvent fausser vos résultats de process mining en donnant une image inexacte de la manière dont le processus fonctionne normalement. Par exemple, une tâche ayant pris un temps exceptionnellement long en raison d’un événement rare peut tromper votre analyse.
- Identifier les valeurs aberrantes : Utilisez des méthodes statistiques pour détecter les valeurs aberrantes dans votre jeu de données. Par exemple, les tâches prenant nettement plus de temps que la moyenne pourraient être considérées comme des valeurs aberrantes.
- Déterminer s’il faut les conserver ou les supprimer : Évaluez si les valeurs aberrantes fournissent des informations utiles (e.g., représenter des échecs de processus rares mais critiques) ou si elles doivent être supprimées pour se concentrer sur le flux de processus standard.
7. Séquençage Cohérent des Cas et Activités
Un des aspects les plus importants du process mining est d’assurer le séquençage correct des événements. Si les données sont désordonnées, l’outil peut interpréter incorrectement le flux de processus.
- Vérifier la séquence d’activités : Assurez-vous que les activités suivent une séquence logique basée sur les timestamps. Par exemple, un événement “Order Approved” ne devrait jamais apparaître avant un événement “Order Created” dans la même instance de processus.
- Trier les événements par timestamp : Triez les données de chaque cas par le champ timestamp pour s’assurer que les événements sont dans le bon ordre.
8. Créer un Journal des Événements
Une fois vos données nettoyées, formatées et cohérentes, il est temps de créer un journal des événements—le jeu de données principal pour le process mining. Le journal des événements doit contenir :
- Case ID : Un identifiant unique pour chaque instance de processus.
- Nom de l’activité : Le nom de chaque étape du processus.
- Timestamp : L’heure exacte à laquelle chaque activité s’est produite, assurant l’ordre des événements.
- Champs optionnels : Selon l’analyse, vous pourriez inclure des champs supplémentaires comme la ressource responsable de l’activité, le département ou la catégorie de processus.
9. Valider le Jeu de Données
Après que les données soient nettoyées et structurées, il est essentiel de valider le jeu de données pour s’assurer qu’il représente fidèlement le processus et qu’il est prêt pour l’analyse.
- Vérification des cas aléatoires : Examinez manuellement quelques instances de processus pour vous assurer que les données ont du sens et que les séquences d’événements sont logiques.
- Effectuer une analyse de test : Si possible, effectuez une analyse de test dans votre outil de process mining pour voir si des erreurs ou incohérences apparaissent.
- Boucle de retour d’information : Travaillez avec des experts métier pour confirmer que le jeu de données reflète le comportement réel des processus.
Outils pour le Nettoyage et la Préparation des Données
Plusieurs outils peuvent aider à automatiser le processus de nettoyage et de préparation des données. Voici quelques options courantes :
- Python/Pandas : Un langage de programmation puissant et une bibliothèque pour la manipulation et le nettoyage des données. Vous pouvez programmer des workflows de nettoyage de données personnalisés pour supprimer les doublons, normaliser les formats, etc.
- Excel/Google Sheets : Utile pour les jeux de données plus petits, ces outils offrent diverses fonctionnalités de nettoyage de données comme la suppression des doublons, le filtrage des lignes non pertinentes et le formatage des colonnes.
- Outils ETL (Extract, Transform, Load) : Des outils comme Talend, Informatica, ou Apache Nifi peuvent aider à automatiser l’extraction, la transformation et le chargement de données de différents systèmes vers un outil de process mining.
- OpenRefine : Un outil open-source gratuit pour le nettoyage des données qui vous permet de nettoyer les données désordonnées, de supprimer les doublons, et de standardiser les formats.
Conclusion
Le nettoyage et la préparation des données sont des étapes cruciales du cycle de vie du process mining. En vous assurant que vos jeux de données sont complets, cohérents et précis, vous pouvez éviter des analyses trompeuses et obtenir des insights exploitables sur le fonctionnement de vos processus. En suivant les étapes décrites dans ce document—suppression des doublons, comblement des données manquantes, standardisation des formats et création d’un journal des événements propre—vous serez bien préparé pour extraire une valeur maximale de vos initiatives de process mining.