Résoudre les problèmes de données
Problèmes courants liés aux données et solutions
Lors de la préparation des données pour le Process Mining, plusieurs problèmes fréquents peuvent affecter la précision et à la qualité de l’analyse. Voici un guide de dépannage pour identifier et résoudre ces difficultés.
1. Données en double dans les journaux d’événements
Symptômes :
- Le même événement apparaît plusieurs fois dans la même instance de process (même ID du cas, Activity et Horodatage).
- Nombre anormalement élevé de certaines activités ou events sur la map du process.
Causes possibles :
- Les data ont été enregistrées plusieurs fois à cause de bugs d’intégration ou d’erreurs de logging.
- Le processus d’ingestion a importé des events en double par erreur.
Solution
- Supprimer les doublons : Utilisez des outils de données cleaning pour repérer et retirer les doublons. Dans Excel ou Google Sheets, servez-vous de « Supprimer les doublons » ou faites une requête SQL basée sur ID du cas, Activity et Horodatage.
- Filtrer à l’import : Lors de l’ingestion, mettez en place des filtres pour n’importer que les événements uniques dans l’outil de Process Mining.
2. Horodatages manquants
Symptômes :
- Horodatages incomplets ou manquants empêchent un bon séquencement des events.
- La cartographie du processus affiche des trous ou des connexions absentes entre activités.
Causes possibles :
- Certains systèmes n’enregistrent pas de horodatage pour chaque activité.
- Processus manuels ou tâches non numériques non suivis avec un horodatage.
Solution
- Estimer les horodatages manquants : Évaluez-les à partir des données connues (ex : durée moyenne entre deux tâches).
- Compléter par saisie manuelle : Pour les tâches manuelles ou non digitales, saisissez des horodatages estimés selon d’autres sources.
- Imputation : Utilisez des techniques d’imputation pour prédire les horodatages manquants (par ex, moyenne ou séquence).
3. ID du cass incohérents
Symptômes :
- Les events d’une même instance sont éclatés sur plusieurs ID du cass, fragmentant la modélisation du process.
- Plusieurs représentations d’une même instance causent des analyses confuses et inexactes.
Causes possibles :
- Différents systèmes ou services utilisent des conventions de nommage ou formats variés pour les ID du cass.
- Erreurs de saisie ou formats incohérents entre systèmes.
Solution
- ID du cas Mapping : Élaborez une stratégie de mapping de ID du cas pour unifier les identifiants sur tous les systèmes. Servez-vous d’outils ETL (Extract, Transform, Load) ou SQL pour fusionner et standardiser les ID du cass.
- Utiliser des outils de transformation : Si les formats de ID du cass diffèrent, harmonisez-les via des outils avant import.
4. Ordre des activités incorrect
Symptômes :
- Les events sont désordonnés, des étapes finales apparaissent avant les premières (ex : ”« Order Completed »” avant ”« Order Placed »”).
- La cartographie du processus montre des flux ou des boucles incohérentes.
Causes possibles :
- Les horodatages sont erronés ou absents.
- Les data ont été importées sans ordre correct.
Solution
- Trier par horodatage : Mettez les événements dans l’ordre croissant pour chaque ID du cas. Avec Excel, SQL ou Pandas (Python), triez correctement vos données.
- Vérifier le format des horodatages : Contrôlez qu’ils sont tous au même format et fuseau horaire. Uniformisez au format ISO 8601 (
YYYY-MM-DD HH:MM:SS). - Valider la qualité des données : Vérifiez manuellement quelques cas pour confirmer l’ordre et l’absence d’erreurs d’import.
5. Incohérence data entre les systèmes
Symptômes :
- Données incohérentes entre plusieurs systèmes qui participent au même process.
- Certains events apparaissent dans les données d’un système mais manquent dans un autre, ce qui crée des écarts dans la map du process.
Causes possibles :
- Les systèmes utilisent des métriques, conventions de nommage ou formats différents pour les mêmes events.
- Extraction de données incomplète ou mauvaise intégration système.
Solution
- Standardiser les données : Avant import, uniformisez vos champs clés (ID du cas, nom d’activité, horodatages…) sur tous les systèmes. Les outils de transformation garantissent la cohérence.
- Fusionner les donnéessets avec soin : Utilisez des outils ETL pour regrouper les données de plusieurs systèmes et garantir une structure homogène. Alignez les noms d’événements, horodatages et ID du cass avant de fusionner.
6. Volumes importants de données causant des problèmes de performance
Symptômes :
- Lenteur lors du chargement ou de l’analyse de grosses data dans l’outil de Process Mining.
- Crash ou timeout lors de l’ingestion de données.
Causes possibles :
- Le dataset contient trop d’enregistrements pour un traitement efficace.
- L’outil de Process Mining ne peut pas traiter un volume élevé de données d’un coup.
Solution
- Echantillonnage des données : Analysez un échantillon représentatif au lieu de tout le dataset pour garder la pertinence tout en limitant la taille.
- Filtrer les événements inutiles : Enlevez les événements sans valeur (ex : system logs) avant import dans l’outil de Process Mining.
- Chargement progressif : Importez les données en plusieurs fois pour une analyse plus fluide et efficace.
7. Data non pertinente ou avec bruit
Symptômes :
- La map du process est surchargée d’événements non liés au process principal.
- Trop de variations mineures rendent difficile l’identification des informations clés.
Causes possibles :
- Les events systèmes en arrière-plan, system logs ou tâches non liées sont inclus dans le jeu de données.
- Bruit provenant de tâches peu prioritaires ou de processus système.
Solution
- Filtrer les événements inutiles : Retirez les événements qui n’apportent rien à l’analyse (ex : logs systèmes, activités hors workflow métier).
- Regrouper les événements de bas niveau : Assemblez les événements systèmes en activités plus globales pour clarifier le modèle de processus.
8. Gestion des outliers
Symptômes :
- La map du process montre de fortes variations dans la durée des tâches ou l’allocation des ressources qui ne reflètent pas la performance habituelle.
- L’analyse est biaisée par des cas rares ou exceptionnels.
Causes possibles :
- Présence d’outliers (ex : tâche très longue ou cas au comportement anormal) dans le jeu de données.
- Les cas rares ont un effet trop important sur la MAP du process.
Solution
- Identifier les outliers : Faites une analyse statistique pour repérer les outliers selon la durée, l’allocation de ressources, etc.
- Décider de les inclure ou non : Identifiez si ces outliers révèlent des insights utiles (ex : incidents rares) ou s’ils doivent être exclus pour se concentrer sur les processus types. Documentez votre approche.
9. Fuseaux horaires non alignés dans les données
Symptômes :
- Les events qui se suivent affichent des décalages à cause de fuseaux horaires différents.
- Les calculs de durée du process sont faussés par les incohérences de fuseau horaire.
Causes possibles :
- Les data de différents systèmes ou services utilisent des fuseaux horaires différents, ce qui crée des horodatages incohérents.
- Les fuseaux horaires n’ont pas été uniformisés avant importation.
Solution
- Convertir dans un fuseau horaire commun : Avant import, convertissez tous les horodatages dans un fuseau unique (ex : UTC). Des outils comme Excel ou Python proposent la conversion.
- Documenter les changements : Gardez la trace des fuseaux originaux et des changements effectués.
10. journaux d’événements déséquilibrés
Symptômes :
- Certains cas ont trop peu d’événements, d’autres trop, ce qui déséquilibre la map du process.
- Certaines activités ou cas dominent l’analyse à cause d’une répartition inégale des données.
Causes possibles :
- Logging de données incohérent ou capture incomplète des events sur certains cas.
- Déséquilibre où certaines instances sont sur-représentées.
Solution
- Normaliser l’Journal d’événements : Standardisez le niveau de détail pour chaque instance. Si des cases manquent d’événements clés, comblez manuellement ou retirez-les de l’analyse.
- Pondérer les données : Si besoin, pondérez pour ne pas surreprésenter certains cas dans l’analyse.
Conclusion
La qualité des données est indispensablele pour réussir son Process Mining. En corrigeant ces problèmes fréquents, vous obtenez des analyses fiables et des insights concrètes. Adopter les bonnes pratiques de nettoyage, préparation et validation permet d’éviter les pièges et d’optimiser l’analyse Process Mining.