Liste des Documents
Sur Cette Page

Résolution des problèmes de données

Problèmes de données courants et solutions

Lors de la préparation des données pour le process mining, divers problèmes courants peuvent affecter la précision et la qualité de l’analyse. Voici un guide de dépannage pour vous aider à identifier et résoudre ces problèmes.


1. Enregistrements en double dans les journaux d’événements

Symptômes :
  • Le même événement apparaît plusieurs fois pour la même instance de processus (même Case ID, Activity et Timestamp).
  • Comptages anormalement élevés de certaines activités ou événements dans le process map.
Causes possibles :
  • Les données ont été enregistrées plusieurs fois en raison de problèmes d’intégration de systèmes ou d’erreurs de journalisation.
  • Le processus d’ingestion de données a répété les événements involontairement.
Solution :
  • Supprimer les doublons : Utilisez des outils de nettoyage de données pour identifier et supprimer les entrées en double. Dans Excel ou Google Sheets, utilisez la fonction “Supprimer les doublons”, ou si vous utilisez une base de données, écrivez des requêtes SQL qui retirent les entrées répétées basées sur le Case ID, l’activité et l’horodatage.
  • Filtrer pendant l’ingestion : Lors de l’ingestion de données, configurez les filtres pour garantir que seuls des événements uniques soient importés dans l’outil de process mining.

2. Horodatages manquants

Symptômes :
  • Les horodatages incomplets ou manquants empêchent un bon séquençage des événements.
  • La carte du processus montre des lacunes ou les connexions manquantes entre les activités.
Causes possibles :
  • Certains systèmes ne journalisent pas les horodatages pour chaque activité.
  • Processus manuels ou tâches non numériques non suivis par horodatage.
Solution :
  • Estimer les horodatages manquants : Si possible, estimez les horodatages manquants à partir de points de données connus (par ex., supposez qu’une tâche a pris le temps moyen entre les tâches précédentes et suivantes).
  • Supplémenter avec des données manuelles : Pour les tâches manuelles ou non numériques, saisissez manuellement les horodatages sur la base d’estimations ou de journaux provenant d’autres sources.
  • Imputation de données : Utilisez des techniques d’imputation de données, telles que la prédiction des horodatages manquants en fonction d’autres événements de la séquence ou de la durée moyenne du processus.

3. Identifiants de cas incohérents

Symptômes :
  • Les événements appartenant à la même instance de processus sont répartis sur différents identifiants de cas, conduisant à une fragmentation du modèle de processus.
  • Plusieurs représentations de la même instance de processus, entraînant confusion et analyse inexacte.
Causes possibles :
  • Différents systèmes ou départements utilisent des conventions de nommage ou des structures variées pour les identifiants de cas.
  • Erreurs de saisie de données ou formatage incohérent entre les systèmes.
Solution :
  • Case ID Mapping: Développez une stratégie de mapping des identifiants de cas pour unifier les identificateurs de cas entre les systèmes. Utilisez des outils comme des plateformes ETL (Extract, Transform, Load) ou SQL pour fusionner et standardiser les identifiants.
  • Utilisez des outils de transformation de données : Si les identifiants de cas sont sous différents formats, utilisez des outils de transformation pour les convertir en un format cohérent avant l’ingestion.

4. Séquençage des activités incorrect

Symptômes :
  • Les événements apparaissent dans le désordre, avec des activités ultérieures affichées avant les précédentes (par ex., “Commande terminée” avant “Commande passée”).
  • La carte du processus affiche des flux ou boucles illogiques.
Causes possibles :
  • Les horodatages ont été saisis incorrectement ou sont manquants.
  • Les données ont été ingérées sans ordonnancement correct.
Solution :
  • Trier par horodatage : Assurez-vous que les événements soient triés par leurs horodatages dans l’ordre croissant pour chaque Case ID. Utilisez des outils comme Excel, SQL ou Pandas (Python) pour trier correctement les données.
  • Vérifier les formats d’horodatage : Assurez-vous que tous les horodatages soient au même format et dans le même fuseau horaire. Convertissez tous les horodatages dans un format commun, comme ISO 8601 (YYYY-MM-DD HH:MM:SS).
  • Valider la qualité des données : Vérifiez manuellement quelques cas aléatoires pour garantir que les événements sont dans le bon ordre et qu’aucune erreur de séquençage n’a eu lieu pendant la saisie des données ou l’ingestion.

5. Incohérence des données entre systèmes

Symptômes :
  • Données dépareillées à travers différents systèmes contribuant au même processus.
  • Les événements apparaissent dans les données d’un système mais manquent dans un autre, provoquant des lacunes dans la carte du processus.
Causes possibles :
  • Différents systèmes utilisent des métriques, conventions de nommage ou formats différents pour les mêmes événements.
  • Extraction de données incomplète ou intégration partielle des systèmes.
Solution :
  • Standardiser les données : Avant l’ingestion, standardisez la façon dont les champs clés (par ex., Case ID, nom de l’activité et horodatages) sont représentés à travers les différents systèmes. Utilisez des outils de transformation de données pour garantir la cohérence des noms et formats de champs.
  • Combiner les ensembles de données soigneusement : Utilisez des outils ETL pour fusionner des données provenant de multiples systèmes et assurez-vous que l’ensemble de données combiné a une structure cohérente. Assurez la cohérence des noms d’événements, des horodatages et des identifiants de cas avant de combiner les ensembles de données.

6. Volumes de données importants entraînant des problèmes de performance

Symptômes :
  • Performance lente lors du chargement ou de l’analyse de grands ensembles de données dans l’outil de process mining.
  • Crash système ou timeouts pendant l’ingestion de données.
Causes possibles :
  • L’ensemble de données contient trop d’enregistrements pour être traité efficacement par le système.
  • L’outil de process mining ne peut pas traiter de grands volumes de données d’un seul coup.
Solution :
  • Échantillonnage de données : Au lieu de traiter l’ensemble de données complet, utilisez un échantillon représentatif des données. Cela peut réduire la taille tout en offrant des perspectives précieuses.
  • Filtrer les événements inutiles : Supprimez les événements à faible valeur ou non pertinents (comme les entrées de journaux système) avant de charger les données dans l’outil de process mining.
  • Chargement incrémentiel de données : Plutôt que d’ingérer toutes les données d’un coup, chargez des morceaux plus petits et analysez-les séparément.

7. Données non pertinentes ou bruyantes

Symptômes :
  • La carte du processus est encombrée d’événements non liés au processus central.
  • Trop de variations insignifiantes rendent difficile la concentration sur les informations clés.
Causes possibles :
  • Événements système en arrière-plan, journaux système ou tâches non liées capturés dans l’ensemble de données.
  • Bruit provenant de tâches de faible priorité ou de processus système.
Solution :
  • Filtrer les événements inutiles : Excluez les événements non pertinents qui ne contribuent pas au processus analysé. Par exemple, supprimez les événements de journal système ou les activités qui ne font pas partie du flux de travail.
  • Regrouper les événements de bas niveau : Si nécessaire, regroupez ou agrégez les événements système de bas niveau en activités de plus haut niveau pour simplifier le modèle de processus et vous concentrer sur les activités principales.

8. Gestion des valeurs aberrantes

Symptômes :
  • La carte du processus montre des variations extrêmes dans la durée des tâches ou l’allocation des ressources qui ne correspondent pas aux performances habituelles.
  • L’analyse est biaisée par des cas rares ou exceptionnels.
Causes possibles :
  • Présence de valeurs aberrantes dans l’ensemble de données (par ex., tâches ayant pris un temps inhabituel ou cas avec des schémas anormaux).
  • Les cas limites ou incidents rares affectent de manière disproportionnée le process map.
Solution :
  • Identifier les valeurs aberrantes : Utilisez l’analyse statistique pour détecter et indiquer les valeurs aberrantes en fonction de la durée des tâches, de l’utilisation des ressources ou d’autres métriques.
  • Décider d’inclure ou d’exclure : Évaluer si ces valeurs aberrantes fournissent des informations utiles (par ex., identifier des problèmes rares mais critiques) ou doivent être exclues pour se concentrer sur les processus normaux. Si exclu, documentez la décision pour clarté.

9. Fusions horaires non alignées dans les données

Symptômes :
  • Les événements séquentiels semblent désalignés en raison de paramètres de fuseaux horaires différents.
  • Les calculs de durée de processus sont incorrects à cause d’incohérences de fuseaux horaires.
Causes possibles :
  • Les données de différents systèmes ou départements peuvent utiliser des fuseaux horaires différents, entraînant des incohérences.
  • Les fuseaux horaires n’ont pas été standardisés avant l’ingestion des données.
Solution :
  • Convertir en un fuseau horaire commun : Avant d’importer des données, convertissez tous les horodatages vers un fuseau horaire cohérent (ex. : UTC). De nombreux outils, y compris Excel et Python, offrent des fonctions de conversion des fuseaux horaires.
  • Documenter les ajustements de fuseaux horaires : Conservez une trace du fuseau horaire d’origine pour chaque ensemble de données et documentez les conversions effectuées.

10. Journaux d’événements déséquilibrés

Symptômes :
  • Certains cas contiennent trop peu d’événements, tandis que d’autres en ont trop, entraînant un déséquilibre dans la carte de processus.
  • Certaines activités ou cas dominent l’analyse en raison d’une répartition inégale des données.
Causes possibles :
  • Journalisation incohérente des données ou capture incomplète des événements pour certains cas.
  • Un biais dans les données où certaines instances de processus sont sur-représentées.
Solution :
  • Normaliser le journal des événements : Assurez-vous que chaque instance de processus présente un niveau de détail similaire. Si certains cas manquent d’événements clés, enquêtez sur la cause et essayez de combler les lacunes manuellement ou retirez ces cas de l’analyse.
  • Pondérer les données : Si nécessaire, pondérez les événements ou cas pour s’assurer que les cas sur-représentés n’influencent pas de manière disproportionnée l’analyse.

Conclusion

La qualité des données est essentielle pour réussir le process mining. En identifiant et abordant ces problèmes courants, vous assurez une analyse précise et exploitable. Mettre en œuvre de bonnes pratiques en nettoyage, préparation et validation de données aidera à éviter les erreurs fréquentes et à maximiser vos efforts en process mining.