Liste des documents
Sur cette page

Résoudre les problèmes de data

Problèmes courants liés aux data et solutions

Lors de la préparation des data pour le Process Mining, plusieurs problèmes fréquents peuvent affecter la précision et la qualité de l’analyse. Voici un guide de dépannage pour identifier et résoudre ces difficultés.


1. Données en double dans les Event Logs

Symptômes

  • Le même event apparaît plusieurs fois dans la même instance de process (même Case ID, Activity et Timestamp).
  • Nombre anormalement élevé de certaines activités ou events sur la map du process.

Causes possibles

  • Les data ont été enregistrées plusieurs fois à cause de bugs d’intégration ou d’erreurs de logging.
  • Le processus d’ingestion a importé des events en double par erreur.

Solution

  • Supprimer les doublons : Utilisez des outils de data cleaning pour repérer et retirer les doublons. Dans Excel ou Google Sheets, servez-vous de « Supprimer les doublons » ou faites une requête SQL basée sur Case ID, Activity et Timestamp.
  • Filtrer à l’import : Lors de l’ingestion, mettez en place des filtres pour n’importer que les events uniques dans l’outil de Process Mining.

2. Timestamps manquants

Symptômes

  • Timestamps incomplets ou manquants empêchent un bon séquencement des events.
  • La MAP du process affiche des trous ou des connexions absentes entre activités.

Causes possibles

  • Certains systèmes n’enregistrent pas de timestamp pour chaque activité.
  • Processus manuels ou tâches non digitales non suivis avec un timestamp.

Solution

  • Estimer les timestamps manquants : Évaluez-les à partir des data connues (ex : durée moyenne entre deux tâches).
  • Compléter par saisie manuelle : Pour les tâches manuelles ou non digitales, saisissez des timestamps estimés selon d’autres sources.
  • Imputation : Utilisez des techniques d’imputation pour prédire les timestamps manquants (par ex, moyenne ou séquence).

3. Case IDs incohérents

Symptômes

  • Les events d’une même instance sont éclatés sur plusieurs Case IDs, fragmentant la modélisation du process.
  • Plusieurs représentations d’une même instance causent des analyses confuses et inexactes.

Causes possibles

  • Différents systèmes ou services utilisent des conventions de nommage ou formats variés pour les Case IDs.
  • Erreurs de saisie ou formats incohérents entre systèmes.

Solution

  • Case ID Mapping : Élaborez une stratégie de mapping de Case ID pour unifier les identifiants sur tous les systèmes. Servez-vous d’outils ETL (Extract, Transform, Load) ou SQL pour fusionner et standardiser les Case IDs.
  • Utiliser des outils de transformation : Si les formats de Case IDs diffèrent, harmonisez-les via des outils avant import.

4. Ordre des activités incorrect

Symptômes

  • Les events sont désordonnés, des étapes finales apparaissent avant les premières (ex : “Order Completed” avant “Order Placed”).
  • La MAP du process montre des flux ou des boucles incohérentes.

Causes possibles

  • Les timestamps sont erronés ou absents.
  • Les data ont été importées sans ordre correct.

Solution

  • Trier par timestamp : Mettez les events dans l’ordre croissant pour chaque Case ID. Avec Excel, SQL ou Pandas (Python), triez correctement vos données.
  • Vérifier le format des timestamps : Contrôlez qu’ils sont tous au même format et fuseau horaire. Uniformisez au format ISO 8601 (YYYY-MM-DD HH:MM:SS).
  • Valider la qualité des data : Vérifiez manuellement quelques cas pour confirmer l’ordre et l’absence d’erreurs d’import.

5. Incohérence data entre les systèmes

Symptômes

  • Données incohérentes entre plusieurs systèmes qui participent au même process.
  • Certains events apparaissent dans les données d’un système mais manquent dans un autre, ce qui crée des écarts dans la map du process.

Causes possibles

  • Les systèmes utilisent des métriques, conventions de nommage ou formats différents pour les mêmes events.
  • Extraction de data incomplète ou mauvaise intégration système.

Solution

  • Standardiser la data : Avant import, uniformisez vos champs clés (Case ID, nom d’activité, timestamps…) sur tous les systèmes. Les outils de transformation garantissent la cohérence.
  • Fusionner les datasets avec soin : Utilisez des outils ETL pour regrouper les données de plusieurs systèmes et garantir une structure homogène. Alignez les noms d’events, timestamps et Case IDs avant de fusionner.

6. Volumes importants de data causant des problèmes de performance

Symptômes

  • Lenteur lors du chargement ou de l’analyse de grosses data dans l’outil de Process Mining.
  • Crash ou timeout lors de l’ingestion de data.

Causes possibles

  • Le dataset contient trop d’enregistrements pour un traitement efficace.
  • L’outil de Process Mining ne peut pas traiter un volume élevé de data d’un coup.

Solution

  • Echantillonnage des data : Analysez un échantillon représentatif au lieu de tout le dataset pour garder la pertinence tout en limitant la taille.
  • Filtrer les events inutiles : Enlevez les events sans valeur (ex : system logs) avant import dans l’outil de Process Mining.
  • Chargement progressif : Importez les data en plusieurs fois pour une analyse plus fluide et efficace.

7. Data non pertinente ou avec bruit

Symptômes

  • La map du process est surchargée d’events non liés au process principal.
  • Trop de variations mineures rendent difficile l’identification des insights clés.

Causes possibles

  • Les events systèmes en arrière-plan, system logs ou tâches non liées sont inclus dans le dataset.
  • Bruit provenant de tâches peu prioritaires ou de processus système.

Solution

  • Filtrer les events inutiles : Retirez les events qui n’apportent rien à l’analyse (ex : logs systèmes, activités hors workflow métier).
  • Regrouper les events de bas niveau : Assemblez les events systèmes en activités plus globales pour clarifier le modèle de process.

8. Gestion des outliers

Symptômes

  • La map du process montre de fortes variations dans la durée des tasks ou l’allocation des ressources qui ne reflètent pas la performance habituelle.
  • L’analyse est biaisée par des cas rares ou exceptionnels.

Causes possibles

  • Présence d’outliers (ex : tâche très longue ou cas au comportement anormal) dans le dataset.
  • Les cas rares ont un effet trop important sur la MAP du process.

Solution

  • Identifier les outliers : Faites une analyse statistique pour repérer les outliers selon la durée, l’allocation de ressources, etc.
  • Décider de les inclure ou non : Identifiez si ces outliers révèlent des insights utiles (ex : incidents rares) ou s’ils doivent être exclus pour se concentrer sur les processus types. Documentez votre approche.

9. Fuseaux horaires non alignés dans les data

Symptômes

  • Les events qui se suivent affichent des décalages à cause de fuseaux horaires différents.
  • Les calculs de durée du process sont faussés par les incohérences de fuseau horaire.

Causes possibles

  • Les data de différents systèmes ou services utilisent des fuseaux horaires différents, ce qui crée des timestamps incohérents.
  • Les fuseaux horaires n’ont pas été uniformisés avant importation.

Solution

  • Convertir dans un fuseau horaire commun : Avant import, convertissez tous les timestamps dans un fuseau unique (ex : UTC). Des outils comme Excel ou Python proposent la conversion.
  • Documenter les changements : Gardez la trace des fuseaux originaux et des changements effectués.

10. Event Logs déséquilibrés

Symptômes

  • Certains cas ont trop peu d’events, d’autres trop, ce qui déséquilibre la map du process.
  • Certaines activités ou cas dominent l’analyse à cause d’une répartition inégale des data.

Causes possibles

  • Logging de data incohérent ou capture incomplète des events sur certains cas.
  • Déséquilibre où certaines instances sont sur-représentées.

Solution

  • Normaliser l’Event Log : Standardisez le niveau de détail pour chaque instance. Si des cases manquent d’events clés, comblez manuellement ou retirez-les de l’analyse.
  • Pondérer la data : Si besoin, pondérez pour ne pas surreprésenter certains cas dans l’analyse.

Conclusion

La qualité des data est essentielle pour réussir son Process Mining. En corrigeant ces problèmes fréquents, vous obtenez des analyses fiables et des insights actionnables. Adopter les bonnes pratiques de nettoyage, préparation et validation permet d’éviter les pièges et d’optimiser l’analyse Process Mining.