文档列表
本页目录

数据问题排查指南

常见数据问题及解决方案

在为Process Mining准备数据时,经常会遇到一些常见数据问题,这些问题会影响分析的准确性和质量。以下是常见问题排查指南,帮助你快速定位并解决这些问题。


1. event log中存在重复记录

典型症状

  • 同一 process 实例(相同 Case ID、Activity、Timestamp)出现重复 event。
  • 部分活动或 event 在流程 MAP 中出现次数异常多。

可能原因

  • 因系统集成问题或日志错误,数据被多次记录。
  • 数据导入过程中意外重复event。

解决方案

  • 去重:用数据清洗工具识别并移除重复记录。Excel或Google Sheets用”去重”,数据库用SQL按Case ID、Activity、Timestamp去重。
  • 导入时过滤:导入时配置过滤,确保Process Mining工具只接收唯一event。

2. 缺失timestamp

现象

  • timestamp缺失,不能正确排序event。
  • process map出现断点,activity间连接丢失。

可能原因

  • 有些系统未记录每个activity的timestamp。
  • 手工流程或纸质任务没有timestamp追踪。

解决方案

  • 估算缺失timestamp:可用相邻task均值等方法估算缺失时间。
  • 手工补录数据:对手工或纸质任务,可结合其他日志补录timestamp。
  • 数据补全:用算法预测缺失timestamp,如依赖同流程中其他event或平均时长。

3. Case ID不一致

现象

  • 同一流程实例的event分在不同Case ID,导致流程模型碎片化。
  • 一个流程实例出现多种表示,分析混乱且不准确。

可能原因

  • 不同系统或部门对Case ID的命名规则或结构不统一。
  • 数据录入错误或系统间格式不一致。

解决方案

  • Case ID Mapping:制定case ID映射方案,统一各系统case标识。可用ETL(Extract, Transform, Load)平台或SQL来合并和规范Case ID。
  • 使用数据转换工具:如Case ID格式不同,导入前用工具进行统一。

4. activity顺序错误

现象

  • event顺序错乱,后面activity在前(如“Order Completed”早于“Order Placed”)。
  • process map显示异常流程或死循环。

可能原因

  • timestamp录入有误或缺失。
  • 数据导入时排序不正确。

解决方案

  • 按timestamp排序:确保每个Case ID下event按timestamp正序排列。推荐用Excel、SQL、Pandas(Python)排序。
  • 检查timestamp格式:统一所有timestamp格式和时区,如ISO 8601(YYYY-MM-DD HH:MM:SS)。
  • 验证数据质量:抽查部分case,确保event顺序正确,不存在录入或导入排序错误。

5. 系统间数据不一致

典型症状

  • 不同系统中涉及同一流程的数据不一致。
  • 某系统数据中出现 event,但其他系统中缺失,造成流程 MAP 存在断点。

可能原因

  • 不同系统对同一event采用不同的指标、命名或格式。
  • 数据提取不完整或部分系统未完全集成。

解决方案

  • 标准化数据:导入前,统一关键字段(如Case ID、Activity Name、Timestamp)在各系统的格式。用数据转换工具确保一致。
  • 谨慎合并数据集:用ETL工具合并多系统数据,确保结构清晰。合并前保证event名、timestamp、Case ID一致。

6. 数据量过大导致性能问题

典型症状

  • 在 Process Mining 工具加载或分析大数据时性能缓慢。
  • 导入数据时系统崩溃或超时。

可能原因

  • 数据量过大,系统无法高效处理。
  • Process Mining工具一次无法处理超大数据量。

解决方案

  • 数据抽样:选取有代表性样本分析,无需全量处理,兼顾高效和洞察。
  • 过滤无关event:导入Process Mining工具前,先排除无关或低价值event(如系统日志)。
  • 分批导入数据:采用分批导入和逐步分析,避免一次性处理大数据量。

7. 无关或噪声数据

典型症状

  • 流程 MAP 存在与核心流程无关的 event,画面混乱。
  • 无关细节过多,难以聚焦核心洞察。

可能原因

  • 数据集中包含后台系统event、系统log或无关task。
  • 来自低优先级task或系统process的噪声。

解决方案

  • 过滤无关event:剔除非业务相关的event,如系统日志等。
  • 聚合底层event:如有需要,将底层event聚合为高层activity,简化流程并聚焦核心环节。

8. 异常值处理

典型症状

  • 流程 MAP 显示 task 时长或资源分配异常波动,且与实际表现不符。
  • 罕见或异常 case 影响分析结果。

可能原因

  • 数据中存在异常值(如耗时异常的task或模式异常的case)。
  • 极端或罕见事件对process map影响大。

解决方案

  • 识别异常值:利用统计方法,按task时长、资源等识别异常。
  • 判断是否保留:视其业务价值决定保留或排除,排除时做好记录说明。

9. 数据时区未统一

现象

  • 因时区设置不同,event顺序错乱。
  • 流程耗时计算因时区不一致而不正确。

可能原因

  • 不同系统或部门的数据采用不同时区,导致timestamp不一致。
  • 数据导入前未统一时区。

解决方案

  • 统一时区:数据导入前,将所有timestamp转为统一时区(如UTC)。Excel、Python等均支持时区转换。
  • 记录时区调整:保留原始时区信息,并记录所有转换。

10. event log不平衡

典型症状

  • 部分 case 包含 event 过少,部分过多,导致流程 MAP 不平衡。
  • 数据分布不均使部分活动或 case 主导分析。

可能原因

  • 某些case的event记录不完整或日志不一致。
  • 数据倾斜,部分流程实例记录过多。

解决方案

  • 规范event log:确保各流程实例的明细一致。若case缺失event,查明原因后可手补或剔除。
  • 加权数据:必要时对event或case加权,防止部分case影响整体分析。

结论

数据质量对Process Mining成功至关重要。解决常见数据问题,能确保分析结果准确、可用。通过数据清洗、准备和验证的最佳实践,可避免常见陷阱,最大化Process Mining价值。