流程挖掘的数据清理与准备

流程挖掘的数据清洗和准备

有效的流程挖掘始于高质量的数据,其中一个关键部分是数据清洗和准备。数据质量差会导致不准确或不完整的见解,使改进流程变得困难。在本文档中,我们将介绍数据清洗和准备的基本步骤,以确保您的数据集为成功的流程挖掘做好准备。

为什么数据清洗和准备很重要?

流程挖掘依赖于事件日志——包含业务流程中活动详细顺序的数据集。如果这些数据集不完整、不一致或包含错误,您从流程挖掘中获得的见解将不可靠。干净且结构良好的数据确保您的流程挖掘工具可以准确地绘制出工作流、检测瓶颈并突出改进区域。

数据清洗和准备的关键步骤

1. 数据收集与整合

清洗流程的第一步是确保从涉及流程的各个系统收集所有相关数据。数据可能来自不同的来源,例如ERP、CRM或其他操作系统。这就是数据整合的作用。

  • 整合数据来源:从所有贡献流程的系统中收集数据。例如,如果您正在分析订单到现金的流程,您可能需要从销售系统(如Salesforce)和财务系统(如SAP)收集数据。
  • 确保格式一致:在继续之前,要标准化数据的导出和格式化方式。确保所有时间戳、货币和ID具有统一格式。

一旦拥有数据,就可以清洗并准备用于流程挖掘。

2. 删除重复数据

重复记录会通过增加活动计数或显示同一事件的多个实例,严重影响流程挖掘分析。识别并删除这些重复项是创建准确事件日志的关键。

  • 识别重复项:检查记录是否具有相同的案件ID、活动和时间戳,因为这些可能是重复项。
  • 删除或合并:在识别出重复项的情况下,可以删除或根据需要合并相似记录。

3. 处理缺失数据

缺失值是影响流程挖掘结果的常见问题之一。缺失的时间戳、活动或案件ID可能会扰乱事件顺序,导致不完整的流程模型。

  • 识别缺失值:使用工具或脚本检测缺失字段(如空白时间戳、空活动名称或空案件ID)。
  • 填补空缺:如果可行,利用外部来源、领域知识或基于其他数据点的估算填补缺失数据。例如,若某个活动的时间戳缺失,可使用周边事件时间进行估算。
  • 插补策略:对时间戳或案件ID等关键缺失数据,使用插补技术(如均值代替或回归模型)预测值,或删除无法恢复数据的案件。

4. 规范数据格式

一致的数据格式化是确保流程挖掘工具正确解析事件日志的关键。数据规范化包括格式化时间戳、标准化活动名称和确保统一的案件ID结构。

  • 时间戳:确保所有日期和时间保持同一格式(如 YYYY-MM-DD HH:MM:SS)。如果数据包含时区,将其转换为一致的格式或使用UTC以避免误解。 此处可查阅我们支持的日期格式的更多信息
  • 活动名称:不同系统记录的活动名称可能不同。标准化名称以确保一致性(如 “Approve Order”和 “Order Approval” 应合并)。
  • 案件ID:确保案件ID在各系统中一致,并且每个流程实例都由唯一ID正确识别。

5. 移除不相关数据

并不是系统中的每个活动或事件都与流程挖掘分析相关。例如,某些后台任务或与流程无关的事件可能会使数据集变得杂乱。

  • 过滤掉不相关事件:识别并移除对分析的流程没有帮助的活动。例如,系统登录或无关的行政任务可以被排除,以避免繁杂的流程图。
  • 专注关键活动:使用领域知识识别对理解流程至关重要的事件,并将数据集集中在这些事件上。

6. 处理异常值和噪音

数据集中异常值或”噪音”会使流程挖掘结果失真,给出流程正常功能的不准确图像。例如,某任务因罕见事件而异常耗时可能会误导您的分析。

  • 识别异常值:使用统计方法检测数据集中的异常值。例如,耗时显著长于平均时间的任务可能被视为异常值。
  • 决定保留或删除:评估异常值是否提供有价值的信息(如表示罕见但关键的流程故障),或者是否应将其删除以专注于标准流程。

7. 保持案件和活动顺序一致

流程挖掘最重要的方面之一是确保事件的正确顺序。如果数据顺序混乱,工具可能错误解析流程。

  • 检查活动顺序:确保活动根据时间戳遵循合理顺序。例如,在同一流程实例中,“订单批准”事件不应出现在“订单创建”之前。
  • 按时间戳排序事件:根据时间戳字段对每个案件的数据进行排序,以确保事件顺序正确。

8. 创建事件日志

一旦数据被清洗、格式化并保持一致,就可以创建一个事件日志,这是流程挖掘的主要数据集。事件日志应包括:

  • 案件ID:每个流程实例的唯一标识符。
  • 活动名称:每个流程步骤的名称。
  • 时间戳:每个活动发生的确切时间,确保事件顺序。
  • 可选字段:根据分析,可以包含其他字段,例如活动责任资源、部门或流程类别。

9. 验证数据集

在数据被清洗和构建后,验证数据集是确保其准确反映流程并准备好分析的关键。

  • 抽查案件:手动审查一些流程实例,确保数据合理,事件顺序合逻辑。
  • 进行测试分析:如果可能,在流程挖掘工具中进行测试分析,查看是否出现错误或不一致。
  • 反馈循环:与业务专家合作,确认数据集反映实际流程行为。

数据清洗和准备工具

多种工具可以帮助自动化数据清洗和准备过程。以下是一些常用选项:

  • Python/Pandas:一种用于数据操作和清洗的强大编程语言和库。您可以编写自定义数据清洗工作流,以删除重复项、标准化格式等。
  • Excel/Google Sheets:对较小的数据集非常有用,这些工具提供各种数据清洗功能,如删除重复项、过滤不相关行和格式化列。
  • ETL工具(Extract, Transform, Load):如TalendInformaticaApache Nifi等工具,可以帮助将不同系统中的数据自动提取、转换并加载到流程挖掘工具中。
  • OpenRefine:一种免费、开源的数据清洗工具,允许您清理杂乱数据、删除重复项并标准化格式。

结论

数据清洗和准备是流程挖掘生命周期中的关键步骤。通过确保数据集完整、一致和准确,可以避免误导分析,获得对流程运行的可操作见解。通过遵循本文档中的步骤——删除重复项、填充缺失数据、标准化格式和创建清晰事件日志,您将做好充分准备,从流程挖掘活动中提取最大价值。