Process Mining实用ETL指南

ETL 在流程挖掘中的应用

流程挖掘依赖于数据,这些数据源自于各种系统,因此ETL是关键环节。ETL,全称Extract, Transform, Load,是数据仓库处理流程,负责从源系统提取数据、根据需要转换数据,并加载到数据仓库或流程挖掘工具中。此过程对数据的收集、清理、组织和分析准备至关重要。

以下是有效进行流程挖掘ETL的指南。

全局方法

最重要的原则:不要急于提取数据。数据提取既昂贵又耗时。

首先定义您的项目目标及想要分析的流程。选择一个流程开始,使用BPMN模型创建快速概述。将数据添加到模型中以符合项目目标。从现成的数据开始,例如Excel文件、易于导出的数据或已用于其他分析的数据。接下来,识别任何数据差距,仅提取实现目标所需的数据。抵制“以防万一”收集所有数据的冲动——多余的数据会拖慢您的进度。持续改进周期的速度往往更依赖于数据收集而非实施。

从简单的文件上传开始。仅在有意义时才自动化数据加载,比如当数据经常更新且需要持续分析时。在许多情况下,静态分析更稳定。无论选择何种方法,都不要让它拖慢你。比起花几个星期自动化发现数据不正确或不足以应对业务案例,季度上传数据只需几分钟。

需要什么数据?

流程挖掘需要特定数据:案例ID,时间戳和活动。额外的数据,如成本、用户、团队或CO2足迹,可以增强分析。您还可以添加额外的维度用于图表或度量的额外指标。

获取一些流程挖掘数据通常是直接的,因为所需字段很常见。然而,创建一个包含所有必要数据的单一数据集可能具有挑战性,常常需要进行重要的转换,以将分开的部分结合统一成一个文件。

不用担心一下子拥有所有数据——从你现有的开始。

需要什么数据格式?

虽然存在高级数据格式,但大多数工具仍依赖简单的文本文件。使用逗号分隔(CSV)或制表符分隔(TSV/TXT)文件。避免使用定长文本文件,因为大多数工具无法处理它们。

文件应以标题行开头,后面是与标题字段和顺序匹配的数据行。

如需非英文字符,使用UTF-8编码。确保字段不包含分隔符或行尾字符。可在字段周围使用引号,但避免在字段内使用引号。必要时,用其他字符替换引号以简化处理。

现成数据

首先列出易于访问的数据。考虑这些来源:

  • 每月或每周的原始数据Excel报告。如有需要,使用Excel重新格式化。
  • 从其他工具导出的流程挖掘数据,通常不需额外预处理。
  • HR、财务或ITSM系统等系统的标准导出选项。导出为你的流程挖掘工具支持的格式。
  • 从分析工具中导出的报告所需数据。使用数据透视表和导出创建正确的格式。
  • 含已清理和组合的数据仓库。使用仓库工具选择并导出为CSV格式。

流程系统

数据通常存储在SAP、Workday、Salesforce或ServiceNow等系统中。首先,检查简单导出是否满足你的需求,因为这是创造价值最快的方法。如果不行,使用ETL工具来提取、转换和加载数据到流程挖掘工具中。

根据你的组织需求,可能需要涉及IT、系统所有者或数据仓库团队。虽然这可能会减缓数据收集速度,但不要绕过这些团队——他们有加快流程的程序和经验。与他们在一个敏捷循环中合作,从易于获得的数据开始,避免一次性请求所有内容,因为这可能导致延误。

开始时,请求以文本格式的数据。之后,使用你的流程挖掘工具的API或内置ETL工具进行自动化。

流程挖掘工具中的内置ETL工具

一般来说,我们建议不要使用流程挖掘供应商的内置ETL工具。虽然这些工具看似方便,但却存在明显局限:

  • 相比专业ETL工具,质量较低。
  • 使用专有技术而非SQL等行业标准,增加培训需求并降低专业技术的可用性。
  • 供应商锁定,增加切换工具的难度。
  • 创建数据孤岛,限制其他分析或AI项目中的数据重用。

第三方ETL工具

许多第三方ETL工具能够处理流程挖掘需求。虽然流程挖掘需要特定数据,但操作是标准化的。

优先选择基于SQL的工具,以便更简单地重用ETL逻辑,提升长期可维护性。使用内部工具以避免引入新工具带来的延误或项目中断。

常见的第三方流程挖掘ETL工具:

  • CData: 擅长提取,通常配合其他工具使用。
  • dbt: 一种基于SQL的转换工具,具备处理大型转换的功能。
  • BigQuery: Google提供的托管数据仓库,适合对大数据集进行快速SQL查询。
  • Snowflake: 云平台,支持可扩展存储和计算,用于转换和分析。
  • DataBricks: 集成数据工程、机器学习和分析的统一分析平台。
  • Talend: 支持多种数据源的图形化ETL工具。
  • Apache Nifi: 开源ETL工具,用于数据流自动化和实时处理。

专业流程挖掘ETL工具

专业流程挖掘ETL工具结合了第三方ETL的优势与流程挖掘功能和模板。

示例:

  • Konekti: 专为快速准确创建流程数据模型而设计。

关键点总结

ETL不是流程挖掘项目的终极目标,但往往是必要步骤。设置ETL流程以避免延误:

  • 使用现成的数据。
  • 从手动上传开始, 在合适的时候自动化。
  • 使用现有工具,优选SQL。

最重要的是,从所需的数据开始,小规模起步,逐步扩展。避免提前收集所有数据,因为这可能会拖累你的项目。

相关博客文章

在您的收件箱中接收关于BPM和工作流程优化的专家见解
数据驱动策略提升流程改进

数据驱动策略提升流程改进

探索如何将六西格玛与Process Mining、设计和模拟集成,以实现可持续的数据驱动改进。

Celonis与ProcessMind对比:2025年流程挖掘如何选?

Celonis与ProcessMind对比:2025年流程挖掘如何选?

ProcessMind专为SMB打造,2025年更简单实惠,是Celonis以外高性价比之选。

Disco 和 ProcessMind 2025流程挖掘平台权威对比

Disco 和 ProcessMind 2025流程挖掘平台权威对比

ProcessMind 云端流程挖掘平台,功能丰富可扩展,是升级 Disco 的理想 SaaS 选择。

SAP Signavio对比ProcessMind:2025最佳流程挖掘平台如何选

SAP Signavio对比ProcessMind:2025最佳流程挖掘平台如何选

ProcessMind为流程挖掘与建模带来更现代、灵活且高性价比的方案,优于SAP Signavio。

解锁强大流程洞察,免费体验所有功能!

即刻访问,无需信用卡,无需等待。了解MAP、MINE与模拟如何协同助力智能决策。

试用全部功能,深入洞察流程,轻松优化运营。

立即开启免费试用,解锁Process Intelligence全部功能!