运行Process Mining需要什么?
有原始数据?那只是第一步!Process Mining钟爱干净的数据,所以请深入探索、准备并优化您的事件数据。这是获取强大流程洞察的秘密武器!
什么数据是启动所需的
想象一下你在经营一个柠檬水摊,但记忆力很差!为了了解你的摊位表现如何,你决定跟踪一些基本信息:
- 顾客ID(CaseID):这就像给每位顾客的一个号码。它让你知道是同一个人回头购买更多的柠檬水(或者投诉一批酸的柠檬水!)。
- 采取的行动(Activity):这就是发生的事情!你是”接单”、“准备柠檬水”,还是”解决愤怒顾客投诉”(希望不太频繁)?
- 行动时间(Timestamp):这是你执行这些动作的时间。了解你的动作顺序至关重要!
仅凭这三条数据,Process Mining就像是你摊位上的小间谍。它可以看到顾客的基本流程,识别任何瓶颈(可能你制作柠檬水太慢了!),甚至能告诉你是否一些顾客比其他人更容易不满(该改善你的食谱了!)。
这是数据在表格中的示例:
顾客ID(CaseID) | 行动时间(Timestamp) | 采取的行动(Activity) |
---|---|---|
1 | 10:00 AM | 接单 |
1 | 10:02 AM | 准备柠檬水 |
1 | 10:05 AM | 服务顾客 |
2 | 10:03 AM | 接单 |
2 | 10:10 AM | 解决愤怒顾客投诉(哎呀!) |
2 | 10:12 AM | 准备柠檬水 |
2 | 10:15 AM | 服务顾客(希望这次更高兴!) |
这看似信息很少,但足够让Process Mining开始提问并发现一些关于你柠檬水摊效率的基本洞察!
1. 丢失的柠檬水日志案
我们的柠檬水摊非常火爆!顾客们(大多数情况下)喜爱我们的秘密配方,生意兴隆。但伴随成功而来的是一个新挑战:顾客太多,排队时间过长,情绪紧张,最糟糕的是,我们根本不知道原因!
还记得我们雇用的小间谍(Process Mining)吗?看来它并不能创造奇迹。它需要好的情报,而我们只有几张纸巾上的潦草涂鸦。这里是事情变得复杂的地方:
- 数据侦探: 我们首先要解决的问题是找到所有关键细节。顾客订单分散在便签、松散的收据,甚至是我们口袋里的一个皱巴巴的纸巾上(恶心!)。这就像一个侦探故事,从所有这些随机来源(数据库、平面文件、消息日志等等)中拼凑信息。
- 同一语言: 即使我们找到了数据,含义也并不总是清晰。 有些便签上写着“顾客满意!”而另一些便写着一个皱眉的脸。我们需要一个翻译器(数据标准化)来确保间谍理解每个涂鸦的含义。
- 提问关键问题: 最后,我们必须弄清楚我们到底想知道什么。 是因为人们在下单时太慢导致排队时间长,还是因为我们制作柠檬水的速度太慢? 提出正确的问题帮助我们聚焦于数据收集(数据的不同视角)。

事实证明,清理这堆数据混乱是一个全新的冒险。但在下一个章节中,您将看到,通过一点侦查工作和我们的数据间谍的帮助,我们能够优化我们的柠檬水摊,成为社区的羡慕对象!
2: 数据大挖掘
我们的柠檬水摊非常受欢迎,但长长的队伍让人抓狂!我们知道需要数据间谍(Process Mining)的帮助,但首先,我们需要一些可靠的信息,这意味着要深入数据提取领域——基本上就是寻找关于我们顾客的所有隐藏线索,并将其转化为间谍能够理解的东西。
这是我们发现的:
- 寻宝: 有时候,数据像是被埋藏的宝藏——藏在我们系统(网页、电子邮件、PDF)的灰尘角落里。我们必须成为数据考古学家,从旧文件中挖掘,并使用高级工具(页面抓取)来获取所需信息。
- 翻译障碍: 即使我们找到了数据,含义也并不总是明确的。 有些线索写在纸巾上(非结构化数据),而另一些则被隐藏在密语中(缺少元数据)。我们需要一个翻译器(数据标准化)来破译它们。
- 专注是关键: 面对众多数据源(数千个表!),很容易就想全都抓取。但就像你不会在冰淇淋店尝试每种口味,我们需要专注于我们想回答的问题。顾客是否在下单时花费太长时间,还是我们在制作柠檬水时是瓶颈?专注于这些关键问题帮助我们优先考虑需要提取的数据。
虽然不容易,但通过一些努力和强烈的好奇心,我们挖掘出了一整套数据。在下一章中,我们将看到我们如何整理这一烂摊子,并最终让我们的数据间谍为我们工作!
3: 数据排毒
感谢我们英雄般的提取努力(见第3章),我们拥有了大量的数据。但请抓紧您的帽子,因为这些数据参差不齐——有一些有用的客户信息,随机的涂鸦,还有许多我们不需要的东西。是时候进行数据排毒了!
过滤成了我们的新好朋友。想象一下整理一个杂乱的工具箱。当我们提取数据时,我们先从大的方向着手(粗粒度范围)。现在是时候详细处理(细粒度范围)了。
这是我们如何应对过滤挑战的方法:
- 聚焦明星: 想象最频繁的客户订单就像我们工具箱中的新工具。我们决定聚焦于十大最常见的活动(订购、等待、领取柠檬水),让数据间谍能轻松处理。剩下的可以先放在库房中(暂时不管)。
- 迭代是关键: 过滤不是一成不变的。当我们的数据间谍开始分析干净的数据时,它指向新的关注领域。就像一个跟踪线索的侦探,不断根据新见解优化我们的过滤。

随着数据变得洁净(好吧,大部分是干净的),终于到了在下一章释放我们数据间谍(Process Mining)真正力量的时候了!我们将探索发现、合规性和增强等不同技术来诊断我们柠檬水摊的问题,成为街区最有效率的柠檬水操作!
4: 数据改造
我们的数据排毒(第4章)效果显著,但在释放我们数据间谍(Process Mining)之前,还有一个关键步骤——数据改造!想象一下顾客带着皱巴巴的钞票走到我们的摊位。我们不会拒绝他们,但如果钞票是平整干净的会更容易处理。这就是数据清理的理念。
这是我们需要做的:
- 案子解决: 一个流程就像顾客的旅程——有开始、中间和结束。我们需要连接与单个客户(案例)相关的所有事件——他们的订单、等待时间,最后,领取柠檬水。想象一下整理单个顾客访问的所有收据。
- 说流程语言: 我们的数据并不总是用流程语言交谈。活动需要明确定义为每个顾客旅程(案例)的状态变化。例如,“顾客满意!”不足够具体。我们需要一个明确的状态,比如“柠檬水已送达”。
即使这不是探险中最华丽的部分,但通过一点数据整理和清晰的思维,我们终于得到了一个一尘不染的数据集!借助这个数据,我们的数据间谍揭示了我们长队背后的秘密,并将我们的柠檬水摊变成一个充满活力的效率灯塔(和美味)!