流程挖掘需要哪些条件?
运行 Process Mining 需要什么?
有原始 data 吗?这只是第一步!Process Mining 最适合用干净、规范的 event data。分析、准备、优化你的 data,挖掘流程洞察力。
启动所需 Data 基础
假如你经营柠檬水摊,但很健忘!要分析生意情况,只需要记录三项信息:
- Customer ID (CaseID):每位客户的编号,可辨别是否回头客或反馈问题。
- Action Taken (Activity):发生的动作,比如 “Take Order”、“Prepare Lemonade” 或 “Resolve Angry Customer Complaint”(当然希望别常出现)。
- Action Time (Timestamp):对应动作的发生时间。确定操作顺序非常关键!
只要拿到这三类数据,Process Mining 就能像你的数据侦探,洞察客户流程、细看瓶颈(也许你制饮慢),甚至推测哪些客户更爱不满(是时候升级配方了!)。
比如下表就是样例:
| Customer ID (CaseID) | Action Time (Timestamp) | Action Taken (Activity) |
|---|---|---|
| 1 | 10:00 AM | Take Order |
| 1 | 10:02 AM | Prepare Lemonade |
| 1 | 10:05 AM | Serve Customer |
| 2 | 10:03 AM | Take Order |
| 2 | 10:10 AM | Resolve Angry Customer Complaint (yikes!) |
| 2 | 10:12 AM | Prepare Lemonade |
| 2 | 10:15 AM | Serve Customer (hopefully happier this time!) |
这些信息虽少,但对于 Process Mining,已能发问关键问题,挖掘柠檬水摊的运营效率!
1. 丢失的柠檬水日志档案
我们的柠檬水摊超火爆!顾客喜欢我们的秘方(大多数时候),生意特别好。但人多就有新烦恼——排队太长、脾气变差,最糟糕的是我们搞不清楚原因!
还记得我们请的小侦探(Process Mining)吗?它也不是万能的,得有靠谱的 data,但我们的信息只是几张随便写的餐巾纸。麻烦就这样来了:
- 数据侦探上线: 首要难题,是搞齐所有关键细节。客户订单东一张、西一片,有便利贴、有散票、还有皱小纸团(好脏!)。像侦探破案一样,要从 database、flat file、message log 等各种来源拼凑。
- 让 data 说同一种语言: 找到 data 也未必清楚。有的只写“Customer Happy!”(顾客很开心),也有只有表情。必须标准化 data,才能让小侦探读懂每行记录。
- 提对问题才有答案: 还得清楚自己想知道什么。到底是点单慢造成大排长龙,还是柠檬水制作慢?提出好问题,聚焦 data 收集重点(不同视角看 data)。

最后,整理这些乱七八糟 data 又成新冒险。但下一个章节会展示:用点侦探精神,加上 data 侦探支持,我们如何优化摊位,成为街头高效标杆!
2. Data 挖掘大冒险
柠檬水摊生意爆棚,排队却让人头大!我们知道需要 data 侦探(Process Mining)帮忙,但得先备好情报。这就需要 data 提取——找出埋藏的客户线索,让侦探能看明白。
我们学到:
- 数据寻宝: 有些 data 像宝藏,藏在系统(web 页面、email、PDF)角落。我们变身“数据考古学家”,翻旧文件、用 screen scraping 等工具挖出信息。
- 翻译难题: 有的线索写在餐巾纸(非结构化 data),有的被藏在特殊“编码”里(缺 metadata)。需要 data 标准化,才能全部解码。
- 聚焦核心问题: data 来源极多(成千上万张表),很容易啥都想抓。但要像选冰淇淋口味一样聚焦——想清楚要解答哪些问题,是顾客下单慢还是我们制作慢?问题想明白,目标 data 才明确。
虽然过程不轻松,但只要足够用心和好奇,就能挖到大把有用 data。下个章节将展示如何清理整理,让 data 侦探高效开启工作!
3. Data 净化行动
多亏我们之前的 data 抽取(见第 3 章),我们攒了一大堆数据。但这些 data 杂乱无章——有有用的客户信息,也有随机涂鸦,还有根本不需要的。是时候来一次 data 净化!
过滤成了我们的新帮手。就像收拾乱七八糟的工具箱。采集 data 时只做了粗略选择(coarse-grained scoping),现在要精细化处理(fine-grained scoping)。
我们这样搞定了 filtering:
- 聚焦高频活动: 最常见的客户订单就像工具箱里的主力工具,聚焦 top 10 高频活动(如点单、等待、领柠檬水),data 侦探更省力。其余内容先放一边。
- 不断迭代: 过滤不是一次性的。data 侦探每分析完一批 cleaner data,就会引导我们关注新方向。像侦探一样顺藤摸瓜,持续优化 filter。

数据大致干净后,终于能在下个章节释放 data 侦探(Process Mining)真正威力!我们会用 discovery、conformance、enhancement 等技术,深入分析运营瓶颈,把柠檬水摊效率拉满!
4. Data 焕新计划
经过 data 净化(第 4 章),体验大提升,但要释放 Process Mining 潜能,最后一步就是 data 焕新!就像顾客来买柠檬水递上一张皱钞,虽然能收但新钞更顺。这就是 data cleaning 的意义。
我们要做的有:
- 完整 Case 串联: 流程如同客户旅程——有头有尾。需要把同一客户(case)所有 event 串联起来(点单、等待、取饮),就像一次消费所有小票归档。
- 流程语言标准化: 有些 data 写得不明确,“Customer Happy!”这类表述太泛,多用“Lemonade Delivered”这样具体的状态。
虽然 data 整理并不炫酷,但通过整理归类加标准化,我们终于得到了干净、高质量的数据集!有了 data 侦探加工后的数据,我们就能揭开排队背后秘密,把柠檬水摊变成高效又受欢迎的榜样店!