- 数据侦探: 我们首先要解决的问题是找到所有关键细节。顾客订单分散在便签、松散的收据,甚至是我们口袋里的一个皱巴巴的纸巾上(恶心!)。这就像一个侦探故事,从所有这些随机来源(数据库、平面文件、消息日志等等)中拼凑信息。
- 同一语言: 即使我们找到了数据,含义也并不总是清晰。 有些便签上写着“顾客满意!”而另一些便写着一个皱眉的脸。我们需要一个翻译器(数据标准化)来确保间谍理解每个涂鸦的含义。
- 提问关键问题: 最后,我们必须弄清楚我们到底想知道什么。 是因为人们在下单时太慢导致排队时间长,还是因为我们制作柠檬水的速度太慢? 提出正确的问题帮助我们聚焦于数据收集(数据的不同视角)。
事实证明,清理这堆数据混乱是一个全新的冒险。但在下一个章节中,您将看到,通过一点侦查工作和我们的数据间谍的帮助,我们能够优化我们的柠檬水摊,成为社区的羡慕对象!
2: 数据大挖掘
我们的柠檬水摊非常受欢迎,但长长的队伍让人抓狂!我们知道需要数据间谍(Process Mining)的帮助,但首先,我们需要一些可靠的信息,这意味着要深入数据提取领域——基本上就是寻找关于我们顾客的所有隐藏线索,并将其转化为间谍能够理解的东西。
这是我们发现的:
- 寻宝: 有时候,数据像是被埋藏的宝藏——藏在我们系统(网页、电子邮件、PDF)的灰尘角落里。我们必须成为数据考古学家,从旧文件中挖掘,并使用高级工具(页面抓取)来获取所需信息。
- 翻译障碍: 即使我们找到了数据,含义也并不总是明确的。 有些线索写在纸巾上(非结构化数据),而另一些则被隐藏在密语中(缺少元数据)。我们需要一个翻译器(数据标准化)来破译它们。
- 专注是关键: 面对众多数据源(数千个表!),很容易就想全都抓取。但就像你不会在冰淇淋店尝试每种口味,我们需要专注于我们想回答的问题。顾客是否在下单时花费太长时间,还是我们在制作柠檬水时是瓶颈?专注于这些关键问题帮助我们优先考虑需要提取的数据。
虽然不容易,但通过一些努力和强烈的好奇心,我们挖掘出了一整套数据。在下一章中,我们将看到我们如何整理这一烂摊子,并最终让我们的数据间谍为我们工作!
3: 数据排毒
感谢我们英雄般的提取努力(见第3章),我们拥有了大量的数据。但请抓紧您的帽子,因为这些数据参差不齐——有一些有用的客户信息,随机的涂鸦,还有许多我们不需要的东西。是时候进行数据排毒了!
过滤成了我们的新好朋友。想象一下整理一个杂乱的工具箱。当我们提取数据时,我们先从大的方向着手(粗粒度范围)。现在是时候详细处理(细粒度范围)了。
这是我们如何应对过滤挑战的方法:
- 聚焦明星: 想象最频繁的客户订单就像我们工具箱中的新工具。我们决定聚焦于十大最常见的活动(订购、等待、领取柠檬水),让数据间谍能轻松处理。剩下的可以先放在库房中(暂时不管)。
- 迭代是关键: 过滤不是一成不变的。当我们的数据间谍开始分析干净的数据时,它指向新的关注领域。就像一个跟踪线索的侦探,不断根据新见解优化我们的过滤。
随着数据变得洁净(好吧,大部分是干净的),终于到了在下一章释放我们数据间谍(Process Mining)真正力量的时候了!我们将探索发现、合规性和增强等不同技术来诊断我们柠檬水摊的问题,成为街区最有效率的柠檬水操作!
4: 数据改造
我们的数据排毒(第4章)效果显著,但在释放我们数据间谍(Process Mining)之前,还有一个关键步骤——数据改造!想象一下顾客带着皱巴巴的钞票走到我们的摊位。我们不会拒绝他们,但如果钞票是平整干净的会更容易处理。这就是数据清理的理念。
这是我们需要做的:
- 案子解决: 一个流程就像顾客的旅程——有开始、中间和结束。我们需要连接与单个客户(案例)相关的所有事件——他们的订单、等待时间,最后,领取柠檬水。想象一下整理单个顾客访问的所有收据。
- 说流程语言: 我们的数据并不总是用流程语言交谈。活动需要明确定义为每个顾客旅程(案例)的状态变化。例如,“顾客满意!”不足够具体。我们需要一个明确的状态,比如“柠檬水已送达”。
即使这不是探险中最华丽的部分,但通过一点数据整理和清晰的思维,我们终于得到了一个一尘不染的数据集!借助这个数据,我们的数据间谍揭示了我们长队背后的秘密,并将我们的柠檬水摊变成一个充满活力的效率灯塔(和美味)!