统计分布应用指南
为什么要用分布建模?
实际流程都有波动性。例如客服电话有的耗时5分钟,有的则25分钟;有的天只来50单,有的天却有120单。这种变化是企业流程的基本特征。
固定值(比如“每步正好10分钟”)会导致仿真不真实。分布能数学表达波动,让仿真更接近实际。
差异的影响
以平均10分钟的任务为例,有两种情景:
| 场景 | 分布类型 | 仿真影响 |
|---|---|---|
| 固定10分钟 | 无波动 | 排队不真实,模式可预测 |
| Normal(均值=10,标准差=3) | 真实波动 | 排队自然,延迟真实 |
第二种情景更贴近实际——有的任务很快,有的更慢,正是这种差异带来流程中的真实排队现象。
可用分布类型
ProcessMind 提供八种分布类型,用于模拟流程中的不同变化:
| 分布类型 | 推荐用途 | 关键参数 |
|---|---|---|
| Fixed | 固定且不变的数值 | value |
| Normal | 均值对称波动 | mean, stdDev |
| Uniform | 区间内等概率 | min, max |
| Triangular | 区间内有最可能值 | min, mode, max |
| Poisson | 随机 event 到达 | lambda, rateUnit |
| Lognormal | 偏右分布(多为较快,也会偶有很大) | mean, stdDev |
| Weibull | 可靠性分析和故障分析 | scale, shape |
| Pearson VI | 复杂偏态模式 | alpha1, alpha2, beta |
Fixed 分布
最简单的分布类型——始终返回同一个数值。
参数说明
| 参数 | 说明 |
|---|---|
| value | 返回的固定值 |
特点
- 完全无变化
- 结果总为同一常数
- 适合建模系统控制或自动环节
适用场景
- 自动系统响应时间固定
- 合规超时或截止情境
- 仿真初期仅做基础设置
- SLA或合同时间限制建模
示例
系统自动发送邮件,耗时始终为 5 秒。
Normal(高斯)分布
常见的“钟形曲线”——数值以均值为中心对称分布,离均值越远概率越低。
参数说明
| 参数 | 说明 |
|---|---|
| mean | 平均值(曲线中心) |
| stdDev | 标准差(波动范围) |
特点
- 以均值对称
- 68% 数据在1个标准差内
- 95% 数据在2个标准差内
- 99.7% 数据在3个标准差以内
- 理论可能为负数(仿真引擎自动处理)
适用场景
- 处理时间围绕平均值对称波动
- 有随机误差的测量
- 受多个独立小因素影响的数量
示例
一个 data entry 任务平均 5 分钟,标准差 1 分钟:
- 68% 情况下录入耗时 4-6 分钟
- 95% 在 3-7 分钟间
- 极少小于 2 或大于 8 分钟
Uniform 分布
区间内任一数值出现概率一样——概率分布为“平坦”形态。
参数说明
| 参数 | 说明 |
|---|---|
| min | 最小值 |
| max | 最大值 |
特点
- 概率均衡:各取值概率相同
- 拥有明确的最小/最大边界
- 均值为 (min + max) / 2
适用场景
- 只知道范围,无典型值
- 区间随机取值
- 等待预定event的耗时
- 无历史data时建模不确定性
示例
某审批流程用时在 2-8 分钟之间,没有典型时长。区间内各时长概率相等。
Triangular 分布
包含最小值、最大值和最可能值(mode),分布区间呈三角形。
参数说明
| 参数 | 说明 |
|---|---|
| min | 最小值 |
| mode | 最可能值(三角形顶点) |
| max | 最大值 |
特点
- 数据集中于最可能值(mode)
- 区间被 min、max 限定,无异常值
- 镜像非对称(mode ≠ (min + max)/2 时)
- 适合用专家经验估算
适用场景
- 已知“通常为X,区间为Y到Z”
- 专家估算场景
- Normal分布可能出现不合理负值时
示例
发票审核:
- 最佳情况(min):2 分钟
- 典型情况(mode):5 分钟
- 最差情况(max):15 分钟
绝大多数集中在 5 分钟,复杂情况可达 15 分钟。
专家估算
Triangular 分布非常适合专家估算。只需提问:“最快?最常见?最慢?”即可直接获得 min、mode 和 max。
Poisson 分布
用于建模固定时间内 event 的发生数量,非常适合到达类场景。
参数说明
| 参数 | 说明 |
|---|---|
| lambda | event 平均发生速率 |
| rateUnit | 速率时间单位(perHour, perDay, perWeek, perMonth, perYear) |
特点
- 离散取值(仅整数:0、1、2、3…)
- 方差等于均值
- event 相互独立
- 擅长建模“随机到达”
适用场景
- case进入流程
- 客户到达
- 订单生成
- 各类“单位时间内event发生”情境
示例
当 Lambda=20、rateUnit=perDay 时,代表每天大约 20 个 case 到达。部分天有 15,部分 25 ——反映随机到达的自然波动。
Lognormal 分布
偏右分布,大部分取值较小,偶尔会出现较大值。其对数值为 Normal 分布。
参数说明
| 参数 | 说明 |
|---|---|
| mean | 对数 Normal 分布的均值 |
| stdDev | 对数 Normal 分布的标准差 |
特点
- 全部为正数(不会出现负值)
- 偏右分布,高数值有长尾
- 大部分数据集中在低值区
- 偶尔出现极大值
适用场景
- 绝大部分任务完成快,偶尔耗时长
- 金融data、收入分布
- 偶发延迟的响应时间
- 修复bug耗时
示例
技术支持工单:
- 多数 1-2 小时内解决
- 一些需一天
- 极少因复杂问题需多天
Lognormal 分布正好描述“多数很快,偶尔很久”的情况。
Weibull 分布
灵活的分布,广泛用于可靠性分析和故障建模。
参数说明
| 参数 | 说明 |
|---|---|
| scale | 尺度参数(特征寿命) |
| shape | 形状参数(决定分布特征) |
形状参数影响
| 形状数值 | 分布行为 |
|---|---|
| shape < 1 | 失效率递减(早期失效) |
| shape = 1 | 失效率恒定(指数分布) |
| shape > 1 | 失效率递增(磨损老化) |
适用场景
- 设备失效时间建模
- 时间-事件分析
- 可靠性建模
- 需灵活分布形状控制时
Pearson VI 分布
高级分布,适用于无法用简单分布拟合的复杂偏态场景。
参数说明
| 参数 | 说明 |
|---|---|
| alpha1 | 第一个形状参数 |
| alpha2 | 第二个形状参数 |
| beta | 尺度参数 |
适用场景
- 需用数据分析得到的复杂分布
- 简单分布不适用历史data
- 高级统计建模情境
选择合适的分布类型
快速参考:处理时长
| 业务场景 | 推荐分布 |
|---|---|
| 时长围绕均值对称波动 | Normal |
| 只知时长区间(min-max) | Uniform |
| 清楚典型、最快、最慢耗时 | Triangular |
| 多数很快但偶尔很慢 | Lognormal |
| 时长恒定(极少见) | Fixed |
快速参考:到达速率
| 业务场景 | 推荐分布 |
|---|---|
| 随机/独立到达 | Poisson |
| 固定速度到达 | Fixed |
最佳实践
简单入门
建议从 Normal 或 Triangular 分布开始,这两种分布易于理解和配置,且大多数场景下效果良好。只有确实需要时再增加复杂性。
利用专家经验
领域专家能给出较准的估算:
- “最佳情况?” → 最小值
- “常见情况?” → 平均值或众数
- “最差情况?” → 最大值
基于数据校验
如有历史data:
- 为data拟合分布
- 对比仿真输出与实际表现
- 优化分布参数
注意异常值
实际流程常有极端数据。Lognormal 和 Weibull 分布比 Normal 或 Triangular 更能捕捉异常。
与流程特性匹配
- 对称波动 → Normal
- 有区间约束波动 → Triangular 或 Uniform
- 偏右分布 → Lognormal
- 复杂模式 → Weibull 或 Pearson VI