Limpieza y preparación de data para Process Mining

Un Process Mining efectivo comienza con data de calidad, y para lograrlo la limpieza y preparación son fundamentales. Una mala calidad de data puede llevar a conclusiones inexactas o incompletas, dificultando la mejora de procesos. En este documento verás los pasos esenciales para limpiar y preparar tu data y así lograr resultados exitosos en tus proyectos de Process Mining.

¿Por qué es importante la limpieza y preparación de data?

Process Mining se basa en event logs, datasets que contienen la secuencia detallada de activities dentro de un proceso. Si estos datasets están incompletos, son inconsistentes o tienen errores, los insights que obtengas serán poco fiables. Contar con data limpia y bien estructurada permite que tu herramienta de Process Mining mapee correctamente workflows, detecte cuellos de botella y resalte oportunidades de mejora.

Pasos clave en la limpieza y preparación de data

1. Recolección e integración de data

El primer paso es asegurar que toda la data relevante se recoja desde los diferentes sistemas involucrados en tu proceso. La data puede venir de fuentes como ERP, CRM u otros sistemas operativos. Aquí entra la integración de data.

Consolida fuentes de data: Reúne data de cada sistema que contribuya al proceso. Por ejemplo, si analizas un proceso order-to-cash, tendrás que extraer data tanto de tu sistema comercial (como Salesforce) como de tu sistema financiero (como SAP).
Asegura formatos consistentes: Antes de avanzar, estandariza cómo se exporta y da formato a la data. Por ejemplo, verifica que timestamps, monedas e IDs usen el mismo formato.

Cuando tengas la data, será el momento de limpiarla y prepararla para el Process Mining.

2. Elimina duplicados

Los registros duplicados pueden distorsionar el análisis inflando los conteos de activities o mostrando events repetidos. Identificar y remover duplicados es clave para generar un event log fiable.

Identifica duplicados: Busca registros con el mismo case ID, activity y timestamp, ya que probablemente sean duplicados.
Eliminar o fusionar: Según el caso, elimina o fusiona registros similares según sea necesario.

3. Gestiona datos faltantes

Los valores faltantes son un problema común que afecta los resultados de Process Mining. Si faltan timestamps, activities o case IDs, se puede interrumpir la secuencia de events y obtener modelos incompletos.

Identifica valores faltantes: Usa herramientas o scripts para encontrar campos en blanco (como timestamps vacíos, nombres de activity vacíos o case IDs nulos).
Completa la información: Si es posible, rellena los datos usando fuentes externas, conocimiento del dominio o estimaciones basadas en otros datos. Por ejemplo, si falta el timestamp de una activity, puedes estimarlo con tiempos de events cercanos.
Estrategias de imputación: Para datos críticos como timestamps o case IDs, usa técnicas de imputación como sustitución por media o modelos de regresión, o elimina casos donde no se pueda recuperar la información.

4. Normaliza los formatos de data

Un formato de data consistente es esencial para que la herramienta de Process Mining interprete el event log correctamente. Normalizar implica dar formato a los timestamps, estandarizar nombres de activity y asegurar estructuras uniformes de case ID.

Timestamps: Usa siempre el mismo formato de fecha/hora (ejemplo: YYYY-MM-DD HH:MM:SS). Si tienes varias zonas horarias, conviértelas a una sola o usa UTC para evitar errores. Aquí más información sobre los formatos de fecha admitidos
Nombres de activity: Las mismas activities pueden estar registradas con nombres distintos en cada sistema. Homogeneiza y unifica estos nombres (ejemplo: “Aprobar pedido” y “Pedido aprobado” deberían unirse).
Case IDs: Verifica que el case ID sea uniforme en todos los sistemas y que defina siempre una instancia única del proceso.

5. Elimina datos irrelevantes

No todas las activities o events en tu sistema serán relevantes para tu análisis. Por ejemplo, tareas de fondo o eventos no relacionados con el proceso pueden saturar el dataset.

Filtra eventos irrelevantes: Detecta y elimina activities que no aporten al proceso bajo análisis. Por ejemplo, logins de sistema o tareas administrativas no relacionadas pueden omitirse para que el MAP sea claro.
Enfócate en las activities clave: Usa el conocimiento del negocio para definir qué events son fundamentales para entender el proceso y enfoca el dataset en ellos.

6. Gestiona outliers y ruido

Los outliers o “ruido” pueden distorsionar tus resultados, mostrando un comportamiento del proceso que no es el habitual. Por ejemplo, una task que tomó mucho más tiempo de lo normal por un evento aislado puede sesgar tu análisis.

Identifica outliers: Usa métodos estadísticos para detectarlos (por ejemplo, tasks que duren mucho más que el promedio pueden ser outliers).
Decide si conservar o eliminar: Evalúa si los outliers aportan información útil (por ejemplo, fallos críticos del proceso) o si debes quitarlos para centrarte en el flow estándar del proceso.

7. Secuencia consistente de case y activity

Uno de los puntos más importantes en Process Mining es asegurar la secuencia correcta de los events. Si la data está desordenada, tu herramienta puede interpretar el flow del proceso de manera equivocada.

Revisa la secuencia de activities: Asegúrate de que las activities sigan un orden lógico según los timestamps. Por ejemplo, un event de “Pedido aprobado” nunca debe ir antes que “Pedido creado” en la misma instancia.
Ordena eventos por timestamp: Ordena la data de cada case usando el campo timestamp para que todos los events estén en el orden adecuado.

8. Crea un event log

Cuando la data esté limpia, formateada y consistente, genera el event log, que es el dataset principal para Process Mining. Este registro debe incluir:

Case ID: Identificador único de cada instancia del proceso.
Nombre de activity: El nombre de cada paso.
Timestamp: Momento exacto en que ocurre cada actividad, garantizando el orden de los events.
Campos opcionales: Según el análisis, puedes agregar datos como el recurso responsable, departamento o categoría del proceso.

9. Valida el dataset

Después de limpiar y estructurar la data, es clave validar el dataset para asegurarte de que representa realmente el proceso y está listo para el análisis.

Revisa algunos casos: Haz revisiones manuales de algunos casos para chequear que la data y la secuencia de events sean correctas.
Análisis de prueba: Si es posible, ejecuta un análisis de prueba en tu herramienta de Process Mining para detectar errores o inconsistencias.
Círculo de feedback: Trabaja con expertos del negocio para confirmar que el dataset refleja el verdadero comportamiento del proceso.

Herramientas para limpiar y preparar data

Existen varias herramientas que pueden automatizar la limpieza y preparación de data. Algunas opciones habituales:

Python/Pandas: Lenguaje y librería muy usados para manipulación y limpieza de data. Permiten crear scripts personalizados para eliminar duplicados, normalizar formatos y más.
Excel/Google Sheets: Útiles para datasets pequeños, ofrecen funciones para eliminar duplicados, filtrar filas irrelevantes y dar formato a columnas.
Herramientas ETL (Extract, Transform, Load): Soluciones como Talend, Informatica o Apache Nifi permiten automatizar la extracción, transformación y carga de data de distintos sistemas hacia tu herramienta de Process Mining.
OpenRefine: Herramienta open source y gratuita para limpiar datos complejos, eliminar duplicados y estandarizar formatos.

Conclusión

La limpieza y preparación de data son pasos clave en el ciclo de vida de Process Mining. Al asegurarte de que tus datasets estén completos, sean consistentes y precisos, puedes evitar análisis erróneos y obtener insights útiles sobre cómo funcionan realmente tus procesos. Siguiendo los pasos de este documento, como eliminar duplicados, completar datos faltantes, estandarizar formatos y crear un event log limpio, estarás listo para aprovechar al máximo tus iniciativas de Process Mining.