Nesta Página
Solução de Problemas de Dados
Problemas Comuns de Dados e Soluções
Ao preparar dados para Process Mining, podem surgir diversos problemas que afetam a precisão e qualidade da análise. Veja abaixo um guia de troubleshooting para ajudar você a identificar e resolver os principais problemas.
1. Registros Duplicados em Event Logs
Sintomas
- O mesmo evento aparece várias vezes para a mesma instância do processo (mesmo Case ID, Activity e Timestamp).
- Contagem muito alta de certas atividades ou eventos no mapa do processo.
Possíveis Causas
- Dados registrados mais de uma vez por problemas de integração de sistemas ou erros de logging.
- O processo de ingestão de dados repetiu eventos sem querer.
Solução
- Remover Duplicados: Use ferramentas de limpeza para identificar e eliminar registros duplicados. No Excel ou Google Sheets, use a função “Remover Duplicados”. Em bancos de dados, use queries SQL que eliminem repetições por Case ID, Activity e Timestamp.
- Filtrar Durante a Ingestão: Configure filtros na importação para garantir que apenas eventos únicos entrem no process mining.
2. Timestamps Ausentes
Sintomas
- Timestamps ausentes ou incompletos impedem sequenciamento preciso dos eventos.
- O MAP apresenta lacunas ou ligações faltando entre atividades.
Possíveis Causas
- Alguns sistemas não registram timestamp para cada atividade.
- Processos manuais ou tarefas não digitais sem registros de timestamp.
Solução
- Estimar Timestamps Ausentes: Se possível, estime os timestamps ausentes com base nos dados disponíveis (ex: média do tempo entre tarefas próximas).
- Complementar com Dados Manuais: Para tarefas manuais ou não digitais, preencha manualmente os timestamps usando estimativas ou outros registros.
- Imputação de Dados: Use técnicas de imputação, como prever timestamps ausentes por outros eventos da sequência ou duração média.
3. Case IDs Inconsistentes
Sintomas
- Eventos do mesmo processo ficam divididos entre diferentes Case IDs, fragmentando o modelo.
- Múltiplas representações da mesma instância, trazendo confusão e análise imprecisa.
Possíveis Causas
- Sistemas ou áreas usam convenções de nomes ou estruturas diferentes para Case IDs.
- Erros de digitação ou formatação inconsistente entre sistemas.
Solução
- Case ID Mapping: Crie uma estratégia de mapeamento de Case IDs para unificar os identificadores entre sistemas. Use plataformas ETL (Extract, Transform, Load) ou SQL para juntar e padronizar Case IDs.
- Use Ferramentas de Transformação de Dados: Se os Case IDs estão em formatos diferentes, utilize ferramentas de transformação para padronizar antes de importar.
4. Sequenciamento de Atividades Incorreto
Sintomas
- Eventos aparecem fora da ordem, com atividades finais antes das iniciais (ex: “Order Completed” antes de “Order Placed”).
- O MAP mostra fluxos ilógicos ou loops sem sentido.
Possíveis Causas
- Timestamps inseridos errado ou ausentes.
- Dados foram carregados sem ordem correta.
Solução
- Ordenar por Timestamp: Garanta que os eventos fiquem ordenados por timestamp, em ordem crescente, para cada Case ID. Use Excel, SQL ou Pandas (Python) para ordenar corretamente.
- Conferir Formato dos Timestamps: Verifique se todos estão no mesmo formato e fuso. Converta para um padrão, como ISO 8601 (
YYYY-MM-DD HH:MM:SS). - Validar Qualidade dos Dados: Revise manualmente alguns cases para checar a ordem e evitar erros de sequência.
5. Inconsistências de Dados Entre Sistemas
Sintomas
- Dados inconsistentes entre diferentes sistemas que contribuem para o mesmo processo.
- Eventos aparecem nos dados de um sistema, mas faltam em outro, gerando lacunas no mapa do processo.
Possíveis Causas
- Sistemas diferentes usam métricas, nomenclaturas ou formatos distintos para os mesmos eventos.
- Extração de dados incompleta ou integração parcial dos sistemas.
Solução
- Padronizar os Dados: Antes de importar, padronize como campos-chave (Case ID, Activity Name, Timestamps) são mostrados. Use ferramentas de transformação de dados para garantir uniformidade dos nomes e formatos.
- Unir Datasets com Cuidado: Use ETL para juntar dados de vários sistemas, mantendo a estrutura organizada. Padronize eventos, timestamps e IDs antes da união.
6. Grandes Volumes de Dados Gerando Problemas de Performance
Sintomas
- Desempenho lento ao carregar ou analisar grandes volumes de dados na ferramenta de process mining.
- O sistema trava ou apresenta timeout durante a importação dos dados.
Possíveis Causas
- O dataset tem muitos registros para o sistema processar bem.
- A ferramenta de Process Mining não suporta grande volume de dados de uma vez só.
Solução
- Data Sampling: Em vez de processar todo o dataset, use uma amostra representativa. Isso reduz o tamanho sem perder insights.
- Filtrar Eventos Desnecessários: Remova eventos irrelevantes ou de pouco valor (como logs do sistema) antes de carregar no process mining.
- Carga de Dados Incremental: Carregue dados em lotes menores e analise por partes.
7. Dados Irrelevantes ou Ruidosos
Sintomas
- O mapa do processo está cheio de eventos sem relação com o processo principal.
- Muitas variações pequenas dificultam identificar os principais insights.
Possíveis Causas
- Eventos de sistema em background, system logs ou tarefas não relacionadas foram capturados no dataset.
- Ruídos gerados por tarefas de baixa prioridade ou processos do sistema.
Solução
- Filtrar Eventos Desnecessários: Exclua eventos que não contribuem para o processo analisado. Exemplos: remova logs do sistema ou atividades fora do workflow do negócio.
- Agrupar Eventos de Baixo Nível: Se necessário, agrupe eventos de sistema em atividades de alto nível para simplificar o modelo e focar nas principais atividades.
8. Tratamento de Outliers
Sintomas
- O mapa do processo mostra variações extremas no tempo das tarefas ou alocação de recursos fora do normal.
- A análise fica distorcida por casos raros ou exceções.
Possíveis Causas
- Pontos fora da curva (outliers), como tarefas demoradas ou cases com padrões atípicos, estão no dataset.
- Edge cases ou incidentes raros impactam de forma desproporcional o MAP.
Solução
- Identificar Outliers: Use análise estatística para marcar outliers de acordo com duração das tarefas, uso de recursos ou outros indicadores.
- Decidir Incluir ou Excluir: Avalie se outliers trazem alguma informação relevante (ex: mostrar problemas raros) ou se devem ser removidos para focar no padrão. Se remover, documente a decisão.
9. Fusos Horários Desalinhados nos Dados
Sintomas
- Eventos em sequência parecem desalinhados devido a fusos horários diferentes.
- Cálculos de duração do processo ficam errados por inconsistências de fuso.
Possíveis Causas
- Dados de sistemas ou áreas diferentes podem usar fusos horários distintos, causando inconsistências nos timestamps.
- Os fusos não foram padronizados antes de importar os dados.
Solução
- Converter para Fuso Horário Padrão: Antes de importar os dados, converta todos os timestamps para um fuso igual (ex: UTC). Ferramentas como Excel e Python têm funções de conversão de fuso.
- Documentar Ajustes de Fuso: Registre o fuso-horário original de cada dataset e documente todas as conversões feitas.
10. Event Logs Desequilibrados
Sintomas
- Alguns casos têm poucos eventos, enquanto outros têm muitos, deixando o mapa do processo desequilibrado.
- Atividades ou casos específicos dominam a análise por causa da distribuição desigual dos dados.
Possíveis Causas
- Registro inconsistente de dados ou captação incompleta de eventos em certos cases.
- Viés nos dados, com algumas instâncias de processo super-representadas.
Solução
- Normalizar o Event Log: Garanta que cada instância de processo tenha o mesmo detalhamento. Se algum case não tiver eventos essenciais, tente preencher ou remova esses casos.
- Ponderar os Dados: Se precisar, aplique pesos para que casos super-representados não distorçam os resultados.
Conclusão
A qualidade dos dados é essencial no Process Mining. Identificar e corrigir problemas comuns garante análises precisas e insights acionáveis. Boas práticas de limpeza, preparação e validação evitam erros frequentes e aumentam os benefícios do process mining.