Lista de Documentos
Nesta Página

Solução de Problemas de Dados

Problemas Comuns de Dados e Soluções

Ao preparar dados para Process Mining, podem surgir diversos problemas que afetam a precisão e qualidade da análise. Veja abaixo um guia de troubleshooting para ajudar você a identificar e resolver os principais problemas.


1. Registros Duplicados em Event Logs

Sintomas

  • O mesmo evento aparece várias vezes para a mesma instância do processo (mesmo Case ID, Activity e Timestamp).
  • Contagem muito alta de certas atividades ou eventos no mapa do processo.

Possíveis Causas

  • Dados registrados mais de uma vez por problemas de integração de sistemas ou erros de logging.
  • O processo de ingestão de dados repetiu eventos sem querer.

Solução

  • Remover Duplicados: Use ferramentas de limpeza para identificar e eliminar registros duplicados. No Excel ou Google Sheets, use a função “Remover Duplicados”. Em bancos de dados, use queries SQL que eliminem repetições por Case ID, Activity e Timestamp.
  • Filtrar Durante a Ingestão: Configure filtros na importação para garantir que apenas eventos únicos entrem no process mining.

2. Timestamps Ausentes

Sintomas

  • Timestamps ausentes ou incompletos impedem sequenciamento preciso dos eventos.
  • O MAP apresenta lacunas ou ligações faltando entre atividades.

Possíveis Causas

  • Alguns sistemas não registram timestamp para cada atividade.
  • Processos manuais ou tarefas não digitais sem registros de timestamp.

Solução

  • Estimar Timestamps Ausentes: Se possível, estime os timestamps ausentes com base nos dados disponíveis (ex: média do tempo entre tarefas próximas).
  • Complementar com Dados Manuais: Para tarefas manuais ou não digitais, preencha manualmente os timestamps usando estimativas ou outros registros.
  • Imputação de Dados: Use técnicas de imputação, como prever timestamps ausentes por outros eventos da sequência ou duração média.

3. Case IDs Inconsistentes

Sintomas

  • Eventos do mesmo processo ficam divididos entre diferentes Case IDs, fragmentando o modelo.
  • Múltiplas representações da mesma instância, trazendo confusão e análise imprecisa.

Possíveis Causas

  • Sistemas ou áreas usam convenções de nomes ou estruturas diferentes para Case IDs.
  • Erros de digitação ou formatação inconsistente entre sistemas.

Solução

  • Case ID Mapping: Crie uma estratégia de mapeamento de Case IDs para unificar os identificadores entre sistemas. Use plataformas ETL (Extract, Transform, Load) ou SQL para juntar e padronizar Case IDs.
  • Use Ferramentas de Transformação de Dados: Se os Case IDs estão em formatos diferentes, utilize ferramentas de transformação para padronizar antes de importar.

4. Sequenciamento de Atividades Incorreto

Sintomas

  • Eventos aparecem fora da ordem, com atividades finais antes das iniciais (ex: “Order Completed” antes de “Order Placed”).
  • O MAP mostra fluxos ilógicos ou loops sem sentido.

Possíveis Causas

  • Timestamps inseridos errado ou ausentes.
  • Dados foram carregados sem ordem correta.

Solução

  • Ordenar por Timestamp: Garanta que os eventos fiquem ordenados por timestamp, em ordem crescente, para cada Case ID. Use Excel, SQL ou Pandas (Python) para ordenar corretamente.
  • Conferir Formato dos Timestamps: Verifique se todos estão no mesmo formato e fuso. Converta para um padrão, como ISO 8601 (YYYY-MM-DD HH:MM:SS).
  • Validar Qualidade dos Dados: Revise manualmente alguns cases para checar a ordem e evitar erros de sequência.

5. Inconsistências de Dados Entre Sistemas

Sintomas

  • Dados inconsistentes entre diferentes sistemas que contribuem para o mesmo processo.
  • Eventos aparecem nos dados de um sistema, mas faltam em outro, gerando lacunas no mapa do processo.

Possíveis Causas

  • Sistemas diferentes usam métricas, nomenclaturas ou formatos distintos para os mesmos eventos.
  • Extração de dados incompleta ou integração parcial dos sistemas.

Solução

  • Padronizar os Dados: Antes de importar, padronize como campos-chave (Case ID, Activity Name, Timestamps) são mostrados. Use ferramentas de transformação de dados para garantir uniformidade dos nomes e formatos.
  • Unir Datasets com Cuidado: Use ETL para juntar dados de vários sistemas, mantendo a estrutura organizada. Padronize eventos, timestamps e IDs antes da união.

6. Grandes Volumes de Dados Gerando Problemas de Performance

Sintomas

  • Desempenho lento ao carregar ou analisar grandes volumes de dados na ferramenta de process mining.
  • O sistema trava ou apresenta timeout durante a importação dos dados.

Possíveis Causas

  • O dataset tem muitos registros para o sistema processar bem.
  • A ferramenta de Process Mining não suporta grande volume de dados de uma vez só.

Solução

  • Data Sampling: Em vez de processar todo o dataset, use uma amostra representativa. Isso reduz o tamanho sem perder insights.
  • Filtrar Eventos Desnecessários: Remova eventos irrelevantes ou de pouco valor (como logs do sistema) antes de carregar no process mining.
  • Carga de Dados Incremental: Carregue dados em lotes menores e analise por partes.

7. Dados Irrelevantes ou Ruidosos

Sintomas

  • O mapa do processo está cheio de eventos sem relação com o processo principal.
  • Muitas variações pequenas dificultam identificar os principais insights.

Possíveis Causas

  • Eventos de sistema em background, system logs ou tarefas não relacionadas foram capturados no dataset.
  • Ruídos gerados por tarefas de baixa prioridade ou processos do sistema.

Solução

  • Filtrar Eventos Desnecessários: Exclua eventos que não contribuem para o processo analisado. Exemplos: remova logs do sistema ou atividades fora do workflow do negócio.
  • Agrupar Eventos de Baixo Nível: Se necessário, agrupe eventos de sistema em atividades de alto nível para simplificar o modelo e focar nas principais atividades.

8. Tratamento de Outliers

Sintomas

  • O mapa do processo mostra variações extremas no tempo das tarefas ou alocação de recursos fora do normal.
  • A análise fica distorcida por casos raros ou exceções.

Possíveis Causas

  • Pontos fora da curva (outliers), como tarefas demoradas ou cases com padrões atípicos, estão no dataset.
  • Edge cases ou incidentes raros impactam de forma desproporcional o MAP.

Solução

  • Identificar Outliers: Use análise estatística para marcar outliers de acordo com duração das tarefas, uso de recursos ou outros indicadores.
  • Decidir Incluir ou Excluir: Avalie se outliers trazem alguma informação relevante (ex: mostrar problemas raros) ou se devem ser removidos para focar no padrão. Se remover, documente a decisão.

9. Fusos Horários Desalinhados nos Dados

Sintomas

  • Eventos em sequência parecem desalinhados devido a fusos horários diferentes.
  • Cálculos de duração do processo ficam errados por inconsistências de fuso.

Possíveis Causas

  • Dados de sistemas ou áreas diferentes podem usar fusos horários distintos, causando inconsistências nos timestamps.
  • Os fusos não foram padronizados antes de importar os dados.

Solução

  • Converter para Fuso Horário Padrão: Antes de importar os dados, converta todos os timestamps para um fuso igual (ex: UTC). Ferramentas como Excel e Python têm funções de conversão de fuso.
  • Documentar Ajustes de Fuso: Registre o fuso-horário original de cada dataset e documente todas as conversões feitas.

10. Event Logs Desequilibrados

Sintomas

  • Alguns casos têm poucos eventos, enquanto outros têm muitos, deixando o mapa do processo desequilibrado.
  • Atividades ou casos específicos dominam a análise por causa da distribuição desigual dos dados.

Possíveis Causas

  • Registro inconsistente de dados ou captação incompleta de eventos em certos cases.
  • Viés nos dados, com algumas instâncias de processo super-representadas.

Solução

  • Normalizar o Event Log: Garanta que cada instância de processo tenha o mesmo detalhamento. Se algum case não tiver eventos essenciais, tente preencher ou remova esses casos.
  • Ponderar os Dados: Se precisar, aplique pesos para que casos super-representados não distorçam os resultados.

Conclusão

A qualidade dos dados é essencial no Process Mining. Identificar e corrigir problemas comuns garante análises precisas e insights acionáveis. Boas práticas de limpeza, preparação e validação evitam erros frequentes e aumentam os benefícios do process mining.