Resolução de Problemas de Dados

Questões Comuns de Dados e Soluções

Ao preparar dados para Process Mining, várias questões comuns podem ocorrer e impactar a precisão e qualidade da análise. Abaixo, um guia de solução de problemas para ajudar na identificação e resolução dessas questões.


1. Registros Duplicados nos Logs de Eventos

Sintomas:
  • O mesmo evento aparece várias vezes para a mesma instância de processo (mesmo Case ID, Activity e Timestamp).
  • Contagens incomumente altas de certas atividades ou eventos no mapa de processo.
Causas Possíveis:
  • Dados foram registrados várias vezes devido a problemas de integração de sistema ou erros de log.
  • O processo de ingestão de dados repetiu eventos não intencionalmente.
Solução:
  • Remover Duplicados: Use ferramentas de limpeza de dados para identificar e remover entradas duplicadas. No Excel ou Google Sheets, use a função “Remover Duplicados”, ou se usar um banco de dados, escreva queries SQL que removem entradas repetidas com base no ID do Caso, Atividade e Timestamp.
  • Filtrar Durante a Ingestão: Ao ingerir dados, configure filtros para garantir que apenas eventos únicos sejam importados para a ferramenta de Process Mining.

2. Timestamps Ausentes

Sintomas:
  • Timestamps incompletos ou ausentes impedem o sequenciamento preciso dos eventos.
  • O Mapa de Processo mostra lacunas ou conexões ausentes entre atividades.
Causas Possíveis:
  • Alguns sistemas não registram timestamps para cada atividade.
  • Processos manuais ou tarefas não-digitais que não são rastreadas com um timestamp.
Solução:
  • Estimar Timestamps Ausentes: Se possível, estime os timestamps ausentes com base em pontos de dados conhecidos (e.g., assumir que uma tarefa levou o tempo médio entre tarefas anteriores e subsequentes).
  • Complementar com Dados Manuais: Para tarefas manuais ou não-digitais, insira os timestamps manualmente com base em estimativas ou logs de outras fontes.
  • Imputação de Dados: Use técnicas de imputação de dados, como prever timestamps ausentes com base em outros eventos na sequência ou duração média do processo.

3. IDs de Casos Inconsistentes

Sintomas:
  • Eventos que pertencem à mesma instância de processo estão divididos entre diferentes IDs de Caso, levando à fragmentação do modelo de processo.
  • Múltiplas representações da mesma instância de processo, causando confusão e análise imprecisa.
Causas Possíveis:
  • Diferentes sistemas ou departamentos utilizam convenções de nomenclatura ou estruturas variadas para IDs de Casos.
  • Erros de entrada de dados ou formatação inconsistente entre sistemas.
Solução:
  • Mapeamento de ID de Caso: Desenvolva uma estratégia para unificar identificadores de casos entre sistemas. Use ferramentas como plataformas ETL (Extract, Transform, Load) ou SQL para mesclar e padronizar IDs de Caso.
  • Use Ferramentas de Transformação de Dados: Se IDs de Caso tiverem formatos diferentes, use ferramentas de transformação para convertê-los em um formato consistente antes de ingerir os dados.

4. Sequenciamento de Atividades Incorreto

Sintomas:
  • Eventos aparecem fora de ordem, com atividades posteriores aparecendo antes das anteriores (e.g., “Pedido Concluído” antes de “Pedido Feito”).
  • O Mapa de Processo exibe fluxos sem sentido ou loops.
Causas Possíveis:
  • Timestamps foram inseridos incorretamente ou estão ausentes.
  • Dados foram ingeridos sem a ordenação adequada.
Solução:
  • Ordenar por Timestamp: Garanta que os eventos estejam ordenados por seus timestamps em ordem ascendente para cada ID de Caso. Use ferramentas como Excel, SQL ou Pandas (Python) para ordenar os dados corretamente.
  • Verificar Formatos de Timestamp: Verifique se todos os timestamps estão no mesmo formato e fuso horário. Converta todos os timestamps para um formato comum, como ISO 8601 (YYYY-MM-DD HH:MM:SS).
  • Validar a Qualidade dos Dados: Verifique alguns casos manualmente para garantir que os eventos estão na ordem correta e que não ocorreram erros de sequenciamento durante a entrada ou ingestão dos dados.

5. Inconsistência de Dados Entre Sistemas

Sintomas:
  • Dados incompatíveis em diferentes sistemas que contribuem para o mesmo processo.
  • Eventos aparecem nos dados de um sistema, mas estão ausentes em outro, levando a lacunas no Mapa de Processo.
Causas Possíveis:
  • Diferentes sistemas usam métricas, convenções de nomenclatura ou formatos diferentes para os mesmos eventos.
  • Extração de dados incompleta ou integração de sistema parcial.
Solução:
  • Padronizar Dados: Antes da ingestão, padronize como os campos principais (e.g., ID do Caso, Nome da Atividade e Timestamps) são representados em diferentes sistemas. Use ferramentas de transformação de dados para garantir consistência em nomes de campos e formatos.
  • Combine Conjuntos de Dados Cuidadosamente: Use ferramentas ETL para unir dados de múltiplos sistemas e garantir que o conjunto de dados combinado tenha uma estrutura coerente. Garanta consistência nos nomes dos eventos, timestamps e IDs de caso antes de combinar conjuntos de dados.

6. Grandes Volumes de Dados Causando Problemas de Performance

Sintomas:
  • Desempenho lento ao carregar ou analisar grandes conjuntos de dados na ferramenta de Process Mining.
  • Falhas no sistema ou timeouts durante a ingestão de dados.
Causas Possíveis:
  • O conjunto de dados contém muitos registros para o sistema lidar eficientemente.
  • A ferramenta de process mining não consegue processar grandes volumes de dados de uma só vez.
Solução:
  • Amostragem de Dados: Em vez de processar todo o conjunto de dados, use uma amostra representativa. Isso pode reduzir o tamanho, mas ainda fornecer informações valiosas.
  • Filtrar Eventos Desnecessários: Remova eventos de baixo valor ou irrelevantes (como entradas de log do sistema) antes de carregar os dados na ferramenta de process mining.
  • Carregamento Incremental de Dados: Em vez de ingerir todos os dados de uma vez, carregue pequenos blocos de dados incrementalmente e analise-os separadamente.

7. Dados Irrelevantes ou Barulhentos

Sintomas:
  • O Mapa de Processo está cheio de eventos não relacionados ao processo principal.
  • Muitas variações insignificantes dificultam o foco em insights chave.
Causas Possíveis:
  • Eventos de sistema em segundo plano, logs do sistema ou tarefas não relacionadas são capturados no conjunto de dados.
  • Ruído de tarefas de baixa prioridade ou processos de sistema.
Solução:
  • Filtrar Eventos Desnecessários: Exclua eventos irrelevantes que não contribuem para o processo analisado. Por exemplo, remova eventos de log do sistema ou atividades fora do fluxo de trabalho do negócio.
  • Agrupar Eventos de Nível Baixo: Se necessário, agrupe ou agregue eventos de sistema de nível baixo em atividades de nível mais alto para simplificar o modelo de processo e focar nas atividades principais.

8. Tratamento de Outliers

Sintomas:
  • O Mapa de Processo mostra variações extremas na duração das tarefas ou alocação de recursos que não correspondem ao desempenho típico.
  • A análise é distorcida por casos raros ou excepcionais.
Causas Possíveis:
  • Pontos de dados outliers (e.g., tarefas que demoraram muito ou casos com padrões anormais) estão presentes no conjunto de dados.
  • Casos extremos ou incidentes raros afetam desproporcionalmente o process map.
Solução:
  • Identificar Outliers: Use análise estatística para detectar e sinalizar outliers com base na duração das tarefas, uso de recursos ou outras métricas.
  • Decidir Incluir ou Excluir: Avalie se esses outliers fornecem insights úteis (e.g., identificando problemas raros, mas críticos) ou devem ser excluídos para focar nos processos padrão. Se excluir, documente a decisão para garantir clareza.

9. Fusos Horários Desalinhados nos Dados

Sintomas:
  • Eventos que ocorrem em sequência parecem estar desalinhados devido a diferentes configurações de fuso horário.
  • Os cálculos de duração do processo estão incorretos devido a inconsistências de fuso horário.
Causas Possíveis:
  • Dados de diferentes sistemas ou departamentos podem usar fusos horários diferentes, levando a dados de timestamp inconsistentes.
  • Fusos horários não foram padronizados antes da ingestão dos dados.
Solução:
  • Converter para um Fuso Horário Comum: Antes de importar dados, converta todos os timestamps para um fuso horário consistente (e.g., UTC). Muitas ferramentas, incluindo Excel e Python, oferecem funções de conversão de fuso horário.
  • Documente Ajustes de Fuso Horário: Mantenha um registro do fuso horário original de cada conjunto de dados e documente todas as conversões realizadas.

10. Logs de Eventos Desequilibrados

Sintomas:
  • Alguns casos têm poucos eventos, enquanto outros têm muitos, levando a um Mapa de Processo desequilibrado.
  • Certas atividades ou casos dominam a análise devido à distribuição desigual dos dados.
Causas Possíveis:
  • Registro de dados inconsistente ou captura incompleta de eventos para certos casos.
  • Um desvio nos dados onde algumas instâncias de processo estão super-representadas.
Solução:
  • Normalizar o Log de Eventos: Certifique-se de que cada instância de processo tenha um nível de detalhe semelhante. Se certos casos estão faltando eventos-chave, investigue a causa e tente preencher as lacunas manualmente ou remova esses casos da análise.
  • Ponderar os Dados: Se necessário, pondere os eventos ou casos para garantir que casos super-representados não afetem desproporcionalmente a análise.

Conclusão

A qualidade dos dados é essencial para o sucesso do Process Mining. Identificando e abordando essas questões comuns, você garante que sua análise forneça insights precisos e acionáveis. Implementar melhores práticas de limpeza, preparação e validação dos dados ajuda a evitar armadilhas comuns e a obter o máximo do uso do Process Mining.