Bu Sayfada

Veri Sorunlarını Giderme

Sık Karşılaşılan Data Sorunları ve Çözümleri

Process Mining için data hazırlarken, analiz doğruluğu ve kalitesini etkileyebilecek sıkça rastlanan data kaynaklı sorunlarla karşılaşabilirsiniz. Aşağıda bu sorunların tespiti ve çözümü için kısa bir rehber bulabilirsiniz.


1. Event Log’larda Çift Kayıtlar

Belirtiler

  • Aynı process instance için (aynı Case ID, Activity ve zaman damgası (zaman damgası)‘te) aynı event birden fazla kez görülebilir.
  • Process map’te bazı activity ya da event’lerde alışılmadık derecede yüksek sayılar olabilir.

Olası Nedenler

  • Sistem entegrasyon sorunları veya loglama hatalarından dolayı data birden fazla kez kaydedilmiş olabilir.
  • Data yüklemesi sırasında event’ler istenmeden tekrar edilmiş olabilir.

Çözüm

  • Çift Kayıtları Temizleyin: Data temizleme araçlarıyla tekrar eden kayıtları bulun ve silin. Excel/Google Sheets’de “Remove Çoğalts”, veritabanında ise Case ID, Aktivite, zaman damgası (zaman damgası)’e göre SQL ile tekrarı silin.
  • Yükleme Sırasında Filtrele: Data ingest sırasında, sadece benzersiz olayların Process Mining aracına aktarılmasını sağlayan filtreleri etkinleştirin.

2. Eksik zaman damgası (zaman damgası)’ler

Belirtiler

  • Eksik ya da hatalı zaman damgaları olayların doğru sıralanmasını engeller.
  • Süreç Haritası’te aktiviteler arasında eksik bağlantılar veya boşluklar oluşur.

Olası Nedenler

  • Bazı sistemler her aktivite için zaman damgası (zaman damgası) kaydetmeyebilir.
  • Manuel veya dijital olmayan süreçler zaman damgası (zaman damgası) ile takip edilmiyor olabilir.

Çözüm

  • Eksik zaman damgası (zaman damgası)’leri Tahmin Edin: Mümkünse, eksik zaman damgalarıi bilinen noktalardan (örn. önceki ve sonraki task’lerin ortalamasını) tahmin edin.
  • Manuel Data ile Tamamlayın: Manuel ya da dijital olmayan işlerde, diğer kaynaklardaki loglara veya tahminlere göre zaman damgalarıi elle ekleyin.
  • Data İmputasyonu: Sıralamadaki diğer olayları veya ortalama süreç süresini baz alarak eksik zaman damgalarıi tahmin etmek için data imputation kullanın.

3. Tutarsız Case ID’ler

Belirtiler

  • Aynı process instance’a ait event’ler farklı Case ID’lerde görünüyor, bu da sürecin bölünmesine yol açıyor.
  • Aynı instance için birden fazla temsil oluştuğu için analizler hatalı ve karışık olabiliyor.

Olası Nedenler

  • Farklı sistem veya departmanlar Case ID için farklı adlandırmalar ya da yapılar kullanıyor olabilir.
  • Data giriş hataları veya sistemler arası format uyumsuzlukları olabilir.

Çözüm

  • Case ID Mapping: Sistemler arası Case ID’leri standartlaştırmak için mapping stratejisi oluşturun. ETL platformları veya SQL kullanarak Case ID’leri birleştirip standart hale getirin.
  • Data Dönüşümü Araçları: Eğer Case ID’ler farklı formatlarda ise, ingest öncesi dönüşüm araçları ile tutarlı bir formata çevirin.

4. Yanlış Aktivite Sıralaması

Belirtiler

  • Event’ler yanlış sırada; örneğin “Order Completed”, “Order Placed”’dan önce gelmiş olabilir.
  • Süreç Haritası’te anlamsız akışlar ve döngüler gözüküyor.

Olası Nedenler

  • zaman damgası (zaman damgası)’ler yanlış girilmiş veya eksik olabilir.
  • Data, sırasız şekilde yüklenmiş olabilir.

Çözüm

  • zaman damgası (zaman damgası)’e Göre Sırala: Her Case ID için event’ler, zaman damgası (zaman damgası)’e göre artan şekilde sıralanmalı. Bunun için Excel, SQL ya da Pandas (Python) kullanabilirsiniz.
  • zaman damgası (zaman damgası) Formatlarını Kontrol Edin: Tüm zaman damgalarıin aynı format ve zaman diliminde olduğundan emin olun. Gerekirse ISO 8601 (YYYY-MM-DD HH:MM:SS) gibi ortak bir formata çevirin.
  • Data Kalitesini Doğrulayın: Bazı örnekleri elle kontrol edip doğru sırada olduklarını ve yükleme sırasında hata olmadığını teyit edin.

5. Sistemler Arası Data Tutarsızlığı

Belirtiler

  • Aynı sürece katkıda bulunan farklı sistemler arasında uyumsuz data bulunur.
  • Bir sistemde görünen event, başka bir sistemde eksik olabilir ve bu process map’te boşluklara yol açar.

Olası Nedenler

  • Aynı event’ler farklı sistemlerde farklı metrik, adlandırma ya da formattayla alınmış olabilir.
  • Eksik data çıkarımı veya kısmen yapılan sistem entegrasyonu olabilir.

Çözüm

  • Dataları Standartlaştırın: Yükleme öncesi önemli alanlar (örn. Case ID, Aktivite Adı, zaman damgası (zaman damgası)) için tüm sistemlerde aynı yapıyı kullanın. İsim ve format tutarlılığı için data dönüşüm araçları kullanın.
  • Datasetleri Dikkatli Birleştirin: Birden fazla sistemden gelen veri ETL araçlarıyla birleştirildiğinde tek tip yapı olmalı. Event isimleri, zaman damgası (zaman damgası) ve Case ID’de tutarlılığı birleştirme öncesi sağlayın.

6. Büyük Data Hacmi Kaynaklı Performans Sorunları

Belirtiler

  • Process Mining tool’da büyük dataset yüklenirken veya analiz edilirken yavaş performans yaşanır.
  • Data yüklemesi sırasında sistem çökmesi veya zaman aşımı olur.

Olası Nedenler

  • Dataset, sistemin verimli işleyebileceğinden fazla kayıt içeriyor olabilir.
  • Process Mining aracı tek seferde yüksek data hacmini işleyemeyebilir.

Çözüm

  • Veri Örnekleme: Tüm datayı işlemek yerine, temsili bir örneklem kullanın. Böylece veri boyutunu düşürüp analiz kazanabilirsiniz.
  • Gereksiz Eventleri Filtreleyin: Sistem log’ları gibi işe yaramayan olayları Process Mining aracına yüklemeden ayıklayın.
  • Artımlı Yükleme: Tüm veriyi tek seferde yüklemeyip, küçük parçalar halinde yükleyip ayrı inceleyin.

7. İlgisiz veya Gürültülü Data

Belirtiler

  • Process map, ana sürece ait olmayan event’lerle doludur.
  • Çok fazla önemsiz varyasyon, ana stratejik bilgilere odaklanmayı zorlaştırır.

Olası Nedenler

  • Arka plan sistem olayları, loglar veya süreçle ilgili olmayan task’lar datada yer almış olabilir.
  • Düşük öncelikli task’lar veya sistem süreçleri nedeniyle gürültü oluşmuş olabilir.

Çözüm

  • Gereksiz Event’leri Filtreleyin: Analiz edilen süreci ilgilendirmeyen olayları çıkarın. Örneğin, sistem log olayları veya iş sürecinin parçası olmayan aktiviteleri temizleyin.
  • Düşük Seviyeli Event’leri Gruplayın: Çok detaylı sistem olaylarıni gerekirse ana aktivitelerle gruplandırıp süreci sadeleştirin.

8. Aykırı Veriler (Outlier) ile Başa Çıkma

Belirtiler

  • Process map’te task sürelerinde veya kaynak dağılımında alışılmadık değişiklikler görülür.
  • Analiz, nadir ya da istisnai case’ler tarafından yanıltılabilir.

Olası Nedenler

  • Dataset’te, çok uzun süren task’lar veya olağan dışı modellere sahip case’ler gibi outlier veri noktaları bulunabilir.
  • Nadir durumlar, process haritasını gereğinden fazla etkileyebilir.

Çözüm

  • Outlier’ları Tespit Edin: Görev süresi, kaynak kullanımı gibi metriklerle istatistiksel analiz uygulayın ve outlier’ları belirleyin.
  • Dahil Edip Etmeye Karar Verin: Outlier’ların faydalı önemli bilgi sunup sunmadığına veya analiz dışında bırakılıp bırakılmayacağına karar verin. Hariç tutarsanız kararı mutlaka kaydedin.

9. Datada Zaman Dilimi Uyumsuzlukları

Belirtiler

  • Sıralı event’ler, farklı zaman dilimi ayarlarından dolayı yanlış görünüyor.
  • Zaman dilimi uyumsuzlukları süreç süresi hesaplarında hata yaratıyor.

Olası Nedenler

  • Farklı sistem veya departmanlardan gelen data farklı zaman dilimi kullanıyor olabilir ve bu zaman damgası (zaman damgası) tutarsızlığına yol açar.
  • Data yükleme öncesi zaman dilimi standardı uygulanmamış olabilir.

Çözüm

  • Hepsini Ortak Zaman Dilimine Çevirin: Data yüklemeden önce tüm zaman damgalarıi tek bir zaman diliminde (örn. UTC) birleştirin. Excel, Python ve benzeri araçlar zaman dilimi dönüşümünü destekler.
  • Değişiklikleri Kaydedin: Her veri setinin orijinal zaman dilimini ve yaptığınız dönüşümleri mutlaka kaydedin.

10. Dengesiz Event Log’lar

Belirtiler

  • Bazı case’lerde çok az, bazılarında ise çok fazla event olması dengesiz bir process map’e sebep olur.
  • Düzensiz data dağılımı nedeniyle bazı activity veya case’ler analizde baskın hale gelir.

Olası Nedenler

  • Bazı case’lerde tutarsız veri kaydı veya olayların eksik olması.
  • Bazı process instance’ların datada fazla temsil edilmesi.

Çözüm

  • Event Log’u Normalize Edin: Her process instance’ın benzer detay seviyesine sahip olmasına dikkat edin. Eksik önemli event’ler varsa nedenini araştırın, gerekiyorsa elle düzeltin ya da o case’leri analiz dışı bırakın.
  • Veriyi Ağırlıklandırın: Gerekirse, aşırı temsil edilen case veya olayların analizi bozmasını önlemek için ağırlıklandırma yapın.

Sonuç

Process Mining’de başarılı olmak için data kalitesi büyük önem taşır. Yaygın data sorunlarını tespit edip çözdüğünüzde, analizlerinizden doğru ve aksiyona dönebilen stratejik bilgiler elde edebilirsiniz. Veri temizliği, hazırlık ve validasyon için en iyi uygulamaları kullanmak, sık yapılan hatalardan kaçınmanızı sunar ve Process Mining’den en yüksek faydayı almanıza yardımcı olur.