Doküman Listesi
Bu Sayfada

Veri Sorunlarını Giderme

Sık Karşılaşılan Data Sorunları ve Çözümleri

Process Mining için data hazırlarken, analiz doğruluğu ve kalitesini etkileyebilecek sıkça rastlanan data kaynaklı sorunlarla karşılaşabilirsiniz. Aşağıda bu sorunların tespiti ve çözümü için kısa bir rehber bulabilirsiniz.


1. Event Log’larda Çift Kayıtlar

Belirtiler

  • Aynı process instance için (aynı Case ID, Activity ve Timestamp’te) aynı event birden fazla kez görülebilir.
  • Process map’te bazı activity ya da event’lerde alışılmadık derecede yüksek sayılar olabilir.

Olası Nedenler

  • Sistem entegrasyon sorunları veya loglama hatalarından dolayı data birden fazla kez kaydedilmiş olabilir.
  • Data yüklemesi sırasında event’ler istenmeden tekrar edilmiş olabilir.

Çözüm

  • Çift Kayıtları Temizleyin: Data temizleme araçlarıyla tekrar eden kayıtları bulun ve silin. Excel/Google Sheets’de “Remove Duplicates”, veritabanında ise Case ID, Aktivite, Timestamp’e göre SQL ile tekrarı silin.
  • Yükleme Sırasında Filtrele: Data ingest sırasında, sadece benzersiz event’lerin Process Mining aracına aktarılmasını sağlayan filtreleri etkinleştirin.

2. Eksik Timestamp’ler

Belirtiler

  • Eksik ya da hatalı timestamp’ler event’lerin doğru sıralanmasını engeller.
  • Process Map’te aktiviteler arasında eksik bağlantılar veya boşluklar oluşur.

Olası Nedenler

  • Bazı sistemler her aktivite için timestamp kaydetmeyebilir.
  • Manuel veya dijital olmayan süreçler timestamp ile takip edilmiyor olabilir.

Çözüm

  • Eksik Timestamp’leri Tahmin Edin: Mümkünse, eksik timestamp’leri bilinen noktalardan (örn. önceki ve sonraki task’lerin ortalamasını) tahmin edin.
  • Manuel Data ile Tamamlayın: Manuel ya da dijital olmayan işlerde, diğer kaynaklardaki loglara veya tahminlere göre timestamp’leri elle ekleyin.
  • Data İmputasyonu: Sıralamadaki diğer event’leri veya ortalama süreç süresini baz alarak eksik timestamp’leri tahmin etmek için data imputation kullanın.

3. Tutarsız Case ID’ler

Belirtiler

  • Aynı process instance’a ait event’ler farklı Case ID’lerde görünüyor, bu da sürecin bölünmesine yol açıyor.
  • Aynı instance için birden fazla temsil oluştuğu için analizler hatalı ve karışık olabiliyor.

Olası Nedenler

  • Farklı sistem veya departmanlar Case ID için farklı adlandırmalar ya da yapılar kullanıyor olabilir.
  • Data giriş hataları veya sistemler arası format uyumsuzlukları olabilir.

Çözüm

  • Case ID Mapping: Sistemler arası Case ID’leri standartlaştırmak için mapping stratejisi oluşturun. ETL platformları veya SQL kullanarak Case ID’leri birleştirip standart hale getirin.
  • Data Dönüşümü Araçları: Eğer Case ID’ler farklı formatlarda ise, ingest öncesi dönüşüm araçları ile tutarlı bir formata çevirin.

4. Yanlış Aktivite Sıralaması

Belirtiler

  • Event’ler yanlış sırada; örneğin “Order Completed”, “Order Placed”’dan önce gelmiş olabilir.
  • Process Map’te anlamsız akışlar ve döngüler gözüküyor.

Olası Nedenler

  • Timestamp’ler yanlış girilmiş veya eksik olabilir.
  • Data, sırasız şekilde yüklenmiş olabilir.

Çözüm

  • Timestamp’e Göre Sırala: Her Case ID için event’ler, timestamp’e göre artan şekilde sıralanmalı. Bunun için Excel, SQL ya da Pandas (Python) kullanabilirsiniz.
  • Timestamp Formatlarını Kontrol Edin: Tüm timestamp’lerin aynı format ve zaman diliminde olduğundan emin olun. Gerekirse ISO 8601 (YYYY-MM-DD HH:MM:SS) gibi ortak bir formata çevirin.
  • Data Kalitesini Doğrulayın: Bazı örnekleri elle kontrol edip doğru sırada olduklarını ve yükleme sırasında hata olmadığını teyit edin.

5. Sistemler Arası Data Tutarsızlığı

Belirtiler

  • Aynı sürece katkıda bulunan farklı sistemler arasında uyumsuz data bulunur.
  • Bir sistemde görünen event, başka bir sistemde eksik olabilir ve bu process map’te boşluklara yol açar.

Olası Nedenler

  • Aynı event’ler farklı sistemlerde farklı metrik, adlandırma ya da formattayla alınmış olabilir.
  • Eksik data çıkarımı veya kısmen yapılan sistem entegrasyonu olabilir.

Çözüm

  • Dataları Standartlaştırın: Yükleme öncesi önemli alanlar (örn. Case ID, Aktivite Adı, Timestamp) için tüm sistemlerde aynı yapıyı kullanın. İsim ve format tutarlılığı için data dönüşüm araçları kullanın.
  • Datasetleri Dikkatli Birleştirin: Birden fazla sistemden gelen veri ETL araçlarıyla birleştirildiğinde tek tip yapı olmalı. Event isimleri, timestamp ve Case ID’de tutarlılığı birleştirme öncesi sağlayın.

6. Büyük Data Hacmi Kaynaklı Performans Sorunları

Belirtiler

  • Process Mining tool’da büyük dataset yüklenirken veya analiz edilirken yavaş performans yaşanır.
  • Data yüklemesi sırasında sistem çökmesi veya zaman aşımı olur.

Olası Nedenler

  • Dataset, sistemin verimli işleyebileceğinden fazla kayıt içeriyor olabilir.
  • Process Mining aracı tek seferde yüksek data hacmini işleyemeyebilir.

Çözüm

  • Data Sampling: Tüm datayı işlemek yerine, temsili bir örneklem kullanın. Böylece veri boyutunu düşürüp analiz kazanabilirsiniz.
  • Gereksiz Eventleri Filtreleyin: Sistem log’ları gibi işe yaramayan event’leri Process Mining aracına yüklemeden ayıklayın.
  • Artımlı Yükleme: Tüm veriyi tek seferde yüklemeyip, küçük parçalar halinde yükleyip ayrı inceleyin.

7. İlgisiz veya Gürültülü Data

Belirtiler

  • Process map, ana sürece ait olmayan event’lerle doludur.
  • Çok fazla önemsiz varyasyon, ana içgörülere odaklanmayı zorlaştırır.

Olası Nedenler

  • Arka plan sistem event’leri, loglar veya süreçle ilgili olmayan task’lar datada yer almış olabilir.
  • Düşük öncelikli task’lar veya sistem process’leri nedeniyle gürültü oluşmuş olabilir.

Çözüm

  • Gereksiz Event’leri Filtreleyin: Analiz edilen süreci ilgilendirmeyen event’leri çıkarın. Örneğin, sistem log event’leri veya iş sürecinin parçası olmayan aktiviteleri temizleyin.
  • Düşük Seviyeli Event’leri Gruplayın: Çok detaylı sistem event’lerini gerekirse ana aktivitelerle gruplandırıp süreci sadeleştirin.

8. Aykırı Veriler (Outlier) ile Başa Çıkma

Belirtiler

  • Process map’te task sürelerinde veya kaynak dağılımında alışılmadık değişiklikler görülür.
  • Analiz, nadir ya da istisnai case’ler tarafından yanıltılabilir.

Olası Nedenler

  • Dataset’te, çok uzun süren task’lar veya olağan dışı modellere sahip case’ler gibi outlier veri noktaları bulunabilir.
  • Nadir durumlar, process haritasını gereğinden fazla etkileyebilir.

Çözüm

  • Outlier’ları Tespit Edin: Görev süresi, kaynak kullanımı gibi metriklerle istatistiksel analiz uygulayın ve outlier’ları belirleyin.
  • Dahil Edip Etmeye Karar Verin: Outlier’ların faydalı içgörü sunup sunmadığına veya analiz dışında bırakılıp bırakılmayacağına karar verin. Hariç tutarsanız kararı mutlaka kaydedin.

9. Datada Zaman Dilimi Uyumsuzlukları

Belirtiler

  • Sıralı event’ler, farklı zaman dilimi ayarlarından dolayı yanlış görünüyor.
  • Zaman dilimi uyumsuzlukları süreç süresi hesaplarında hata yaratıyor.

Olası Nedenler

  • Farklı sistem veya departmanlardan gelen data farklı zaman dilimi kullanıyor olabilir ve bu timestamp tutarsızlığına yol açar.
  • Data yükleme öncesi zaman dilimi standardı uygulanmamış olabilir.

Çözüm

  • Hepsini Ortak Zaman Dilimine Çevirin: Data yüklemeden önce tüm timestamp’leri tek bir zaman diliminde (örn. UTC) birleştirin. Excel, Python ve benzeri araçlar zaman dilimi dönüşümünü destekler.
  • Değişiklikleri Kaydedin: Her dataset’in orijinal zaman dilimini ve yaptığınız dönüşümleri mutlaka kaydedin.

10. Dengesiz Event Log’lar

Belirtiler

  • Bazı case’lerde çok az, bazılarında ise çok fazla event olması dengesiz bir process map’e sebep olur.
  • Düzensiz data dağılımı nedeniyle bazı activity veya case’ler analizde baskın hale gelir.

Olası Nedenler

  • Bazı case’lerde tutarsız veri kaydı veya event’lerin eksik olması.
  • Bazı process instance’ların datada fazla temsil edilmesi.

Çözüm

  • Event Log’u Normalize Edin: Her process instance’ın benzer detay seviyesine sahip olmasına dikkat edin. Eksik önemli event’ler varsa nedenini araştırın, gerekiyorsa elle düzeltin ya da o case’leri analiz dışı bırakın.
  • Veriyi Ağırlıklandırın: Gerekirse, aşırı temsil edilen case veya event’lerin analizi bozmasını önlemek için ağırlıklandırma yapın.

Sonuç

Process Mining’de başarılı olmak için data kalitesi çok önemlidir. Yaygın data sorunlarını tespit edip çözdüğünüzde, analizlerinizden doğru ve aksiyona dönebilen içgörüler elde edebilirsiniz. Veri temizliği, hazırlık ve validasyon için en iyi uygulamaları kullanmak, sık yapılan hatalardan kaçınmanızı sağlar ve Process Mining’den en yüksek faydayı almanıza yardımcı olur.