Veri Sorunlarını Giderme
Yaygın Veri Sorunları ve Çözümleri
Process mining için veri hazırlarken, analizin doğruluğunu ve kalitesini etkileyebilecek yaygın veri sorunları oluşabilir. Aşağıda bu yaygın sorunları tanımlayarak çözmenize yardımcı olacak bir sorun giderme kılavuzu bulunmaktadır.
1. Etkinlik Kayıtlarında Çift Kayıtlar
Belirtiler:
- Aynı event, aynı işlem örneği için birden fazla kez görünüyor (aynı Case ID, Aktivite ve Timestamp ile).
- Süreç haritasında belirli aktivitelerin veya eventlerin alışılmadık derecede yüksek sayıları.
Olası Sebepler:
- Sistem entegrasyonu sorunları veya günlükleme hataları nedeniyle veriler birden fazla kez kaydedildi.
- Veri yükleme süreci etkinlikleri istemeden tekrar etti.
Çözüm:
- Çiftleri Kaldırın: Çift girişleri tanımlamak ve kaldırmak için veri temizleme araçları kullanın. Excel veya Google Sheets’te “Çiftleri Kaldır” işlevini kullanın veya bir veritabanı kullanıyorsanız, Vaka ID, Aktivite ve Zaman Damgasına dayalı tekrar eden girişleri kaldıran SQL sorguları yazın.
- Yükleme Sırasında Filtreleme: Veriyi yüklerken, yalnızca benzersiz etkinliklerin process mining aracına aktarıldığından emin olmak için filtreleri yapılandırın.
2. Eksik Zaman Damgaları
Belirtiler:
- Tamamlanmamış veya eksik zaman damgaları olayların doğru sıralanmasını engeller.
- Süreç haritasında faaliyetler arasında boşluklar veya kayıp bağlantılar var.
Olası Sebepler:
- Bazı sistemler her aktivite için zaman damgası günlüğe kaydetmez.
- Zaman damgası ile izlenmeyen manuel süreçler veya dijital olmayan görevler.
Çözüm:
- Eksik Zaman Damgalarını Tahmin Edin: Mümkünse, eksik zaman damgalarını bilinen veri noktalarına göre tahmin edin (örn. bir görev için önceki ve sonraki görevler arasındaki ortalama süreyle hesaplayın).
- Manuel Veri ile Tamamlayın: Manuel veya dijital olmayan görevler için, tahminler veya diğer kaynaklardan gelen günlükler temelinde zaman damgalarını manuel olarak girin.
- Veri İmputasyonu: Diğer olaylara veya ortalama süreç süresine dayanan eksik zaman damgalarını tahmin etmek gibi imputation tekniklerini kullanın.
3. Tutarsız Vaka ID’leri
Belirtiler:
- Aynı işlem örneğine ait olaylar farklı Vaka ID’leri arasında bölünerek sürecin modelinde parçalanmaya neden oluyor.
- Aynı işlem örneğinin birden fazla temsil edilmesi, karışıklığa ve hatalı analize yol açıyor.
Olası Sebepler:
- Farklı sistemler veya departmanlar Vaka ID’leri için farklı adlandırma kuralları veya yapıları kullanıyor.
- Veri giriş hataları veya sistemler arasında tutarsız biçimlendirme.
Çözüm:
- Case ID Mapping: Sistemler arasında vaka tanımlayıcılarını birleştirmek için bir vaka ID eşleme stratejisi geliştirin. Case ID’leri birleştirmek ve standart hale getirmek için ETL (Extract, Transform, Load) platformları veya SQL gibi araçları kullanın.
- Veri Dönüşüm Araçlarını Kullanın: Vaka ID’leri farklı formatlara sahipse, veriyi yüklemeden önce dönüşüm araçlarını kullanarak bunları tutarlı bir formata çevirin.
4. Yanlış Aktivite Sıralaması
Belirtiler:
- Etkinlikler sırasız görünüyor, daha sonraki aktiviteler önceki etkinliklerden önce yer alıyor (örn. “Sipariş Tamamlandı” “Sipariş Verildi”den önce görünüyor).
- Süreç haritası anlamsız akışlar veya döngüler gösteriyor.
Olası Sebepler:
- Zaman damgaları yanlış girilmiş veya eksik.
- Veri, doğru sıralama olmadan yüklenmiştir.
Çözüm:
- Zaman Damgasına Göre Sıralayın: Her Vaka ID için olayların artan sırayla zaman damgasına göre sıralandığından emin olun. Veriyi doğru bir şekilde sıralamak için Excel, SQL veya Pandas (Python) gibi araçları kullanın.
- Zaman Damgası Biçimlerini Kontrol Edin: Tüm zaman damgalarının aynı format ve zaman diliminde olduğunu doğrulayın. Tüm zaman damgalarını ISO 8601 (
YYYY-MM-DD HH:MM:SS
) gibi ortak bir formata çevirin. - Veri Kalitesini Doğrulayın: Veri girişi veya yükleme sırasında sıralama hatası olmadığından emin olmak için birkaç vakayı manuel olarak kontrol edin.
5. Sistemler Arasında Veri Tutarsızlığı
Belirtiler:
- Aynı sürece katkıda bulunan farklı sistemler arasında uyumsuz veriler.
- Bir sistemin verilerinde görünen olaylar başka bir sistemde eksik, bu da süreç haritasında boşluklara neden oluyor.
Olası Sebepler:
- Farklı sistemler aynı etkinlikler için farklı metrikler, adlandırma kuralları veya formatlar kullanıyor.
- Tamamlanmamış veri çıkarımı veya kısmi sistem entegrasyonu.
Çözüm:
- Veriyi Standardize Edin: Veri yüklemeden önce, anahtar alanların (örn. Vaka ID, Aktivite Adı ve Zaman Damgaları) farklı sistemlerde nasıl temsil edildiğini standardize edin. Alan adları ve formatlarındaki tutarlılığı sağlamak için veri dönüşüm araçlarını kullanın.
- Veri Setlerini Dikkatlice Birleştirin: Birden çok sistemden veriyi birleştirmek ve birleşik veri kümesinin uyumlu bir yapıya sahip olduğundan emin olmak için ETL araçlarını kullanın. Veri setlerini birleştirmeden önce etkinlik adları, zaman damgaları ve vaka ID’lerinde tutarlılığı sağlayın.
6. Büyük Veri Hacimlerinin Performans Sorunlarına Yol Açması
Belirtiler:
- Büyük veri setleri yüklendiğinde veya analiz edildiğinde process mining aracında yavaş performans.
- Veri yükleme sırasında sistem çökmesi veya zaman aşımı.
Olası Sebepler:
- Veri kümesi, sistemin verimli bir şekilde işleyemeyeceği kadar fazla kayıt içeriyor.
- Process mining aracı, yüksek veri hacimlerini tek seferde işleyemez.
Çözüm:
- Veri Örnekleme: Tüm veri kümesini işlemek yerine, verinin temsil edici bir örneğini kullanın. Bu, boyutu küçültürken yine de değerli içgörüler sağlar.
- Gereksiz Etkinlikleri Filtreleyin: Veriyi process mining aracına yüklemeden önce düşük değerli veya ilgisiz olayları (örneğin, sistem günlük girdileri) kaldırın.
- Artımlı Veri Yükleme: Tüm veriyi bir kerede yüklemek yerine, daha küçük veri parçalarını kademeli olarak yükleyin ve ayrı ayrı analiz edin.
7. İlgisiz veya Gürültülü Veriler
Belirtiler:
- Süreç haritası, ana süreçle ilgili olmayan olaylarla dolu.
- Çok fazla önemsiz varyasyon, anahtar içgörülere odaklanmayı zorlaştırıyor.
Olası Sebepler:
- Arka plan sistem olayları, sistem günlükleri veya alakasız görevler veri kümesine dahil ediliyor.
- Düşük öncelikli görevler veya sistem süreçlerinden gelen gürültü.
Çözüm:
- Gereksiz Olayları Filtreleyin: Analiz edilen sürece katkıda bulunmayan ilgisiz olayları hariç tutun. Örneğin, sistem günlük olaylarını veya iş akışının bir parçası olmayan faaliyetleri kaldırın.
- Düşük Düzeyli Olayları Gruplama: Gerektiğinde, düşük düzeyli sistem olaylarını daha yüksek seviyeli faaliyetlere gruplayarak süreç modelini basitleştirin ve ana faaliyetlere odaklanın.
8. Uç Değerlerin Ele Alınması
Belirtiler:
- Süreç haritası, görev süresi veya kaynak tahsisinde tipik performansla uyumlu olmayan aşırı değişiklikler gösteriyor.
- Analiz nadir veya olağanüstü durumlar tarafından eğiliyor.
Olası Sebepler:
- Uç değer veri noktaları (örn. olağandışı uzun süren görevler veya anormal desenlere sahip vakalar) veri kümesinde mevcuttur.
- Kenar vakalar veya nadir olaylar işlem haritasını orantısız şekilde etkiler.
Çözüm:
- Uç Değerleri Tanımlayın: Görev süresi, kaynak kullanımı veya diğer metriklere dayalı olarak uç değerleri tespit etmek ve işaretlemek için istatistiksel analiz kullanın.
- Dâhil Edilip Edilmeyeceğine Karar Verin: Bu uç değerlerin faydalı içgörüler sağlayıp sağlamadığını değerlendirin (örn. nadir ancak kritik sorunların belirlenmesi) veya standart süreçlere odaklanmak için hariç tutulmaları gerektiği. Hariç tutuluyorsa, netlik sağlamak için kararı belgeleyin.
9. Veride Senkronize Olmayan Zaman Dilimleri
Belirtiler:
- Sıralı meydana gelen olaylar, farklı zaman dilimi ayarları nedeniyle uyumsuz görünüyor.
- Zaman dilimi tutarsızlıkları sebebiyle süreç süre hesaplamaları hatalı.
Olası Sebepler:
- Farklı sistemler veya departmanlardan gelen veriler farklı zaman dilimleri kullanabilir, bu da zaman damgalarının tutarsız olmasına yol açar.
- Zaman dilimleri veri yüklenmeden önce standartlaştırılmamıştır.
Çözüm:
- Ortak Bir Zaman Dilimine Çevirin: Veriyi içe aktarmadan önce tüm zaman damgalarını tutarlı bir zaman dilimine (örn. UTC) çevirin. Excel ve Python dahil birçok araç zaman dilimi dönüşüm işlevi sunar.
- Zaman Dilimi Ayarlamalarını Belgeleyin: Her veri kümesi için orijinal zaman dilimini kaydedin ve gerçekleştirilen dönüşümleri belgeleyin.
10. Dengesiz Etkinlik Kayıtları
Belirtiler:
- Bazı vakalarda çok az olay, bazılarında ise çok fazla olay var, bu da dengesiz bir süreç haritasına neden oluyor.
- Düzensiz veri dağılımı nedeniyle belirli faaliyetler veya durumlar analizi domine ediyor.
Olası Sebepler:
- Tutarsız veri günlüğü veya belirli vakalar için eksik etkinlik yakalanması.
- Veride bazı işlem örneklerinin aşırı temsil edildiği bir sapma var.
Çözüm:
- Etkinlik Günlüğünü Normalleştirin: Her sürecin benzer detay seviyesine sahip olduğundan emin olun. Bazı durumlar anahtar olayları kaçırıyorsa, nedeni araştırın ve boşlukları manuel olarak doldurmaya çalışın veya bu durumları analizden çıkarın.
- Veriyi Ağırlıklandırın: Gerektiğinde, olayları veya vakaları ağırlıklandırarak aşırı temsil edilen vakaların analizi orantısız bir şekilde etkilememesini sağlayın.
Sonuç
Veri kalitesi, başarılı process mining için esastır. Bu yaygın veri sorunlarını belirleyip çözüme kavuşturarak analizlerinizin doğru ve uygulanabilir sonuçlar üretmesini sağlayabilirsiniz. Veri temizleme, hazırlama ve doğrulamada en iyi uygulamaları uygulamak, yaygın tuzaklardan kaçınmanıza ve process mining çalışmalarınızdan en iyi şekilde yararlanmanıza yardımcı olacaktır.