Process Mining için Data Temizliği ve Hazırlık
Process Mining için Veri Temizliği ve Hazırlık
Etkili process mining, kaliteli veriyle başlar ve bunun önemli bölümünü veri temizliği ile hazırlığı oluşturur. Düşük veri kalitesi, analizlerin yanlış ya da eksik çıkmasına ve süreç geliştirmeyi zorlaştırmaya neden olabilir. Bu dokümanda veri temizliği ve hazırlığı için temel adımları anlatarak veri setlerinizi başarılı bir process mining analizi için hazır hale getiriyoruz.
Veri Temizliği ve Hazırlık Neden Önemlidir?
Process mining, bir süreçteki aktivitelerin sırasını gösteren event log’lara dayanır. Bu veri setleri eksik, tutarsız ya da hatalıysa process mining ile elde edeceğiniz içgörüler yanıltıcı olur. Temiz ve düzgün veriler sayesinde aracınız workflow’ları net biçimde haritalar, darboğazları bulur ve iyileştirme noktalarını görmenizi sağlar.
Veri Temizliği ve Hazırlık için Temel Adımlar
1. Veri Toplama ve Entegrasyon
Temizliğin ilk adımı, sürecinizle ilgili tüm verilerin, ERP, CRM veya diğer sistemler dahil, farklı kaynaklardan eksiksiz toplanmasıdır. Bu aşamada data integration devreye girer.
- Veri kaynaklarını birleştirin: Sürece katkı sağlayan tüm platformlardan veri toplayın. Örneğin, order-to-cash analizi yapıyorsanız, satış (örn. Salesforce) ve finans (örn. SAP) sisteminizden veri alın.
- Formatları tutarlı hale getirin: Devam etmeden önce verinin dışa aktarımı ve formatı standart olmalı. Tüm timestamp, para birimi ve ID alanlarının aynı yapıda olmasına özen gösterin.
Verinizi topladıktan sonra, process mining için temizleme ve hazırlık aşamasına geçin.
2. Tekrarları Kaldırma
Çift kayıtlar, activity sayısını şişirip aynı event’i birden fazla kez göstererek process mining analizini ciddi biçimde bozabilir. Doğru event log için tekrarları bulup silmek gerekir.
- Tekrarları tespit edin: Aynı case ID, activity ve timestamp’i olan kayıtlar büyük ihtimalle tekrar kayıtlardır.
- Silin veya birleştirin: Tekrar bulunan kayıtları ihtiyaca göre silin ya da benzer kayıtları birleştirin.
3. Eksik Verilerle Başa Çıkma
Eksik değerler, process mining sonuçlarını etkileyen bir başka yaygın durumdur. Eksik timestamp, activity veya case ID’ler, event sıralamasını bozup eksik süreç modellerine yol açabilir.
- Eksik alanları tespit edin: Eksik alanları bulmak için araç veya script kullanın (örn. boş timestamp, activity adı veya null case ID).
- Eksikleri tamamlayın: Mümkünse eksikleri dış kaynaklar, alan bilgisi veya diğer veriden tahminle doldurun. Örneğin, bir activity’nin timestamp’i eksikse, çevresindeki event’lerin zamanlarından tahmin edin.
- Doldurma stratejileri: Kritik eksik veriler için (örn. timestamp veya case ID) tahmini (ortalama, regresyon gibi) yöntemler kullanabilir ya da veri kurtarılamıyorsa ilgili kayıtları çıkarabilirsiniz.
4. Veri Formatlarını Normalleştirme
Tutarlı veri formatı, process mining yazılımının event log’u doğru analiz edebilmesi için çok önemlidir. Bu, timestamp formatları, activity adları ve case ID yapısının standartlaşmasını kapsar.
- Timestamps: Tüm tarih ve saatler aynı formatta olmalı (örn.
YYYY-MM-DD HH:MM:SS). Zaman dilimi varsa, hepsini tek bir dilime çevirin ya da farklı yorumlanmaması için UTC kullanın. Desteklenen tarih formatlarımızı burada bulabilirsiniz - Activity adları: Farklı sistemlerde aynı activity farklı yazılabilir. İsimleri standartlaştırın (örn. “Approve Order” ile “Order Approval” birleştirilmeli).
- Case ID’ler: Case ID’nin sistemler arasında tutarlı ve her bir sürece eşsiz atanmış olmasına dikkat edin.
5. Gereksiz Verileri Temizleme
Sistemdeki her activity veya event, process mining analiziniz için önemli olmayabilir. Arka plandaki işlemler veya ilgili olmayan event’ler veri setini kalabalıklaştırabilir.
- İlgisiz event’leri filtreleyin: Analiz ettiğiniz süreçle ilgisiz activity ve event’leri tespit edip veri setinden çıkarın. Örn. sistem girişleri veya gereksiz admin işlemleri process map’inizi karmaşıklaştırabilir.
- Kritik adımlara odaklanın: Süreci anlamak için gerekli olan activity ve event’leri belirleyip, veri setinizi bu alanlarda yoğunlaştırın.
6. Aykırı Değer ve Gürültü Yönetimi
Veri setindeki aykırı değerler veya “gürültü”, sürecin gerçek akışını yanlış gösterebilir. Örneğin, nadir bir nedenle çok uzun süren bir task analizlerinde yanıltıcı olabilir.
- Aykırıları tespit edin: İstatistiksel yöntemlerle, ortalamanın çok üstünde ya da altında kalan task’ları belirleyin.
- Tutmak mı silmek mi?: Aykırı kayıtlar değerli bilgi mi sunuyor (örn. nadir ve kritik bir problem) yoksa standart akışa mı odaklanmak istiyorsunuz; buna karar verip gerekli işlemi yapın.
7. Tutarlı Case ve Activity Sıralaması
Process mining’in en kritik noktalarından biri event’lerin doğru sırada olmasıdır. Sıralama karışık olursa süreç akışı yanlış görünür.
- Activity sırasını kontrol edin: Activity’ler timestamp’lere göre mantıklı dizilmeli. Örneğin, bir process instance’da “Order Approved” her zaman “Order Created”dan sonra olmalı.
- Event’leri timestamp’e göre sırala: Her case’i timestamp alanına göre sıralayıp event’lerin doğru sırada olmasını sağlayın.
8. Event Log Oluşturma
Veriniz temizlenip standart hale geldiyse, sıra ana veri seti olan event log oluşturmada. Event log şunları içermeli:
- Case ID: Her process instance’a ait eşsiz tanımlayıcı.
- Activity name: Her adımın ismi.
- Timestamp: Her aktivitenin gerçekleştiği kesin zaman; event sırası için gereklidir.
- Opsiyonel alanlar: Analiz gerektikçe, task’ı yapan kişi veya departman gibi ek alanlar da eklenebilir.
9. Veri Setini Doğrulama
Veri temizlenip yapılandırıldıktan sonra, süreci doğru yansıttığından ve analize hazır olduğundan emin olmak için doğrulama yapılmalıdır.
- Örnek kontrol yapın: Rastgele birkaç process instance’ı manuel inceleyip, veri ve event sıralarının mantıklı olduğuna bakın.
- Test analizi çalıştırın: Mümkünse, process mining aracında test analizi yapıp hata/tutarsızlık olup olmadığına bakın.
- Geri bildirim alın: Sürecin gerçekliğini yansıtıp yansıtmadığını uzmanlarla birlikte kontrol edin.
Veri Temizliği ve Hazırlık için Araçlar
Veri temizliği ve hazırlığını otomatikleştirmek için birçok araç kullanılabilir. Yaygın seçeneklerden bazıları:
- Python/Pandas: Veri işlemi ve temizliği için güçlü bir programlama dili ve kütüphane. Tekrarları kaldırmak, formatları normalize etmek gibi işlemler için script yazabilirsiniz.
- Excel/Google Sheets: Küçük veri setlerinde, tekrarları silmek, gereksiz satırları filtrelemek ve sütunları düzenlemek gibi kolaylıklar sunar.
- ETL Araçları (Extract, Transform, Load): Talend, Informatica veya Apache Nifi gibi araçlarla, farklı sistemlerden veri çekme, dönüştürme ve process mining yazılımlarına yükleme kolaylaştırılır.
- OpenRefine: Karışık verileri temizlemek, tekrarları ve yanlış formatları düzeltmek için ücretsiz ve açık kaynak kodlu bir çözümdür.
Sonuç
Veri temizliği ve hazırlık, process mining yaşam döngüsünde kritik adımlardır. Veri setlerinizin eksiksiz, tutarlı ve doğru olmasını sağlayarak yanıltıcı analizlerden kaçınabilir ve süreçlerinizin nasıl işlediğine dair gerçek zamanlı içgörüler elde edebilirsiniz. Bu dokümandaki tekrarları kaldırma, eksik verileri tamamlama, formatları standartlaştırma ve temiz bir event log oluşturma adımlarını uyguladığınızda, process mining projelerinizde maksimum değer elde etmeye hazır olursunuz.