1492’de Kristof Kolomb, Asya’ya alternatif bir rota bulmak için Atlantik Okyanusu’nu geçti. Ancak Kolomb, rotasını çizmek için coğrafyacı Alfranagus’un yetersiz hesaplamalarına o kadar güvendi ki sonuç çok farklı oldu. Bu yetersiz hesaplamalar yüzünden Kolomb, Amerika kıtasına indi ve buraya “Hindistan” dedi. Bu “hatalı veri” bugünden bakınca şansmış gibi görünüyor olsa da esas olarak çok büyük bir soruna yol açtı.
Sizin şirketiniz ise her zaman bu kadar “şanslı” olmayabilir.
Öyleyse nedir bu “hatalı veri”?
Şirketiniz büyüyor ve yazılımlarınızdaki ilerleme de oldukça iyi görünüyor. Haliyle çok fazla veriye sahipsiniz. Bunca veri içerisinde bazı verilerde hata olması kaçınılmaz. Ama önce “hatalı veri”nin ne olduğunu tanımlamanız ve anlamanız gerekir. Kısaca “hatalı veri (bad data)”: yanlış, eksik, teyit edilmemiş, uygun olmayan, tekrar edilen veriler, kötü veri girişleri (yanlış yazımlar, yazım hataları, yazım farklılıkları, biçim vb.) dâhil olmak üzere tüm bu yanlış bilgi kümesidir. Yapay zekâ yazılımlarında ise bu hatalı veriler doğru yönetilmediğinde yazılımlarınızın performansı ve de şirketinizin güvenirliği olumsuz etkilenebilir.
Salesforce ve INSPARK olarak biz, kaliteli verileri yapay zekânın kalbi olarak değerlendiriyoruz. Bu yüzden, tıpkı abur cuburların kalbimize zarar vermesi gibi, hatalı veriler de yapay zekâ algoritmalarının performansını ve doğruluğunu ciddi şekilde etkilediğini biliyoruz.
Veriler nasıl denetlenir ve yönetilir?
Şirketler için müşterilerinin neyi, ne zaman, neden ve nasıl yaptığını bilmek “büyük resmi” görmelerine yardımcı olur. Yapay zekâya kaliteli veri eklemenin anahtarı da aslında tam olarak burada. Elinizde çok fazla veri var ancak bunlar güncel, teyitli ve eksiksiz mi? Bunu bilebilmek için öncelikle bu veri havuzunda hatalı veri olabileceğini kabul etmek önemli adımdır. Çünkü sistem içerisinde hatalı veriler yokmuş gibi davranmak yerine bunları sorunlu alanları iyileştirmek için bir itici güç olarak tanımlamak işin neredeyse yarısı olabilir.
Bilindiği üzere yapay zekâ teknolojisi veri merkezlidir. Bu yüzden verilerinizin kalitesinden emin olmak için yinelenenleri, uygunsuz/ilgisiz değerleri, hataları ve karar verme şeklinizi olumsuz etkileyebilecek diğer tüm şeyleri ortadan kaldırmanız gerekebilir. Örneğin veri kaynaklarınızı (pazarlama, satış, hizmet, ticaret alanlarındaki) gerçek zamanlı olarak güncellenen tek bir kayda ilişkilendirebilirsiniz. Böylece yapay zekâyı veri ile besleyen kaynaklar, performansı için doğru içerikleri bünyesinde hazırlamış olacaktır.
Ne yapılabilir?
Müşteri verileri, şirket işlerinizde ilerlemenin odağında yer alır. Etkili bir yapay zekâ programı oluşturmak için verilerinizin mükemmel olması gerekmez ama temiz ve kaliteli olması gerekir. Bu da hatasız verilerle, yanlış biçimler, kopyalar veya yanlış etiketlemeler olmaması anlamına gelir. Bu sebeple Salesforce Tableau’da veri uzmanlarımız verilerinizi nasıl temizleyeceğinize yönelik bir rehber sunuyor: Veri Temizleme Rehberi: Tanım, Faydalar, Bileşenler + Verilerinizin Kalitesini Nasıl Arttırabilirsiniz?
Rehberde en önemli adımlar şu şekilde sıralanıyor:
*Öncelikli olarak yinelenen ve birbiriyle ilişkisiz görünen verileri kaldırın. Farklı departmanlardan yapılan işlerin niteliğine göre aynı verileri almanız olası. Ayrıca farklı departmanların verileri de her zaman alakalı içerikteki veriler olmayabilir. Bu nedenle uzmanlar ilk olarak buradan başlamanızı öneriyor.
*Yapısal ve somut hataları düzeltin. Yapısal hatalar, verileri ölçtüğünüzde veya aktardığınızda ve garip adlandırmaları, yazım hatalarını veya yanlış büyük/küçük harf kullanımını fark ettiğinizde ortaya çıkar. Bu tutarsızlıklar yanlış etiketlenmiş kategorilere veya sınıflara neden olabilir. Örneğin, “Sonuç Yok” ve “Bulunamadı” ifadelerinin her ikisinin de aynı olduğunu düşünebilirsiniz ancak bunların aynı kategori olarak analiz edilip edilmediği yapay zekânın algoritması açısından oldukça önemli.
*İstenmeyen, ilgisiz, uygun olmayan ve yanlış veri değerlerini filtreleyin. İlk bakışta analiz edilmesi zor görünen verilerden başlamak gerekebilir. Bunu yapmak yapay zekânın performansı öneriliyor. Unutmayın ki kaliteli veriler yapay zekânın üretkenliği ve performansı ile doğrudan ilişkili.
*Eksik verileri elden geçirin. Birçok algoritma eksik değerleri kabul etmeyeceği için bazı eksik verilerin kaybolmuş görünme olasılığı yüksektir. Burada izlenmesi gereken üç yol söz konusu: 1.eksik bulunan verilerin silinmesi (bunu yaparken ilişkili olduğu verilere zarar gelmeyeceğinden emin olun) 2.eksik verileri güncelleyerek tamamlayın(bilgilerin bütünlüğüne dikkat edin) 3.eksik veri oluşmasındaki nedenleri bularak veri kayıtlarının oluşma şekline teknik bir müdahalede bulunabilirsiniz.
*Doğrulama için bazı soruları cevaplayabildiğinize emin olun.
— Bu veri mantıklı mı?
— Bu veri, alanın gerektirdiği kurallara uygun mu?
— Bu veri çalışmalarınızı destekliyor mu, tamamlayıcı mı, yanıltıcı mı?
— Bu veri ile bir sonraki çalışmanızı oluşturmanıza yardımcı olacak verilerdeki eğilimleri bulabilir misiniz?
— Hayır ise bunun nedeni veri kalitesi sorunu mu?
Verilerdeki yanlılığın (Bias in Data) belirlenmesi ve azaltılması şirketler için ne ifade eder?
Veri yanlılığı, hatalı veriler ile yapay zekâ algoritmasında sistematik olarak yanlış sonuçlar üretmesidir. Hatalı veya “kirli(dirty data)” verilerden kaynaklanan yanlış sonuçlar, zayıf iş stratejisi ve karar alma sürecine sebep olabilir. Örneğin, bir raporlama toplantısında verilerinizin incelemeye dayanmadığını fark ettiğinizde bu çalışma şirketiniz adına utanç verici bir hal alabilir. Bu nedenle, şirketinizde “kaliteli veri kültürü” oluşturmak oldukça önemli. Öncelikle bu kültürü oluşturmak için kullanabileceğiniz araçları ve veri kalitesinin sizin için ne anlama geldiğini net olarak belirlemelisiniz. Sonrasında veri temizleme işlemi sürecine başlayabilir, temizleme sürecinin sonunda ise hata işlemlerinin detaylı raporları “kaliteli veri kültürü” oluşturma çalışmalarınıza yardımcı olabilir.
Salesforce ve INSPARK ürünleri ve alternatif çözümlerle verilerinizi denetlemek artık daha kolay.