Bu makalemizde veri madenciliği veri ön işleme operasyonlarından bir tanesi olan aykırı verilerin tespit edilmesine değineceğiz.
Bildiğiniz üzere veri ön işleme tekniklerinde elimizdeki büyük veri setini çeşitli operasyonlardan geçirerek sorunlarından arınmış ve daha kullanışlı bir veri seti elde etmekteyiz. Bu kapsamda yapılacak ilk işlemlerden birisi de aykırı veri tespitidir.
Aykırı veriler veri seti içerisinde nasıl oluşabiliyor sorusuyla başlayacak olursak, temin edilen veri bir IoT cihazından elde ediliyor olabilir veya bir WAF, Firewall, hastane otomasyonu, antivirüs yazılımı, film datası, iris çiçeği özellikleri vb. yani farklı farklı alanlardan veriler temin ediliyor olabilir ve hemen hepsinde verinin elde edilmesi işlemlerinde çeşitli kayıplar, yer değiştirmeler veya karakter hataları meydana gelebilir. Örneğin MY SQL üzerinden alınan bir veride Türkçe karakterler bozulabilir, veri kopyalandığı yerde farklı bir veri türüne zorlanarak kaydedilebilir veya eksik kopyalanabilir. İşte bu ve bunlar gibi çeşitli senaryolarca veri setimiz üzerindeki kolonlarımızda çeşitli bozulmalar meydana gelecektir. Bu bozulmaları gidererek veri üzerinde işlem yapmak başarı ve performans oranını artıracağından ön işleme adımlarında aykırı veri tespit ve temizliği oldukça önemlidir çünkü veri madenciliği uygulamalarında ve makine öğrenmesi uygulamalarında ön işlemenin önemi çok büyüktür ve ön işleme adımları hassas ve özenli bir şekilde yapılmalıdır.
Aykırı veri özetle, bir veri setindeki gözlemlerin geri kalanından büyük ölçüde farklı olan herhangi bir veri alanıdır. Aykırı veriler kümedeki veya içinde bulunduğu veri topluluğundaki diğer verilerden farklı davranışlar sergilerler ve hatalara neden olurlar.
Aykırı veriler temizlenirken; kutu grafiği kullanma, 5 sayı özeti ile uç değer belirleme, standart sapma gibi yöntemler ile tespit edilir. Aykırı gözlemleri silme, ortalama ile doldurma veya baskılama ile doldurma işlemleri ile sonlanır.
Aykırı Veri Tespit Etme Yöntemleri Nelerdir ?
Aykırı verileri temizlemek için kullanılan yöntemler iki şekilde incelenmektedir.
1.İstatistiksel Testler
5 sayı özeti ve standart sapma yöntemleri en yaygın olanlarıdır.
2. Grafiksel Yöntemler
Grafiksel yöntemler de oldukça yaygın test yöntemlerinden biridir. Bilinen grafiksel yöntemleri şu şekildedir:
- Kutu Grafiği (Box-Plot) Yöntemi ile aykırı değer belirleme işlemi basitçe gerçekleşir. Kutu grafiği medyan ve dörtlükler kullanılarak elde edilmektedir.
- Q-Q Grafik Yöntemi de yine yaygın kullanılan grafiksel yöntemlerden biridir. Kullanımı kolaydır ancak subjektif bir yöntem olduğundan dezavantajları olduğundan söz edebiliriz.
- Akış Dizisi Grafiği Yöntemi grafiğin X eksenine gözlem değerleri, Y eksenine ise bu gözlem değerlerinin sıra numaraları konularak koordinat sisteminde gözlem değeri işaretlenir ve akışı bozan değerlerin aykı veri olarak işaret edilmesi sağlanmış olur.
- Histogram bu teknik ile veri setinin yayılımı, çarpıklığı, tepe noktası, aykırı değerleri, konumu gibi özellikleri hakkında bilgi sahibi olunmaktadır.
5 Sayı Özeti Nasıl Çalışır ?
- Veri ön işleme adımlarında daha önceki makalelerimizde de belirttiğimiz gibi veriler sıralı olmalıdır. Küçükten büyüğe bir sıralama yapabiliyorsak işimizi çok kolaylaştıracaktır.
- Veri seti içerisinden aykırı veri olarak tespit edilecek sütun, bölüm belirlenir. Yani hangi kolondaki veri bizim için daha önemli ve aykırı veri tespiti yapılması hangi kolonda önemli ise o kolon veya kolonlar tercih edilir.
- Veri kümesinde 5 sayı belirlemek gerekmektedir.
- Minimum değer, maximum değer, median, Q1 ve Q3 değerlerinin tespit edilmesi gerekir.
- Q1 değerini bulmak için veri seti içerisinden ilk çeyreğe bakılır. Minimum ve median arasındaki ortalama değer bize Q1 değerini verecektir.
- Q3 değerini bulmak için ise veri seti içerisinden son çeyreğe bakılır ve median ile maximum değer arasındaki ortalama değer bize Q3 değerini verecektir.
- Daha sonra sırasıyla şu formüller uygulanır.
- IQR=Q3-Q1
- LF=Q1 – 1.5 * IQR
- UF=Q3 + 1.5 * IQR
- LF yani LowerBound ve UF yani UpperBound aralığındaki değerler aykırı değer olarak bulunmuş olur.
Şimdi bunu küçük bir örnek ile pekiştirelim. Veri setimiz örnek gereği, 1,2,2,2,3,3,4,5,5,5,6,6,6,6,7,8,8,9,27 olsun.
Bu veri setine göre minimum değer = 1, maksimum değer = 27 olacaktır.
Q1 = 2+2+2+3+3+4+5+5 / 8 = 3 olacaktır.
Q3 = 6+6+6+6+7+8+8+9 / 8 = 7 olacaktır.
Median ise veri setinde soldan 10. eleman olan 5 değeri olacaktır.
Şimdi formülleri yerine koyduğumuzda;
IQR = Q3 – Q1 = 7 – 3 = 4
LF = Q1 – 1.5 * IQR = 3 – 1.5 * 4 = -3
UF = Q3 + 1.5 * IQR = 7 + 1.5 * 4 = 13
[-3,13] dışında kalan değerler veri setimizin aykırı değerleridir. Yani örnek veri setimize göre bu aralık dışında 27 kalmıştır. Demek ki 27 bu veri seti için aykırı bir değerdir yorumunu yapabiliriz. Gözlem yoluyla da değerler arasında çok büyük olduğu için aykırı olduğu yorumunu yapabilirdik.
Bu konuyla ilgili sorularınızı alt kısımda bulunan yorumlar alanını kullanarak sorabilirsiniz.
Referanslar
TAGs: Data mining, veri madenciliği, data preprocessing, outliers data