Veri Madenciliğinde Aykırı Veri Tespiti (Outlier Data Detection)
  1. Anasayfa
  2. Algoritmalar

Veri Madenciliğinde Aykırı Veri Tespiti (Outlier Data Detection)

0

Bu makalemizde veri madenciliği veri ön işleme operasyonlarından bir tanesi olan aykırı verilerin tespit edilmesine değineceğiz.

Bildiğiniz üzere veri ön işleme tekniklerinde elimizdeki büyük veri setini çeşitli operasyonlardan geçirerek sorunlarından arınmış ve daha kullanışlı bir veri seti elde etmekteyiz. Bu kapsamda yapılacak ilk işlemlerden birisi de aykırı veri tespitidir.

Aykırı veriler veri seti içerisinde nasıl oluşabiliyor sorusuyla başlayacak olursak, temin edilen veri bir IoT cihazından elde ediliyor olabilir veya bir WAF, Firewall, hastane otomasyonu, antivirüs yazılımı, film datası, iris çiçeği özellikleri vb. yani farklı farklı alanlardan veriler temin ediliyor olabilir ve hemen hepsinde verinin elde edilmesi işlemlerinde çeşitli kayıplar, yer değiştirmeler veya karakter hataları meydana gelebilir. Örneğin MY SQL üzerinden alınan bir veride Türkçe karakterler bozulabilir, veri kopyalandığı yerde farklı bir veri türüne zorlanarak kaydedilebilir veya eksik kopyalanabilir. İşte bu ve bunlar gibi çeşitli senaryolarca veri setimiz üzerindeki kolonlarımızda çeşitli bozulmalar meydana gelecektir. Bu bozulmaları gidererek veri üzerinde işlem yapmak başarı ve performans oranını artıracağından ön işleme adımlarında aykırı veri tespit ve temizliği oldukça önemlidir çünkü veri madenciliği uygulamalarında ve makine öğrenmesi uygulamalarında ön işlemenin önemi çok büyüktür ve ön işleme adımları hassas ve özenli bir şekilde yapılmalıdır.

Aykırı veri özetle, bir veri setindeki gözlemlerin geri kalanından büyük ölçüde farklı olan herhangi bir veri alanıdır. Aykırı veriler kümedeki veya içinde bulunduğu veri topluluğundaki diğer verilerden farklı davranışlar sergilerler ve hatalara neden olurlar.

Aykırı veriler temizlenirken; kutu grafiği kullanma, 5 sayı özeti ile uç değer belirleme, standart sapma gibi yöntemler ile tespit edilir. Aykırı gözlemleri silme, ortalama ile doldurma veya baskılama ile doldurma işlemleri ile sonlanır.

Aykırı Veri Tespit Etme Yöntemleri Nelerdir ?

Aykırı verileri temizlemek için kullanılan yöntemler iki şekilde incelenmektedir.

      1.İstatistiksel Testler

5 sayı özeti ve standart sapma yöntemleri en yaygın olanlarıdır.

2. Grafiksel Yöntemler

Grafiksel yöntemler de oldukça yaygın test yöntemlerinden biridir. Bilinen grafiksel yöntemleri şu şekildedir:

  • Kutu Grafiği (Box-Plot) Yöntemi ile aykırı değer belirleme işlemi basitçe gerçekleşir. Kutu grafiği medyan ve dörtlükler kullanılarak elde edilmektedir.
  • Q-Q Grafik Yöntemi de yine yaygın kullanılan grafiksel yöntemlerden biridir. Kullanımı kolaydır ancak subjektif bir yöntem olduğundan dezavantajları olduğundan söz edebiliriz.
  • Akış Dizisi Grafiği Yöntemi grafiğin X eksenine gözlem değerleri, Y eksenine ise bu gözlem değerlerinin sıra numaraları konularak koordinat sisteminde gözlem değeri işaretlenir ve akışı bozan değerlerin aykı veri olarak işaret edilmesi sağlanmış olur.
  • Histogram bu teknik ile veri setinin yayılımı, çarpıklığı, tepe noktası, aykırı değerleri, konumu gibi özellikleri hakkında bilgi sahibi olunmaktadır.

5 Sayı Özeti Nasıl Çalışır ?

  1. Veri ön işleme adımlarında daha önceki makalelerimizde de belirttiğimiz gibi veriler sıralı olmalıdır. Küçükten büyüğe bir sıralama yapabiliyorsak işimizi çok kolaylaştıracaktır.
  2. Veri seti içerisinden aykırı veri olarak tespit edilecek sütun, bölüm belirlenir. Yani hangi kolondaki veri bizim için daha önemli ve aykırı veri tespiti yapılması hangi kolonda önemli ise o kolon veya kolonlar tercih edilir.
  3. Veri kümesinde 5 sayı belirlemek gerekmektedir.
  4. Minimum değer, maximum değer, median, Q1 ve Q3 değerlerinin tespit edilmesi gerekir.
  5. Q1 değerini bulmak için veri seti içerisinden ilk çeyreğe bakılır. Minimum ve median arasındaki ortalama değer bize Q1 değerini verecektir.
  6. Q3 değerini bulmak için ise veri seti içerisinden son çeyreğe bakılır ve median ile maximum değer arasındaki ortalama değer bize Q3 değerini verecektir.
  7. Daha sonra sırasıyla şu formüller uygulanır.
  8. IQR=Q3-Q1
  9. LF=Q1 – 1.5 * IQR
  10. UF=Q3 + 1.5 * IQR
  11. LF yani LowerBound ve UF yani UpperBound aralığındaki değerler aykırı değer olarak bulunmuş olur.

Şimdi bunu küçük bir örnek ile pekiştirelim. Veri setimiz örnek gereği, 1,2,2,2,3,3,4,5,5,5,6,6,6,6,7,8,8,9,27 olsun.

Bu veri setine göre minimum değer = 1, maksimum değer = 27 olacaktır.

Q1 = 2+2+2+3+3+4+5+5 / 8 = 3 olacaktır.

Q3 = 6+6+6+6+7+8+8+9 / 8 = 7 olacaktır.

Median ise veri setinde soldan 10. eleman olan 5 değeri olacaktır.

Şimdi formülleri yerine koyduğumuzda;

IQR = Q3 – Q1 = 7 – 3 = 4

LF = Q1 – 1.5 * IQR = 3 – 1.5 * 4 = -3

UF = Q3 + 1.5 * IQR = 7 + 1.5 * 4 = 13

[-3,13] dışında kalan değerler veri setimizin aykırı değerleridir. Yani örnek veri setimize göre bu aralık dışında 27 kalmıştır. Demek ki 27 bu veri seti için aykırı bir değerdir yorumunu yapabiliriz. Gözlem yoluyla da değerler arasında çok büyük olduğu için aykırı olduğu yorumunu yapabilirdik.

 

Bu konuyla ilgili sorularınızı  alt kısımda bulunan yorumlar alanını kullanarak sorabilirsiniz.

Referanslar

www.mshowto.org

TAGs: Data mining, veri madenciliği, data preprocessing, outliers data

Bu İçeriğe Tepkin Ne Oldu?
  • 2
    harika_
    Harika!!
  • 1
    be_enmedim
    Beğenmedim
  • 1
    _ok_iyi
    Çok iyi
  • 1
    sevdim_
    Sevdim!
  • 0
    bilemedim_
    Bilemedim!
  • 0
    olmad_
    Olmadı!
  • 0
    k_zd_m_
    Kızdım!

Konya Teknik Üniversitesi Bilgisayar Mühendisliği Doktora programında tez dönemi öğrenciliğim devam etmektedir.İş hayatıma Vodafone'da Test Mühendisi olarak başladıktan sonra şuan bir üniversitede Sistem Uzmanı ve Siber Güvenlik Ofis Yöneticisi pozisyonunda çalışmaktayım.Başlıca uzmanlık alanlarım arasında Sistem yöneticiliği ve Siber Güvenlik gelmektedir.Asp.net ile Proje Geliştirme (2015), Bilgisayar Mühendisliğine Giriş (2020), Güvenlik Tasarım Desenleri (2022) kitaplarının yazarıyım.

Yazarın Profili
İlginizi Çekebilir

Bültenimize Katılın

Tıklayın, üyemiz olun ve yeni güncellemelerden haberdar olan ilk kişi siz olun.

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir