Veri Ön İşleme Nedir ?
  1. Anasayfa
  2. Algoritmalar

Veri Ön İşleme Nedir ?

0

Bu yazımızda veri madenciliği konusunun başlangıç konusu olan veri ön işleme tekniklerinden bahsediyor olacağız. Data Prepprocessing olarak literatürde yerini alan konumuz, veri madenciliği çalışmasına başlangıç fazında, henüz bir model ortaya konmamışken veri seti üzerinde yapılan bir takım iyileştirme çalışmalarıdır. Bu iyileştirme çalışmalarını biraz açacak olursak öncelikle veri seti üzerinde mümkünse gözle tarama yapılmalıdır. Gözümüze takılan bir nitelik veya bu niteliğe ait verilerde bir tutarsızlık olup olmadığı incelenir. Örneğin nitelik kolonlarından bir tanesinde sürekli aynı veri bulunuyor olabilir veya üretim kolonunda sadece 1 yazıyor olabilir farklı bir veri olmadığı zamanlarda bu kolonları kapsam dışı bırakabiliriz. Veri setini excel formunda düşünürsek bu tür bir kolonu komple silebiliriz.

Daha sonra bakılması gereken noktalar eksik veriyi tespit etme, eksik veriyi kaldırma, tekrarlı verileri kaldırma, aykırı verilerin tespit edilmesi, düzeltme işlemleri, dönüştürme işlemleri, normalleştirme ve veriyi bir şekilde optimize etme işlemleridir. Veri seti üzerinde tüm bu işlemler yapılırken de aslında veri hakkında bilgi sahibi olunmuş olunur. Böylece veri üzerinde yapılması planlanan her bir işlem için veri setinin uygunluğu anlaşılır.

Veri seti üzerinde yapılacak bir işlemde tahmin edileceği üzere verinin tüm sorunlarından arınmış ve yapılacak işleme cevap verir hale gelmiş olması gerekmektedir. Bu yüzden veri ön işleme adımları veriler üzerinde bir model belirlenerek çalışmaya başlanmadan hemen önce yapılır ve aşağı yukarı tüm veri işleme sürecinin %70’lik bir bölümünü veri ön işleme adımları alır. Bu oran oldukça büyük bir orandır çünkü temiz bir veri olmazsa uygulanacak modellerden başarı alınamaz ve bizi yanlış sonuçlara götürür.

Veri ön işleme tekniklerinde bir sınıflandırma yapacak olursak, aşağıdaki şekilde bir sıralama aydınlatıcı olacaktır.

  1. Veri Temizleme
  2. Veri Birleştirme
  3. Veri Dönüştürme
  4. Veri İndirgeme

Veri temizleme sınıfında (veri sınıflandırma ile karıştırılmamalıdır.) veri seti içerisinde tespit edilen aykırı değerlerin temizlenmesi, eksik verilerin kaldırılması veya tamamlanması gibi işlemler yapılır. Bu işlemler verinin üzerindeki gürültüyü azaltmış olurlar. Yapılacak her bir eksik veri tamamlama veya aykırı veri tespit çalışması için ise ayrı ayrı yöntemler geliştirilmiştir. Örneğin bir eksik veri tahmini işleminde istatistiksel yöntemlerden faydalanılacağı gibi, optimizasyon yöntemleri veya regresyon yöntemlerinden de faydalanılır. Bu işlemlerin her biri farklı şekillenip sonuçta verideki eksik veriyi tamamlamış olacaktır.

Veri önişleme fazında veri öncelikle küçükten büyüğe veya anlamlı olacak şekilde sıralanmalıdır. Sıralanmamış bir veri seti üzerinde ön işleme adımlarından söz edilemez. Ardından aykırı veri tespitinde veya gürültülü verilerin tespitinde kümeleme algoritmalarından faydalanabilir. Yine eksik verilerin tamamlanması aşamasında ise regresyon veya yukarıda bahsedildiği gibi diğer yöntemlerden biri seçilebilir.

Veri birleştirme sınıfında ise farklı farklı veri tabanlarında bulunan veri setlerinin tek bir yerde toplanması aşamasının düzenli bir şekilde yürütülmesi sağlanır. Veri dönüştürme sınıfında veri seti içerisindeki verilerin madencilik operasyonlarına uygun şekilde dönüştürülmesi sağlanır. İndirgeme olarak adlandırdığımız son sınıfımızda ise büyük verinin daha özet formuna dönüştürülmesi ve operasyonların bu özet form üzerine uygulanmasını amaçlayan bir indirgeme yapılabilir.

Veri madenciliğinde ön işleme teknikleri, veri sınıflandırma ve kümeleme teknikleri konuları oldukça detaylı ve tane tane hazmedilmesi gereken konulardır. Bu yazımızda bir veri seti üzerinde veri işleme çalışmasına başlamadan önce ne tür ön işleme adımlarından geçmesi gerektiği ile ilgili bilgi vermeye çalıştık. Ancak bahsedilen her bir tekniğin kendi içerisinde yöntemleri olduğu unutulmamalıdır.

Bu konuyla ilgili sorularınızı  alt kısımda bulunan yorumlar alanını kullanarak sorabilirsiniz.

Referanslar

www.mshowto.org

TAGs: Data mining, veri madenciliği, veri ön işleme teknikleri, veri madenciliği giriş

Bu İçeriğe Tepkin Ne Oldu?
  • 6
    harika_
    Harika!!
  • 4
    be_enmedim
    Beğenmedim
  • 1
    _ok_iyi
    Çok iyi
  • 4
    sevdim_
    Sevdim!
  • 1
    bilemedim_
    Bilemedim!
  • 0
    olmad_
    Olmadı!
  • 0
    k_zd_m_
    Kızdım!

Konya Teknik Üniversitesi Bilgisayar Mühendisliği Doktora programında tez dönemi öğrenciliğim devam etmektedir.İş hayatıma Vodafone'da Test Mühendisi olarak başladıktan sonra şuan bir üniversitede Sistem Uzmanı ve Siber Güvenlik Ofis Yöneticisi pozisyonunda çalışmaktayım.Başlıca uzmanlık alanlarım arasında Sistem yöneticiliği ve Siber Güvenlik gelmektedir.Asp.net ile Proje Geliştirme (2015), Bilgisayar Mühendisliğine Giriş (2020), Güvenlik Tasarım Desenleri (2022) kitaplarının yazarıyım.

Yazarın Profili

Bültenimize Katılın

Tıklayın, üyemiz olun ve yeni güncellemelerden haberdar olan ilk kişi siz olun.

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir