İlginizi Çekebilir
  1. Ana Sayfa
  2. Algoritmalar
  3. Veri Ön İşleme Nedir ?

Veri Ön İşleme Nedir ?

Bu yazımızda veri madenciliği konusunun başlangıç konusu olan veri ön işleme tekniklerinden bahsediyor olacağız. Data Prepprocessing olarak literatürde yerini alan konumuz, veri madenciliği çalışmasına başlangıç fazında, henüz bir model ortaya konmamışken veri seti üzerinde yapılan bir takım iyileştirme çalışmalarıdır. Bu iyileştirme çalışmalarını biraz açacak olursak öncelikle veri seti üzerinde mümkünse gözle tarama yapılmalıdır. Gözümüze takılan bir nitelik veya bu niteliğe ait verilerde bir tutarsızlık olup olmadığı incelenir. Örneğin nitelik kolonlarından bir tanesinde sürekli aynı veri bulunuyor olabilir veya üretim kolonunda sadece 1 yazıyor olabilir farklı bir veri olmadığı zamanlarda bu kolonları kapsam dışı bırakabiliriz. Veri setini excel formunda düşünürsek bu tür bir kolonu komple silebiliriz.

Daha sonra bakılması gereken noktalar eksik veriyi tespit etme, eksik veriyi kaldırma, tekrarlı verileri kaldırma, aykırı verilerin tespit edilmesi, düzeltme işlemleri, dönüştürme işlemleri, normalleştirme ve veriyi bir şekilde optimize etme işlemleridir. Veri seti üzerinde tüm bu işlemler yapılırken de aslında veri bilgi sahibi olunmuş olunur. Böylece veri üzerinde yapılması planlanan her bir işlem için veri setinin uygunluğu anlaşılır.

Veri seti üzerinde yapılacak bir işlemde tahmin edileceği üzere verinin tüm sorunlarından arınmış ve yapılacak işleme cevap verir hale gelmiş olması gerekmektedir. Bu yüzden veri ön işleme adımları veriler üzerinde bir model belirlenerek çalışmaya başlanmadan hemen önce yapılır ve aşağı yukarı tüm veri işleme sürecinin %70’lik bir bölümünü veri ön işleme adımları alır. Bu oran oldukça büyük bir orandır çünkü temiz bir veri olmazsa uygulanacak modellerden başarı alınamaz ve bizi yanlış sonuçlara götürür.

Veri ön işleme tekniklerinde bir sınıflandırma yapacak olursak, aşağıdaki şekilde bir sıralama aydınlatıcı olacaktır.

  1. Veri Birleştirme
  2. Veri Dönüştürme
  3. Veri İndirgeme

Veri temizleme sınıfında (veri sınıflandırma ile karıştırılmamalıdır.) veri seti içerisinde tespit edilen aykırı değerlerin temizlenmesi, eksik verilerin kaldırılması veya tamamlanması gibi işlemler yapılır. Bu işlemler verinin üzerindeki gürültüyü azaltmış olurlar. Yapılacak her bir eksik veri tamamlama veya aykırı veri tespit çalışması için ise ayrı ayrı yöntemler geliştirilmiştir. Örneğin bir eksik veri tahmini işleminde istatistiksel yöntemlerden faydalanılacağı gibi, optimizasyon yöntemleri veya regresyon yöntemlerinden de faydalanılır. Bu işlemlerin her biri farklı şekillenip sonuçta verideki eksik veriyi tamamlamış olacaktır.

Veri önişleme fazında veri öncelikle küçükten büyüğe veya anlamlı olacak şekilde sıralanmalıdır. Sıralanmamış bir veri seti üzerinde ön işleme adımlarından söz edilemez. Ardından aykırı veri tespitinde veya gürültülü verilerin tespitinde kümeleme algoritmalarından faydalanabilir. Yine eksik verilerin tamamlanması aşamasında ise regresyon veya yukarıda bahsedildiği gibi diğer yöntemlerden biri seçilebilir.

Veri birleştirme sınıfında ise farklı farklı veri tabanlarında bulunan veri setlerinin tek bir yerde toplanması aşamasının düzenli bir şekilde yürütülmesi sağlanır. Veri dönüştürme sınıfında veri seti içerisindeki verilerin madencilik operasyonlarına uygun şekilde dönüştürülmesi sağlanır. İndirgeme olarak adlandırdığımız son sınıfımızda ise büyük verinin daha özet formuna dönüştürülmesi ve operasyonların bu özet form üzerine uygulanmasını amaçlayan bir indirgeme yapılabilir.

Veri madenciliğinde ön işleme teknikleri, veri sınıflandırma ve kümeleme teknikleri konuları oldukça detaylı ve tane tane hazmedilmesi gereken konulardır. Bu yazımızda bir veri seti üzerinde veri işleme çalışmasına başlamadan önce ne tür ön işleme adımlarından geçmesi gerektiği ile ilgili bilgi vermeye çalıştık. Ancak bahsedilen her bir tekniğin kendi içerisinde yöntemleri olduğu unutulmamalıdır.

Bu konuyla ilgili sorularınızı https://forum.mshowto.org linkini kullanarak ulaşacağınız sayfamızda sorabilirsiniz.

Referanslar

www.mshowto.org

TAGs: Data mining, veri madenciliği, veri ön işleme teknikleri, veri madenciliği giriş

Yorum Yap

Yazar Hakkında

Bilgisayar Mühendisliği Doktora programında öğrenciliğim devam etmektedir. Bir Vakıf üniversitesinde 2016 yılı itibariyle Bilgisayar Mühendisi 2020 yılı itibariyle ise Ofis Yöneticisi mühendis olarak çalışmaktayım.  Başlıca uzmanlık alanlarım arasında Asp.Net Web Forms, Asp.Net MVC, .Net Core, C# ve SQL Server gelmektedir. Bunların yanı sıra iş hayatımda sistem ve siber güvenlik konularında da çalışmalarım devam etmektedir. Çeşitli AB destek projelerinde yazılım sorumlusu olarak görev yapıyor ve çalışmalarımı Secure Design Pattern, Yazılım Güvenliği, Siber Güvenlik, Bilgi Güvenliği konularında sürdürüyorum. Asp.net ile Proje Geliştirme ve Bilgisayar Mühendisliğine Giriş isimli kitapların yazarıyım.

Yorum Yap