1. Ana Sayfa
  2. Microsoft Azure
  3. Machine Learning için Doğru Veri

Machine Learning için Doğru Veri

için Dogru Veri

Makine öğrenmesi (Machine Learning) ile verinizi üzerinde birçok soru sorarak, birçok sorunu çözer ve bunlaran fayda elde ederiz.

Machine Learning de ki en önemli konularda bir tanesi de Machine Learning de soru soracağımız verinin doğru, yeterli ve kaliteli olmasıdır. Anlamsız, birbirinden kopuk ve yeterli olmayan bir veri ile doğru tahmin yapmak mümkün değildir.

Machine Learning ile doğru sonuçlar elde etmek için verinizin sahip olması gereken bazı gereksinimler vardır. Bunlar;

  • Verileriniz birbiri ile ilişkili mi?
  • Verileriniz birbiri ile bağlı mı?
  • Veriniz doğru mu?
  • Yeterli miktarda veriniz var mı?

 

Bu yazımızda yukarıda ki veri kriterlerine bakacağız.

Verileriniz biribiri ile ilişkili mi?

İlkişili Olmayan Veri

Araba Fiyatları Araba Motorunda ki Yağ Miktarı Arabanın Bozulma Oranı
200.000 TL 19 lt 30000km/1
60.000 TL 20 lt 20.000km/1
300.000 TL 25 lt 35.000km/5
180.000 TL 22 lt

İlişkili Veri

Araba Fiyatları En Yoğun Satılan Ay İlk Çeyrek Araba Satış Miktarları
200.000 TL 2 330.000.000 TL
60.000 TL 6 90.000.000 TL
300.000 TL 3 400.000.000 TL
180.000 TL 1 200.000.000 TL

Yukarıda ki ilk tabloda ilişkili olmayan bir veri görüyoruz. Araba bozulma oranlarını tahminleyebileceğimiz ilişkili bir veri yok. Araba fiyatları ve araba motorunda ki yağdan arabaların bozulma oranlarını tahminleyemeyiz.

Başka bir örnek vermek gerekirse, bu tabloda araba lastiği satış oranları olsa yine ilişkili olmayan hatta yanlış veri tablosuna sahibiz demektir.

İkinci örneğe bakacak olursak, araba satışlarının ilk üç ayda ki satış oranı bulunuyor. Tabloada ki veriler araba satışarını aylık ve fiyat dağılımına göre veriyor, aylar ile mevsimlik ve dönemlik olarak belirli fiyatta ki arabaların hangi dönem daha çok satıldığı tahminlenebilir.

Verileriniz Birbiri ile Bağlı mı?

Bağlantılı Olmayan Veri

Araba Fiyatları En Yoğun Satılan Ay İlk Çeyrek Araba Satış Miktarları
2 330.000.000 TL
60.000 TL 90.000.000 TL
300.000 TL 400.000.000 TL
1 200.000.000 TL

Bağlantılı Veri

Araba Fiyatları En Yoğun Satılan Ay İlk Çeyrek Araba Satış Miktarları
200.000 TL 2 330.000.000 TL
60.000 TL 6 90.000.000 TL
300.000 TL 3 400.000.000 TL
180.000 TL 1 200.000.000 TL

Yukarıda ki ilk tabloda verilerin kopuk ve eksik olduğunu görebilirsiniz. Bu senaryo da ilk senaryoya göre bazı yöntemler ile boş olan veya kopuk olan veriler temizlenip veri düzgün hale getirebilir. Ama verinizin büyük bir kısmı böyle ise veri yine kullanılamayan bir veridir.

Veriniz Doğru mu?

Machine learning de doğru veriye bakmak ve doğru soruyu sormak en önemli konulardan birisidir.

Bir grup veriye orada cevabı olmayan bir soruyu sormak anlamsız sonuçlar oluşturur.

Örnek vermek gerekirse sürekli elektronik eşya satın alan bir müşteri grubunun hangi müzik aletini aldığını sormak soruyu doğru veri grubuna yöneltememektir. Bu durumda boş veya anlamsız veriler elde edebilirsiniz.

Verilerinizi doğru şekilde kümelemeniz ve o veriye doğru algoritmayı uygulamanız gerekmektedir. Bazen bu düzgün kombinasyonu elde etmek için Machine Learning de bir veri grubu için birden fazla algoritma uygulanabilir.

Yeterli Miktar da Veriniz var mı?

Machine Learning de veri miktarı çok önemlidir. Gelecek dönem bir satış miktarını yapılan 10-15 satıştan tahmin etmek mümkün değildir. Veya 20-30 müşteri için gruplama yapmak veri büyüdüğü zaman ilk yapılan gruplamanın size yanlış bilgiler içerdiği sonucunu verebilir.

Dolayısı ile Machine Learning de ne kadar temiz ve doğru sonuç elde etmek istiyor isek o kadar çok veriye sahip olmamız gerekir.

Bunu bilgisayar monitorünüzde ki veya televizyonunuzda ki pixellere benzetebilirsiniz. Ne kadar çok piksel o kadar kaliteli görüntü demektir. Her pixel’ i bir veri kodlaması olduğunu düşünürsek fazla verinin bize daha iyi sonuçlar verdiğini anlayabiliriz.

Bu konuyla ilgili sorularınızı https://forum.mshowto.org linkini kullanarak ulaşacağınız forum sayfamızda sorabilirsiniz.

Referanslar

www.mshowto.org

TAGs : , , Machine Learning, , , , ,

Yorum Yap

Yazar Hakkında

Onur Yüksektepeli - Chief Technology Architect | Micosoft MVP Onur Yüksektepeli Nephocraft firmasının kurucusu aynı zamanda kendi firmasında teknoloji çözümleri mimarıdır. 15 Yıldan fazla IT tecrübesi ile temel uzmanlık alanı olan Platform ve diğer teknolojiler için müşterilerine ürün ve hizmetler sunmaktadır. Microsoft MVP ünvanına sahip Onur Yüksektepeli birçok IT etkinliğinde aktif konuşmacı olarak ve IT topluluklarında yönetici olarak aktif rol üstlenmektedir. Nephocraft firmasın da yönetici olarak oluşturduğu çözümlerde yeni teknoloji gelişmelerini de göz önünde bulundurarak, müşterilerine esnek, yenilikçi, akıllı ve üretken iş çözümleri üretmektedir.Onur Yüksektepeli bulut, platform, data, devops, development gibi konularda aktif danışmanlık ve IT eğitmenliğine de devam etmektedir.

Yorum Yap