Machine Learning için Dogru Veri
Makine öğrenmesi (Machine Learning) ile verinizi üzerinde birçok soru sorarak, birçok sorunu çözer ve bunlaran fayda elde ederiz.
Machine Learning de ki en önemli konularda bir tanesi de Machine Learning de soru soracağımız verinin doğru, yeterli ve kaliteli olmasıdır. Anlamsız, birbirinden kopuk ve yeterli olmayan bir veri ile doğru tahmin yapmak mümkün değildir.
Machine Learning ile doğru sonuçlar elde etmek için verinizin sahip olması gereken bazı gereksinimler vardır. Bunlar;
- Verileriniz birbiri ile ilişkili mi?
- Verileriniz birbiri ile bağlı mı?
- Veriniz doğru mu?
- Yeterli miktarda veriniz var mı?
Bu yazımızda yukarıda ki veri kriterlerine bakacağız.
Verileriniz biribiri ile ilişkili mi?
İlkişili Olmayan Veri
Araba Fiyatları | Araba Motorunda ki Yağ Miktarı | Arabanın Bozulma Oranı |
200.000 TL | 19 lt | 30000km/1 |
60.000 TL | 20 lt | 20.000km/1 |
300.000 TL | 25 lt | 35.000km/5 |
180.000 TL | 22 lt |
İlişkili Veri
Araba Fiyatları | En Yoğun Satılan Ay | İlk Çeyrek Araba Satış Miktarları |
200.000 TL | 2 | 330.000.000 TL |
60.000 TL | 6 | 90.000.000 TL |
300.000 TL | 3 | 400.000.000 TL |
180.000 TL | 1 | 200.000.000 TL |
Yukarıda ki ilk tabloda ilişkili olmayan bir veri görüyoruz. Araba bozulma oranlarını tahminleyebileceğimiz ilişkili bir veri yok. Araba fiyatları ve araba motorunda ki yağdan arabaların bozulma oranlarını tahminleyemeyiz.
Başka bir örnek vermek gerekirse, bu tabloda araba lastiği satış oranları olsa yine ilişkili olmayan hatta yanlış veri tablosuna sahibiz demektir.
İkinci örneğe bakacak olursak, araba satışlarının ilk üç ayda ki satış oranı bulunuyor. Tabloada ki veriler araba satışarını aylık ve fiyat dağılımına göre veriyor, aylar ile mevsimlik ve dönemlik olarak belirli fiyatta ki arabaların hangi dönem daha çok satıldığı tahminlenebilir.
Verileriniz Birbiri ile Bağlı mı?
Bağlantılı Olmayan Veri
Araba Fiyatları | En Yoğun Satılan Ay | İlk Çeyrek Araba Satış Miktarları |
2 | 330.000.000 TL | |
60.000 TL | 90.000.000 TL | |
300.000 TL | 400.000.000 TL | |
1 | 200.000.000 TL |
Bağlantılı Veri
Araba Fiyatları | En Yoğun Satılan Ay | İlk Çeyrek Araba Satış Miktarları |
200.000 TL | 2 | 330.000.000 TL |
60.000 TL | 6 | 90.000.000 TL |
300.000 TL | 3 | 400.000.000 TL |
180.000 TL | 1 | 200.000.000 TL |
Yukarıda ki ilk tabloda verilerin kopuk ve eksik olduğunu görebilirsiniz. Bu senaryo da ilk senaryoya göre bazı yöntemler ile boş olan veya kopuk olan veriler temizlenip veri düzgün hale getirebilir. Ama verinizin büyük bir kısmı böyle ise veri yine kullanılamayan bir veridir.
Veriniz Doğru mu?
Machine learning de doğru veriye bakmak ve doğru soruyu sormak en önemli konulardan birisidir.
Bir grup veriye orada cevabı olmayan bir soruyu sormak anlamsız sonuçlar oluşturur.
Örnek vermek gerekirse sürekli elektronik eşya satın alan bir müşteri grubunun hangi müzik aletini aldığını sormak soruyu doğru veri grubuna yöneltememektir. Bu durumda boş veya anlamsız veriler elde edebilirsiniz.
Verilerinizi doğru şekilde kümelemeniz ve o veriye doğru algoritmayı uygulamanız gerekmektedir. Bazen bu düzgün kombinasyonu elde etmek için Machine Learning de bir veri grubu için birden fazla algoritma uygulanabilir.
Yeterli Miktar da Veriniz var mı?
Machine Learning de veri miktarı çok önemlidir. Gelecek dönem bir satış miktarını yapılan 10-15 satıştan tahmin etmek mümkün değildir. Veya 20-30 müşteri için gruplama yapmak veri büyüdüğü zaman ilk yapılan gruplamanın size yanlış bilgiler içerdiği sonucunu verebilir.
Dolayısı ile Machine Learning de ne kadar temiz ve doğru sonuç elde etmek istiyor isek o kadar çok veriye sahip olmamız gerekir.
Bunu bilgisayar monitorünüzde ki veya televizyonunuzda ki pixellere benzetebilirsiniz. Ne kadar çok piksel o kadar kaliteli görüntü demektir. Her pixel’ i bir veri kodlaması olduğunu düşünürsek fazla verinin bize daha iyi sonuçlar verdiğini anlayabiliriz.
Bu konuyla ilgili sorularınızı alt kısımda bulunan yorumlar alanını kullanarak sorabilirsiniz.
Referanslar
TAGs : AI, yapay zeka, Machine Learning, artificial intelligence, AI nedir, artificial intelligence nedir, AI ornekler, artificial intelligence ornekler