“Great Expectations”, Verimizi doğrulama, dokümante etmemizi ve elimizdeki veriyi profillememize yardımcı olan bir Python kütüphanesidir. “Great Expectations” kendi bünyesinde barındırdığı fonksiyonlar haricinde bizim de kendi beklentilerimizi test etmemizi yardımcı olacak özelleştirilmiş fonksiyonlar yazmamıza olanak sağlar.
Fonksiyonlar, verimiz hakkında detaylı bilgilere sahip olan bir “dictionary” döndürür. Örneğin toplamda ne kadar verimizin olduğu veya kaç satır verimizin eksik olduğu gibi(Resim-1).
Resim-1
Bu yazımdaki örnek için kaggle’daki Telco Customer Churn verisini “LabelEncoding” işlemi uygulanmış şekilde kullanacağım. Ayrıca “Pandas” kütüphanesini kullanıyor olacağım.
İlk olarak işlemlerde kullanacağımız gerekli kütüphaneleri “import” ederek ve verimizi okuyarak başlayalım(Resim-2).
Resim-2
“Import” ettiğimiz PandasDataset yazmış olduğumuz özelleştirilmiş beklentileri (“Expectations”) “Pandas Dataframe”leri üzerinde çalıştırmamıza yardımcı oluyor. MetaPandasDataset dekoratör fonksiyonu ise bizim özelleştirilmiş fonksiyonumuzun, kütüphaneyle birlikte gelen hazır fonksiyonlar gibi davranmasını sağlıyor.
Özelleştirilmiş beklentilerimizi yazdığımız bir “Class” oluşturalım(Resim-3).
Resim-3
Oluşturmuş olduğumuz beklentilerimizi denemek için “Dataframe”imizi hazır hale getirelim(Resim-4).
Resim-4
Bir tane hazır gelen ve bir tane de kendi hazırlamış olduğumuz beklentiyi test edelim.
Resim-5
Resim-5’de kütüphaneyle birlikte gelen “expect_column_values_to_not_be_null” fonksiyonunu kullandık. Veride baktığımız sütunda hiçbir hücrenin boş olmadığını beklediğimizi sorguladık ve 11 beklenmedik yani eksik verimizin olduğu sonucunu döndürmüş oldu.
Resim-6
Resim-6’da kendi belirlediğimiz beklentiyi test ettik. Sütundaki verilerin 0 ile 10000 arasında olduğunu kontrol ettik ve elimizdeki tüm verinin bu aralıkta olduğu sonucunu gördük.
Bu adımları kullanarak siz de kendi elinizdeki veriyi test edebilirsiniz.
Bu konuyla ilgili sorularınızı alt kısımda bulunan yorumlar alanını kullanarak sorabilirsiniz.
Referanslar:
https://www.kaggle.com/datasets/blastchar/telco-customer-churn
TAGs: Python, Pandas, Veri Bilimi, Data Science, Data, Veri, Dataframe, Great Expectations, Test, Kaggle, Customer Churn,Great Expectations Nedir