Tembeller için Keşifçi Veri Analizi

Batuhan Bilge Elersu
4 min readAug 23, 2023

--

Veri bilimi, aynı anda hem ilham verici hem de zorlayıcıdır. Veri önişleme, temizleme ve veriden çeşitli grafiklerle içgörü elde etme gibi işlemler oldukça zahmetlidir. Ancak bu yazımda, bu süreçleri sizin için otomatikleştiren iki Python kütüphanesini tanıtacağım.

Birkaç kod satırıyla kapsamlı raporlar oluşturacaksınız. Evet! Yalnızca bir kaç kod satırıyla. Hadi başlayalım.

SweetViz

SweetViz, esas olarak keşifçi veri analizi (EDA) için tasarlanmış açık kaynaklı bir Python kütüphanesidir. Bu kütüphane, birkaç kod satırıyla grafikler ve görsellerle dolu kapsamlı raporlar üretebilir. Aynı zamanda bu rapor çıktıyı .html olarak verdiği için rahatlıkla kullanabilir ve üzerinde gezinebilirsiniz.

Öncelikle aşağıda kod satırı ile kütüphanemizi kuralım.

pip install sweetviz

Peki bundan sonrası hepinizin bildiği gibi. Gerekli kütüphaneleri çağıralım ve örnek bir veriseti çağırmak için seaborn kütüphanesini kullanalım.

import pandas as pd
import seaborn as sns
import sweetviz as sv

df = sns.load_dataset("tips")

Şimdi geldik işin zor kısmına. Hani tembeller içindi?

analyzed = sv.analyze(df)
analyzed.show_html()

Ve bam! Yalnızca iki satır kod ile neler yaptık şimdi buna bir bakalım. Bu kod bloğu, “tips” veri kümesini analiz eder ve sonuçları bir HTML raporu olarak gösterir. SweetViz, veri kümesindeki özelliklerin dağılımını, eksik değerleri ve özellikler arasındaki ilişkileri görselleştirir.

Bu harika değil mi? Tüm değişkenleri, eksik değerlerini, özelliklerini ve eşsiz değerlerini aynı zamanda da tanımlayıcı istatistiksel ifadeleri de yalnıca iki satır kod ile getirdik.

Bununla da kalmayı Associations sekmesi altında bir korelasyon analizine ulaştık.

■ Kareler, kategorik ilişkilendirmeleri (belirsizlik katsayısı & korelasyon oranı) 0'dan 1'e kadar temsil eder. Belirsizlik katsayısı asimetriktir, yani SATIR ETİKETİ değerleri, ÜSTTEKİ ETİKETE ne kadar BİLGİ SAĞLADIKLARINI gösterir.

• Daireler, -1'den 1'e kadar olan simetrik sayısal korelasyonları (Pearson) temsil eder.

Kütüphanenin ve işlevselliğinin daha detaylı bilgisini almak için buradan dökümantasyonunu inceleyebilirsiniz.

Pandas Profiling

Pandas kütüphanesinde veri analizi için çeşitli fonksiyonlar bulunmaktadır. Ancak bu fonksiyonları tek tek uygulamak zaman alabilir. Pandas Profiling kütüphanesi bu süreçleri otomatikleştirir. Üstelik bu sefer tek bir kod satırı ile :) Gittikçe tembelleşiyoruz değil mi?

Her zaman olduğu gibi öncelikle kütüphaneyi yüklemek için gerekli satırı paylaşarak başlayalım.

pip install pandas-profiling

Şimdi geldi işin zor kısmına. Analiz edecek kodları yazmak bu kez daha da zor olacak. Zaten hali hazırda örnek bir veri seti çağırdığımız için bu kısmı atlıyorum ve direkt olarak analiz edecek kodları hazırlıyorum.

from pandas_profiling import ProfileReport
analyzed_report = ProfileReport(df)

Evet, hepsi bu kadar! Pandas Profiling kütüphanesi ile notebook üzerinde yine etkileşimli bir .html sayfası açılıyor. Bu sayfa üzerinde genel görünüm, değişkenler, ilişkiler, korelasyonlar, eksik değerler, örneklem ve duplike satırlar sekmesi bulunuyor.

Şimdi tek tek bu sekmelerin altındaki sayfalara birlikte göz atalım.

Overview, ile veri setimiz hakkında genel bir fikir ediniyoruz. Alert sekmesine tıkladığımızda ise bize yine özet bilgiler sunuyor. Örnek veri setimiz için sunduğu uyarılar aşağıdaki gibi:

Dataset has 32 (13.1%) duplicate rows

total_bill is highly overall correlated with tip and 1 other fields

tip is highly overall correlated with total_bill

size is highly overall correlated with total_bill

day is highly overall correlated with time

time is highly overall correlated with day

Variable sekmesi altında ise her bir değişken için özet bilgileri tek tek görebiliyoruz. Select columns kısmından istediğimiz kolonu seçerek inceleyebiliriz.

Interactions kısmında ise iki değişkenli bir analiz yaptığını görüyoruz. Buradaki grafikten faydalanarak iki özellik için dağılım grafikleri çizdirebiliriz.

Corelations sekmesi için ek bir şey söylememe gerek var mı bilmiyorum. Hem ısı haritası hem de tablo olarak analize erşimek mümkün.

Missing values, veri setindeki eksik değerlerin matrisini çıkarırken, Sample sekmesi ise veri setindeki ilk ve son 10 satıra bakmamıza olanak sağlar.

Kütüphanenin ve işlevselliğinin daha detaylı bilgisini almak için buradan dökümantasyonunu inceleyebilirsiniz.

--

--

Batuhan Bilge Elersu

Data Analyst @ Jollify Games. Elevating businesses with concise data insights & compelling narratives.