Veri Bilimi için İstatistik ve Olasılık

Batuhan Bilge Elersu
3 min readAug 3, 2022

--

Olasılık ve istatistik, veri biliminin temelini oluşturan iki temel kavramdır. Veri ön işleme, özellik dönüştürme, veri yükleme, boyutluluk azaltma, özellik mühendisliği, model değerlendirme gibi birçok işlev için olasılık ve istatistik kullanılır. İstatistiksel yöntemlerin yardımıyla, daha sonraki analizler için tahminler yapılabilir. Bu nedenle, istatistiksel yöntemler büyük ölçüde olasılık teorisine bağlıdır.

Veri Neden Önemlidir?

Verilerden önemli bilgiler çıkarabildiğimiz için günümüzde veriler çok önemlidir. Kategorik ve sayısal olmak üzere iki tip olan verilerin önemini kavrayabilmek için bu bilgileri öğrenmek oldukça önemlidir: iki değişken arasında var olabilecek ilişkileri belirleyerek veriler hakkında daha fazla bilgi edinilmesine yardımcı olur. Verilerin önceki eğilimine dayalı olarak geleceği tahmin etmeye veya tahminde bulunmaya yardımcı olur. Veriler arasında var olabilecek kalıpların belirlenmesine yardımcı olur. Verilerdeki anormallikleri ortaya çıkararak dolandırıcılığın tespit edilmesine yardımcı olur.

Veri Ölçüm Düzeyi

Nitel ve nicel veriler, kategorik ve sayısal verilere oldukça benzerler. Genel olarak kullanılan veri ölçüm düzeyleri şunlardır:
Nominal: Bu düzeydeki veriler, adlar, etiketler veya nitelikler kullanılarak kategorilere ayrılır. Örneğin: Marka adı, posta kodu, cinsiyet.
Ordinal: Bu seviyedeki veriler sıralanabilir veya karşılaştırtılabilir. Örneğin: Notlar, yıldız incelemeleri, yarıştaki pozisyon, tarih.
Aralık: Bu seviyedeki veriler, bir değer aralığında olduğu için sıralanabilir ve veri noktaları arasındaki anlamlı farklar hesaplanabilir. Örneğin: Santigrat cinsinden sıcaklık, doğum yılı.
Oran: Bu düzeydeki veriler, doğal bir sıfırın eklenen özelliğiyle aralık düzeyine benzer. Bu veri noktaları üzerinde matematiksel hesaplamalar yapılabilmektedir. Örneğin: Boy, yaş, kilo.

Veri biliminde kullanılan temel istatistik ve olasılık kavramları, bu konuda bilinmesi gereken detayları anlamayı kolaylaştırmaktadır. Bu kavramlar şunlardır:

Ortalama veya Beklenti Değeri

Matematik ve istatistikte ortalama, gözlemlerin toplamının gözlem sayısına
bölünmesine eşit olan sayısal gözlemlerin ortalamasıdır.

Varyans ve Standart Sapma

Matematiksel ve istatistiksel olarak varyans, ortalamadan farkların karelerinin ortalaması olarak tanımlanır. Bunu anlamak için verilerin bir veri kümesinde ne kadar yayılmış olduğunu göstermek gereklidir.

Standart Sapma

Standart sapma, bir veri kümesindeki veri noktalarının varyasyonunu veya dağılımını ölçer. Veri noktasının ortalamaya yakınlığını gösterir ve varyansın karekökü olarak hesaplanır. Veri biliminde, standart sapma genellikle bir veri kümesindeki aykırı değerleri belirlemek için kullanılır. Ortalamadan bir standart sapma uzakta bulunan veri noktalarının olağandışı olduğu kabul edilir.

Merkezi Limit Teoremi

Bu teorem, bir olasılık dağılım örneğinin örnek ortalamasının, varlık ortalaması tarafından verilen ortalama değeri ve varlık standart sapması tarafından verilen standart sapmanın N’nin kareköküne bölündüğü rastgele bir değişken olduğunu belirtir.

Bayes Teoremi

Bayes Teoremi, sağlık ve finans gibi birçok sektörde kullanılan çok önemli bir
istatistiksel kavramdır. Koşullu olasılık formüllerinin birçoğu bu teoremden türetilmiştir. Hipotezde sağlanan çeşitli verilerin olasılıklarına dayalı olarak bir hipotezin olasılığını hesaplamak için kullanılır.

Korelasyon ve Kovaryans

Korelasyon ve kovaryans, bir veri kümesindeki ortak hareketin ölçüleridir. Özellikler arasındaki korelasyon derecesini ölçmek için kullandığınız denklem ile kovaryans matrisini hesaplayabilirsiniz.

Merkezi Eğilim Ölçüleri

Merkezi eğilim ölçüsü, bir veri kümesi içindeki merkezi konumu belirleyerek bir veri kümesini tanımlamaya çalışan tek bir değerdir. Bu nedenle, merkezi eğilim ölçüleri bazen merkezi konum ölçüleri olarak adlandırılır. Ayrıca özet istatistikler olarak sınıflandırılırlar. Özetle, veri bilimine yeni başlayanlar için gerekli olan olasılık ve istatistikte ilgili bu kavramları bilmek, diğer ileri düzey veri bilimi konularını öğrenmenize yardımcı olacaktır.

--

--

Batuhan Bilge Elersu

Data Analyst @ Jollify Games. Elevating businesses with concise data insights & compelling narratives.