Görünenle Gerçek Arasındaki Çelişkinin Çarpıcı Bir Örneği: Simpson Paradoksu

Verilerin ilk bakışta gösterdiği ilişkilerle, derinlemesine incelendiğinde ortaya çıkan çelişkileri gözler önüne seren Simpson paradoksuna yakından bakalım.
Görünenle Gerçek Arasındaki Çelişkinin Çarpıcı Bir Örneği: Simpson Paradoksu

Simpson paradoksu nedir?

1899 yılında istatistikçi karl pearson ve 1903 yılında udny yule bu paradoksun etkilerinden bahsetmiştir. edward h. simpson 1951 yayınladığı bir teknik makalede bu paradoksu tanımladığı simpson paradoksu olarak bilinmektedir. bazı kaynaklarda yule-simpson etkisi olarak geçmektedir.

1. gün: a ile b takımları maç yapsın. a takımı 63/90 şut yüzdesiyle b takımı 8/10 şut yüzdesiyle oynasın. a takımı %70 ve b takımı %80 yüzde şut yüzdesiyle oynamıştır.

2. gün: a ile b takımları maç yapsın. a takımı 4/10 ve b takımı 45/90 oynasın. a takımının şut yüzdesi %40 ve b takımının süt yüzdesi %50'dir.

b takımı her iki günde de daha iyi yüzdesi olmasına rağmen toplam şutta a takımı 67/100=%67 ve a takımı 53/100=%53 başarısı vardır. parça parça incelendiğinde b takımı başarılı gözükürken, bütüne baktığımızda a takımı daha başarılı gözükmektedir.

Bir örnekle pekiştirelim

ahmet ve faruk farklı takımlarda amatör basketbol oynayan iki arkadaştır. ikisi de şut atmada diğerinden daha başarılı olduğunu iddia etmektedir. bir gün bunların takımları maç yapar. maçta ahmet potaya 10 şut atar, 9'unu sokar. aynı maçta faruk potaya 20 şut atar, 13'ünü sokar. yani ahmet'in şut yüzdesi (%90) faruk'unkinden (%65) bir hayli yüksektir. ertesi haftaki rövanş maçında ikisinin de performansı düşüktür: ahmet 20 şut atıp 4'ünü sokar, faruk 10 şut atıp 1'ini sokar. ahmet'in şut yüzdesi (%20) yine faruk'unkinden (%10) yüksektir. ikinci maçın sonunda ahmet faruk'a der ki "iki maçta da benim şut yüzdem daha yüksek olduğuna göre, artık kimin daha iyi olduğu anlaşılmıştır herhalde." faruk da ahmet'e der ki "yavrum iki maçta ikimiz de toplam 30'ar şut attık, ben 30'da 14 soktum, sen 30'da 13 soktun. daha neyin tatavasını yapıyorsun?" 

böylece, sevgili dostlar, ahmet simpson paradoksu ile tanışmış olur: iki maçta da ahmet'in şut yüzdesi faruk'unkinden daha yüksek olmasına rağmen faruk'un kümülatif şut yüzdesi ahmet'inkinden yüksektir. böyle bir şeyin mümkün olması insanları şaşırtır, adına paradoks derler.

Bu paradoks neden kaynaklanıyor?

simpson paradoksu, kategorilere ayrılıp incelenmesi gereken bir verinin bu kategorileri görmezden gelip toplu olarak incelenmesinin bir sonucu. eğer x ve y arasındaki ilişkide w değişkeninin varlığını hesaba katmazsanız bu paradoksun bahsettiği hatayı yapmış olursunuz.

en beğendiğim örneği evin oda sayısı ve fiyatı arasındaki ilişkidir. eğer birisi size evin oda sayısı ve fiyatı arasındaki ilişkiyi sorarsa pozitif bir ilişki olduğunu söylersiniz. ancak bu ikisinin ilişkisini inceleyen veriye baktığımız zaman negatif bir ilişki göze çarpıyor. bunun çok saçma gelmesinin sonucunda baktığımız zaman gözden kaçırdığımız bir değişken ortaya çıkıyor: evin lokasyonu. şehir dışında evler daha çok odaya sahip olduğu ancak fiyatları şehir içinde bulunan evlere göre düşük olduğu için ters bir ilişki bulduk. ancak evleri lokasyonlarına göre incelediğimiz zaman şehir içinde daha fazla odaya sahip olan evlerin ve şehir dışında daha fazla odaya sahip olan evlerin aynı bölgede daha az odaya sahip evlerden daha pahalı olduğunu görüyoruz.

veriyi ilk incelediğimiz zaman evin lokasyonunu hesaba katmamıştık ve bu bize çok anlamsız bir sonuç verdi. ancak, üçüncü bir değişkenin varlığının farkına varınca bu durumu çözmüş olduk. simpson paradoksunun bir örneği olan bu durumun bir başka adı da ecological fallacy. bu tarz şeylere her araştırmada ve özellikle sosyal bilimlerde toplanan anket araştırmalarında dikkat edilmediği durumda çok hatalı sonuçlar elde edilir. kaynağı da belirtildiği üzere buna omitted variable bias deniyor ve gerçekten çok yaygın bir durum.

kaynak