BİLİM 4 Mart 2016
138b OKUNMA     1686 PAYLAŞIM

Kelimelerin Kullanım Sıklığını Öngören İlginç Yasa: Zipf Yasası

1930 yılında Harvard Üniversitesi'nde dilbilim profesörü olan George Kingsley Zipf tarafından bulunan, herhangi bir insan dilinde yazılmış sözcüklerin kullanım sıklığıyla ilgili yasadır. Konuyu daha detaylı anlatması için sözü ''limon kimyon zorro''ya bırakalım.
George Kingsley Zipf

türkçe dahil test edildiği her yazılı metinde işlediği görülmüş bir kelime kullanım sıklığı kuralı. zaman içinde bunun da ötesine geçerek biyolojinin hatta evrenimizin fizik kurallarının bir gereği olarak hayatın her alanında da işlediği görülmüştür.

şimdi önce basitçe ne olduğunu ve neden olduğunu anlatmaya çalışalım. 1930'da amerika'da harvard üniversitesi'nde dilbilim profesörü olan george kingsley zipf ingilizcede en sık kullanılanılan kelimelerin bir istatistik çalışmasını yapıyor. ortaya çıkan veriyi işlediğinde her kelimenin kullanım sıklığının kullanım sırasıyla oranlı olduğunu keşfediyor.

yani örneklersek türkçede en sık kullanılan kelimeler ve kullanım oranları şunlar;

1. [ bir ] oran: % 3,348
2. [ ve ] oran: % 2,319
3. [ bu ] oran: % 1,353
4. [ de ] oran: % 0,794
5. [ da ] oran: % 0,757
6. [ için ] oran: % 0,670
7. [ daha ] oran: % 0,524
8. [ ama ] oran: % 0,520
9. [ o ] oran: % 0,515
10. [ gibi ] oran: % 0,496

(edit* daha sağlıklı veri için kaynaklardaki türkçe makaleye bakalım)

kelimelerin herhangi bir kitapta kaç kez geçtiğinin istatistiki çalışmasını yaparsak da ortaya şöyle bir sonuç çıkıyor. kitaptaki her kelime kullanım sıklığı ile oranlı olarak diziliyor. yani ikinci sıradaki kelime birinci sıradakinin yarısı kadar kullanılmış oluyor. üçüncü sıradaki kelime birinci sıradakinin üçte biri kadar kullanılmış oluyor. dördüncü sıradaki kelime birinci sıradakinin bir bölü dördü kadar kullanılmış oluyor ve bu böyle devam ediyor.

buradan ortaya şu çıkıyor ki tüm kelimelerin en sık kullanılan %20lik kesimi günlük ihtiyacımızın %80'ini karşılıyor. bu oran başka alanlarda da çok sık rastlanan bir doğal eğilim. aynı oranı şehir yoğunluklarında, site trafik verilerinde, yemek tariflerinde kullanılan malzemelerde ve daha binerce veride buluyoruz.

bu öylesine sağlam bir kural ki şu an dünyadaki her dilde yazılmış her kitapta uygulanabildiği görülüyor. öyle ki henüz çevirisini yapamadığımız antik dillerde bile çalışıyor.

aslında bunun nedeni kesin olarak bilinmiyor ancak hakkında yazılan makalelerde çeşitli olasılıklara değinilmiş durumda. ben bunlardan en ilgimi çeken kısmına değineceğim burada. bu açıklamaya göre insan evrim sırasında özgür biçimde yaptığı seçimleri içgüdüsel olarak güvenli sağlam %20 lik kesimde odaklamanın doğal seçilimde yararını görmüş ve bu veriyi aktarmış.

öte yandan kümülatif etkili seçimlerde kartopu etkisi de mevcut. yani eğer bir kelime pozitif ayrıma bir nedenle uğradıysa, mesela bu neden kelimenin kısa olması olabilir, o zaman daha da sık kullanılmaya başlıyor.

biz insanlar tamamen özgür olarak seçim yaptığımızda bile doğamızın ve içgüdülerimizin etkisi altında "şey"leri zipf kanununa göre sıralıyoruz. böylece aslında bir şeyin insan müdahalesi ile şekillendirilip şekillendirilmediğini de yine bu kanunla belirleyebiliyoruz.

mesela elimize donkişot kitabını alıp kullanılan kelimeleri sıralarsak yazan bir insan olduğu için kelimeler zipf kanununa göre bir grafik çiziyorlar. mesela belirli bir konuda yazılan akademik makaleleri de sıralarsak yine aynı grafiği çiziyorlar. mesela incili alıp sıralarsak yine zipf kanunu ortaya çıkıyor.

çünkü insan evrende yaşıyor ve evren fizik kanunlarına göre işliyor. bu tek başına neden böyle davranıyoruzu açıklamaya yetmiyor ancak insanın özgürlük algısının ve karar verme mekanizmasının narinliğini gözler önüne seriyor.

kaynaklar
vsauce
wiki1
wiki2
wiki3

türkçe makale (zipf kanununun türkçe üzerinde değerlendirilmesi.)
makale1
makale2

not:
türkçe değerlendirme makalesinde kullanılan veri paketinin hata oranına yol açtığı da belirtilmiş. şerh koymuş olmak için eklemek istedim. makaleden mevzu bahis kısmı aynen kopyalıyorum;

"çalışma sonucunda elde edilen değerlerin kesin bir ayrımı simgeleyemeyeceği ancak olası ayrım noktalarındaki b değerlerinin ingilizce’de (kornai, 2002) elde edilen sonuçlarla benzer olduğu görülmüştür. üç farklı test derlemi için elde edilen sonuçların birbirinden farklı olması derlemlerin dili modellemekte yetersiz olduğu görüşünü desteklemektedir. ileriki çalışmalarda kelime sayısı yüksek ve konu dağılımı dengeli bir derlemde araştırma yinelenecektir."

not2:
cevaplayabileceğimden çok daha fazla soru gelmiş öncelikle ilginiz için teşekkürler. bu vesileyle bazı konuları açayım. benim asıl ilgi alnım biyoloji ancak neredeyse her türlü bilimsel veriye tutkuyla merak duyuyorum. elbette bu her konuda konuşmak için yeterli değil.

o nedenle burada olduğu gibi yan ilgi alanlarımda konuşurken konuyu olabildiğince çok kaynaktan inceleyip ondan sonra yazmaya çalışıyorum. bu durumda da kimi zaman sorduğunuz sorunun cevabı bende olmuyor.

mesela bu kural kuranda işliyor mu diye çok soru gelmiş. ben baktım böyle bir çalışma bulamadım. bulursanız bana iletin beraber bakalım. işliyorsa ne olur işlemiyorsa ne olur onu da konuşalım.

birkaç mesajda ise verdiğim istatistikler üzerinde durulmuş haklı olarak. öncelikle verdiğim en sık kullanılan türkçe kelimelerin istatistik verisini çok da güvenilir olmayan bir kaynaktan aldım daha iyisini de bulamadım. siz böyle bir veriye ulaşabiliyorsanız iletirseniz entryi editlerim. benim halihazırda koyduğum veriler zipf kanunu incelenirken ne tarz bir dataya bakılıyor bunu örneklemek için koyuldu. logaritmik azalmanın türkçede de gözlemlendiğini anlatmaya çalışıyor o örnek. ama bu kadar az ve güvenilmez veriyle kanuna uygun bir grafik elde edemiyoruz elbette bundan dolayı da zipf kanunun türkçe üzerinde nasıl gözlemlendiğini gösteren asıl makaleyi entrye ilk yazdığımda eklemiştim. benim verdiğim örneğin hatalı olma ihtimali mevcut yani siz makaleye güvenin.

bir başka konu da ingilizcede bile bu kanunun dilin evrimi sırasında işlemez hale geldiği konusunda atılan mesajlar. ben de konuyu güncel çalışmalardan incelediğimde verilerdeki sapmanın zaman içinde arttığını ancak halen kanun içinde kaldığını gördüm. siz elinizdeki makaleleri benimle paylaşırsanız çok sevinirim.

tekrar ilginize teşekkür ediyorum.
sevgi saygı barış.