Country, Diğer Müzik Türlerine Kıyasla Alkolden Daha Fazla mı Bahsediyor?
peşin not: country şarkılarında bol bol içkiden bahsedildiğini fark etmem üzerine internette yaptığım gezintiler sonucu aşağıdaki makaleyi buldum. google translate ile çevirerek elimden geldiğince düzelttim ve burada dursun istedim. buyrun.
spotify’ın hot country ve country nights çalma listeleri sayesinde, kısa süre önce country dinlemede alışılmadık bir aşamaya girdim. rock normalde daha çok benim tarzım, bu yüzden bu benim için bir ilkti. country'nin ne kadar akılda kalıcı olabileceğini hemen anladıktan sonra, beni gerçekten etkileyen şey, alkol ve içkiye çok fazla atıfta bulunulmasıydı!
aşağıda chris stapleton'dan şu satırlara bakalım. alkolsüz şeylerin de benzetme sanatında kullanılabileceğini bildiğinden şüpheliyim...
tennessee viskisi kadar pürüzsüzsün
çilekli şarap kadar tatlısın
bir bardak brendi kadar sıcaksın
tennessee whiskey - chris stapleton
ya da osborne kardeşler'den gelen bu satırlara ne dersiniz? gerçekten onların suçu değil mi?
biranın suçunu viskiye at
viskinin suçunu biraya
sabahın suçunu ise geceye at
it ain’t my fault (benim suçum değil) - brothers osborne
country müziğini düşündüğümde, bira ve viski kafamdaki imajının bir parçası, ancak rock veya rap müziğinde olduğu kadar değil. country'de yeni olduğum için alkolden daha fazla bahsedip bahsetmediğini veya müzik türleri arasında bu konuda gerçekten ölçülebilir bir fark olup olmadığını merak ettim.
bulmak için yapmam gereken şeyler şuydu:
- rock, pop, country vb. gibi türe özgü listeleri olan billboard web sitesinden farklı müzik türlerindeki popüler şarkıların bir listesini almak
- şarkı sözlerini almak
- alkol ve alkolle ilgili kelimelerin bir listesini yapmak
- kaç şarkının bu kelimelerden bahsettiğini saymak
bu süreç sandığımdan biraz daha uzun sürdü ancak aşağıda analiz ve bulgulara ilişkin -umarım- zevk alabileceğiniz bir analiz var artık.
chris stapleton - tennessee whiskey
veri toplama ve ayıklama
beş yıllık listeleri biriktirmek
ilk adım, her tür için şarkılardan oluşan bir veri kümesi oluşturmaktı. billboard web sitesindeki yıl sonu çizelgelerini normalde 100 entry uzunluğunda oldukları için kullanmaya karar verdim, bu yüzden çok fazla veri sağlayacak ve bu türleri insanların gerçekten dinlediklerini temsil ettiğinden emin olabilirim. bunlar amerikan listeleri, ancak amerika (beğensek de beğenmesek de) dünya çapındaki trendi belirleme eğiliminde olduğundan ve en büyük country müzik kitlesine sahip olduğundan, bu proje için en iyi veri kaynağı olduklarını düşünüyorum.
billboard web sitesinde rock, country, pop, r&b/hip-hop, dans/electronic, hristiyan müziği için grafikler (chart'lar) var ve ben de referans için türe özgü olmayan genel hot 100 chart'ını dahil etmeye karar verdim. ingilizce olmayan şarkılar daha sonraki analiz sonuçlarını çarpıtacağı için latin veya uluslararası listeleri dahil etmedim.
yukarıdaki bağlantılar 2017 yıl sonu çizelgelerine aittir, ancak hepsi en az 2013 yılına kadar uzanmaktadır. zaman içindeki eğilimleri araştırabilmek için son beş yılın tamamını almaya karar verdim.
bir hot chart'ı olmayan pop haricinde, her tür için esas olarak "hot" listelerini kullanıyorum burada. hot chart'lar, radyo çalmalarını, fiziksel satışları ve stream sayılarını hesaba katarken, pop chart yalnızca radyo çalmalarını esas alıyor. her durumda, her türden insanların dinlediklerini iyi bir şekilde temsil etmeleri gerekir.
bazı şarkılar birden fazla grafikte veya yılda görünebilir. herhangi bir grafiğin içeriğini değiştirmek istemediğim için tekrar eden şarkıları kaldırmıyorum.
her bir web sayfasından, her bir chart'ta yer alan şarkıcı ve şarkı ismini almak için (extract etmek için) python beautiful soup library'yi kullandım. bu, chrome'da bir web sayfasında ctrl + shift + i tuşlarına bastığınızda gördüğünüz html ile aynıdır.
bunu yaparken, 2015 r&b/hip-hop chart'ında normalde diğer yıllarda 100 olan entry sayısının 25 olması gibi bazı sorunlar buldum. veya 2016 hot 100'de sadece 99 entry var çünkü #87 eksik. bu sorunların arkasındaki nedenler hakkında hiçbir fikrim yok, ancak daha sonra analizimi yaparken grafik uzunluklarının hepsinin farklı olabileceğini hesaba kattım.
2.840 şarkı için şarkı sözü toplamak
chart toplama işlemi 3.019 chart entry'si buldu ve genius.com’un api'sini kullanarak bunlardan 2.840 tanesinin sözlerini almayı başardım. sadece kayıt olmanız gerekiyor, o zaman kullanmak ücretsiz. kodumda, genius.com’un api'siyle çalışmayı çok kolaylaştıran lyricsgenius python paketini kullandım.
bu aşamada yaşadığım sorunlar, billboard'un kullandığı şarkı ve sanatçı adlarını genius tarafından kullanılanlarla eşleştirmekti. örneğin bir şarkının birden fazla sanatçıya ait olmasıyla ilgili pek çok sorun vardı. billboard'da sanatçı isimlerini bir araya getirmenin birçok yolu vardı: "featuring", "x" (kygo x selena gomez gibi), "with" vb. ama genius çok daha seçiciydi, bu yüzden farklı kombinasyonları denemeliydim.
sonunda, bu sorunları bulmaya çalışmak için harcanan zaman artık buna değmezdi. 2.840, toplam entry'lerin %94'ünü oluşturuyor, bu yüzden o noktada devam etmeye karar verdim. listeye göre şarkı sözü bulunan şarkı sayısı aşağıdadır.
rock: 483
country: 490
dans/elektronik: 442
pop: 240
hot 100: 476
r&b/hip-hop: 379
hristiyan müziği: 322
(analiz yüzdeleri karşılaştırdığından, farklı miktarların bulunması daha sonraki sonuçları etkilemeyecek.)
şarkı sözlerini ayıklamaca
kaçırılan veya yanlış sayımlara neden olan bir kelimenin birden çok fiil çekimi, çoğul veya varyasyonundan kaçınmak için sözcükleri kökenine göre gruplamak için leammatizasyonu kullandım. örneğin, "yürüdü", "yürür" ve "yürümek" fiillerinin tümünü "yürümek" olarak gruplandırdım. (“walked”, “walks” ve “walking” kelimelerinin hepsi “walk” kelimesi altında toplanacak şekilde.)
bunun işe yaraması için tüm kelimelerin konuşma bölümlerinin etiketlenmiş olması gerekiyordu. bu etiketler fiil, sıfat, zarf veya isim/diğer şeyler olabilir. normalde cümleleri konuşma parçasını etiketleyen algortimaya iletirsiniz, ancak bu durumda şarkılarda noktalama işareti olmaması nedeniyle sözleri satırlara böldüm ve geçtim.
her iki task için de python nltk kütüphanesini kullandım ve bayağı işe yaradı. 6 kelimeye kadar ortak bir kaynak kelime olarak gruplandırıldı. örneğin, “go,” “going,” “gone,” “goes,” “gon” and “went”, hepsi sadece "go" şeklinde gruplandırıldı.
analiz etme aşaması
içki ve alkol kelimeleri için bir liste oluşturma
alkolle ilgili önceden yapılmış olan bir anahtar kelime listesi aradım ancak maalesef bulamadım. bu yüzden, aklıma gelen tüm anahtar kelimeleri düşünme ve daha fazlasını bulmaya çalışmak için eş anlamlılarını google'lama gibi son derece bilimsel bir yöntem kullanarak kendi yöntemimi yaptım.
“içki” (drink) ve “shot” ı alkol almaya yetecek kadar spesifik olmadıklarından bu listeden muaf tuttum. ilk önce onlarla denedim ama bazı yüksek hata oranlarına neden oldular. hristiyan şarkıları için özellikle kötüydü, tespit edilen 11 şarkıdan 8'i bu iki kelimeden dolayı yanlış pozitif çıktı.
geldiğim son liste şuydu:
drunk, drank, alcohol, alcoholic, hangover, hungover, liquor, cocktail, booze, boozy, bottle, beer, cider, ale, tequila, vodka, wine, gin, whiskey, scotch, rum, bourbon, champagne, mojito, martini, daiquiri, jager, jagermeister, budweiser, miller, coors, heineken, bacardi, smirnoff, moet, hennessy, bar, pint, firewater, hootch, moonshine, spirits, swig, tipple
içme ve alkol ifadelerinin ölçülmesi
kullandığım ölçü, içki veya alkolle ilgili bir kelimeden en az bir kez bahseden şarkıların yüzdesidir.
daha fazla uzatmadan billboard listelerinde içki içmekten bahseden şarkıların yüzdesi:
vay! country müzik şarkıları alkolden çok daha fazla bahsediyor gibi görünüyor. alkole atıfta bulunan şarkıların %40'ı bana bir şekilde yüksek göründü, bu yüzden 2017 country şarkılarını manuel olarak kontrol ettim ve kabul edilebilir bir hata oranı olduğunu düşündüğüm sadece bir yanlış pozitif buldum (yours by russell dickerson'daki "bottle"dan kaynaklanan). bu analiz için yıl sonu grafiklerinin kullanıldığını hatırlarsanız, yüksek sonuç daha mantıklıdır. yani bu tüm country müzik şarkılarının %40'ının içki içmekten bahsettiği anlamına gelmiyor, sadece son beş yılın en popüler şarkılarının %40'ı bunu yapıyor.
farkın önemli olması durumunda hipotez testi
asıl sorumun cevabını alma zamanı: country, diğer türlerden alkole ve içmeye daha fazla gönderme yapıyor mu?
aşağıdaki çizelgede gösterildiği gibi, ülke ve diğer türler arasında açıkça ölçülen bir fark vardır. bununla birlikte, iki farklı grubu ölçerseniz, sonucun sadece rastgele varyasyonlar nedeniyle biraz farklı olmasını beklersiniz. farkın istatistiksel olarak anlamlı olacak kadar büyük olduğunu doğrulamak istiyorum, bu da rastgele varyasyondan kaynaklanma olasılığının düşük olduğunu söylemenin başka bir yoludur.
bu test için hot 100 ve hristiyan müziği chart sonuçlarını devre dışı bırakıyorum çünkü hot 100 türe özgü değil ve hristiyan müziği chart'ı zaten alkolden çok az bahsediyor ve en azından benim için ana akım bir tür değil.
veriler kategorik veriler olduğundan, istatistiksel önemi bir chi-squared bağımsızlık testi ile test edeceğim. bu kategorik verilerdir çünkü şarkılar alkole atıfta bulunsun veya bulunmasın, bir ara değer yoktur.
test, "p-değeri" adı verilen bir güven göstergesi çıkarır ve eğer bu benim seçtiğim önem seviyesinin altındaysa, o zaman ölçümlerin farklı olduğu ve ölçülen farkın rastgele varyasyondan kaynaklanmadığı söylenebilir. 0.05 önem düzeyini seçiyorum, bu yalnızca %5 olasılıkla sonucun yanlış olduğu anlamına gelir. boş hipotez (null hypothesis), country müziğinde alkolden bahseden şarkıların miktarı ile diğer türler arasında hiçbir fark olmamasıdır.
(null hypothesis: bir istatistiğin değerinin önceden belirlenen bir değere eşit olduğu önerisinin test edilmesi.)
sonuç şu:
p-value = 2.71698301e-34
sonuç: fark önemlidir
e-34, 271… başlamadan önce ondalık noktadan sonra 33 sıfır olduğu anlamına gelir. bu, p değeri için 0,05 gerekliliğinin çok altında küçük bir sonuçtur! boş hipotez reddedilebilir ve country müzik şarkılarının diğer türlere göre alkolden bahsetme olasılığının daha yüksek olduğu sonucuna varılabilir.
yıllara göre alkolden bahseden şarkıların yüzdesine bakıldığında, country müziğinin her yıl önde olduğu görülebileceği gibi, bu farkı daha da artırıyor.
eğlenceli gerçekler
farklı içki türleri nelerdir?
viski ve burbon gibi çok az bahsi geçen içecek çeşitleri bu çizelgeden çıkarıldı.
en çok içmekle alakalı anahtar kelime hangi country şarkısında bahsedildi?
dierks bentley’den drunk on a plane, brett eldredge’den drunk on your love ve chris stapleton’dan tennessee whiskey 14'er mention ile berabere. tennessee whiskey ayrıca 2015, 2016 ve 2017 listelerinde görünme başarısını da başardı.
alkolden bahsetme konusunda bir eğilim var mı?
evet, alkolden bahsedenler son 5 yılda yüzde 5 puan arttı.