Bugünlere Çok da Kolay Gelmeyen ChatGPT'nin Kısa Tarihi

ChatGPT nasıl ortaya çıktı? Sohbet botu olarak ortaya çıkıp kısa sürede bir sürü iş kolunu tarihe gömebilecek kıvama gelen bu yapay zekanın icat edilme hikayesi.

generative pretrained transformer, yani gpt

her şey 2012 yılında alex, ilya ve geoffery hinton'ın yazdığı alexnet ile başladı.

1980'lerde backpropagation ile hinton ve arkadaşlarıyla beraber ilk adımlarını atan perceptron, alexnet ile ilk kez ne kadar başarılı olabileceğini tüm dünyaya gösterdi.

imagenet, milyonlarca farklı objeden seneler içinde birleştirildiği büyük bir veriseti. insanlar 2012'ye kadar manuel olarak bu resimlerdeki objelerin özelliklerini çıkarıyorlardı. mesela sift denen algoritma, ben 2015'te ilk defa nöral netler ile tanıştığımda çok yaygın olarak kullanılıyordu.

fakat alexnet bunu tamamıyla tersine çevirdi. her sene düzenlenen imagenet yarışmasında, 2012'de alexnet bir çığır açtı. o zamana kadar yapılan algoritmaların doğruluk oranlarını katlayarak yarışmayı kazanmayı başardı. bu nöral ağların 1980'lerden beri olan suskunluğuna son verilmesindeki ilk ve tarihi bir kırılma noktasıydı. sadece bir sene sonrasında, yarışmaya katılan bütün gruplar nöral ağları kullanıyorlardı.

bu, büyük şirketler için bir uyanmaya sebep oldu. hepsi teker teker makine öğrenmesi ve yapay zeka konularındaki uzmanları toplamak için seferber oldular. google, deepmind'ı kendi bünyesine katıp özerklik verdi, facebook, o zamanki adıyla facebook artifical intelligence research (fair)'i kurdu. çoğu şirket araştırmalarını açık kaynaklı yapmaya odaklandı. çünkü, açık kaynak kodun bir ekosistem yarattığını ve bu ekosistemin kendini beslediğini farkettiler.

büyük şirketler araştırmalarını paylaştıkça, bu paylaşımların etkileşimi artıyor, bu paylaşım arttıkça faydananlar artıyor, faydalananlar arttıkça da platformları kullanmayı bilen eğitimli insan sayısı artıyordu.

2012'den itibaren birkaç yıl içerisinde yüzbinlerce atıfı olan makaleler yazıldı. nöral ağları çok daha hızlı, çok daha efektif ve sistematik eğitmenin yolları hızlı şekilde keşfedildi.

birkaç örnek bırakmak gerekirse, nöral ağ parametreleri eskiden rastgele başlatılırken şu anda çok daha hızlı sonuca varmalarını sağlayan parametre başlangıç algoritmaları geliştirildi, veya ağın en başından sonucuna kadar gradientlerin akmasını sağlayan residual bağlantılar eklendi. eğitim sırasında alt ağların efektif bir şekilde eğitilmesi için dropout denen yöntem bulundu, basit bir öğrenme algoritması olan ve optimumu bulmakta bazen zorlanan gradient descent yerine çok daha gelişmiş adm (algoritmanın adı) gibi yöntemler türedi. algoritmik olarak pahalı olan sigmoid yerine, basit bir nonlinear fonksiyon olan relu, relu'nun bazı nörönları öldürdüğü görülünce gelu… ve daha nicesi eklendi. batch normalization, layer normalization gibi yöntemler ağların çok daha stabil eğitilebilmesini sağladı. bunun dışında nvidia'nın geliştirdiği çipler ve üzerine cuda mimarisi, meta'nın geliştirdiği pytorch herkesin erişimine açıldı. her şey artık devrim için hazırdı!

artık bu kadar bolluğun içinde google'da olan bir ekibe önemli bir görev verildi. bir dilden diğerine nöral ağlarla çeviri. misal fransızca bir cümleyi alıp, ingilizce'ye çevirme görevi.

google'daki ekip için her şey hazırdı, bir sürü hazırda nvidia çipi emirlerine amade, açık kaynak kodları, google'ın kendi geliştirdiği tensorflow nöral ağ oluşturma algoritmaları yeterince olgunlaşmıştı. ama bir sorun vardı, o günün gelişmiş mimarileri (örneğin lstm) çiplerin paralelliğini yeterince kullanamıyordu ve geçmişte gördüklerini hemencecik unutuveriyorlardı!

ama google'daki ekip doğru yerde ve doğru zamandaydı, aralarından birkaçı attention yani dikkat denen 2015 yılında yazılmış algoritmayı biliyorlardı ve bazıları da bunu dil için nasıl paralelize edeceklerini anlamışlardı.

ilk fikir, örnekleri çoğaltmak üzerineydi. misal 'ahmet' kelimesini düşünün. ahmet kelimesinin birden fazla tahmin edilebilecek örnek var. basit bir şekilde, bir sonraki harfi tahmin ettiğinizi düşünün.

a -> h
ah -> m
ahm -> e
ahme -> t

kısacık kelimelerden bir sürü örnek çıkarabilmenin en iyi yolu! bu yöntem, mimarinin yapıtaşlarından belki de en önemlisiydi: next token prediction.

bir sonraki adımsa, next token prediction'ı paralelize etmekle alakalıydı, model bir pencereye alınan örneklerin hepsini aynı anda görebiliyordu (window size).

ve, son olarak attention, yani model elindeki örneğe bakıp önceki token'ler ile konuşabilmeye başlamıştı. bunların hepsi bir araya geldiğinde devrimin en büyük silahı artık oluşmuştu: transformer.

gpt.

makalenin adı da tarihin belki de en güzel göndermelerinden biriydi:

attention is all you need!

tek ihtiyacınız dikkat!

transformer, hem efektif yani kolayca eğitilebilen hem de basitçe kodlanabilen bir mimariydi, belki birkaç yüz satır kod ile siz de transformer mimarisini yazabilirsiniz.

buradan sonra ihtiyaç artık mimari değildi. artık ihtiyaç daha fazla veriydi. ne kadar çok veri o kadar iyi bir transformer! herkesin neye ihtiyacı olduğu konusunda bir fikri vardı ama son yanıt 2019'da 2012'de devrimi başlatan ilya'nın kurucusu olduğu openai ekibinde geldi.

neural scaling laws: nöral büyüme kanunları.

kanunlar çok netti. daha iyi bir transformer isitiyorsanız ihtiyacınız olan reçete:

daha çok veri, daha büyük bir nöral ağ ve daha güçlü çipler!

bu üç malzemeyi koyduğunuzda modeller sistematik olarak daha iyi oluyorlardı. yani, modelinizi daha eğitmeye başlamadan, kullanacağınız datayı, ağınızın büyüklüğünü ve ne kadar çip gücü harcayacağınızı bir peçeteye yazarak ortaya çıkacak modelin ne kadar güçlü olacağını tahmin edebiliyordunuz.

bu makale, tüm dünyada hala devam etmekte olan soğuk bir savaş başlattı. daha büyük daha güçlü çipler için şu an ülkeler birbirleriyle savaşmaya hazırlar. taiwan'da yaşanan gerginlik bu nedenle. hollanda'da asml'nin amerikan emriyle çin'e artık ihracaat yapmamasının nedeni bu. nvidia'nın dünyanın en büyük şirketi olmasının sebebi tam olarak bu! atom bombasından sonra yapılan, belki de en büyük bilimsel gelişmeden bahsediyoruz. ne kadar büyük etkiler yarattığını şu an için tam manasıyla kavramak zor ama ne kadar ciddi olduğunu anlamışsınızdır sanırım...

hayatseninceguzel

Ekran Kartlarıyla Bildiğimiz Nvidia, Ne Oldu da Dünyanın En Değerli Şirketi Haline Geldi?

BUNLARI DA BEĞENEBİLİRSİNİZ

BİLİM

8,8b

Windows 11'i Birkaç Ayarla Daha Kullanışlı Hale Getirmenin Yöntemleri

BİLİM

18,8b

James Webb Uzay Teleskobunun Fırlatılması Neden Sürekli Erteleniyor?

BİLİM

79,7b

Harvard'da Stephen Hawking'i Ağırlayan Türk Bilim İnsanı: Canan Dağdeviren