DNA Dizisindeki Bazları Görmeye Olanak Sağlayan DNA Dizileme Yöntemleri
dna sequencing; dna sekanslama veya dna dizileme olarak türkçeye çevrilebilir. sekanslamak, dna molekülünün üzerindeki baz dizisini ortaya çıkarmak demektir.
önce şu dna molekülüne bir göz atalım
dna bir tür nükleik asit makromolekülüdür ve nükleotit monomerlerin polimerizasyonuyla oluşur. ya da basit dille: bir tane nükleotit molekülünü alırsan buna monomer denir. bi sürü nükleotidi yan yana yan yana dizersen buna polimer denir (mono->tek, poli->çok).
bir nükleotidin üç kısmı vardır: fosfat, şeker ve baz. şeker ve fosfat kısımları sabit. yani ne şekil nükleotide bakarsan bak aynı şekeri, aynı fosfatı görürsün. zaten polimer olduklarında bunların oluşturduğu yapıya da şeker-fosfat omurgası denir. omurganın bi olayı yok. bi şeker bi fosfat bi şeker bi fosfat kaptırıp gidiyor. esas şekil nükleotidin baz kısmında. dna'da 4 çeşit nükleotit var: adenine (a), guanine (g), cytosine (c), thymine (t). her birinin kendine has baz yapısı var. bu bazlar, şeker-fosfat omurgasından dışarı doğru çıkıntı yapıyor.
doğru bildiniz; dna'da bilgiyi bazlar taşıyor. yani dna sekanslama dediğimiz olay aslında bu bazları okumak. yani makine size derse ki "abi önce bi t var, sonra iki tane a geliyor, sonra bi tane c, sonra bi g, bi daha t", makine dna sekanslıyordur.
(birtakım faydalı kaynaklar: nükleotit yapısı, dna yapısı, bazların karşılaştırılması.)
bu bakımdan dna kodu bilgisayar kodundan daha karmaşıktır. bilgisayar 0 ve 1 olmak üzere ikili sistemle bilgi kodlarken dna dörtlü sistemle bilgi kodlar.
bir diğer nükleik asit rna'dır. işlevsel olarak farklı olsalar da moleküler olarak dna ve rna arasında şekerde bir tek oksijencik fark var. dna sekanslama için geçerli bütün prensipler rna sekanslama için de geçerlidir.
dna'nın taşıdığı sekansı çözmek işlevini anlamaya yetmez, tıpkı bilgisayardan 0'ları ve 1'leri okumanın o yazılımın ne yaptığını anlamaya yetmeyeceği gibi. ama bu bilginin çalışılması başka bir yazının konusu, bugün sadece kodu okumaya konsantre olacağız.
aslında bütün bu işlerin bir asırdan kısa tarihi var. 100 yıl önce kimse dna'nın kalıtım molekülü olduğuna bile inanmıyordu. bu kadar basit yapılı bir molekül canlıların karakteristiklerini nesilden nesile aktaramazdı, galiba kalıtım molekülü karmaşık yapılı proteindi, dna olsa olsa hücrede inşaat malzemesi olarak falan kullanılıyordu. neyse ki her şeyin incik cincik süslü olduğu günlerden sadeliğin güzelliğine ulaştık da, dna'nın kalıtım molekülü olduğunu 1950'lerden beri biliyoruz.
değişik sekanslama teknikleri mevcut. burada önemli birkaç parametre var. bir tanesi bir batında kaç baz okuyabildiği. bazıları küçük küçük parçalar halinde okurken, bazıları uzun uzun parçalar halinde okuyor. bir diğer parametre toplamda ne kadar baz okuyabildiği. buna throughput diyoruz. son olarak da kesinlik önemli. bazı teknikler daha yüksek kesinlikle okurken, bazı tekniklerin hata payı daha yüksek.
sanger sekanslama
dna sekanslamanın ilk bulunan yöntemi bu. o yüzden first generation sequencing - ilk nesil sekanslama da denir. o zamanlar sene 1977. frederick sanger dideoxy sequencing derler bir yöntem keşfediyor.
yukarda nükleotit resimlerinde de görmüşsünüzdür, nükleotidin ortasında 5 karbonlu bir şeker oturur. bu karbonlara numara veriyoruz (dna'nın 5' ucu ve 3' ucu bu karbon numaralarından geliyor). bu nükleotitleri yan yana yan yana dizip polimer yapmak için şekerin 3' ucundaki hidroksil (-oh) grubu kullanılıyor. işte o -oh grubunu yok ederseniz (ki bunlara dideoxy nucleotide - ddntp diyoruz) bir sonraki nükleotit gelse bile takılacak yeri olmadığından polimerizasyon duruyor.
sanger sekanslama aslında normal bir pcr tepkimesi gibi (sequencing by synthesis). tepkimeye koyduğunuz dna'daki bilgiyi, dna polimeraz/dna pol enzimi nükleotitleri yan yana dizerek kopyalıyor. fotokopi gibi bi şey yani. fredciğim bu tepkimenin içine küçük bir miktar ddntp karıştırıyor. böylece nükleotitleri ekleyerek tıkır tıkır devam eden tepkime arada bir nükleotit yerine ddntp eklerse duruveriyor. bütün tepkimeler bittiğinde elinizde yarım yamalak bir sürü dna parçası oluyor. her biri dna'nın başından başlamış, kopyalanmaya devam etmiş, rastgele bir noktada ddntp eklendiği için durmuş.
sonra bu parçaları elektroforez ile ayırıyorsunuz. bu da şu demek, bi tane jelin (jöle gibi bi şey) içine parçaları yüklüyorsunuz, sonra basıyorsunuz elektriği. tabi dna'lar hep negatif yüklü olduğundan pozitif tarafa doğru koşmaya başlıyorlar. f=ma burada da geçer. en minnak dna parçaları en hızlı koşup jelin sonuna gidiyor; en şişko dna parçaları en yavaş koşup geride kalıyor. bunu yaptığınız zaman dna parçalarını boy sırasına dizmiş oluyorsunuz. bu sıra önemli, bi sürü analizi buna göre yapıyoruz.
fred sanger 4 farklı tepkime başlatıyor. her biri normal bir pcr tepkimesi. birinde azıcı ddatp, birinde ddttp, birinde ddgtp, birinde ddctp var. sonra bu dört tepkimeyi yan yana yüklüyor. eğer jeli güzel yaptıysanız boy sırasına dizilmiş dna parçalarını okuyarak dna sekansını elde edebilirsiniz. bunu yazıyla anlatmak biraz zor, inip aşağıdaki videoları izleyin, görsel daha kolay oluyor.
https://en.wikipedia.org/wiki/sanger_sequencing
https://www.youtube.com/watch?v=3m0pyxfpwkq
https://www.youtube.com/watch?v=fvhrio1yyhq
sanger 4 tepkime ve el kadar bir jel yardımıyla 50 baz uzunluğunda dna okumayı başarıyor. ama tabi çok emek istiyor, pahalı, sonuç küçük vs. ama millet durur mu! bu tekniğin üstüne gelen bir şey ekliyor, giden bir şey ekliyor. o günden sonra durdur durdurabilirsen.
sonra dediler ki, bunu 4 farklı ddntp ile 4 farklı tepkimede yapacağımıza, 4 ddntp'yi aynı tepkimenin içine karıştıralım, hepsi beraber olsun bitsin. tabii bu durumda ddntp'leri ayırt edebilmek lazım. hangisi hangisi anlamazsan nasıl okuyacaksın sekansı. her bir ddntp'nin ucuna farklı renkte bir floresan işaret taktılar. şöyle hayal edin, ddatp'ler yeşil, ddttp'ler kırmızı, ddgtp'ler sarı, ddctp'ler mavi parlıyor. böylece tek elektroforezin üstünde sekansı okumaya başladılar.
ama jeller hala el kadar, okuma uzunluğu hala 50 bazdı. oysa insan genomu 3 milyar baz uzunluğunda. 1990'larda dediler ki, bizi kısıtlayan elektroforez adımı. bunu el kadar jeller yerine metrelerce uzunlukta jelde yapsak daha çok baz okuruz. metrelerce jeli şahsen ben yapamam, yapsam da içinde dna yürür mü bilmiyorum. onun yerine, 1 metre uzunluğunda, ama kıl gibi ince capillary jel kullanmaya başladılar. floresan olarak işaretlenmiş yarım yamalak dna parçaları bunun içinde koşuyor. yine en küçüğü en önden koşuyor. capillary jelin ucunda da bir lazerle bir dedektör var, her geçen dna parçasının rengini kaydediyor. böylece, geçen renklerin sırasına bakarak dna dizisini okuyabiliyorsunuz.
capillary sanger sequencing 1.000 baza kadar okuma imkanı veriyor; diğer tekniklerle karşılaştırıldığında hiç fena değil. bunun dışında sanger yöntemi hala en güvenilir, hata payı en düşük yöntemlerden biri. tanı amaçlı sekanslamaları hala çoğunlukla sanger kullanarak yapıyoruz.
https://www.yourgenome.org/…is-capillary-sequencing
https://www.ncbi.nlm.nih.gov/…/articles/pmc4727787/
clonal amplification'la çalışan diğer sekans tekniklerinin aksine, sanger sekanslama yapacaksanız tepkime önceden çoğaltılmış dna koymanız gerek, yeterli sinyal alabilmek için. bu önceden çoğalttığımız dna, hele ki genom projesi yapıyorsanız, klonlama suretiyle çoğaltılıyor. genomun çoğu için sorun yok. ama tekrar eden sekansları (line, sine, transposon vs.) bakteriye klonlamak neredeyse imkansız. tekrar eden dna sekansları bir şekilde bakteriyi zehirliyor.
pyrosequencing
sene oluyor 1993. pcr tepkimesini andıran (sequencing by synthesis) bir sekanslama yöntemi daha geliştiriyorlar.
nükleotit monomerlerini yan yana ekleyip polimer yaparken, gelen nükleotitler tek fosfatlı halde gelmezler. gerekli enerjiyi sağlamak için üç fosfat grubu takılmış halde gelirler. dna pol enzimi, son iki fosfatı kesip atar, nükleotitin kalan kısmını polimer yapımı için kullanır. pyrosequencing bu kesilip atılan iki fosfat grubunu (ppi) kullanarak sekans okuyor.
bir pcr tepkimesinin sürdüğünü hayal edin. ama bu sefer ddntp yok işin içinde, normal pcr tepkimesi. tepkimeye datp veriyorsunuz. dna pol bunu kullanmayı, yok ediliyor (apyrase enzimi). dttp veriyorsunuz, bu da kullanılmadı, yok edildi. dgtp verdiniz. dna pol enzimi bu defa bunu kullandı. polimerizasyon tepkimesinde yanına ekleyiverdi. ppi grubunu da kesti attı. bu atılan ppi grubu dolaylı yoldan ışık üretmek için kullanıldı (önce amp'den atp sentezi, sonra bu atp luciferin enzimini aktive ediyor). böylece, hangi nükleotiti verdiğinizde ışık çıktığına bakarak sekansı okuyabilirsiniz. bunun adı pyrosequencing.
https://en.wikipedia.org/wiki/pyrosequencing
aslında pyrosequeincing'in tek başına çok büyük bir avantajı yok. bir tane tepkimeye tek tek nükleotitleri verip gelen ışığı kaydediyorsunuz. elektroforez adımı olmadığı için birazcık daha hızlı.
2002'de massive parallel iterative pyrosequencing icat olunuyor. 454 life sciences şirketi de ticari hale getiriyor. bu artık otomatize bir yöntem. artık tek tek dna parçalarıyla uğraşmıyorsunuz. bunun yerine koca bir genomu alıp parçalara bölüyorsunuz. bu parçalardan her biri minicik kuyularda robotik olarak sekanslanıyor. siz de elde edilen, nispeten kısa okumaları bir araya getirip genomun sekansını bulmaya çalışıyorsunuz (data analysis).
bu teknikte çok fazla veri elde edildiği için buna high-throughput deniyor.
çalışma prensibi biraz değişik.
genomu aldınız. endonuclease digestion ile rastgele parçalara bölüyorsunuz. parça uzunluğu 300-500 baz arası. sonra bu parçaların uçlarına adaptör dediğimiz, sekansı belli kısa dna parçaları ekliyorsunuz. bu önemli. çünkü hem bir yüzeye tutundurmak için, hem pcr primerlerinin hedefi olarak adaptörleri kullanacaksınız.
rastgele dna parçalarını boncuklarla karıştırıyorsunuz. öyle bir ayarlıyorsunuz ki her boncuğa bir dna parçası düşüyor. dna parçaları boncuklara streptavidin-biotin etkileşimi kullanarak bağlanıyor.
sonra bir pcr tepkimesi başlatıyorsunuz. ama bu pcr'ın amacı sekans okumak değil. dna parçalarının sayısını arttırmak (clonal amplification). çünkü tek bir dna parçasından gelen sinyal düşük, ama birbirinin kopyası binlerce dna parçasından yüksek sinyal alıyorsunuz. bu pcr tepkimesini bir emülsiyonun içinde yapıyorsunuz; yani suyun içinde yüzen yağ damlacıkları. her yağ damlacığının içinde bir boncuk, bir dna parçası ve tepkime malzemeleri var. pcr bittiğinde her boncuğun üzerine yapışmış, birbirinin aynı binlerce dna parçası oluyor. tabii clonal amplification esnasında hata payı biraz yükseliyor.
sonra bu dna eklenmiş boncukları kuyulara oturtuyorsunuz. gerisini biliyorsunuz zaten. yukardaki pyrosequencing okumasını minik kuyucuklarda yapıyorsunuz. kuyucukların altında da bir kamera, her kuyucuktan gelen sinyali kaydediyor. böylece binlerce/milyonlarca küçük dna parçasının sekansını aynı anda, paralel biçimde okuyabiliyorsunuz.
https://www.ncbi.nlm.nih.gov/…c/articles/pmc101855/
https://www.youtube.com/watch?v=bfnjxkhp8jc
solexa- illumina
illumina şirketinin sunduğu solexa sekanslama tekniği de yine sequencing by synthesis prensibiyle çalışıyor. yani dna polimeraz enziminin dna sentezlemesi esnasında okunuyor sekans.
yine bütün bir genomu elimize alıyoruz. pyrosequencing'deki gibi rastgele dna parçalarına ayırıyoruz ve uçlarına adaptör dna'ları ekliyoruz.
bu teknikte kuyucuklar yok. onun yerine cam bir slide üzerine dna parçalarını yayıyoruz (clustering). bu cam slide'ın üstünde adaptör dna'lara eşlenik dna parçaları var. bunlar hem bağlanma bölgesi, hem pcr primeri olarak davranıyor. böylece dna parçaları bir önden arkaya, bir arkadan önde, defalarca kopyalanıyorlar (clonal amplification). cam slide'in değişik yerlerinde kümecikler oluşuyor. her kümecikte aynı dna parçasının bir çok kopyası var (biraz da hata payı var)
sonra yine dna pol enzimi giriyor devreye ve bu dna parçalarını kopyalamaya başlıyor. her adımda bir nükleotit ekliyor, her nükleotit kendine özgü bir floresan rengiyle işaretlenmiş. her adımdan sonra da floresan sinyal ışıma yapıyor ve kesiliyor. tabi her nokta aslında bir kümecik olduğu için birbirinin aynısı binlerce dna parçasından geliyor sinyal, ki kaydedilecek kadar kuvvetli olsun. her noktadan gelen sinyalin rengini adım adım kaydederek dna sekanslanıyor.
okuma uzunluğu bu teknikte kısa. ama high-throughput olduğu için parçalar bir araya kolaylıkla getiriliyor.
https://www.illumina.com/…a-sequencing-history.html
https://www.youtube.com/watch?v=fcd6b5hraz8
solid - applied biosystems
diğerlerinden farklı olarak solid, sequencing by ligation yöntemiyle çalışıyor. yani dna'yı okumak için bir dna polimeraz değil, dna ligaz enzimi çalışıyor.
daha önce gördüğümüz tekniklerdeki gibi genomu alıp rastgele küçük parçalara bölüyorsunuz. uçlarına adaptör takıyorsunuz. pyrosequencing'deki gibi emülsiyon içinde pcr yaparak bu dna parçalarını çoğaltıyorsunuz (clonal amplification). aynı şekilde bir miktar hata payı oluyor.
çoğalttığınız dna'ları işaretlenmiş dinükleotitlerle karıştırıyoruz. 4 çeşit nükleotit olduğuna göre 4x4=16 çeşit dinükleotit var. bunların kıçına 16 değişik renkte floresan sinyal takıyoruz. sonra acaba bizim dna'nın sıradaki iki nüklotidi ne diye eşleşmelerini bekliyoruz. eşleşirlerse ligaz enzimi şeker-fosfat omurgasındaki phosphodiester bağını kurarak oraya sabitliyor. bu işlemi baştan sonra 5 kere yaparsanız her nükleotidi yeterince iyi okumuş oluyormuşsunuz. yine floresan sinyalini okuyarak sekanslama işlerimi gerçekleştiriyoruz.
yalnız solid sisteminde okuma uzunluğu baya baya düşük, 50 baz falan. abartı miktarda fazla veri elde ettiğiniz için (reference genome da varsa) yine de birleştirebiliyorsunuz bu küçük parçaları.
https://www.youtube.com/watch?v=nlvyf8bfdwm
...
buraya kadar olan sanger sequencing hariç tekniklere next-generation sequencing - yeni nesil sekanslama veya ngs. yani next-generation dedikleri meret bir tekniğin adı değil, birden fazla tekniğin ortak adı. ki bu teknikler için ortak olan tek şey sanger'den sonra gelmeleri. aslında artık next-generation demek de çok saçma, çünkü geride kaldılar, ex-generation oldular.
bundan sonra bulunanlara ise third generation sequencing - üçüncü nesil sekanslama deniyor.
heliscope - helios bioscience
helpscope yapmak için genomu yine küçük küçük parçalara rastgele ayırıyorsunuz. sonra bunları solexa'daki gibi bir yüzey üzerinde ayırıyoruz. heliscope'un tabağı biraz daha büyük. yine önceki tekniklerdeki gibi pcr yardımıyla kopyalarını oluşturuyoruz o parçaların (clonal amplification). her noktada birbirinin aynısı binlerce kopyası olan kümecikler oluşuyor, biraz da hata payı oluyor tabii. sonra bu kümeciklere floresan ekli nükleotitler gönderiyoruz (sequencing by synthesis). eklendikten sonra floresanlar kesiliyor ve ışık sinyali yayılıyor. bu kümelerdeki ışık sinyalini takip ederek dna sekansını okuyabilirsiniz.
heliscope'un okuma uzunluğu daha bile düşük. 30 baz falan okuyabiliyor. buna rağmen çok acayip high-throughput olduğu için bi şekilde veriyi birleştirebiliyorsunuz.
https://www.youtube.com/watch?v=tbol7wodbj4
smrt - pacific biosciences
şimdiye kadar olan teknikler hep clonal amplificationla çalışıyor. çünkü sinyal almak kolay bi iş değil. bu sinyalin var olup olmadığını ve rengini anlayabilmek için yeterince yüksek olması gerek. o yüzden tek molekülden değil, birbirinin aynısı olan binlerce molekülden geliyor. ama bu clonal amplification biraz riskli bir şey. çünkü kopyalama sistemi mükemmel değil, kopyalarken hata yapıyor. sekanslama hatalarının önemli bir kısmı buradan. bir tek molekül dna sekansı yaparak bu hatalardan kurtuluruz.
yeni gelişen malzeme mühendisliği, biyokimyasal teknikler ve görüntüleme teknolojileri bir tek dna molekülünden gelen floresan sinyali kaydedebilecek kadar kuvvetli.
smrt sistemi öncekiler gibi sequencing by synthesis, yani bir dna polimeraz enziminin dna polimeri sentezlemesi prensibiyle çalışıyor. zmw denen minnak minnak kuyucukları olan aluminyum bir malzeme var. bu kuyucukların ortasına birer dna polimeraz enzimi oturtuyoruz. kuyucukların hemen altına da güzel bir kamera yerleştiriyoruz. sonra floresan takılı nükleotitler ekleyerek burada bir pcr tepkimesi gerçekleştiriyoruz. eklenmekte olan nükleotitler dna pol enzimine bağlanıp zemine, doğal olarak kameraya yaklaşıyor. kamera da bundan gelen floresan sinyali kaydediyor. böylece floresan sinyali kaydederek dna sekanslaması yapıyoruz.
smrt'nin güzelliği, hata oranının düşük olması. ayrıca okuma uzunluğu 1.000 baza kadar çıkıyor. yukardaki 30 - 50 bazı falan düşünürseniz bin baz hiç fena bir sayı değil. yanı sıra, bu teknik oldukça yüksek high-throughput. korkunç miktarda veri elde edebiliyorsunuz.
https://www.pacb.com/smrt-science/smrt-sequencing/
https://www.youtube.com/watch?v=v8p4ph2mavi
nanopore - oxford nanopore technologies
nanopore yukarıdaki bütün tekniklerden farklı. pcr yok, ligaz enzimi yok. onun yerine dna'yı bir delikten geçiriyorsunuz. ikili sarmal olan dna'yı ikiye ayırıyor bir enzim. sonra tek iplik kalmış dna'yı çok inc ebir zarın içinden, bir delikten geçiriyoruz. bu zarda bir elektrik akımı var. ama dna geçerken bu elektrik akımı bozuyor. her nükleotidin elektrik akımını bozma şekli farklı. a'nın, t'nin, g'nin, c'nin karakteristik elektrik akımı bozma şekilleri var. tek iplik dna'yı bir yandan çekerken bir yandan elektrik ölçümü yapıyoruz. bu sayede dna sekansını okuyabiliyoruz.
bu yöntemin diğerlerine göre büyük avantajları var. clonal amplification olmadığı için hata payı düşük. okuma uzunluğu çok yüksek. tek seferde binlerce baz, hatta milyonlarca baz okunabiliyor. bu yüzden de daha önce aşına olduklarımızdan daha büyük bir high-throughput var. bir de sekanslamakta oldukça zorlandığımız tekrarlı sekansları bu teknikle gayet güzel sekanslayabiliyoruz.
https://nanoporetech.com/…s/dna-nanopore-sequencing
https://www.youtube.com/watch?v=gub1tzvmwsw
minion - oxford nanopore technologies
minion nanopore ile aynı firma tarafından sunuluyor. aslında kendisi bir çeşit nanopore sekanslama tekniği. diğer sekanslama tekniklerinden farklı olarak bu avuç içi kadar bir alet. hatta kendi bilgisayarı falan yok. usb girişinden laptop'a bağlıyorsunuz, sekanslama yapıyorsunuz. bu cihaz yaygınlaşırsa evde kurabiye yapar gibi evde sekanslama yapabileceksiniz. o noktaya gelmemizin 10-15 yılı var. (bkz: #65684596)
https://nanoporetech.com/products/minion
https://www.youtube.com/watch?v=wq35zxyayuu
sekanslama tekniklerini gördüğümüze göre şimdi bir de veri analizi - data analysis kısmına bakalım
esasen dna sekansı okumak kadar zor olan şey bu dna sekanslarını bir araya getirmek. örneğin pyrosequencing yaptığınızda elinizde 300'er baz uzunlukta 100 milyon dna okuması var. hadi birleştirin bakalım! neyse ki parçalar overlapping durumda. yani bir 300'lük parçayla öbür 300'lük parçanın 100 bazı aynı gibi hayal edin. o ortak kısmı kullanarak parçaları bir araya getirebilirsiniz. yani yaptığınız şey tam olarak puzzle çözmek.
aynı kağıt puzzle'lardaki gibi, parçalar iri iri olursa çözmek daha kolay, parçalar küçük küçük olursa çözmek daha zor.
üstüne, bu puzzle 1.000 parçalı değil 100 milyon parçalı, iki boyutlu değil tek boyutlu, bi de kutunun üstünde çözünce neye benzeyeceği göremiyorsunuz. çıkacak resmi bilmeden çözüyorsunuz. o yüzden bilgisayar teknolojisi lazım, ve o yüzden insan genom projesinde 10 yıldan fazla zaman aldı bu iş.
eğer bir genom daha önce sekanslandıysa, en azından ortaya çıkacak resmin az çok neye benzeyeceğini biliyorsunuzdur (reference genome). bu durumda minik dna parçalarını bir araya getirmek çok daha kolay ve hızlı oluyor.
bir de dna'nın tekrar kısımları var, başımızın belası. puzzle çözerken bir bölgenin komple aynı renk olduğunu düşünün, onun gibi. her yer aynı olunca dna parçalarını birleştiremiyorsunuz. zaten yakın zamana kadar sekanslanamadı bu parçalar.