版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一個(gè)要給大家講的,是它這個(gè)flowcell。Flowcell翻成中文,就叫“流動(dòng)池”。我們來(lái)看這個(gè)圖片。圖片當(dāng)中,我們看到一個(gè)象載玻片大小的芯片。這個(gè)芯片里面,是做了8條通道。在這個(gè)通道的表面,是做了專門(mén)的化學(xué)修飾。它的化學(xué)修飾,主要是用2種DNA
引物,把它(2種DNA引物)種在玻璃表面。這兩種(DNA引物的)序列是和接下來(lái)要測(cè)序的DNA文庫(kù)的接頭序列相互補(bǔ)的。而且這2種引物是通過(guò)共價(jià)鍵,連到Flowcell上去。之所以要用共價(jià)鍵連到Flowcell上去,是因?yàn)榻酉聛?lái)有大量的液體要流過(guò)這個(gè)Flowcell,只有有共價(jià)鍵連接的這些DNA,才不會(huì)被沖掉。這就是Flowcell。文庫(kù)制作再接下來(lái),講一下文庫(kù)、和文庫(kù)的制作(過(guò)程)所謂的DNA文庫(kù),實(shí)際上是許多個(gè)DNA片段,在兩頭接上了特定的DNA接頭,型成的DNA混合物。文庫(kù)有2個(gè)特點(diǎn),第1個(gè)特點(diǎn),是當(dāng)中這一段插入的DNA,它的序列是各種各樣的。第2個(gè)特點(diǎn),它的兩頭的接頭序列,是已知的,而且是人工特地加上去的。要做這個(gè)文庫(kù),首先是把基因組DNA,用超聲波打斷。然后打斷之后,兩頭用酶把它補(bǔ)平,再用Klenow酶在3’端加上一個(gè)A堿基。然后,再用連接酶把這個(gè)接頭給連上去。連好了接頭的DNA混合物,我們就稱為一個(gè)“文庫(kù)”。英文也稱作“l(fā)ibrary”。橋式PCR做好了Library之后,就要做橋式PCR了。橋式PCR,實(shí)際上是把文庫(kù)種到芯片上去,然后進(jìn)行擴(kuò)增,這樣的一個(gè)過(guò)程。這個(gè)過(guò)程,首先是把文庫(kù)加入到芯片上,因?yàn)槲膸?kù)兩頭的DNA序列,和芯片上引物是互補(bǔ)的,所以,就會(huì)產(chǎn)生互補(bǔ)雜交。雜交完了之后,我們?cè)谶@里面加入dNP和聚合酶。聚合酶會(huì)從引物開(kāi)始,延著模板合成出一條全新的DNA鏈來(lái)。新的這條鏈,和原來(lái)的序列是完全互補(bǔ)的。接下來(lái),我們?cè)偌尤隢aOH堿溶液。DNA雙鏈在NaOH堿溶液存在下,就解鏈了。而且被液流一沖,原來(lái)的那個(gè)(模板)鏈,也就是沒(méi)有和芯片共價(jià)連接的鏈,就被沖走了。而和芯片共價(jià)連接的鏈,就被保留下來(lái)。然后,我們?cè)僭谝毫鞒乩锛尤胫行砸后w,主要是為了中和這個(gè)堿液,在加入中和液之后,整個(gè)環(huán)境變成中性了。這時(shí)侯,DNA鏈上的另外一端,就會(huì)和玻璃板上的第二種引物,發(fā)生互補(bǔ)雜交。接下來(lái),我們加入酶和dNTP,聚合酶就延著第二個(gè)引物,合成出一條新鏈來(lái);然后,我們?cè)偌訅A,把2條鏈解鏈解開(kāi);然后,我們?cè)偌又泻鸵海@時(shí)侯,DNA鏈會(huì)和新的引物雜交。再加酶,再加dNTP,又從新引物合成出新的鏈來(lái)。連續(xù)重復(fù)這一過(guò)程,DNA鏈的數(shù)量,就會(huì)以指數(shù)方式增長(zhǎng)。制備單鏈在橋式PCR完成之后,接下來(lái)要做的工作,就是要把合成的雙鏈,變成可以測(cè)序的單鏈。辦法是通過(guò)一個(gè)化學(xué)反應(yīng),把其中一個(gè)引物上的一個(gè)特定的基團(tuán)給切斷掉。然后,再用堿溶液來(lái)洗這個(gè)芯片。這時(shí)侯,堿讓DNA的雙鏈解鏈,那根被切斷了根的DNA鏈就被水沖掉了。留下那根共價(jià)鍵連在(芯片)上面的鏈。接下來(lái),再加入中性溶液,然后在這個(gè)中性溶液里面加入測(cè)序引物。正式測(cè)序好,接下來(lái)正式的測(cè)序工作就開(kāi)始了。那么,在測(cè)序的時(shí)侯,加入進(jìn)去的,最主要是2個(gè)東西:一個(gè)是帶熒光標(biāo)記的dNTP。而這個(gè)dNTP,它還有一個(gè)特點(diǎn),它的3’末端是被一個(gè)疊氮基堵住的。然后,再加一個(gè)聚合酶,聚合酶就會(huì)選擇:哪一個(gè)dNTP是和原來(lái)位置上的那個(gè)堿基是互補(bǔ)的,根據(jù)互補(bǔ)性原理,把這個(gè)dNTP合成到新的這個(gè)DNA鏈上去。因?yàn)檫@個(gè)dNTP的3’端是被一個(gè)疊氮基團(tuán)堵住了,所以,它一個(gè)循環(huán)只能延長(zhǎng)一個(gè)堿基。然后,它就停在那兒了。合成完了之后,就用水把多余的dNTP和酶給沖掉。沖掉之后,就放到顯微鏡下,去進(jìn)行激光掃描。根據(jù)發(fā)出來(lái)的熒光來(lái)判斷它是哪個(gè)堿基。因?yàn)?種dNTP,它每一種dNTP上面標(biāo)的熒光素都不一樣,根據(jù)紅、黃、藍(lán)、綠,它出來(lái)的哪種顏色,那么,就可以倒過(guò)來(lái)推出來(lái),這個(gè)新合成上去的堿基,是哪種堿基。因?yàn)樾潞铣傻膲A基,是和原來(lái)位置(的堿基)是互補(bǔ)的,所以,又推出模板上那個(gè)堿基是哪個(gè)。這一個(gè)循環(huán)完成之后,就加入一些化學(xué)試劑,把疊氮基團(tuán)和旁邊標(biāo)記的熒光基團(tuán)切掉。切完了之后,3’端的羥基就暴露出來(lái)。再接下來(lái),加入新的dNTP和新的酶,然后,又延長(zhǎng)一個(gè)堿基。新延長(zhǎng)完一個(gè)堿基之后,把多余的酶和dNTP沖掉,再進(jìn)行一輪顯微的激光掃描,再讀一下這個(gè)堿基是什么。不斷重復(fù)這個(gè)過(guò)程,可以重復(fù)上百次,到幾百次,就可以把上百個(gè)堿基,甚至更多堿基的序列讀出來(lái)。讀Index那么,什么是Index哪?是因?yàn)镮llumina的評(píng)委會(huì)個(gè)測(cè)序量很大,往往一個(gè)樣本,用不了那么幾億條DNA。所以,科學(xué)家就想了一個(gè)辦法。在文庫(kù)的接頭上做了一些標(biāo)記,每一個(gè)樣本,它有一個(gè)特定的接頭,每個(gè)接頭里面,它有一段特定的序列。這段特定的序列,我們就稱為Index。也有人把它叫做Barcode,反正,表達(dá)的是一個(gè)意思:這么一段特定的序列,標(biāo)記了樣本的來(lái)源。那么,要讀這個(gè)Index的序列,先用堿把上面這根測(cè)完“Read1”的序列,把上面這根DNA鏈給解鏈掉。解鏈掉之后,再加入中性液,然后,加入“Read2”這個(gè)測(cè)序引物。Read2測(cè)序引物結(jié)合的位點(diǎn),正好,就在這個(gè)Index序列的旁邊。接下來(lái),就進(jìn)行第2輪測(cè)序,一般來(lái)說(shuō),是讀6到8個(gè)堿基。把這6到8個(gè)堿基讀下來(lái),我們就可以知道,這某一個(gè)具體的一段DNA,它來(lái)自于原始的哪個(gè)樣本。雙端測(cè)序這是Illumina的最核心的另外一個(gè)技術(shù),就是雙端測(cè)序。那么雙端測(cè)序,就是說(shuō),一根DNA鏈,除了從正向讀一遍,還可以從DNA的負(fù)向,再讀一遍。這一下子就把Illumina測(cè)序的有效長(zhǎng)度加了一倍。這是非常有實(shí)際用途的。那么這個(gè)倒鏈的過(guò)程,是這樣,先讓這個(gè)DNA先合成,合成出來(lái)這根互補(bǔ)鏈。有了這個(gè)互補(bǔ)鏈之后,用一個(gè)化學(xué)試劑,在原來(lái)這根鏈的根上切一下。切一下,原來(lái)這根模板鏈就掉了,剩下那根互補(bǔ)鏈。再接下來(lái),就進(jìn)行第2端的測(cè)序。第2端的測(cè)序原理,和第一端的測(cè)序原理是一樣的。加上了“Read3”的這個(gè)引物,依次往下,一個(gè)一個(gè)堿基地往下讀。大規(guī)模平行測(cè)序那么最重要的事情是什么呢?一個(gè)點(diǎn),經(jīng)過(guò)幾百個(gè)循環(huán),就讀出了幾百個(gè)堿基。但實(shí)際上,這個(gè)芯片上可以有上億個(gè)點(diǎn),上億個(gè)“cluster”,也就是“簇”。那么上億個(gè)“cluster”,每個(gè)循環(huán),它都可以讀出地么多序列,這是Illumina測(cè)序非常強(qiáng)大的原因。因?yàn)槭浅汕先f(wàn),準(zhǔn)確說(shuō)是上億上鏈都在合成,這個(gè)就得到了很大的一個(gè)測(cè)序數(shù)據(jù)量。IlluminaHiSeq測(cè)序儀的工作原理。也就是芯片上發(fā)生了這么多變化,HiSeq是如何把這些信息給讀出來(lái),并且把掃描出來(lái)的熒光信號(hào),又通過(guò)怎樣一系列的加工,變成可以識(shí)別的“A、C、G、T”的堿基序列的。HiSeq首先是一臺(tái)高精度的顯微光學(xué)掃描儀。然后再配上了一整套的液流系統(tǒng),和計(jì)算機(jī)軟硬件,再加溫控系統(tǒng),組成這樣一臺(tái)測(cè)序儀。其中最核心,也是結(jié)構(gòu)最復(fù)雜的,是它的光學(xué)系統(tǒng)。前一期,我們講了,Illumina測(cè)序儀主要是靠4種dNTP分別帶有不同的熒光基團(tuán),在被激光照了之后,發(fā)出不同顏色的熒光。再通過(guò)對(duì)光的顏色的分辯,可以判斷出到底是哪個(gè)堿基。光路結(jié)構(gòu)這里,我們要說(shuō)明一下:感光元件CCD,它本身是色盲。所以,它一定要配合濾光片,才能分辯出顏色來(lái)。那我們先來(lái)看一下,HiSeq的光路圖。左邊這兩個(gè)元器件,就是激光器。一個(gè)發(fā)出紅色激光,另一個(gè)發(fā)出綠色激光。其中紅色激光主要是激發(fā)A和C,這兩種堿基上的熒光基團(tuán);而綠色激光主要是激發(fā)G和T,這兩種堿基上的熒光基團(tuán)。紅色和綠色這兩束光,通過(guò)一面半透半反鏡,組成一道激光。這道激光打在Flowcell上。那么請(qǐng)注意,F(xiàn)lowcell就放在這個(gè)位置。在Flowcell里面,結(jié)合在DNA上的那個(gè)熒光基團(tuán)在激光的照射下,就發(fā)出熒光。熒光通過(guò)3面半透半反鏡,和1面全反鏡,被分成4條光路,這4道光線,分別通過(guò)一道濾光片,這4濾光片的濾過(guò)波長(zhǎng)不一樣。這樣,這4道光在經(jīng)過(guò)了濾光片之后,就變成了4種顏色不同的光線。然后,這4條顏色不同的光線,各自照在一面反射鏡上,通過(guò)反射鏡進(jìn)入到CCD。這4個(gè)CCD就記錄到不同顏色的光線。TDI線掃描HiSeq的光線掃描是“線掃描”,和傳統(tǒng)的相機(jī)不一樣,傳統(tǒng)的相機(jī)是面掃描。HiSeq采取了一種特定的叫“TDI”線掃描方式,TDI是Timedelayintegration的縮寫(xiě)。在HiSeq上之所以采取TDI掃描方式,因?yàn)樗蟹浅C黠@的優(yōu)點(diǎn)。第一個(gè)優(yōu)點(diǎn),就是它的掃描速度非??欤贖iSeq2500上,從Flowcell的一個(gè)Lane的一頭掃到另外一頭,也就是一個(gè)“Swath”的掃描時(shí)間,大概只有20秒種不到。第二個(gè)好處,就是它的掃描精度非常高。在最新的HiSeqV4版試劑上,它的光點(diǎn)密度,大概可以達(dá)到每平方毫米90萬(wàn)個(gè)點(diǎn),要掃描清楚這么高密度的光點(diǎn),掃描儀的掃描精度是可想而知的。TDI掃描的第三個(gè)好處,是這種方式,可以把Flowcell的上表面、和下表面都掃描到。Flowcell(測(cè)序芯片)接下來(lái),我們?cè)僖敿?xì)介紹這Flowcell。那么,先來(lái)看一下,這flowcell有點(diǎn)象一載玻片,在這一片子里面,我們可以看到,它做了8條通道。每條通道,我們稱為一個(gè)Lane。這8個(gè)Lane之間,相互是隔絕的。每個(gè)Lane的兩端各有一個(gè)小孔。這兩個(gè)小也孔,就是液流流進(jìn)、流出的地方。每個(gè)Lane的上表面和下表面,都分別以共價(jià)鍵的方式,種了2種DNA引物。這兩種DNA引物,是與文庫(kù)接頭的兩頭序列相互補(bǔ)的。上一期(節(jié)目)我們已經(jīng)說(shuō)明了這一點(diǎn)。一個(gè)Lane里面,分成2個(gè)面,上表面、和下表面。上表面和下表面,都種了DNA引物,也都是可以產(chǎn)生測(cè)序數(shù)據(jù)的。在每一條Lane的每一個(gè)面,又被分成了3個(gè)掃描通道,每個(gè)道被稱為一個(gè)“swath”。每條Swath是從頭到底被連續(xù)掃描的。但是它的數(shù)據(jù),在進(jìn)行數(shù)據(jù)分析的時(shí)侯,是被分割成16個(gè)小方塊。這每一個(gè)小方塊,被稱為一個(gè)“tile”。這樣一Flowcell,總共就是768個(gè)Tile。每個(gè)Tile在掃描的時(shí)侯,會(huì)根據(jù)4種顏色,產(chǎn)生4照片。圖像處理掃描完了之后,就要進(jìn)行圖像處理。掃描出來(lái)的最原始的文件,它的格式是“.tiff”文件。Tiff文件記錄了每個(gè)像素點(diǎn)上采集到的光強(qiáng)度。Tiff文件的優(yōu)點(diǎn)是它是完全無(wú)損,保留了所有的原始信息。但它也有它的不足之處。它的不足之處就是它的這個(gè)文件太大了。它的數(shù)據(jù)量很大,既不便于數(shù)據(jù)的傳輸,也不便于數(shù)據(jù)的存儲(chǔ)。接下來(lái),計(jì)算機(jī)軟件就把圖像文件轉(zhuǎn)化成光點(diǎn)文件。光點(diǎn)文件叫“.BCL”文件。也就是“Basecalling”的英文縮寫(xiě)。要把圖像文件,轉(zhuǎn)化成BCL文件,就是把4種顏色的4照片,組合在一起,變成一有4種顏色的彩色照片。這其中首先要解決的,是4照片在空間位置上的匹配問(wèn)題,因?yàn)?照片是通過(guò)4個(gè)CCD分別拍下來(lái)的,所以,會(huì)有一定的空間上的偏差。軟件要通過(guò)對(duì)4照片上,亮點(diǎn)相互比對(duì),找到最合適的、匹配的位置。這里,我們要說(shuō)明一下,如果被測(cè)的文庫(kù)是堿基不平衡的文庫(kù),在這個(gè)空間匹配上就會(huì)遇到問(wèn)題。什么叫堿基平衡呢?也就是說(shuō),在測(cè)序過(guò)程當(dāng)中,每個(gè)循環(huán),A、C、G、T四種堿基,都是比較均勻在存在的。最典型是人全基因組文庫(kù),這是一個(gè)典型的堿基平衡文庫(kù)。那什么是堿基不平衡文庫(kù)呢?最典型的,就是PCR擴(kuò)增子產(chǎn)生的文庫(kù)。PCR擴(kuò)增子的特點(diǎn):PCR是有特定的起始位點(diǎn)的,一個(gè)特定的測(cè)序循環(huán)中,幾乎所有的片段都是同一種堿基,而剩下的3種堿基,就特別少。這在反映到照片上去的時(shí)侯,就變成:一照片特別亮,光點(diǎn)很多。而其它的三照片就特別暗,上面的光點(diǎn)就很少。這時(shí)侯,要軟件做空間上的比對(duì),軟件就會(huì)覺(jué)得困難,因?yàn)閷?duì)于那幾暗的照片,軟件很難判斷上面的光點(diǎn),是否與那亮的照片上的光點(diǎn)真正對(duì)得上。結(jié)果,就是判斷出來(lái)的可靠性變差。最后,就是測(cè)序的數(shù)據(jù)質(zhì)量變差,有效數(shù)據(jù)量也會(huì)變少。要解決這個(gè)問(wèn)題,辦法是在測(cè)序過(guò)程中摻入一些堿基平衡的文庫(kù)。例如摻人全基因組文庫(kù)?;蛘咭部梢該絀llumina提供的標(biāo)準(zhǔn)的PhiX文庫(kù),這些都是堿基平衡文庫(kù)。它的作用,是在每個(gè)循環(huán)當(dāng)中,為每一種顏色的照片,都提供足夠多的亮點(diǎn)。這樣,它可以彌補(bǔ)那些不平衡的文庫(kù)當(dāng)中缺亮點(diǎn)的問(wèn)題。BCL文件當(dāng)把4種顏色的光點(diǎn)組成一個(gè)文件之后,軟件就會(huì)生成一個(gè)“.BCL”文件。“.BCL”文件就是光點(diǎn)文件,它對(duì)每個(gè)光點(diǎn),記錄了以下的容。首先一個(gè)光點(diǎn)處在哪個(gè)Lane里面。其次,這個(gè)光點(diǎn)在這個(gè)Lane的哪個(gè)Tile里面。第3,就是這個(gè)亮點(diǎn)在這個(gè)Tile的X軸和Y軸的座標(biāo)位置。第4,是記錄了這個(gè)光點(diǎn)當(dāng)中“紅、黃、藍(lán)、綠”四種光的對(duì)應(yīng)的光強(qiáng)。這個(gè)圖是BCL文件的一個(gè)示意圖。實(shí)際上,BCL文件是二進(jìn)制文件,無(wú)法拿來(lái)直接閱讀。也正是因?yàn)锽CL文件難于閱讀,并且很難改動(dòng),所以,BCL文件幾乎不存在做假的可能。在測(cè)序過(guò)程當(dāng)中,有許多客戶會(huì)要求測(cè)序公司提供原始的測(cè)序數(shù)據(jù),如果客戶是包Lane、或者包Flowcell的,一般測(cè)序公司是可以提供BCL文件的??蛻粼谀玫紹CL文件之后,可以用“BCL2FASTQ”這個(gè)軟件,把BCL文件轉(zhuǎn)化成FASTQ序列語(yǔ)文件。以此,客戶可以來(lái)驗(yàn)證,測(cè)序公司提供的數(shù)據(jù)是否是原始的,是否是真實(shí)的。再說(shuō)一下最初生成的那個(gè)tiff文件。tiff文件實(shí)在太大了,所以,測(cè)序儀在測(cè)序過(guò)程中,只把tiff文件作為中間文件。最后是把這個(gè)tiff文件刪掉的。如果客戶想要原始的圖像文件,在HiSeqV4之前,可以讓測(cè)序公司保留“.CIF”文件。CIF文件是一種彩色圖案的向量文件,它的優(yōu)點(diǎn)是比tiff文件的數(shù)據(jù)量小很多。測(cè)序公司把CIF文件給客戶之后,客戶就可以看到原始的圖像文件了。但是,請(qǐng)注意:在HiSeq升級(jí)到V4之后,保留CIF文件的這個(gè)選項(xiàng)是被取消掉了。所以,對(duì)于要測(cè)V4Lane的客戶來(lái)說(shuō),是拿不到CIF文件了。堿基識(shí)別接下來(lái),我們講一下堿基識(shí)別。我們之前講:4種dNTP,各標(biāo)一種熒光基團(tuán),紅、黃、藍(lán)、綠,四種顏色,根據(jù)顏色來(lái)判斷堿基種類。這個(gè)實(shí)際上是一種簡(jiǎn)化了的說(shuō)法。實(shí)際情況,要比這個(gè)復(fù)雜得多。來(lái)看這個(gè)圖,這是2種熒素的熒光的波長(zhǎng)圖。我們會(huì)發(fā)覺(jué),這兩種熒光色,它發(fā)出來(lái)的發(fā)射光,它在波長(zhǎng)上是有交疊的。在X的這個(gè)位置,主要是綠色熒光素的貢獻(xiàn),但是藍(lán)色熒光素,也有少許貢獻(xiàn)。而在Y這個(gè)波長(zhǎng)位置,藍(lán)色熒光素是做了主要貢獻(xiàn),但是綠色熒光素,也有少量供獻(xiàn)。在實(shí)際測(cè)序過(guò)程中,是4種熒光素發(fā)出的亮,相互有交疊,相互之間的交系,變得更加復(fù)雜。那么,現(xiàn)在我們要做的事情,是把A、C、G、T,4種熒光素的貢獻(xiàn)給拆開(kāi)。首先,我們就要確定4種熒光素在4個(gè)被測(cè)波長(zhǎng)處的貢獻(xiàn)率。我們可以看一下,這個(gè)表,就是4種熒光素,在4個(gè)波長(zhǎng)分別有不同的貢獻(xiàn)率。這樣就組成一個(gè)4X4的貢獻(xiàn)率表格。我們?cè)趯?shí)際的分析當(dāng)中,等于解一個(gè)4元1次、4聯(lián)方程。因?yàn)槭?個(gè)未知數(shù),又是4個(gè)方程,所以肯定是可以解出來(lái)的。說(shuō)解方程,有點(diǎn)復(fù)雜。那么我們來(lái)打一個(gè)比方。讓大家來(lái)理解這個(gè)事情。假設(shè)有一家飯店,它有4個(gè)熟客:甲、乙、丙、丁。它日常又提供4道菜:豬肉、白菜、黃瓜、花生。大廚知道:甲最愛(ài)吃豬肉、乙最愛(ài)吃白菜、丙最愛(ài)吃黃瓜、丁最愛(ài)吃花生,每個(gè)人來(lái)了飯店之后,主要吃自己最愛(ài)吃的,也會(huì)吃些別的菜,但別的菜都吃得不是太多。那么這個(gè)大廚不到前臺(tái),看不到今天來(lái)的客人。如果,這個(gè)大廚想要知道今天來(lái)的客人是誰(shuí),他有什么辦法呢?看今天哪個(gè)菜被吃掉得最多。如果今天的菜被吃掉的最多的是豬肉,那他可以大致地判斷,今天是甲來(lái)過(guò)了;如果他看到今天被吃掉的菜,最多的是白菜,很可能是乙來(lái)過(guò)了;那么其它的,道理也是一樣的。希望這個(gè)例子可以幫大家來(lái)理解一下,這4個(gè)熒光和4種堿基的判讀的關(guān)系。Phasing和Prephasing接下來(lái),我們?cè)僦v一下,Phasing和Prephasing。在Illumina的測(cè)序過(guò)程當(dāng)中,一個(gè)簇,大概有5千個(gè)到1萬(wàn)個(gè)分子。但是在邊合成、邊測(cè)序的過(guò)程當(dāng)中,每一步酶反應(yīng),理想情況下,應(yīng)該這5千個(gè)分子都延長(zhǎng)1個(gè)堿基。但實(shí)際情況,總有少量分子沒(méi)有完成延長(zhǎng)反應(yīng)。也就是說(shuō),總有少量的分子會(huì)掉隊(duì),我們稱這種掉隊(duì)的現(xiàn)象叫“phasing”。Phasing主要是由于酶活性不足,所引起的。如圖所示,掉隊(duì)的這個(gè)分子,它所發(fā)出的熒光信號(hào),和大部隊(duì)所發(fā)出的熒光信號(hào)是不一樣的。這個(gè)循環(huán)的次數(shù)越多,掉隊(duì)的分子就越多。所以,測(cè)序越到后面,它Phasing的分子數(shù)就越多。最后,信號(hào)的可靠性就越差。除了掉隊(duì)的分子,還會(huì)有一部分分子,會(huì)跑得超前,也就是在一個(gè)循環(huán)中,它延長(zhǎng)了2個(gè)堿基。在一個(gè)循環(huán)中延長(zhǎng)了2個(gè)堿基的最主要的原因,是dNTP上標(biāo)記的那個(gè)疊氮基團(tuán)(N3)掉了。我們知道,疊氮基團(tuán)是非常容易從有機(jī)化合物上掉落的。當(dāng)疊氮基團(tuán)掉落之后,dNTP的3’端的羥基就暴露出來(lái)了。當(dāng)丟失了疊氮基團(tuán)的dNTP加到(合成鏈的)3’端之后,它的聚合反應(yīng)不會(huì)終止,而是會(huì)繼續(xù)往前走。當(dāng)再加上了一個(gè)帶疊氮基團(tuán)的dNTP之后,這個(gè)聚合反應(yīng)才停下來(lái)。這樣的后果,就是一個(gè)循環(huán),某些分子,會(huì)合成了2個(gè)堿基。也就是說(shuō)比大部隊(duì)多走了一步。那么這個(gè)多走了一步的堿基,它所發(fā)出來(lái)的熒光顏色,也是和大部隊(duì)不一樣的。在Illumina測(cè)序過(guò)程當(dāng)中,Phasing和Prephasing是限制測(cè)長(zhǎng)的最主要原因。也就是說(shuō),隨著循環(huán)不斷進(jìn)行,越來(lái)越多的分子掉隊(duì),還有越來(lái)越多的分子超前。然后,它們所產(chǎn)生的噪音,掩蓋了大部隊(duì)的信號(hào)的時(shí)侯,也就是測(cè)序開(kāi)始測(cè)不準(zhǔn)的時(shí)侯。在HiSeq測(cè)序當(dāng)中,從第12個(gè)循環(huán)開(kāi)始,在計(jì)算某個(gè)光點(diǎn)是哪種堿基的時(shí)侯,就要把Phasing和Prephasing的影響,納入考慮。Chastity和Passfilter為了對(duì)光點(diǎn)當(dāng)中熒光素的純粹程度進(jìn)行描述,Illumina公司定義了個(gè)標(biāo)準(zhǔn),叫“chastity”,Chastity的定義,就是濃度最高的那個(gè)熒光素的量,去除以“它自己+排名第二的熒光素的量的和”。大于0.6是一個(gè)好堿基。用更加通俗的話來(lái)說(shuō),也就是“老大”比“老二”,如果大于、等于“1.5倍”,這就是個(gè)“好”堿基。如果“老大”比“老二”不足“1.5倍”,這就是個(gè)“壞堿基”。Illumina對(duì)每個(gè)read的質(zhì)量都要做一個(gè)檢驗(yàn),這個(gè)檢驗(yàn)就叫“passfilter”檢驗(yàn)。檢驗(yàn)的標(biāo)準(zhǔn),是看前25個(gè)堿基當(dāng)中,有幾個(gè)是“壞堿基”。如果只有一個(gè)、或者沒(méi)有壞堿基,則Passfilter就通過(guò);如果有超過(guò)一個(gè)以上的壞堿基,Passfilter就不能通過(guò)。那我們平時(shí)說(shuō),測(cè)序服務(wù)保證多少“PFdata”,指的就是PassFilter(PF)的數(shù)據(jù)。PassFilter最主要的作用,就是把那些一個(gè)光點(diǎn)當(dāng)中,含了幾個(gè)cluster的那些點(diǎn),給去掉。只剩下那些純粹的單克隆的read,作為合格的數(shù)據(jù),提交給客戶。我們平時(shí)說(shuō)“PF率”,指的就是PassFilter的Reads數(shù),占總的、測(cè)到的Reads數(shù)的比例。PF率可以從一個(gè)側(cè)面反映測(cè)序的質(zhì)量。一般來(lái)說(shuō),如果上樣密度過(guò)高,PF率就可能會(huì)下降。QualityScore,Q值一個(gè)堿基的QualityScore,也就是這個(gè)堿基的質(zhì)量分?jǐn)?shù)(Q值)。這個(gè)是通過(guò)這個(gè)堿基被誤判的可能性,換算出以10為底的對(duì)數(shù),再乘以“-10”得到的這樣一個(gè)數(shù)字。這個(gè)Q值,有點(diǎn)象我們說(shuō)黃金的純度,我們說(shuō)“三九金”,或者說(shuō)“四九金”,就是指99.9%的純度的金子,或者是99.99%的純度的金子。我們平時(shí)說(shuō)Q30,就是指一個(gè)堿基的可靠性達(dá)到99.9%。或者說(shuō),它的出錯(cuò)的可能性小于千分之一。同樣道理,我們說(shuō)Q40,就是指一個(gè)堿基的可靠性是99.99%?;蛘哒f(shuō),它的出錯(cuò)的可能性是萬(wàn)分之一。那么,我們經(jīng)常說(shuō)Q30比例,所謂的“Q30比例”,就是在全部PF數(shù)據(jù)當(dāng)中,達(dá)到、或者超過(guò)Q30質(zhì)量標(biāo)準(zhǔn)以上的數(shù)據(jù),占所有PF數(shù)據(jù)的比例,叫Q30比例。Q30比例,可以表征一個(gè)測(cè)序過(guò)程的質(zhì)量的好壞。一個(gè)堿基的質(zhì)量分?jǐn)?shù),不是以數(shù)字方式,直接記錄到最后的Fastq文件的。而是把它的Q值,加上33,再用ASCII碼表轉(zhuǎn)換成一個(gè)字母,把這個(gè)字母錄入Fastq文件。這樣做,有2個(gè)好處。如果我記2位數(shù)字,那么就占2個(gè)字節(jié),現(xiàn)在用一個(gè)字母來(lái)記錄,只占一個(gè)字節(jié)。那(數(shù)據(jù)存儲(chǔ))空間就節(jié)省了很多。第二個(gè)好處,用ASCII碼字母表,一個(gè)堿基,只對(duì)應(yīng)一個(gè)字母;如果是用2位數(shù)字來(lái)記錄,就有可能發(fā)生移碼錯(cuò)誤。而用ASCII碼,一個(gè)字母來(lái)記錄,就不太容易發(fā)生移碼錯(cuò)誤。Fastq文件在軟件做完上述所有的數(shù)據(jù)處理之后,就會(huì)生成一個(gè)Fastq文件。Fastq文件里,主要包含了3部分容。第一個(gè)部分,是每個(gè)Read的目錄信息。也就是這個(gè)Read來(lái)自于哪臺(tái)HiSeq、第幾個(gè)run、第幾個(gè)Lane、和第幾個(gè)Tile,以及在這個(gè)Tile的X、Y的什么位置。接下來(lái),就是所測(cè)到的堿基的序列。最后,是這些堿基序列對(duì)應(yīng)的質(zhì)量分?jǐn)?shù)信息。這個(gè),就是Fastq文件。到Fastq文件之后,測(cè)序儀所要完成的工作,就完全完成了。Pacbio是目前讀長(zhǎng)最長(zhǎng)的測(cè)序技術(shù)公司。它的讀長(zhǎng),最長(zhǎng)可以達(dá)到2萬(wàn)到3萬(wàn)個(gè)堿基,平均可以達(dá)到8千多個(gè)堿基。相比于llumina和IonTorrent的幾百個(gè)堿基的讀長(zhǎng)來(lái)說(shuō),有著明顯的優(yōu)勢(shì)。PacBio測(cè)序過(guò)程PacBio的測(cè)序原理,和別的高通量測(cè)序的原理,基本上也是一樣的。也是邊合成,邊測(cè)序。首先,這個(gè)聚合酶是固定在測(cè)序小孔的玻璃底板上。這個(gè)聚合酶又和DNA模板、測(cè)序引物是結(jié)合在一起的。然后加入帶4色熒光的dNTP底物,這些dNTP都在其磷酸基團(tuán)上被標(biāo)上了熒光基團(tuán),四種堿基、各標(biāo)一種顏色。當(dāng)一種與聚合酶正要合成的堿基一致的dNTP被酶抓住的時(shí)候,酶就會(huì)長(zhǎng)時(shí)間地抓住這個(gè)dNTP,不讓這個(gè)dNTP漂走。這時(shí)侯,激發(fā)光從小孔的底部照進(jìn)來(lái),打在這個(gè)被抓住的dNTP上,就會(huì)在較長(zhǎng)時(shí)間發(fā)出熒光。儀器根據(jù)所拍到的熒光的顏色,就可以來(lái)判斷,這個(gè)堿基是哪種堿基。一個(gè)循環(huán)的聚合反應(yīng)發(fā)生完畢之后,焦磷酸基團(tuán)就從原來(lái)的dNTP上掉下來(lái),因?yàn)闊晒饣鶊F(tuán)是連到這個(gè)焦磷酸上的,所以這個(gè)熒光基團(tuán)也就一起掉下來(lái)了,在溶液中就會(huì)漂走。接下來(lái),進(jìn)行第二、第三個(gè)循環(huán)……,一直進(jìn)行下去。一芯片上有幾萬(wàn)個(gè)孔,同時(shí)進(jìn)行測(cè)序,這樣一次就可以得到幾億個(gè)堿基的序列。接下來(lái),分幾個(gè)要點(diǎn),來(lái)說(shuō)明這個(gè)測(cè)序的過(guò)程?;瘜W(xué)方法和Illumina一樣,PacBio也采用了4色熒光基團(tuán)來(lái)標(biāo)記dNTP,但是PacBio的標(biāo)記和Illumina的標(biāo)記有所不同,PacBio的熒光基團(tuán)直接是標(biāo)在dNTP的3'端的磷酸基團(tuán)的末端的。這樣標(biāo)記的好處是:當(dāng)一個(gè)聚合反應(yīng)的循環(huán)完成的時(shí)侯,dNTP上的那兩個(gè)磷酸基團(tuán)就掉下,連在這個(gè)磷酸基團(tuán)上的熒光基團(tuán)也隨一塊兒掉下來(lái)。它掉下來(lái)之后,就在溶液中漂走,不會(huì)影響接下來(lái)的測(cè)序過(guò)程了。測(cè)序微孔然后,我們說(shuō)一下這個(gè)測(cè)序小孔的設(shè)計(jì)。這個(gè)測(cè)序小孔叫ZeroModelWaveguide,簡(jiǎn)稱ZMW。小孔的直徑很小,光只能在小孔中傳輸很短的距離。這個(gè)特點(diǎn)對(duì)PacBio的測(cè)序很重要。因?yàn)槊甘潜还潭ㄔ诓AУ装迳系?,所以,只有互補(bǔ)的dNTP被酶抓到的時(shí)侯,這個(gè)dNTP才會(huì)較長(zhǎng)時(shí)間地停留在離玻璃底板很近的位置。也只有這樣,才會(huì)被激發(fā)光照到,并且發(fā)出它的熒光。PacBio的光學(xué)設(shè)計(jì)中,入射光是幾百納米波長(zhǎng)的可見(jiàn)光,光從小孔的底部的玻璃處照到小孔中來(lái)。這個(gè),只有70納米。其它游離的dNTP,只會(huì)非常短暫地進(jìn)入小孔,又很快漂走。所以,這些游離dNTP帶來(lái)的的噪音(信號(hào)),就被抑制在很低的水平。啞鈴狀的文庫(kù)接下來(lái),我們說(shuō)一下PacBio的建庫(kù)。PacBio的建庫(kù)是比較特別的。它的庫(kù)是在DNA片段的兩段各接一下發(fā)夾型的接頭。接好了發(fā)夾形的接頭之后,形成的文庫(kù)是一個(gè)啞鈴形的文庫(kù)。這種啞鈴形狀的文庫(kù)有個(gè)好處,那它整個(gè)分子實(shí)際上是一個(gè)圓環(huán)。在測(cè)序的過(guò)程中它可以周而復(fù)始地進(jìn)行測(cè)序,這對(duì)于發(fā)揮PacBio的長(zhǎng)讀長(zhǎng)的優(yōu)勢(shì)是很有益處的。超長(zhǎng)讀長(zhǎng)的根本原因--單分子測(cè)序接下來(lái),我們說(shuō)一下PacBio它測(cè)序長(zhǎng)度優(yōu)勢(shì)的來(lái)源。這個(gè)來(lái)源,是因?yàn)樗鼫y(cè)的是個(gè)單個(gè)分子。相比之下,Illumina或者IonTorrent測(cè)的都是一簇分子?;蛘哒f(shuō)它們測(cè)的都是一大堆分子。當(dāng)它測(cè)一大堆分子的時(shí)侯,每個(gè)循環(huán),多多少少,總有一些分子落后;也多多少少,有些分子超前。這些落后、或者超前的分子,在每個(gè)循環(huán)里面就會(huì)給出噪音。而且,隨著循環(huán)次數(shù)越來(lái)越多,落后、和超前的分子也會(huì)越來(lái)越多,達(dá)到一定程度的時(shí)侯,噪音就會(huì)很大,大到會(huì)掩蓋掉信號(hào)。當(dāng)噪音大到掩蓋掉信號(hào)的時(shí)侯,實(shí)際上測(cè)序就測(cè)不準(zhǔn)了。相比之下,PacBio它只有一個(gè)分子,所以,它不存在同步問(wèn)題。這就讓它可以測(cè)到幾千、基至上萬(wàn)個(gè)BP都可以達(dá)成。堿基判讀準(zhǔn)確率:87.5%接下來(lái),我們要說(shuō)一下PacBio測(cè)序的缺點(diǎn)。最大的缺點(diǎn)是對(duì)堿基的判讀不準(zhǔn)。它的錯(cuò)誤率是12.5%。也就是說(shuō),它每讀8個(gè)堿基,就有一個(gè)是讀錯(cuò)的。那么它主要的錯(cuò)誤類型是"插入"。也就是說(shuō),它會(huì)多讀一個(gè)堿基。好在,它的這種錯(cuò)誤是隨機(jī)的。也就是說(shuō),你在這個(gè)地方再讀一遍,它不一定會(huì)發(fā)生同樣的錯(cuò)誤。那么,對(duì)于同一個(gè)序列,多測(cè)幾遍之后,這些偶然誤差,可以被校正過(guò)來(lái)。讀長(zhǎng)限制因素接下來(lái),我們說(shuō)一下限制PacBio讀長(zhǎng)的因素。第一個(gè)因素,就是DNA鏈上出現(xiàn)了缺口。測(cè)序過(guò)程中是用激光照射來(lái)發(fā)出熒光的,所以當(dāng)強(qiáng)光長(zhǎng)時(shí)間照射DNA鏈的時(shí)侯,DNA鏈就有可能被照斷掉,出現(xiàn)缺口。當(dāng)酶讀到這個(gè)缺口的時(shí)侯,酶就從模板鏈上掉下來(lái)。這時(shí)侯,測(cè)序就終止了。這是第一種可能。第二種可能,是光線照射情況下,酶有可能會(huì)變性,當(dāng)酶發(fā)生了變性之后,失去了聚合酶的功能,這時(shí)侯,測(cè)序也會(huì)終止。第三個(gè)限制因素,是文庫(kù)本身的長(zhǎng)度。因?yàn)橐銎伍L(zhǎng)度大于20~30K的文庫(kù),是有相當(dāng)大的困難的,所以,文庫(kù)本身的質(zhì)量,在一定程度上,也限制了PacBio的讀長(zhǎng)。數(shù)據(jù)通量在高通量測(cè)序當(dāng)中,測(cè)序的通量,是一個(gè)很重要的技術(shù)指標(biāo)。那PacBio大根一芯片一次可以測(cè)到0.3~0.4G的數(shù)據(jù)。在PacBio測(cè)序中,芯片上的小孔數(shù)是第一個(gè)絕對(duì)的、限制性的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO 16830:2025 EN Specification of bamboo drinking straws
- 江西師范大學(xué)科學(xué)技術(shù)學(xué)院《建筑設(shè)備施工組織設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南中醫(yī)藥大學(xué)湘杏學(xué)院《水電站建筑物》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南工藝美術(shù)職業(yè)學(xué)院《多媒體信息處理與檢索技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 衡陽(yáng)科技職業(yè)學(xué)院《統(tǒng)計(jì)軟件操作》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江師范大學(xué)《能源與動(dòng)力工程測(cè)試技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 長(zhǎng)春師范大學(xué)《衛(wèi)生檢驗(yàn)綜合技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 榆林職業(yè)技術(shù)學(xué)院《太陽(yáng)能熱利用技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 使用二手設(shè)備節(jié)約資本開(kāi)支
- 實(shí)踐學(xué)習(xí)實(shí)施報(bào)告
- 特色酒吧方案計(jì)劃書(shū)
- 重慶市南開(kāi)中學(xué)2023-2024學(xué)年中考三模英語(yǔ)試題含答案
- 2023年上海高中物理合格考模擬試卷一含詳解
- 2022版義務(wù)教育(地理)課程標(biāo)準(zhǔn)(附課標(biāo)解讀)
- 2024年滑雪用品行業(yè)分析報(bào)告及未來(lái)發(fā)展趨勢(shì)
- 經(jīng)方治療腦梗塞的體會(huì)
- 新版DFMEA基礎(chǔ)知識(shí)解析與運(yùn)用-培訓(xùn)教材
- 制氮機(jī)操作安全規(guī)程
- 衡水市出租車(chē)駕駛員從業(yè)資格區(qū)域科目考試題庫(kù)(全真題庫(kù))
- 護(hù)理安全用氧培訓(xùn)課件
- 《三國(guó)演義》中人物性格探析研究性課題報(bào)告
評(píng)論
0/150
提交評(píng)論