高通量測序常用名詞匯總

上傳人：1*** IP屬地：江蘇上傳時間：2023-09-06 格式：DOCX 頁數(shù)：14 大?。?.67MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

高通量測序常用名詞匯總一代測序技術(shù)：即傳統(tǒng)的Sanger測序法，Sanger法是根據(jù)核苷酸在待定序列模板上的引物點(diǎn)開始，隨機(jī)在某一個特定的堿基處終止，并且在每個堿基后面進(jìn)行熒光標(biāo)記，產(chǎn)生以A、T、C、G結(jié)束的四組不同長度的一系列核苷酸，每一次序列測定由一套四個單獨(dú)的反應(yīng)構(gòu)成，每個反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP)，并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基團(tuán)，使延長的寡聚核苷酸選擇性地在G、A、T或C處終止，使反應(yīng)得到一組長幾百至幾千堿基的鏈終止產(chǎn)物。它們具有共同的起始點(diǎn)，但終止在不同的的核苷酸上，可通過高分辨率變性凝膠電泳分離大小不同的片段，通過檢測得到DNA堿基序列。二代測序技術(shù)：nextgenerationsequencing（NGS）又稱為高通量測序技術(shù)，與傳統(tǒng)測序相比，二代測序技術(shù)可以一次對幾十萬到幾百萬條核酸分子同時進(jìn)行序列測定，從而使得對一個物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能，所以又被稱為深度測序（Deepsequencing）。NGS主要的平臺有Roche（454&454+），Illumina（HiSeq2000/2500、GAIIx、MiSeq），ABISOLiD等?；颍篏ene，是遺傳的物質(zhì)基礎(chǔ)，是DNA或RNA分子上具有遺傳信息的特定核苷酸序列。基因通過復(fù)制把遺傳信息傳遞給下一代，使后代出現(xiàn)與親代相似的性狀。DNA：Deoxyribonucleicacid，脫氧核糖核酸，一個脫氧核苷酸分子由三部分組成：含氮堿基、脫氧核糖、磷酸。脫氧核糖核酸通過3',5'-磷酸二酯鍵按一定的順序彼此相連構(gòu)成長鏈，即DNA鏈，DNA鏈上特定的核苷酸序列包含有生物的遺傳信息，是絕大部分生物遺傳信息的載體。RNA：RibonucleicAcid，，核糖核酸，一個核糖核苷酸分子由堿基，核糖和磷酸構(gòu)成。核糖核苷酸經(jīng)磷酯鍵縮合而成長鏈狀分子稱之為RNA鏈。RNA是存在于生物細(xì)胞以及部分病毒、類病毒中的遺傳信息載體。不同種類的RNA鏈長不同，行使各式各樣的生物功能，如參與蛋白質(zhì)生物合成的RNA有信使RNA、轉(zhuǎn)移RNA和核糖體RNA等。16SrDNA："S"是沉降系數(shù)，是反映生物大分子在離心場中向下沉降速度的一個指標(biāo)，值越高，說明分子越大。rDNA（ribosomeDNA）指的是原核生物基因組中編碼核糖體RNA（rRNA）分子對應(yīng)的DNA序列，16SrDNA是原核生物編碼核糖體小亞基16SrRNA的基因。細(xì)菌rRNA（核糖體RNA）按沉降系數(shù)分為3種，分別為5S、16S和23SrRNA。16SrDNA是細(xì)菌染色體上編碼16SrRNA相對應(yīng)的DNA序列，存在于所有細(xì)菌染色體基因中。16SrRNA普遍存在于原核生物中。16SrRNA分子，其大小約1540bp，既含有高度保守的序列區(qū)域，又有中度保守和高度變化的序列區(qū)域，其可變區(qū)序列因細(xì)菌不同而異，恒定區(qū)序列基本保守，所以可利用恒定區(qū)序列設(shè)計引物，將16SrDNA片段擴(kuò)增出來，通過高通量測序利用可變區(qū)序列的差異來對不同菌屬、菌種的細(xì)菌進(jìn)行分類鑒定。cDNA：complementaryDNA，互補(bǔ)脫氧核糖核酸，與RNA鏈互補(bǔ)的單鏈DNA，以RNA為模板，在反轉(zhuǎn)錄酶的作用下所合成的DNA。SmallRNA：生物體內(nèi)一類高度保守的重要的功能分子，其大小在18-30nt，包括microRNA、siRNA、snRNA、snoRNA和piRNA（piwi-interactingRNA）等，它的主要功能是誘導(dǎo)基因沉默，調(diào)控細(xì)胞生長、發(fā)育、基因轉(zhuǎn)錄和翻譯等生物學(xué)過程。以miRNA為例介紹它們的功能：miRNA與RNA誘導(dǎo)沉默復(fù)合體（RNAinducedsilencingcomplex,RISC）結(jié)合，并將此復(fù)合體與其互補(bǔ)的mRNA序列結(jié)合，根據(jù)靶序列與miRNA的互補(bǔ)程度，從而導(dǎo)致靶序列降解或干擾靶序列蛋白質(zhì)的翻譯過程。SD區(qū)域：Segmentduplication，串聯(lián)重復(fù)是由序列相近的一些DNA片段串聯(lián)組成。串聯(lián)重復(fù)在人類基因多樣性的靈長類基因中發(fā)揮重要作用。Genotypeandphenotype：基因型與表型，基因型是指某一生物個體全部基因組合的總稱；表型，又稱性狀，是基因型和環(huán)境共同作用的結(jié)果?；蚪M：Genome，單倍體細(xì)胞核、細(xì)胞器（線粒體、葉綠體）或病毒粒子所含的全部DNA分子或RNA分子。全基因組denovo測序：又稱從頭測序，它不依賴于任何現(xiàn)有的序列資料，而直接對某個物種的基因組進(jìn)行測序，然后利用生物信息學(xué)分析手段對序列進(jìn)行拼接、組裝，從而獲得該物Run：指高通量測序平臺單次上機(jī)測序反應(yīng)。圖1.FlowCell結(jié)構(gòu)示意圖Lane：也叫channel，單泳道，每條泳道包含2列（column），每列分布有多個小區(qū)（tile），如圖1。不同的測序平臺FlowCell中所含的Lane不一樣，如HiSeq2000是2個flowcell，每個flowcell中含有8個lane；HiSeq2500是包含2個miniflowcell（快速運(yùn)行模式）和2個highoutputflowcell，兩個模式不能同時運(yùn)行，其中每個miniflowcell包含2個lane，每個highoutputflowcell中包含8個lane；Miseq系統(tǒng)的flowcell僅含有1個lane。Tile：小區(qū)，每條Lane中有2列tile，合計120個小區(qū)。每個小區(qū)上分布數(shù)目繁多的簇結(jié)合位點(diǎn)，如圖1。Cluster：簇，在Illumina測序平臺中會采用橋式PCR方式生產(chǎn)DNA簇，每個DNA簇才能產(chǎn)生亮度達(dá)到CCD可以分辨的熒光點(diǎn)。Index：標(biāo)簽，在Illumina平臺的多重測序（MultiplexedSequencing）過程中會使用Index來區(qū)分樣品，并在常規(guī)測序完成后，針對Index部分額外進(jìn)行7個循環(huán)的測序，通過Index的識別，可以在1條Lane中區(qū)分12種不同的樣品。Barcode：與Index同義，多指在RocheGSFLX454測序平臺的16SPCR產(chǎn)物的測序過程中接頭序列所包含的的用來區(qū)分不同樣本的序列。PF%：PF%是指符合測序質(zhì)量標(biāo)準(zhǔn)的簇的百分比，與測序的通量相關(guān)聯(lián)。Fasta：一種序列存儲格式。一個序列文件若以FASTA格式存儲，則每一條序列的第一行以“>”開頭，而跟隨“>”的是序列的ID號（即唯一的標(biāo)識符）及對該序列的描述信息；第二行開始是序列內(nèi)容，序列短于61nt的，則一行排列完；序列長于61nt的，則每行存儲61nt，最后剩下小于61nt的，在最后一行排列完；第二條序列另起一行，仍然由“>”和序列的ID號開始，以此類推。Fastq：Fastq是Solexa測序技術(shù)中一種反映測序序列的堿基質(zhì)量的文件格式。第一行以“@”符號開頭，后面緊跟一個序列的描述信息；第二行是該序列的內(nèi)容；第三行以“+”符號開頭，后面可以是該序列的描述信息，也可省略；而第四行是第二行中的序列內(nèi)容每個堿基所對應(yīng)的測序質(zhì)量值。Read：高通量測序平臺產(chǎn)生的序列標(biāo)簽就稱為reads?；蚪M組裝：進(jìn)行基因組或轉(zhuǎn)錄組denovo測序時，物種基因組經(jīng)構(gòu)建不同的文庫測序所得的片段需經(jīng)過生物信息學(xué)手段對其進(jìn)行整理拼接，并通過一定的標(biāo)準(zhǔn)（如N50）對后續(xù)組裝結(jié)果進(jìn)行質(zhì)量評估等，最終獲得高準(zhǔn)確度的基因組序列的過程?；蚪M測序深度：測序得到的總堿基數(shù)與待測基因組大小的比值。如測一個物種的全基因組的重測序，基因組大小約為5G，測序獲得100G的數(shù)據(jù)量，則測序深度為20×?；蚪M覆蓋率：指測序獲得的序列占整個基因組的比例。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在，測序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域，這部分沒有獲得的區(qū)域就稱為Gap。例如一個細(xì)菌基因組測序，覆蓋率是98%，那么還有2%的序列區(qū)域是沒有通過測序獲得的。Contig：在denovo測序中拼接軟件基于reads之間的overlap區(qū)，拼接獲得的中間沒有g(shù)ap的序列稱為Contig（重疊群）。Scaffold：基因組denovo測序，通過reads拼接獲得Contigs后，往往還需要構(gòu)建454Paired-end庫或IlluminaMate-pair庫，以獲得一定大小片段（如3Kb、8Kb、10Kb、20Kb）兩端的序列?；谶@些序列，可以確定一些Contig之間的順序關(guān)系，這些先后順序已知的Contigs組成Scaffold。ContigN50：Reads拼接后會獲得一些不同長度的Contigs。將所有的Contig長度相加，能獲得一個Contig總長度。然后將所有的Contigs按照從長到短進(jìn)行排序，如獲得Contig1，Contig2，Contig3……Contig25。將Contig按照這個順序依次相加，當(dāng)相加的長度達(dá)到Contig總長度的一半時，最后一個加上的Contig長度即為ContigN50。舉例：Contig1+Contig2+Contig3+Contig4=Contig總長度*1/2時，Contig4的長度即為ContigN50。ContigN50可以作為基因組拼接的結(jié)果好壞的一個判斷標(biāo)準(zhǔn)。ScaffoldN50：ScaffoldN50與ContigN50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加，能獲得一個Scaffold總長度。然后將所有的Scaffolds按照從長到短進(jìn)行排序，如獲得Scaffold1，Scaffold2，Scaffold3……Scaffold25。將Scaffold按照這個順序依次相加，當(dāng)相加的長度達(dá)到Scaffold總長度的一半時，最后一個加上的Scaffold長度即為ScaffoldN50。舉例：Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold總長度*1/2時，Scaffold5的長度即為ScaffoldN50。ScaffoldN50可以作為基因組拼接的結(jié)果好壞的一個判斷標(biāo)準(zhǔn)。Isotig：指在轉(zhuǎn)錄組denovo測序時，用454平臺測序完成后組裝出的結(jié)果，一個isotig可視為一個轉(zhuǎn)錄本。Isogroup：指轉(zhuǎn)錄組denovo測序中，用454平臺測序完成后組裝出的結(jié)果獲得的可聚類到同一個基因的轉(zhuǎn)錄本群。GC%：GC含量，全基因組范圍內(nèi)或在特定基因組序列內(nèi)的4種堿基中，鳥嘌呤和胞嘧啶所占的比率。SNP：singlenucleotidepolymorphism，單核苷酸多態(tài)性，個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多態(tài)性；不同物種個體基因組DNA序列同一位置上的單個核苷酸存在差別的現(xiàn)象。有這種差別的基因座、DNA序列等可作為基因組作圖的標(biāo)志。SNP在CG序列上出現(xiàn)最為頻繁，而且多是C轉(zhuǎn)換為T，原因是CG中的C常為甲基化的，自發(fā)地脫氨后即成為胸腺嘧啶。一般而言，SNP是指變異頻率大于1%的單核苷酸變異，主要用于高危群體的發(fā)現(xiàn)、疾病相關(guān)基因的鑒定、藥物的設(shè)計和測試以及生物學(xué)的基礎(chǔ)研究等。InDel：Insertion/Deletion，插入/缺失，在基因組重測序進(jìn)行mapping時，進(jìn)行容Gap的比對并檢測可信的ShortInDel，如基因組上小片段>50bp的插入或缺失。在檢測過程中，Gap的長度為1~5個堿基。CNV：copynumbervariation，基因組拷貝數(shù)變異，是基因組變異的一種形式，通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。如人類正常染色體拷貝數(shù)是2，有些染色體區(qū)域拷貝數(shù)變成1或3，這樣，該區(qū)域發(fā)生拷貝數(shù)缺失或增加，位于該區(qū)域內(nèi)的基因表達(dá)量也會受到影響。如果把一條染色體分成A-B-C-D四個區(qū)域，則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發(fā)生了C區(qū)域的擴(kuò)增及缺失，擴(kuò)增的位置可以是連續(xù)擴(kuò)增如A-B-C-C-D也可以是在其他位置的擴(kuò)增，如A-C-B-C-D。SV：structurevariation，基因組結(jié)構(gòu)變異，染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異。主要包括染色體大片段的插入和缺失（引起CNV的變化），染色體內(nèi)部的某塊區(qū)域發(fā)生重復(fù)復(fù)制、翻轉(zhuǎn)顛換、易位、兩條染色體之間發(fā)生重組（inter-chromosometrans-location）等?；虮磉_(dá)差異：是指某一物種或特定細(xì)胞在特定時期/功能狀態(tài)下，多樣本間不同基因在mRNA水平上表達(dá)量的差異，可通過RPKM/FPKM值來體現(xiàn)。RPKM：ReadsPerKilobaseperMillionmappedreads[Mortazavietal.,2008]，是指每1百萬個map上的reads中map到外顯子的每1K個堿基上的reads個數(shù)。計算公式四RPKM=106C/NL/103，其中C為唯一比對到目的基因的reads數(shù)；N為唯一比對到參考基因的總reads數(shù)，L是目的基因編碼區(qū)的堿基數(shù)。RPKM法可以消除基因長度、數(shù)據(jù)量之間的差異進(jìn)行計算基因表達(dá)量。可變剪切：alternativesplicing大多數(shù)真核基因轉(zhuǎn)錄產(chǎn)生的mRNA前體是按一種方式剪接產(chǎn)生出一種mRNA，因而只產(chǎn)生一種蛋白質(zhì)。但有些基因產(chǎn)生的mRNA前體可按不同的方式剪接，產(chǎn)生出兩種或更多種mRNA，即可變剪接?；蛉诤希篏enefusion，將基因組位置不同的兩個或多個基因中的一部分或全部整合到一起，形成新的基因，稱作融合基因或嵌合體基因，該基因有可能翻譯出融合或嵌合體蛋白?；蚣易宸治觯和ㄟ^進(jìn)行BLASTN/HMM比對等查找基因歸屬的基因家族并添加相關(guān)功能注釋?；蚪M注釋：Genomeannotation是利用生物信息學(xué)方法和工具,對基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個熱點(diǎn)?；蚪M注釋的研究內(nèi)容包括基因識別和基因功能注釋兩個方面?；蜃R別的核心是確定全基因組序列中所有基因的確切位置。常見的基因組注釋有GO注釋、pathway分析。GO注釋：geneontology是指對基因功能的注解。GO強(qiáng)調(diào)基因產(chǎn)物在細(xì)胞中的功能。GO不能反映此基因的表達(dá)情況，即是否在特定細(xì)胞中、特定組織中、特定發(fā)育階段或與某種疾病相關(guān)，但GO支持其他的OBO(openbiologyontologies)成員成立其他類型的本體論數(shù)據(jù)庫（如發(fā)育本體學(xué)、蛋白組本體學(xué)、基因芯片本體學(xué)等）Pathway注釋：是指對功能基因參與的信號通路等進(jìn)行分析注釋。甲基化率：是指在甲基化測序中，發(fā)生甲基化的胞嘧啶占所有胞嘧啶的比率。CpG島：CpGisland是指DNA上一個區(qū)域，此區(qū)域含有大量相聯(lián)的胞嘧啶（C）、鳥嘌呤（G），以及使兩者相連的磷酸酯鍵（p）?；蚪M中長度為300～3000bp的富含CpG二核苷酸的一些區(qū)域，主要存在于基因的5’區(qū)域。啟動子區(qū)中CpG島的未甲基化狀態(tài)是基因轉(zhuǎn)錄所必需的，而CpG序列中的C的甲基化可導(dǎo)致基因轉(zhuǎn)錄被抑制。Q20,Q30:基因的二代測序中，每測一個堿基會給出一個相應(yīng)的質(zhì)量值，這個質(zhì)量值是衡量測序準(zhǔn)確度的。堿基的質(zhì)量值13，錯誤率為5%，20的錯誤率為1%，30的錯誤率為0.1%。行業(yè)中Q20與Q30則表示質(zhì)量值≧20或30的堿基所占百分比。例如一共測了1G的數(shù)據(jù)量，其中有0.9G的堿基質(zhì)量值大于或等于20，那么Q20則為90%。Q20值是指的測序過程堿基識別（BaseCalling）過程中，對所識別的堿基給出的錯誤概率。質(zhì)量值是Q20，則錯誤識別的概率是1%，即錯誤率1%，或者正確率是99%；質(zhì)量值是Q30，則錯誤識別的概率是0.1%，即錯誤率0.1%，或者正確率是99.9%；質(zhì)量值是Q40，則錯誤識別的概率是0.01%，即錯誤率0.01%，或者正確率是99.99%；全基因組測序全基因組測序-技術(shù)路線提取基因組DNA，然后隨機(jī)打斷，電泳回收所需長度的DNA片段（0.2~5Kb），加上接頭,進(jìn)行基因簇cluster制備或電子擴(kuò)增E-PCR，最后利用Paired-End（Solexa）或者M(jìn)ate-Pair（SOLiD）的方法對插入片段進(jìn)行測序。然后對測得的序列組裝成Contig，通過Paired-End的距離可進(jìn)一步組裝成Scaffold，進(jìn)而可組裝成染色體等。組裝效果與測序深度與覆蓋度、測序質(zhì)量

人人文庫> 全部分類> 畢業(yè)設(shè)計 > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

高通量測序常用名詞匯總

文檔簡介

溫馨提示

最新文檔

評論

高通量測序常用名詞匯總

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔