高通量測(cè)序常用名詞科普_第1頁(yè)
高通量測(cè)序常用名詞科普_第2頁(yè)
高通量測(cè)序常用名詞科普_第3頁(yè)
高通量測(cè)序常用名詞科普_第4頁(yè)
高通量測(cè)序常用名詞科普_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、高通量測(cè)序常用名詞匯總一代測(cè)序技術(shù):即傳統(tǒng)的Sanger測(cè)序法,Sanger法是根據(jù)核甘酸在待定序列模板上的引物點(diǎn)開(kāi)始,隨機(jī)在某一個(gè)特定的堿基處終止,并且在每個(gè)堿基后面進(jìn)行熒光標(biāo)記,產(chǎn)生以A、T、CG結(jié)束的四組不同長(zhǎng)度的一系列核甘酸,每一次序列測(cè)定由一套四個(gè)單獨(dú)的反響構(gòu)成,每個(gè)反響含有所有四種脫氧核甘酸三磷酸(dNTP),并混入限量的一種不同的雙脫氧核昔三磷酸(ddNTP).由于ddNTP缺乏延伸所需要的3-OH基團(tuán),使延長(zhǎng)的寡聚核甘酸選擇性地在GA、T或C處終止,使反響得到一組長(zhǎng)幾百至幾千堿基的鏈終止產(chǎn)物.它們具有共同的起始點(diǎn),但終止在不同的的核甘酸上,可通過(guò)高分辨率變性凝膠電泳別離大小不同

2、的片段,通過(guò)檢測(cè)彳到DNAfM基序列.二代測(cè)序技術(shù):nextgenerationsequencing(NGS又稱為高通量測(cè)序技術(shù),與傳統(tǒng)測(cè)序相比,二代測(cè)序技術(shù)可以一次對(duì)幾十萬(wàn)到幾百萬(wàn)條核酸分子同時(shí)進(jìn)行序列測(cè)定,從而使得對(duì)一個(gè)物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能,所以又被稱為深度測(cè)序(Deepsequencing).NGSi要的平臺(tái)有Roche(454&454+),Illumina(HiSeq2000/2500、GAIIx、MiSeq),ABISOLiD等.基因:Gene,是遺傳的物質(zhì)根底,是DNA或RN冊(cè)子上具有遺傳信息的特定核甘酸序列.基因通過(guò)復(fù)制把遺傳信息傳遞給下一代,使

3、后代出現(xiàn)與親代相似的性狀.DNADeoxyribonucleicacid,脫氧核糖核酸,一個(gè)脫氧核甘酸分子由三局部組成:含氮堿基、脫氧核糖、磷酸.脫氧核糖核酸通過(guò)3',5'-磷酸二酯鍵按一定的順序彼此相連構(gòu)成長(zhǎng)鏈,即DNABt,DN頌上特定的核甘酸序列包含有生物的遺傳信息,是絕大局部生物遺傳信息的載體.RNARibonucleicAcid,核糖核酸,一個(gè)核糖核甘酸分子由堿基,核糖和磷酸構(gòu)成.核糖核甘酸經(jīng)磷酯鍵縮合而成長(zhǎng)鏈狀分子稱之為RNA鏈.RNA是存在于生物細(xì)胞以及局部病毒、類病毒中的遺傳信息載體.不同種類的RNA鏈長(zhǎng)不同,行使各式各樣的生物功能,如參與蛋白質(zhì)生物合成的RNA

4、t信使RNA轉(zhuǎn)移RN用口核糖體RNA等.16SrDNA:"S"是沉降系數(shù),是反映生物大分子在離心場(chǎng)中向下沉降速度的一個(gè)指標(biāo),值越文案大全高,說(shuō)明分子越大.rDNA(ribosomeDNA指的是原核生物基因組中編碼核糖體RNA(rRNA)分子對(duì)應(yīng)的DNA列,16SrDNA是原核生物編碼核糖體小亞基16SrRNA的基因.細(xì)菌rRNA(核糖體RNA按沉降系數(shù)分為3種,分別為5S、16S和23SrRNA.16SrDNA是細(xì)菌染色體上編碼16SrRNA相對(duì)應(yīng)的DNA列,存在于所有細(xì)菌染色體基因中.16SrRNA普遍存在于原核生物中.16SrRNA分子,其大小約1540bp,既含有高度

5、保守的序列區(qū)域,又有中度保守和高度變化的序列區(qū)域,其可變區(qū)序列因細(xì)菌不同而異,恒定區(qū)序列根本保守,所以可利用恒定區(qū)序列設(shè)計(jì)引物,將16SrDNA片段擴(kuò)增出來(lái),通過(guò)高通量測(cè)序利用可變區(qū)序列的差異來(lái)對(duì)不同菌屬、菌種的細(xì)菌進(jìn)行分類鑒定.cDNAcomplementaryDNA互補(bǔ)脫氧核糖核酸,與RNA鏈互補(bǔ)的單鏈DNA以RNA為模板,在反轉(zhuǎn)錄酶的作用下所合成的DNASmallRNA生物體內(nèi)一類高度保守的重要的功能分子,其大小在18-30nt,包才microRNA、siRNA、snRNAsnoRNA和piRNA(piwi-interactingRNA等,它的主要功能是誘導(dǎo)基因沉默,調(diào)控細(xì)胞生長(zhǎng)、發(fā)育、

6、基因轉(zhuǎn)錄和譯等生物學(xué)過(guò)程.以miRNA為例介紹它們的功能:miRNA與RNA誘導(dǎo)沉默復(fù)合體(RNAinducedsilencingcomplex,RISC)結(jié)合,并將此復(fù)合體與其互補(bǔ)的mRN帚列結(jié)合,根據(jù)靶序列與miRNA的互補(bǔ)程度,從而導(dǎo)致靶序列降解或干擾靶序列蛋白質(zhì)的譯過(guò)程.SD區(qū)域:Segmentduplication,串聯(lián)重復(fù)是由序列相近的一些DNA片段串聯(lián)組成.串聯(lián)重復(fù)在人類基因多樣性的靈長(zhǎng)類基因中發(fā)揮重要作用.Genotypeandphenotype:基因型與表型,基因型是指某一生物個(gè)體全部基因組合的總稱;表型,又稱性狀,是基因型和環(huán)境共同作用的結(jié)果.基因組:Genome單倍體細(xì)胞

7、核、細(xì)胞器(線粒體、葉名體)或病毒粒子所含的全部DNA分子或RNA子.全基因組denovo測(cè)序:又稱從頭測(cè)序,它不依賴于任何現(xiàn)有的序列資料,而直接對(duì)某個(gè)物種的基因組進(jìn)行測(cè)序,然后利用生物信息學(xué)分析手段對(duì)序列進(jìn)行拼接、組裝,從而獲得該物種的基因組序列圖譜.全基因組重測(cè)序:對(duì)已有參考序列ReferenceSequence物種的不同個(gè)體進(jìn)行基因組測(cè)序,并以此為根底進(jìn)行個(gè)體或群體水平的遺傳差異性分析.全基因組重測(cè)序能夠發(fā)現(xiàn)大量的單核甘酸多態(tài)性位點(diǎn)SNP、拷貝數(shù)變異CopyNumberVariation,CNV、插入缺失InDel,Insertion/Deletion、結(jié)構(gòu)變異StructureVari

8、ation,SV等變異類型,以準(zhǔn)確快速的方法將單個(gè)參考基因組信息上升為群體遺傳特征.轉(zhuǎn)錄組:Transcriptome,是指特定生長(zhǎng)階段某組織或細(xì)胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合;狹義上指所有mRNA勺集合.轉(zhuǎn)錄組測(cè)序:對(duì)某組織在某一功能狀態(tài)下所能轉(zhuǎn)錄出來(lái)的所有RNA進(jìn)行測(cè)序,獲得特定狀態(tài)下的該物種的幾乎所有轉(zhuǎn)錄本序列信息.通常轉(zhuǎn)錄組測(cè)序是指對(duì)mRNAS行測(cè)序獲得相關(guān)序列的過(guò)程.其根據(jù)所研究物種是否有參考基因組序列分為轉(zhuǎn)錄組denovo測(cè)序無(wú)參考基因組序列和轉(zhuǎn)錄組重測(cè)序有參考基因組序列.外顯子組:Exome人類基因組全部外顯子區(qū)域的集合稱為外顯子組,是基因中重要的編碼蛋白的局部,并涵蓋了與個(gè)體表型相關(guān)的

9、大局部的功能性變異.外顯子組測(cè)序:是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行高通量測(cè)序的基因組分析方法.外顯子測(cè)序相對(duì)于基因組重測(cè)序本錢較低,對(duì)研究基因的SNRInDel等具有較大的優(yōu)勢(shì).目標(biāo)區(qū)域測(cè)序:應(yīng)用相關(guān)試劑盒對(duì)基因組上感興趣的目標(biāo)區(qū)域進(jìn)行捕獲富集后進(jìn)行大規(guī)模測(cè)序,一般需要根據(jù)目標(biāo)區(qū)域?qū)iT定制捕獲芯片.宏基因組:Metagenome,指特定生活環(huán)境中全部微小生物遺傳物質(zhì)的總和.它包含了可培養(yǎng)的和未可培養(yǎng)的微生物的基因.目前主要指環(huán)境樣品中的細(xì)菌和真菌的基因組總和.宏基因組16SrRNA測(cè)序:可以對(duì)特定環(huán)境下的細(xì)菌和古細(xì)菌群體的微生物種類和風(fēng)度進(jìn)行有效的鑒定.對(duì)不同地點(diǎn)

10、、不同條件下的多個(gè)樣本16SrRNA的PCR產(chǎn)物平行測(cè)序,可以比較不同樣本間的微生物組成及成分差異,進(jìn)而說(shuō)明物種豐度、種群結(jié)果等生態(tài)學(xué)信息.表觀遺傳學(xué):Epigenetics,是指在基因組DNA列沒(méi)有改變的情況下,基因的表達(dá)調(diào)控和性狀發(fā)生了可遺傳的變化.表觀遺傳的現(xiàn)象很多,的有DNA甲基化(DNAmethylation),基因組印t己(genomicimpriting),母體效應(yīng)(maternaleffects),基因沉默(genesilencing),核仁顯性,休眠轉(zhuǎn)座子激活和RNAJ輯(RNAediting)等.全基因組甲基化測(cè)序:DNA甲基化是指在DNA甲基化轉(zhuǎn)移酶的作用下,在基因組Cp

11、G二核甘酸的胞喀咤5'碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán).DNA甲基化已經(jīng)成為表觀遺傳學(xué)和表觀基因組學(xué)的重要研究?jī)?nèi)容.甲基化是基因表達(dá)的主要調(diào)控方式之一,研究染色體DNA甲基化情況是了解基因調(diào)控的重要手段.對(duì)已經(jīng)有參考基因組的物種的基因組DNA用標(biāo)準(zhǔn)亞硫酸氫鹽(Bisulfite)處理后,未甲基化的胞喀咤C會(huì)脫氨基形成尿喀咤U,經(jīng)PCRT增,U替換為胸腺喀咤T,而發(fā)生甲基化的胞喀咤C保持不變.將處理組與參考基因組序列進(jìn)行比對(duì),可發(fā)現(xiàn)甲基化位點(diǎn)并對(duì)甲基化情況進(jìn)行定量分析的方法叫做全基因組甲基化測(cè)序.ChIp-Seq:ChromatinImmunoprecipitationsequencing,即

12、染色質(zhì)免疫共沉淀-測(cè)序技術(shù),即通過(guò)染色質(zhì)免疫共沉淀技術(shù)特異性地富集目的蛋白結(jié)合的DNA片段.對(duì)富集得到的DNA片段進(jìn)行純化與文庫(kù)構(gòu)建,然后進(jìn)行高通量測(cè)序,從而得到全基因組范圍內(nèi)可以與目的蛋白相互作用的DNA片段的方法叫做ChIP-Seq.數(shù)字表達(dá)譜:DigitalGeneExpressionProfile,利用新一代高通量測(cè)序技術(shù)和高性能計(jì)算分析技術(shù),能夠全面、經(jīng)濟(jì)、快速地檢測(cè)某一物種特定組織在特定狀態(tài)下的基因表達(dá)情況,即運(yùn)用特定的酶對(duì)mRNA!polyAtail21-25nt的位置進(jìn)行酶切,所獲得的帶polyA尾的序列(Tag)通過(guò)高通量測(cè)序,該tag被測(cè)得的次數(shù)即是對(duì)應(yīng)基因的表達(dá)值.數(shù)字基

13、因表達(dá)譜已被廣泛應(yīng)用于根底科學(xué)研究、醫(yī)學(xué)研究和藥物研發(fā)等領(lǐng)域.特點(diǎn)是經(jīng)濟(jì),但獲得的數(shù)據(jù)量有限.假設(shè)想獲得轉(zhuǎn)錄本的更多信息的話,一般都采用轉(zhuǎn)錄組測(cè)序的方法來(lái)測(cè)序.SBSsequencingbysynthesis,邊合成邊測(cè)序反響,是指在DN咪合酶的作用下延伸堿基所進(jìn)行的測(cè)序.Run:指高通量測(cè)序平臺(tái)單次上機(jī)測(cè)序反響.憎十曲利探由事單I*通力:對(duì)*HHhwf+'*+中瓶?jī)?nèi)時(shí)&NMM厘版Hr卬餐而«4期懷十切陽(yáng)詞Ilf圖1.FlowCell結(jié)構(gòu)示意圖Lane:也叫channel,單泳道,每條泳道包含2列(column),每列分布有多個(gè)小區(qū)(tile),如圖1.不同的測(cè)序平臺(tái)

14、FlowCell中所含的Lane不一樣,如HiSeq2000是2個(gè)flowcell,每個(gè)flowcell中含有8個(gè)lane;HiSeq2500是包含2個(gè)miniflowcell(快速運(yùn)行模式)和2個(gè)highoutputflowcell,兩個(gè)模式不能同時(shí)運(yùn)行,其中每個(gè)miniflowcell包含2個(gè)lane,每個(gè)highoutputflowcell中包含8個(gè)lane;Miseq系統(tǒng)的flowcell僅含有1個(gè)lane.Tile:小區(qū),每條Lane中有2列tile,合計(jì)120個(gè)小區(qū).每個(gè)小區(qū)上分布數(shù)目繁多的簇結(jié)合位點(diǎn),如圖1.Cluster:簇,在Illumina測(cè)序平臺(tái)中會(huì)采用橋式PCR方式生產(chǎn)

15、DNA1,每個(gè)DNA1才能產(chǎn)生亮度到達(dá)CCD以分辨的熒光點(diǎn).Index:標(biāo)簽,在Illumina平臺(tái)的多重測(cè)序(MultiplexedSequencing)過(guò)程中會(huì)使用Index來(lái)區(qū)分樣品,并在常規(guī)測(cè)序完成后,針對(duì)Index局部額外進(jìn)行7個(gè)循環(huán)的測(cè)序,通過(guò)Index的識(shí)別,可以在1條Lane中區(qū)分12種不同的樣品.Barcode:與Index同義,多指在RocheGSFLX454測(cè)序平臺(tái)的16SPCR產(chǎn)物的測(cè)序過(guò)程中接頭序列所包含的的用來(lái)區(qū)分不同樣本的序列.PF%PF艱指符合測(cè)序質(zhì)量標(biāo)準(zhǔn)的簇的百分比,與測(cè)序的通量相關(guān)聯(lián).Fasta:一種序列存儲(chǔ)格式.一個(gè)序列文件假設(shè)以FASTA格式存儲(chǔ),那么每

16、一條序列的第一行以“>開(kāi)頭,而跟隨“>的是序列的ID號(hào)即唯一的標(biāo)識(shí)符及對(duì)該序列的描述信息;第二行開(kāi)始是序列內(nèi)容,序列短于61nt的,那么一行排列完;序列長(zhǎng)于61nt的,那么每行存儲(chǔ)61nt,最后剩下小于61nt的,在最后一行排列完;第二條序列另起一行,仍然由“>和序列的ID號(hào)開(kāi)始,以此類推.Fastq:Fastq是Solexa測(cè)序技術(shù)中一種反映測(cè)序序列的堿基質(zhì)量的文件格式.第一行以符號(hào)開(kāi)頭,后面緊跟一個(gè)序列的描述信息;第二行是該序列的內(nèi)容;第三行以“+符號(hào)開(kāi)頭,后面可以是該序列的描述信息,也可省略;而第四行是第二行中的序列內(nèi)容每個(gè)堿基所對(duì)應(yīng)的測(cè)序質(zhì)量值.Read:高通量測(cè)序平

17、臺(tái)產(chǎn)生的序列標(biāo)簽就稱為reads.基因組組裝:進(jìn)行基因組或轉(zhuǎn)錄組denovo測(cè)序時(shí),物種基因組經(jīng)構(gòu)建不同的文庫(kù)測(cè)序所得的片段需經(jīng)過(guò)生物信息學(xué)手段對(duì)其進(jìn)行整理拼接,并通過(guò)一定的標(biāo)準(zhǔn)如N50對(duì)后續(xù)組裝結(jié)果進(jìn)行質(zhì)量評(píng)估等,最終獲得高準(zhǔn)確度的基因組序列的過(guò)程.基因組測(cè)序深度:測(cè)序得到的總堿基數(shù)與待測(cè)基因組大小的比值.如測(cè)一個(gè)物種的全基因組的重測(cè)序,基因組大小約為5G測(cè)序獲得100G的數(shù)據(jù)量,那么測(cè)序深度為20X.基因組覆蓋率:指測(cè)序獲得的序列占整個(gè)基因組的比例.由于基因組中的高GG重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測(cè)序最終拼接組裝獲得的序列往往無(wú)法覆蓋有所的區(qū)域,這局部沒(méi)有獲得的區(qū)域就稱為Gap.例如一個(gè)細(xì)菌

18、基因組測(cè)序,覆蓋率是98%那么還有2%勺序列區(qū)域是沒(méi)有通過(guò)測(cè)序獲得的.Gontig:在denovo測(cè)序中拼接軟件基于reads之間的overlap區(qū),拼接獲得的中間沒(méi)有g(shù)ap的序列稱為Contig重疊群.Scaffold:基因組denovo測(cè)序,通過(guò)reads拼接獲得Contigs后,往往還需要構(gòu)建454Paired-end庫(kù)或IlluminaMate-pair庫(kù),以獲得一定大小片段如3Kb、8Kb、10Kb、20Kb兩端的序歹U.基于這些序列,可以確定一些Contig之間的順序關(guān)系,這些先后順序的Contigs組成Scaffold.ContigN50:Reads拼接后會(huì)獲得一些不同長(zhǎng)度的Co

19、ntigs.將所有的Contig長(zhǎng)度相加,能獲得一個(gè)Contig總長(zhǎng)度.然后將所有的Contigs根據(jù)從長(zhǎng)到短進(jìn)行排序,如獲得Contig1,Contig2,Contig3Contig25.將Contig根據(jù)這個(gè)順序依次相加,當(dāng)相加的長(zhǎng)度到達(dá)Contig總長(zhǎng)度的一半時(shí),最后一個(gè)加上的Contig長(zhǎng)度即為ContigN50.舉例:Contig1+Contig2+Contig3+Contig4=Contig總長(zhǎng)度*1/2時(shí),Contig4的長(zhǎng)度即為ContigN50.ContigN50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn).ScaffoldN50:ScaffoldN50與ContigN50的定

20、義類似.Contigs拼接組裝獲得一些不同長(zhǎng)度的Scaffolds.將所有的Scaffold長(zhǎng)度相加,能獲得一個(gè)Scaffold總長(zhǎng)度.然后將所有的Scaffolds根據(jù)從長(zhǎng)到短進(jìn)行排序,如獲得Scaffold1,Scaffold2,Scaffold3Scaffold25.將Scaffold根據(jù)這個(gè)順序依次相加,當(dāng)相加的長(zhǎng)度到達(dá)Scaffold總長(zhǎng)度的一半時(shí),最后一個(gè)加上的Scaffold長(zhǎng)度即為ScaffoldN50.舉仞Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold總長(zhǎng)度*1/2時(shí),Scaffold5的長(zhǎng)度即為Scaff

21、oldN50.ScaffoldN50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn).Isotig:指在轉(zhuǎn)錄組denovo測(cè)序時(shí),用454平臺(tái)測(cè)序完成后組裝出的結(jié)果,一個(gè)isotig可視為一個(gè)轉(zhuǎn)錄本.Isogroup:指轉(zhuǎn)錄組denovo測(cè)序中,用454平臺(tái)測(cè)序完成后組裝出的結(jié)果獲得的可聚類到同一個(gè)基因的轉(zhuǎn)錄本群.GC%GC含量,全基因組范圍內(nèi)或在特定基因組序列內(nèi)的4種堿基中,鳥(niǎo)喋吟和胞喀咤所占的比率.SNPsinglenucleotidepolymorphism,單核甘酸多態(tài)性,個(gè)體間基因組DNAR列同一位置單個(gè)核甘酸變異替代、插入或缺失所引起的多態(tài)性;不同物種個(gè)體基因組DNA序列同一位置上的單個(gè)

22、核甘酸存在差異的現(xiàn)象.有這種差異的基因座、DNA列等可作為基因組作圖的標(biāo)志.SNP在CG序列上出現(xiàn)最為頻繁,而且多是C轉(zhuǎn)換為T,原因是CG中的C常為甲基化的,自發(fā)地脫氨后即成為胸腺喀咤.一般而言,SNP是指變異頻率大于1%勺單核昔酸變異,主要用于高危群體的發(fā)現(xiàn)、疾病相關(guān)基因的鑒定、藥物的設(shè)計(jì)和測(cè)試以及生物學(xué)的根底研究等.InDel:Insertion/Deletion,插入/缺失,在基因組重測(cè)序進(jìn)行mapping時(shí),進(jìn)行容Gap的比對(duì)并檢測(cè)可信的ShortInDel,如基因組上小片段50bp的插入或缺失.在檢測(cè)過(guò)程中,Gap的長(zhǎng)度為15個(gè)堿基.CNVcopynumbervariation,基因

23、組拷貝數(shù)變異,是基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量.如人類正常染色體拷貝數(shù)是2,有些染色體區(qū)域拷貝數(shù)變成1或3,這樣,該區(qū)域發(fā)生拷貝數(shù)缺失或增加,位于該區(qū)域內(nèi)的基因表達(dá)量也會(huì)受到影響.如果把一條染色體分成A-B-C-D四個(gè)區(qū)域,那么A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發(fā)生了C區(qū)域的擴(kuò)增及缺失,擴(kuò)增的位置可以是連續(xù)擴(kuò)增如A-B-C-C-D也可以是在其他位置的擴(kuò)增,如A-C-B-C-D.SV:structurevariation,基因組結(jié)構(gòu)變異,染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異.主要包括染色體大片段的插入和

24、缺失引起CNV的變化,染色體內(nèi)部的某塊區(qū)域發(fā)生重復(fù)復(fù)制、翻轉(zhuǎn)顛換、易位、兩條染色體之間發(fā)生重組inter-chromosometrans-location等.基因表達(dá)差異:是指某一物種或特定細(xì)胞在特定時(shí)期/功能狀態(tài)下,多樣本間不同基因在mRNAK平上表達(dá)量的差異,可通過(guò)RPKM/FPKIW來(lái)表達(dá).RPKMReadsPerKilobaseperMillionmappedreadsMortazavietal.,2021,是指每1百萬(wàn)個(gè)map上的reads中map到外顯子的每1K個(gè)堿基上的reads個(gè)數(shù).計(jì)算公式文案大全四RPKM=106C/NL/103其中C為唯一比對(duì)到目的基因的reads數(shù);N為

25、唯一比對(duì)到參考基因的總reads數(shù),L是目的基因編碼區(qū)的堿基數(shù).RPKMfc可以消除基因長(zhǎng)度、數(shù)據(jù)量之間的差異進(jìn)行計(jì)算基因表達(dá)量.可變剪切:alternativesplicing大多數(shù)真核基因轉(zhuǎn)錄產(chǎn)生的mRN病體是按一種方式剪接產(chǎn)生出一種mRNA因而只產(chǎn)生一種蛋白質(zhì).但有些基因產(chǎn)生的mRN病體可按不同的方式剪接,產(chǎn)生出兩種或更多種mRNA即可變剪接.基因融合:Genefusion,將基因組位置不同的兩個(gè)或多個(gè)基因中的一局部或全部整合到一起,形成新的基因,稱作融合基因或嵌合體基因,該基因有可能譯出融合或嵌合體蛋白.基因家族分析:通過(guò)進(jìn)行BLASTN/HMM匕對(duì)等查找基因歸屬的基因家族并添加相關(guān)功

26、能注釋.基因組注釋:Genomeannotation是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn).基因組注釋的研究?jī)?nèi)容包括基因識(shí)別和基因功能注釋兩個(gè)方面.基因識(shí)別的核心是確定全基因組序列中所有基因確實(shí)切位置.常見(jiàn)的基因組注釋有GO1釋、pathway分析.GO注釋:geneontology是指對(duì)基因功能的注解.GO雖調(diào)基因產(chǎn)物在細(xì)胞中的功能.GO不能反映此基因的表達(dá)情況,即是否在特定細(xì)胞中、特定組織中、特定發(fā)育階段或與某種疾病相關(guān),但GOt持其他的OBOopenbiologyontologies成員成立其他類型的本體論數(shù)據(jù)庫(kù)如發(fā)育本體

27、學(xué)、蛋白組本體學(xué)、基因芯片本體學(xué)等Pathway注釋:是指對(duì)功能基因參與的信號(hào)通路等進(jìn)行分析注釋.甲基化率:是指在甲基化測(cè)序中,發(fā)生甲基化的胞喀咤占所有胞喀咤的比率.CpG島:CpGisland是指DNA±一個(gè)區(qū)域,此區(qū)域含有大量相聯(lián)的胞喀咤C、鳥(niǎo)喋吟G,以及使兩者相連的磷酸酯鍵p.基因組中長(zhǎng)度為3003000bp的富含CpG二核甘酸的一些區(qū)域,主要存在于基因的5'區(qū)域.啟動(dòng)子區(qū)中CpG島的未甲基化狀態(tài)是基因轉(zhuǎn)錄所必需的,而CpG序歹U中的C的甲基化可導(dǎo)致基因轉(zhuǎn)錄被抑制.Q20,Q30:基因的二代測(cè)序中,每測(cè)一個(gè)堿基會(huì)給出一個(gè)相應(yīng)的質(zhì)量值,這個(gè)質(zhì)量值是衡量測(cè)序準(zhǔn)確度的.堿基的

28、質(zhì)量值13,錯(cuò)誤率為5%20的錯(cuò)誤率為1%30的錯(cuò)誤率為0.1%.行業(yè)中Q20與Q30那么表示質(zhì)量值呈20或30的堿基所占百分比.例如一共測(cè)了1G的數(shù)據(jù)量,其中有0.9G的堿基質(zhì)量值大于或等于20,那么Q20那么為90%Q20值是指的測(cè)序過(guò)程堿基識(shí)別(BaseCalling)過(guò)程中,對(duì)所識(shí)別的堿基給出的錯(cuò)誤概率.質(zhì)量值是Q20,那么錯(cuò)誤識(shí)別的概率是1%即錯(cuò)誤率1%或者正確率是99%質(zhì)量值是Q30,那么錯(cuò)誤識(shí)別的概率是0.1%,即錯(cuò)誤率0.1%,或者正確率是99.9%;質(zhì)量值是Q40,那么錯(cuò)誤識(shí)別的概率是0.01%,即錯(cuò)誤率0.01%,或者正確率是99.99%;全基因組測(cè)序全基因組測(cè)序-技術(shù)路線提取基因組DNA然后隨機(jī)打斷,電泳回收所需長(zhǎng)度的DNA片段(0.25Kb),加上接頭,進(jìn)行基因簇cluster制備或電子擴(kuò)增E-PCR最后利用Paired-End(Solexa)或者M(jìn)ate-Pair(SOLiD)的方法對(duì)插入片段進(jìn)行測(cè)序.然后對(duì)測(cè)得的序列組裝成Contig,通過(guò)Paired-End的距離可進(jìn)一步組裝成Scaffold,進(jìn)而可組裝成染色體等.組裝效果與測(cè)序深度與覆蓋度、測(cè)序質(zhì)量等有關(guān).常用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論