信息技術(shù) 生物特征識(shí)別 高通量測(cè)序基因分型數(shù)據(jù)注釋格式 征求意見(jiàn)稿_第1頁(yè)
信息技術(shù) 生物特征識(shí)別 高通量測(cè)序基因分型數(shù)據(jù)注釋格式 征求意見(jiàn)稿_第2頁(yè)
信息技術(shù) 生物特征識(shí)別 高通量測(cè)序基因分型數(shù)據(jù)注釋格式 征求意見(jiàn)稿_第3頁(yè)
信息技術(shù) 生物特征識(shí)別 高通量測(cè)序基因分型數(shù)據(jù)注釋格式 征求意見(jiàn)稿_第4頁(yè)
信息技術(shù) 生物特征識(shí)別 高通量測(cè)序基因分型數(shù)據(jù)注釋格式 征求意見(jiàn)稿_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1GB/TXXXXX—XXXX信息技術(shù)生物特征識(shí)別高通量測(cè)序基因分型數(shù)據(jù)注釋格式本文件規(guī)定了基于高通量測(cè)序產(chǎn)生的基因分型數(shù)據(jù)注釋格式。本文件適用于高通量測(cè)序產(chǎn)生的基因分型數(shù)據(jù)的存儲(chǔ)、交換與比對(duì)。2規(guī)范性引用文件本文件沒(méi)有規(guī)范性引用文件。3術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。3.1高通量測(cè)序high-throughputsequencing區(qū)別于傳統(tǒng)Sanger(雙脫氧法)測(cè)序,能夠一次并行對(duì)大量核酸分子進(jìn)行平行序列測(cè)定的技術(shù)。注:通常一次測(cè)序反應(yīng)能產(chǎn)出不低于100M[來(lái)源:GB/T33767.14—2023]3.2分型數(shù)據(jù)格式formatofgenotypingdata基于高通量測(cè)序的基因分型信息呈現(xiàn)格式。3.3人類(lèi)基因組參考序列referencesequenceofhumangenome由來(lái)自于多個(gè)人類(lèi)個(gè)體的基因組序列拼接而成的一個(gè)數(shù)字化的核苷酸序列數(shù)據(jù)庫(kù)。注:人類(lèi)參考基因組序列通常用作基準(zhǔn)的基因組參考序列,目前最常用的人3.4短串聯(lián)重復(fù)序列shorttandemrepeat,STR染色體上重復(fù)單位為2bp~6bp的串聯(lián)重復(fù)序列,表現(xiàn)出高度的個(gè)體差異。[來(lái)源:GB/T33767.14—2023]3.5單核苷酸多態(tài)性singlenucleotidepolymorphism,SNP由單個(gè)核苷酸改變所引起的脫氧核糖核酸序列多態(tài)性。[來(lái)源:GB/T33767.14—2023]23.6插入缺失多態(tài)性insertiondeletionpolymorphism,InDel基因組中插入或缺失不同長(zhǎng)度DNA片段所形成的一類(lèi)多態(tài)性遺傳標(biāo)記。3.7線粒體DNAmitochondrialDNA,mtDNA線粒體中的遺傳物質(zhì)。3.8微單倍型microhaplotype,MH在同一染色體上進(jìn)行共同遺傳的、長(zhǎng)度一般不超過(guò)300bp的多個(gè)基因座上等位基因的組合。3.9元信息meta-informationlines高通量測(cè)序基因分型數(shù)據(jù)注釋的基本信息,包含注釋文件格式、文件生成日期、高通量數(shù)據(jù)測(cè)序平臺(tái)、基因分型軟件和參考基因組等信息。3.10分型質(zhì)量值Qualityscore,Q遺傳標(biāo)記在樣本中基因分型推斷的質(zhì)量評(píng)估分值。注:Q=-10log10(e),e表示這個(gè)遺傳標(biāo)記分4縮略語(yǔ)下列縮略語(yǔ)適用于本文件。bp:堿基對(duì)(BasePair)GRCh38:人類(lèi)參考基因組序列38版(GenomeReferenceConsortiumHumanBuild38)ID:標(biāo)識(shí)符(Identifier)5注釋格式5.1綜述本文件使用元信息和數(shù)據(jù)行注釋基因分型數(shù)據(jù),即注釋格式由元信息和數(shù)據(jù)行組成。第5.2和5.3分別描述注釋格式的這兩個(gè)組成部分。本文件基因分型數(shù)據(jù)注釋格式的表示是:先分行給出元信息注釋?zhuān)谧詈笠豁?xiàng)元信息注釋的下面以列表形式給出數(shù)據(jù)行注釋?zhuān)袷绞纠?jiàn)第6章。5.2元信息本文件中描述的元信息有以下5項(xiàng):a)文件格式;b)文件生成日期;GB/TXXXXX—XXXX3c)測(cè)序平臺(tái);d)基因分型軟件;e)參考基因組。這5項(xiàng)元信息,每一項(xiàng)元信息用一個(gè)特定的元信息注釋格式予以注釋。元信息注釋格式是若干元素組成的一個(gè)字段,見(jiàn)表1中“注釋要求”欄。其中,元素“##”表示該字段是對(duì)相應(yīng)元信息的注釋?zhuān)o接其后的小寫(xiě)英文詞組是所注釋的元信息類(lèi)別,然后是元素“=”,其含義是它后面的數(shù)據(jù)是該類(lèi)元信息的具體注釋。跟在“=”后面的元素“****”,即該類(lèi)元信息的具體注釋內(nèi)容。各元素之間無(wú)間隔,例如,##fileformat=****。元信息具體描述及格式要求見(jiàn)表1。##fileformat=****“##fileformat=GB/TXX-XX;”期##filedate=****期“##filedate=20230701:20230821;”##sequenceplatform=****“##sequenceplatform=DNBSEQ-G99;”件##callingsoftware=****為:“##callingsoftware=STRaitRazorv3.0;”若使用多個(gè)分型軟件時(shí),“****”中用“:”##genomereference=****“##genomereference=GRCh38.p14;”5.3數(shù)據(jù)行5.3.1數(shù)據(jù)行注釋格式數(shù)據(jù)行由注釋信息類(lèi)別和基因分型數(shù)據(jù)注釋組成。數(shù)據(jù)行注釋格式的表格形式見(jiàn)表2。表2數(shù)據(jù)行注釋格式表2示出的數(shù)據(jù)行注釋格式中,第一行為注釋信息類(lèi)別,以符號(hào)#開(kāi)頭,依次出現(xiàn)的CHROM、POS、ID、REF、ALT、QUAL、FILTER、INFO和FORMAT是9個(gè)固定字段名稱(chēng),然后是樣本名(SAMPLE)。4使用數(shù)據(jù)行格式進(jìn)行基因分型數(shù)據(jù)注釋時(shí),在上述9個(gè)固定字段欄目下面填入每個(gè)遺傳標(biāo)記對(duì)應(yīng)的具體注釋信息,在樣本名下面填入樣本注釋信息(見(jiàn)5.3.1.3應(yīng)至少對(duì)一個(gè)樣本進(jìn)行基因分型注釋。對(duì)于每一遺傳標(biāo)記,9個(gè)固定字段注釋信息格式要求見(jiàn)表3。其中,第1-7字段的格式信息已在表格中詳細(xì)說(shuō)明,第8和9字段下包含其他信息,在5.3.1.1和5.3.1.2部分分別單獨(dú)說(shuō)明。表3數(shù)據(jù)行固定字段信息1234遺傳標(biāo)記在參考基因組上的序列,由A、G、C、T456);7濾,用“.”表示;如果無(wú)對(duì)應(yīng)過(guò)濾信息,用“NA”895.3.1.1INFO基因型注釋信息,由鍵信息組成,用“;”作為鍵信息的分隔符。每一鍵信息采用如下格式:<鍵>=<數(shù)據(jù)>[,數(shù)據(jù)](<key>=<data>[,data])。如果不存在任何鍵,使用缺失值“.”替代。鍵信息顯示順序及格式要求見(jiàn)表4,其中分類(lèi)中“必選”鍵信息為必須注釋的信息。表4鍵信息1VT2NS34GB/TXXXXX—XXXX5567/5.3.1.2FORMAT樣本顯示的注釋信息類(lèi)別,按表5順序依次顯示,其中分類(lèi)中“必選”注釋類(lèi)別為樣本中必須注釋的類(lèi)別。表5樣本注釋類(lèi)別1234565.3.1.3樣本注釋信息每個(gè)樣本應(yīng)包含F(xiàn)ORMAT(見(jiàn)5.3.1.2)中列出的注釋類(lèi)別對(duì)應(yīng)的注釋信息。樣本注釋信息格式要求見(jiàn)表6:表6樣本注釋信息1對(duì)于多倍體用/或|分隔等位基因。對(duì)于除STR之23度45——6基因分型數(shù)據(jù)注釋示例6.1概述本章以常見(jiàn)遺傳標(biāo)記為例,采用本文件描述的注釋格式,對(duì)高通量測(cè)序技術(shù)產(chǎn)生的基因分型數(shù)據(jù)做出注釋。元信息列在表格前。列表中給出的是該基因分型數(shù)據(jù)的指定元信息下的數(shù)據(jù)注釋。列表的第一行是數(shù)據(jù)行注釋類(lèi)別,之后為每一遺傳標(biāo)記對(duì)應(yīng)的具體注釋信息。當(dāng)需要對(duì)多種遺傳標(biāo)記進(jìn)行注釋時(shí),若使用單一基因分型軟件,按照本文件第5章中要求進(jìn)行注釋?zhuān)蝗羰褂枚鄠€(gè)基因分型軟件,按照表1中要求在元信息的基因分型軟件注釋時(shí)用“:”分割,數(shù)據(jù)行注釋時(shí)僅需首行顯示注釋信息類(lèi)別,之后按照基因分型軟件顯示的順序依次給出對(duì)應(yīng)類(lèi)型遺傳標(biāo)記的具體注釋信息。66.2SNP注釋示例##fileformat=GB/T26237.14—2023;##filedate=20230701:20230821;##sequenceplatform=DNBSEQ-G99;##callingsoftware=GATKv4.6.1.0;##genomereference=GRCh38.p14;GA6.3InDel注釋示例##fileformat=GB/T26237.14—2023;##filedate=20230701:20230821;##sequenceplatform=DNBSEQ-G99;##callingsoftware=GATKv4.6.1.0;##genomereference=GRCh38.p14;-A3.46.4MtDNA注釋示例##fileformat=GB/T26237.14—2023;##filedate=20230701:20230821;##sequenceplatform=DNBSEQ-G99;##callingsoftware=GATKv4.6.1.0;##genomereference=GRCh38.p14;.AGVT=SNP;NS=2;DP.CT3.VT=SNP;NS=2;DP6.5STR注釋示例##fileformat=GB/T26237.14—2023;##filedate=20230701:20230821;GB/TXXXXX—XXXX7##sequenceplatform=DNBSEQ-G99;##callingsoftware=STRaitRazorv3.0;##genomereference=GRCh38.p14;NANA6.6MH注釋示例##fileformat=GB/T26237.14—2023;##filedate=20230701:20230821;##sequenceplatform=DNBSEQ-G99;##callingsoftware=MHinNGSv1.0;##genomereference=GRCh38.p14;NANANS=2;8參考文獻(xiàn)[1]GB/T33767.14—2023信息技術(shù)生物特征樣本質(zhì)量第14部分:DNA數(shù)據(jù)[2]GB/T35537—2017高通量基因測(cè)序結(jié)果評(píng)價(jià)要求[3]GB/T35890—2018高通量測(cè)序數(shù)據(jù)序列格式規(guī)范[4]GB/T37870—2019個(gè)體鑒定的高通量測(cè)序方法[5]GB/T37872—2019目標(biāo)基因區(qū)域捕獲質(zhì)量評(píng)價(jià)通則[6]TheVariantCallFormat(VCF)Version4.2Specification.23Aug2022.[7]AndrewDJohnson.AnextendedIUPACnomenclaturecodeforpolymorphicnucleicacids.Bioinformatics.2010May15;26(10):1386-1389.[8]Hans-JürgenBandelt,ArneDür.TranslatingDNAdatatablesintoquasi-mediannetworksforparsimonyanalysisanderrordetection.MolPhylogenetEvol.2007Jan;42(1):256-271.[9]WaltherParson,DavidBallard,BruceBudowle,etal.MassivelyparallelsequencingofforensicSTRs:ConsiderationsoftheDNAcommissionoftheInternationalSocietyforForensicGenetics(ISFG)onminimalnomenclaturerequirements.ForensicSciIntGenet.2016May;22:54-63.[10]WParson,LGusm?o,DRHares,etal.DNACommissionoftheInternationalSocietyforForensicGenetics:Revisedan

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論