生物信息技術(shù)第三次作業(yè).doc_第1頁
生物信息技術(shù)第三次作業(yè).doc_第2頁
生物信息技術(shù)第三次作業(yè).doc_第3頁
生物信息技術(shù)第三次作業(yè).doc_第4頁
生物信息技術(shù)第三次作業(yè).doc_第5頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

實用生物信息技術(shù)課程第3次作業(yè)UniProt數(shù)據(jù)庫檢索及數(shù)據(jù)條目注釋信息1. UniProt蛋白質(zhì)序列數(shù)據(jù)庫1) 參閱Swiss-Prot和TrEMBL統(tǒng)計報表(Release Statistics),列表說明這兩個子庫的總數(shù)據(jù)量,以及不同蛋白質(zhì)證據(jù)(Protein Existence)的數(shù)據(jù)條目數(shù)。數(shù)據(jù)庫子庫總數(shù)據(jù)量Protein Existence數(shù)據(jù)條目數(shù)蛋白水平證據(jù)轉(zhuǎn)錄水平證據(jù)同源性推斷預測不確定Swiss-Prot5427828208762272380832157051886TrEMBL542474682201393131313573938397202040 2) 列表說明Swiss-Prot和TrEMBL中數(shù)據(jù)條目數(shù)列前10位的物種,包括中文名、英文名和拉丁文學名。 表1 Swiss-Prot中數(shù)據(jù)條目數(shù)列前10位的物種Swiss-Prot中文名英文名拉丁文學名1智人HumanHomo sapiens2小家鼠MouseMus musculus3擬南芥Mouse-ear cressArabidopsis thaliana4大鼠RatRattus norvegicus 5釀酒酵母Bakers yeastSaccharomyces cerevisiae6牛BovineBos taurus7裂殖酵母Fission yeastSchizosaccharomyces pombe8大腸桿菌strain K12Escherichia coli9枯草桿菌strain 168Bacillus subtilis10盤基網(wǎng)柄菌Slime moldDictyostelium discoideumTrEMBL中文名英文名拉丁文學名1人類免疫缺陷病毒HIVHuman immunodeficiency virus 12未培養(yǎng)細菌Uncultured bacteriauncultured bacterium3智人HumanHomo sapiens 4小麥WheatTriticum aestivum5粳稻RiceOryza sativa subsp. japonica6丙型肝炎病毒HCVHepatitis C virus7乙型肝炎病毒HBVHepatitis B virus8大豆SoybeanGlycine max9宏基因組mine drainage metagenomemine drainage metagenome10二棱大麥Two-rowed barleyHordeum vulgare var. distichum 表2 TrEMBL中數(shù)據(jù)條目數(shù)列前10位的物種3) 列表說明以下已基本完成基因組測序的重要模式生物數(shù)據(jù)條目數(shù)總數(shù)N、已審閱序列條目數(shù)Nr、具有蛋白質(zhì)證據(jù)的序列條目數(shù)Np、在參考序列數(shù)據(jù)庫RefSeq中具有mRNA序列的序列條目數(shù)Nm、在蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中具有結(jié)構(gòu)的序列條目數(shù)Nb。物種拉丁文學名英文名NNrNpNmNb人Homo sapiensHuman1364952027014233136275211小鼠Mus musculusMouse 7347916658820874721465大鼠Rattus norvegicusRat 33577788734072918534雞Allus domestiausChicken 237292257705481174非洲爪蟾Xenopus laevisAfrican clawed frog16014338257849159斑馬魚Danio rerioZebrafish55756291639330664黑腹果蠅Drosophila melanogasterDrosophila melanogaster39998322019741910351秀麗線蟲Caenorhabditis elegansCaenorhabditis elegans26657346114891475115釀酒酵母Saccharomyces cerevisiaeBakers yeast792767807532252521098大腸桿菌K12Escherichia coliStrain K12156605970275327481319擬南芥Arabidopsis thalianaMouse-ear cress532701266512934135995071粳稻Oryza sativa subsp kengJaponica 秈稻Oryza sativa indicaIndica 玉米Zea maysMaize 6287773834720334棉花Gossypium sppCotton 571425210322. 序列條目注釋信息1) 以人血紅蛋白alpha亞基為例,說明一般注釋信息(General Annotation)主要包括哪些內(nèi)容。亞基結(jié)構(gòu):兩個alpha亞基和兩個beta亞基的四聚體組成成熟的血紅蛋白A;2個alpha亞基和2個deltal亞基的四聚體組成成熟的血紅蛋白A2;2個alpha亞基和2個epsilon亞基的四聚體組成胚胎早期的的血紅蛋白Gower-2;2個alpha亞基和2個gamma亞基的四聚體組成胎兒期的血紅蛋白F。組織特性:血液紅細胞。轉(zhuǎn)錄以后修飾:起始的甲硫氨酸在各種thionville中沒有裂開,并且進行乙?;I婕暗娜祟惣膊∝氀℉EIBAN)MIM:140700】:細胞非球形的Dacie類型1的溶血性貧血。脾臟切除后,幾乎沒有好轉(zhuǎn),紅細胞中的嗜堿性的夾雜物被證明為海因茨小體。脾臟切除前分散或點狀的嗜堿性粒細胞明顯。大多數(shù)情況下可能是血紅蛋白病的實例。血紅蛋白呈現(xiàn)熱不穩(wěn)定性。海因茨小體也觀察到與Ivemark綜合征(無脾與心血管異常)和還原型谷胱甘肽過氧化物酶的缺乏。注釋:這類病可能是由于突變效應在基因中的表達。 Alpha-地中海貧血(A-THAL)MIM:604131:地中海貧血的一種形式。地中海貧血是常見的單基因疾病,主要在發(fā)生地中海和東南亞人口。alpha-地中海貧血的標志是一個失衡globin-chain生產(chǎn)成的人HbA分子。 鏈水平的產(chǎn)物的范圍可以從沒有到幾乎正常的水平。刪除兩個 -珠蛋白基因的副本導致(0)-地中海貧血,也稱為純合子的地中海貧血。由于沒有完整的鏈,主要的胎兒血紅蛋白四聚物的gamma鏈(Bart血紅蛋白),基本上沒有攜帶氧的能力。這將導致胎兒組織氧饑餓導致產(chǎn)前殺傷力或早期新生兒死亡。兩個基因?qū)е碌膿p失輕微alpha-地中海貧血,也稱為雜合的alpha-地中海貧血。 影響個人小紅細胞和心肌梗死。假如四分之三的Alpha珠蛋白基因起作用,人基本就沒有癥狀。很少的alpha-地中海貧血類型是由于突變引起的(非刪除的alpha-地中海貧血)血紅蛋白H病(HBH)MIM:613978:一種alpha-thalassemia由于損失三個基因。 這將導致高水平的四聚物的四種鏈(血紅蛋白H),導致嚴重和致命的貧血。治療,大多數(shù)病人死在童年或者青春期的早期階段。注釋:這類病可能是由于突變效應在基因中的表達。其他信息:使血液呈現(xiàn)紅色。序列相似性:屬于珠蛋白家族。2) 以人血紅蛋白alpha亞基為例,說明序列特征注釋信息(Sequence Annotation)主要包括哪些內(nèi)容。序列特征注釋信息(Sequence Annotation)包括一些重要序列信息的發(fā)生位點、序列長度、具體說明、圖示以及特征識別。具體重要序列信息包括分子處理如起始氨基酸的去除,重要位點如金屬結(jié)合位點,氨基酸修飾位點如糖基化,自然突變位點,實驗水平的一些信息,以及序列的二級結(jié)構(gòu)。3) 以人血紅蛋白alpha亞基為例,說明數(shù)據(jù)庫交叉鏈接(Cross Reference)主要包括哪些數(shù)據(jù)庫。序列數(shù)據(jù)庫:Genbank EMBL DDBJ PIR Uni Gene RefSeq3D結(jié)構(gòu)數(shù)據(jù)庫:PDB ProteinModelPortal SMR ModBase MobiDB蛋白質(zhì)相互作用數(shù)據(jù)庫:BioGrid DIP IntAct MINT STRING化學庫:ChEMBL DrugBankPTM數(shù)據(jù)庫:PhosphoSite 二維凝膠數(shù)據(jù)庫:SWISS-2DPAGE UCD-2DPAGE DOSAC-COBS-2DPAGE REPRODUCTION-2DPAGE蛋白質(zhì)組數(shù)據(jù)庫:PRIDE PaxDb Peptide Atlas協(xié)議和材料數(shù)據(jù)庫:DNASU StructuralBiologyKnowledgebase基因組注釋數(shù)據(jù)庫:Emsemble KEGG UCSC GeneID物種特異數(shù)據(jù)庫:CTD GeneCards HGNC HPA MIM分子系統(tǒng)數(shù)據(jù)庫:InParanoid KO OMA TreeFam酶和通路數(shù)據(jù)庫:Reactome 基因表達數(shù)據(jù)庫:Bgee CleanEx Array Genevestigator家族和結(jié)構(gòu)域數(shù)據(jù)庫:Gene3D InterPro PANTHER Pfam PRINTS其他:EvolutionaryTrace Genewiki NextBio ChiTaRS PRO3. 數(shù)據(jù)庫檢索1) 寫出從UniProt數(shù)據(jù)庫中檢索已審閱的人珠蛋白(globin)家族12個亞基的步驟。列表說明這12個珠蛋白的登錄號、蛋白質(zhì)名稱、和序列長度。其中與血紅蛋白alpha亞基差異最大的序列是哪個?相同位點百分比?與血紅蛋白beta亞基差異最小的序列是哪個?差異位點共多少個?在UniProtKB中利用高級檢索,依次增加Organism:human、ProteinFamily:globin兩個限定條件后,選中reviewed的序列,即可出現(xiàn)庫中已審閱的人珠蛋白家族的12個亞基。登錄號蛋白名稱序列長度P02008血紅蛋白亞基142P69905血紅蛋白亞基142P68871血紅蛋白亞基147P02042血紅蛋白亞基147P69891血紅蛋白-1亞基147P69892血紅蛋白-2亞基147P02144肌紅蛋白154Q8WWM9細胞珠蛋白190Q9NPG2神經(jīng)珠蛋白151P09105血紅蛋白-1亞基142P02100血紅蛋白亞基147Q6B0K9血紅蛋白亞基141與血紅蛋白alpha亞基差異最大的序列是神經(jīng)珠蛋白,相同位點百分比為22%。與血紅蛋白beta亞基差異最小的序列是血紅蛋白亞基,差異位點共10個。2) 寫出從UniProt數(shù)據(jù)庫中檢索以下序列條目的步驟和結(jié)果:擬南芥序列條目總數(shù),其中已審閱條目數(shù),已審閱序列中具有蛋白質(zhì)證據(jù)全長序列條目數(shù),上述序列中膜蛋白總數(shù)、注釋為跨膜蛋白數(shù)且具有信號肽的序列數(shù)。1,在UniProtKB數(shù)據(jù)庫搜索欄中選擇advanced search ,然后根據(jù)organism:Arabidopsis thaliana得到擬南芥序列條目總數(shù)為53221。2,在results里點擊reviewed,得到已審閱的條目數(shù)為12720。3,在results里點擊complete proteome set,并在field中選擇ProteinExistence,再選擇Evidence at protein level,得到已審閱序列中具有蛋白質(zhì)證據(jù)全長序列的條目數(shù)為4407。4,在field中選擇SubcellularLocation,在Term中輸入membrane,搜索后得到膜蛋白總數(shù)為1292。5,在field中選擇sequence annotation,在topic中選擇transmembrane,得到蛋白數(shù)為837。6,在field中選擇sequence annotation,在topic中選擇signal peptide,得到蛋白數(shù)為112。4. 利用高級檢索功能,從UniProt數(shù)據(jù)庫中檢索你課題相關(guān)或最感興趣的蛋白質(zhì),閱讀其一般注釋信息、序列特征注釋信息,相關(guān)文獻,并通過數(shù)據(jù)庫交叉鏈接,總結(jié)該蛋白質(zhì)的研究進展。玉米ARF-1:玉米生長素應答因子1,屬于小GTP酶超家族,一般位于高爾基體裝飾完成,控制調(diào)節(jié)種子的發(fā)芽。蛋白序列長度為181,在第一個氨基酸發(fā)生甲基化,有24-31、67-71和126-129三個核酸結(jié)合區(qū)域。1996.2.1發(fā)布在Uniprot數(shù)據(jù)庫,2013.9.18完成修正。生長素是植物生長過程中必不可缺的一類激素,在植物生長發(fā)育的各個階段都起到重要作用。近年來,對植物中的ARF基因不論是信號途徑的轉(zhuǎn)導還是表達機制的研究都成為熱點問題。全面的分析ARF家族基因,對于ARF基因的分子克隆和分子進化的研究具有重要指導意義。通過ARF基因序列的整合比對分析可知典型的ARF基因含有三個結(jié)構(gòu)域,分別為N末端DNA結(jié)合域(DBD)、中間核心區(qū)域(MR)、C末端二聚化結(jié)構(gòu)域(CTD)(結(jié)構(gòu)域III和IV)。參考水稻ARF基因家族的命名方法,對玉米的ARF基因家族進行了命名,分別為ZmARF1-ZmARF35。 有研究通過構(gòu)建系統(tǒng)進化樹分析了ARF類型基因的進化關(guān)系,結(jié)果顯示這些基因主要分布于四個分枝,而與擬南芥、楊樹、葡萄和水稻的ARF基因家族進行比較分析發(fā)現(xiàn)玉米與水稻同源性最高,這表明ARF類型基因的進化可能是伴隨著單/雙子葉植物差異分離進化而發(fā)生的。并確定35個ARF基因分散的分布在玉米的十條染色體上,5號染色體上最多,有6個基因;2、7、8、9號染色體最少,各有1個基因,沒有出現(xiàn)明顯的基因簇現(xiàn)象,與其他物種的染色體定位具有相同特性。 對玉米ARF類型基因的結(jié)構(gòu)進行分析,同屬一個進化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論