生物信息學課件2_第1頁
生物信息學課件2_第2頁
生物信息學課件2_第3頁
生物信息學課件2_第4頁
生物信息學課件2_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物信息學第二章 生物信息學的計算機基礎本課目錄基礎知識程序語言算法數據庫計算機網絡2一、基礎知識3計算機的結構(硬件)CPU只認識二進制數:1001104操作系統(tǒng)(Windows)、桌面5古老的系統(tǒng)DOS與命令行程序Windows的前身是MS-DOSWindows中的虛擬DOS(附件/命令行提示符)在生物信息學中仍有廣泛應用目的是運行命令行程序沒有Windows圖形界面的程序演示6為什么很多生物信息學程序要用命令行速度便于自動化批處理 (DOS)腳本 (Linux)BioEdit很好的利用了這一點7命令與參數命令提示符(command prompt) (DOS)$ (Linux)DOS命令t

2、ype, cd, dir參數應該使用什么參數: 幫助/? /h -h -help8DOS常用命令x: 進入某一硬盤分區(qū)dir 顯示當前目錄中的內容cd 進入某一目錄/顯示當前目錄md 創(chuàng)建目錄 (mkdir)copy 拷貝文件del 刪除文件move 移動文件,更改文件名type 打印某一文件內容pause 暫停 (多用于批處理) 隱藏命令行 (多用于批處理)9批處理擴展名: bat (batch)例: 做一個批處理再現BioEdit自動建樹工具: 記事本步驟讓資源管理器顯示擴展名安裝BioEdit及TreeView,拷貝clustalx.exe制作batclustalw %1.fasTREE

3、VIEW_PATHtreev32 %1.dnd運行example test10為什么Windows程序沒有參數?其實很多Windows程序都有參數例 explorer.exe /e, d:Windows程序的參數往往用選項表示11UNIX/LINUX (科學系統(tǒng))Ubuntu12Linux簡介Linux之父Linus Torvalds (1969-)優(yōu)點免費安全高速Linux核心(kernel)最新穩(wěn)定版本 (2007-11-16)有多大?只有51k13在Windows下運行Linux程序虛擬Linuxvmware創(chuàng)建LinuxCygwinCygwin/XMSYS/MinGW (Minimal

4、 SYStem)14用MSYS編譯、運行程序下載、安裝MSYS/MinGW (20M)下載Seq-Gen (用Monte Carlo法從樹逆向產生序列) (56k)常見Linux程序格式: 壓縮的源文件(tgz)解壓: tar xvfz Seq-Gen.v1.3.2.tgz編譯 (參見README)cd sourcemake運行 (參見documentation)seq-gen -mHKY -t3.0 -f0.3,0.2,0.2,0.3 -l40 -n3 example.dat15常用Linux命令沒用硬盤分區(qū)/盤符,大小寫敏感l(wèi)s 顯示當前目錄中的內容pwd 顯示當前目錄cd 進入某一目錄m

5、kdir 創(chuàng)建目錄cp 拷貝文件rm 刪除文件mv 移動文件,更改文件名less/more 打印某一文件內容16Mac OS (視覺系統(tǒng))1977年, 蘋果公司推出了第一臺有彩色圖像的個人電腦Apple II17二、程序語言18軟件怎么來的?用各種程序語言編寫出來的甚至操作系統(tǒng)也是如何編程?用文本編輯器(如記事本)編寫代碼編譯(可選)打包(可選)執(zhí)行19C/C+/C#程序員使用得最多的語言(使用率:30%=15+11+4%)強大、高速(適于作核心程序編寫)、庫函數極為豐富、操作靈活、無所不能、歷史悠久BLAST等許多著名的生物信息學程序是C編碼難學、難用編譯型語言(產生二進制代碼;直接執(zhí)行產生

6、的二進制代碼)C本身由匯編語言(asm)編寫,C+由C編寫,C#由C#自己編寫!printf(“Hello, the world!n”);cout “Hello, the world!” endl;System.Console.WriteLine(Hello, World!);20Perl使用率:4.8%字符串操作功能強大、容錯型好、可與C語言聯合使用、易使用、易開發(fā)網絡應用不易圖形化解釋型語言(解釋器直接執(zhí)行代碼)本身由C編寫B(tài)ioperl (生物信息學專用)print Hello, the world!n21Python使用率:5%在生物信息學中廣泛應用、擴展性好(可與C、Java等混合使

7、用)、數據類型豐富、極易使用、可充分體驗高速編程的快感、多平臺速度較慢、適于作外圍程序編寫解釋型語言本身由C編寫B(tài)ioPython (為計算分子生物學設計)print Hello, the world!22Java使用率:24%(單種語言使用率最高)跨平臺(能在任何有JVM的操作系統(tǒng)甚至是電話上運行)、安全高、自動垃圾回收、網絡實現方便、圖形強大、直接線程管理慢、太復雜編譯型語言本身由C+編寫B(tài)ioJava (已廣泛用于生物信息學)System.out.println(Hello, the world!);23MATLAB (商業(yè)軟件)使用率:0.3%專業(yè)科學計算軟件、使用方便、科學函數豐富、

8、可與C語言等混合使用、幫助詳盡昂貴解釋型語言本身由OpenGL(由硬件視頻卡解釋執(zhí)行)和Java編寫B(tài)ioinformatics Toolboxdisp(Hello, the world!);Octave (free version)24其他生物信息學相關的程序語言Mathematica (商業(yè),善于符號運算)Maple (商業(yè),善于符號運算)FORTRAN (古老的科學計算語言;BioLib)PHPPascal/Delphi/KylixVisual Basic (10.49%)CORBAPrologLispR (統(tǒng)計、圖形)TCL25程序是怎么在電腦中運行的?操作系統(tǒng)(OS)啟動(即開機)O

9、S使電腦具備文件操作等一系列功能你通過輸入設備輸入執(zhí)行某程序的指令OS解釋你的輸入OS將你指定的程序(二進制代碼的形式)及相關數據讀入內存OS分配內存CPU將讀入內存的二進制代碼解釋執(zhí)行匯編語言26三、算法27定義和特征算法(algorithm)是在有限步驟內求解某一問題所使用的一組定義明確的規(guī)則特征有窮性:一個算法必須保證執(zhí)行有限步之后結束確切性:算法的每一步驟必須有確切的定義輸入:一個算法有0個或多個輸入,以刻畫運算對象的初始情況輸出:一個算法有一個或多個輸出,以反映對輸入數據加工后的結果可行性:算法原則上能夠精確地運行28舉例 排序算法冒泡法算法(降序):從第一個數比較起,依次比較相鄰的

10、兩數,若前一個小于后一個,則將它的位置互換,直至第一趟結束為止。此時最后的必是最小的。如此重復,每一趟比較次數少一,直到某一趟任何一對值位置都不需要交換44 55 12 42 94 18 6 6755 44 12 42 94 18 6 6755 44 12 42 94 18 6 6755 44 42 12 94 18 6 6755 44 42 94 12 18 6 6755 44 42 94 18 12 6 6755 44 42 94 18 12 6 6755 44 42 94 18 12 67 629選擇法(又稱比較法/直接選擇排序/Straight Selection Sort)算法(升序

11、):從待排序的數中選出最小的與第1個交換位置,再從剩余的待排序的數中選出最小的與第2個交換位置,直到待排序的數只剩1個為止55 44 12 42 94 18 6 67 55 44 12 42 94 18 6 67 55 44 12 42 94 18 6 6755 44 12 42 94 18 6 6755 44 12 42 94 18 6 6755 44 12 42 94 18 6 67 55 44 12 42 94 18 6 676 44 12 42 94 18 55 6730其他一些排序算法插入、希爾、快速排序堆排序(Heap Sort)選擇排序的一種歸并排序(Merge Sort)分配排

12、序箱排序(Bin Sort)基數排序(Radix Sort)外部排序(external sort)適用于記錄個數太多,不能一次將其全部記錄放人內存的大文件31四、數據庫32數據庫簡史1946(ENIAC)-60s, 數據管理是文件操作1960s, 出現了統(tǒng)一管理和共享數據的數據庫系統(tǒng)1970s初, E.F.Codd提出了關系數據模型的概念1980s后,計算機的各領域飛速發(fā)展,對數據庫提出了許多新的要求,產生了一些新型數據庫到目前為止,在世界范圍內得到主流應用的還是經典的關系數據庫系統(tǒng),知名的有Sybase, Oracle, Informix, SQL Server (Microsoft), D

13、B2 (IBM)33數據庫系統(tǒng)(database system, DBS)的特點高級用戶接口不需了解文件的儲存格式、記錄結構等數據的管理由數據庫管理系統(tǒng)(DBMS, Database Management System)實現查詢和優(yōu)化提供非過程化的數據庫語言,即SQL語言用戶只需向數據庫系統(tǒng)提交對數據操作的請求并發(fā)控制多個用戶可以同時訪問數據庫數據的完整性34結構化的數據記錄(行; record)、字段(列; field)、值、庫35關系數據庫(1)結構化數據的理論依據 關系代數實體關系模型(entity-relationship, E-R)世界 = 實體 + 關系例子M = 王強,張偉,陳海

14、 是男性集合F = 李麗,劉英 是女性集合若M和F中存在夫妻關系時,那么有可能的全部配對組合如下:MF = (王強,李麗),(王強,劉英),(張偉,李麗),(張偉,劉英),(陳海,李麗),(陳海,劉英)在數學上把所有可能的配對組合叫“笛卡爾積”36關系數據庫(2)所謂關系(relation)就是一張表笛卡爾積(MF)MF王強李麗王強劉英張偉李麗張偉劉英陳海李麗陳海劉英37關系數據庫(3)建立較好的關系結構個人信息課程信息38關系數據庫(4)39XML語言 (創(chuàng)建數據庫)EXtensible Markup Language(可擴展標注語言)是W3C定義的一種標準可以自定義標簽(tag)廣泛用于生

15、物數據管理數據庫:NCBI (GenBank, MedLine, )擴展:BioXML, GEML, SBML, CellML, phyloML, MSAML, 40XML語言源碼例子 藏獒 Tibet Mastiff 黑猩猩 chimpanzee 41SQL (結構化查詢語言, structured query language)SQL是數據庫交互的標準1986,美國國家標準化組織(ANSI)批準1992,國際標準組織(International Standard Organisation, ISO)批準Oracle, DB2, Sybase等數據庫系統(tǒng)都使用SQLMySQL免費一些生物數據

16、庫允許使用SQL進行查詢MGD (Mouse Genome Database)長江水生生物數據庫42五、計算機網絡43Internet簡史1969, 誕生1970s, 成熟(提出TCP/IP體系)1989, CERN提出WWW1994, 中國建立CERNET:第一個全國性互聯網2005, 全球互聯網用戶突破10億2008.4, 中國網民人數超過美國居世界首位(2.21億)44CERNET (中國教育和科研計算機網)1994.7,誕生,6所高校加入1995.8,第一個BBS“水木清華”建立;1081996,成為中國大陸具有獨立國際出口的全國四大計算機互聯網絡之一;連通美國、歐洲、香港;20019

17、97,開始收費;與中國其余三大網絡完成互聯;3001998,連通英國、加拿大;4001999,亞太先進網絡組織APAN;5502000,在國內首先提供IPv6地址分配服務;8002004,中國第一個下一代互聯網主干網 CERNET2試驗網開通并提供服務45網絡結構主機(host)各種類型的計算機如:巨型機、筆記本通信子網(communication subnet)由一些通信鏈路和結點交換機組成,用于進行數據通信協(xié)議(protocol)通信雙方事先約定好的和必須遵守的規(guī)則如:TCP/IP, IPX46局域網和廣域網的區(qū)別47客戶機/服務器體系網絡中的計算機分為兩類提供服務的一方稱為服務器獲得服務

18、的一方稱為客戶機區(qū)別主要是在計算機中的軟件這個軟件是提供服務還是獲得服務任何計算機都可以作為服務器或客戶機,或者兩者兼有Internet上的許多服務都采用客戶機/服務器模式如ftp, WWW, email服務48IP地址IP地址是Internet定位所必需的網絡中的每一臺主機都有一個唯一的IP地址一般為四段數字(0-255),中間用. 隔開如IPv6 “每一顆沙子都有地址”49域名DN (domain name)IP地址不便記憶,所以有了域名是主機的另一個名字如cn表示中國(China)edu表示教育網(education)ncu表示南昌大學(NanChang Univ.)www表示WWW服務這就表示了南昌大學提供WWW服務的那臺服務器的域名這臺服務器的IP地址是50URLUniform Resource Locator(統(tǒng)一資源定位器)它定義資源(如主機、文件、用戶)在Internet上的位置是文件的GPS(全球定位系統(tǒng))格式protocol:/username:password

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論