《基因芯片技術(shù)》第8章-利用基因芯片進行差異表達基因分析

上傳人：b*** IP屬地：廣東上傳時間：2022-03-18 格式：PPT 頁數(shù)：61 大?。?.55MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩56頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、基因芯片技術(shù)第8章-利用基因芯片進行差異表達基因分析內(nèi)容提要：內(nèi)容提要：l第一節(jié)第一節(jié) 差異表達基因分析差異表達基因分析l第二節(jié)第二節(jié) 聚類分析聚類分析l第三節(jié)第三節(jié) 主成分分析主成分分析第第8章章利用基因芯片進行差異表達基因分析利用基因芯片進行差異表達基因分析第一節(jié)第一節(jié) 差異表達基因分析差異表達基因分析單張單張cDNAcDNA芯片差異表達基因芯片差異表達基因Aerobic 需氧Anaerobic不需氧差異表達基因分析差異表達基因分析l基因表達譜芯片實驗的主要目的之一是發(fā)現(xiàn)兩個樣基因表達譜芯片實驗的主要目的之一是發(fā)現(xiàn)兩個樣本間差異表達基因。本間差異表達基因。l通常采用基因在實驗組和對照組

2、中信號的比值作為通常采用基因在實驗組和對照組中信號的比值作為衡量基因在兩種狀態(tài)下基因的表達差異。衡量基因在兩種狀態(tài)下基因的表達差異。l在雙色熒光系統(tǒng)中，用在雙色熒光系統(tǒng)中，用Cy5/Cy3Cy5/Cy3的比值來衡量基因的的比值來衡量基因的表達差異，也稱表達差異值。表達差異，也稱表達差異值。差異表達基因分析差異表達基因分析l在在AffymetrixAffymetrix等短的寡核苷酸芯片中，采用單色熒等短的寡核苷酸芯片中，采用單色熒光標(biāo)記的方式，實驗組和對照組分別用兩張芯片進光標(biāo)記的方式，實驗組和對照組分別用兩張芯片進行檢測，表達差異值即為兩張芯片的信號比值。行檢測，表達差異值即為兩張芯片的信號比

3、值。l噪聲和芯片本身的一些因素以及生物學(xué)本身的特點噪聲和芯片本身的一些因素以及生物學(xué)本身的特點給篩選差異表達基因帶來了很大的麻煩。給篩選差異表達基因帶來了很大的麻煩。l必須設(shè)定一個差異表達基因的判定標(biāo)準(zhǔn)。這個篩選必須設(shè)定一個差異表達基因的判定標(biāo)準(zhǔn)。這個篩選的標(biāo)準(zhǔn)就稱為差異表達基因的閾值。的標(biāo)準(zhǔn)就稱為差異表達基因的閾值。如何確定差異表達基因的閾值如何確定差異表達基因的閾值倍數(shù)法倍數(shù)法l優(yōu)點：簡單、直接。優(yōu)點：簡單、直接。l缺點：沒有考慮差異表達的統(tǒng)計顯著性。比如，在某個實驗中，缺點：沒有考慮差異表達的統(tǒng)計顯著性。比如，在某個實驗中，基因表達水平的變化不大，如果選擇判別域值為基因表達水平的變化不

4、大，如果選擇判別域值為2 2倍，則有可能倍，則有可能找不到幾個差異表達的基因，假陰性率比較高。但如果是主觀找不到幾個差異表達的基因，假陰性率比較高。但如果是主觀縮小判斷域值，又有可能增大假陽性率?？s小判斷域值，又有可能增大假陽性率。 Z Z值法值法 l在一張在一張cDNAcDNA芯片上一般都點了很多基因，其實這些基芯片上一般都點了很多基因，其實這些基因中只有一小部分表達有差異，所以一般都假設(shè)表達因中只有一小部分表達有差異，所以一般都假設(shè)表達的比率值滿足正態(tài)分布。的比率值滿足正態(tài)分布。lZ=(X-)/Z=(X-)/. |Z|=1.96. |Z|=1.96l在寡核苷酸芯片中，芯片上的基因在相應(yīng)實驗

5、條件下在寡核苷酸芯片中，芯片上的基因在相應(yīng)實驗條件下或相應(yīng)組織中也只有一小部分基因有表達，可以假定或相應(yīng)組織中也只有一小部分基因有表達，可以假定強度滿足對數(shù)正態(tài)分布，同樣可以對其作強度滿足對數(shù)正態(tài)分布，同樣可以對其作Z Z變換，使其變換，使其具有統(tǒng)計意義。具有統(tǒng)計意義。Z Z值法值法缺點：缺點：l如果實驗體系中沒有一條差異表達的基因，如果實驗體系中沒有一條差異表達的基因，Z Z值法還是值法還是會挑選出會挑選出5 5的差異表達基因。這是因為在芯片實驗中，的差異表達基因。這是因為在芯片實驗中，總有一些由于背景噪聲產(chǎn)生的假陽性點?？傆幸恍┯捎诒尘霸肼暜a(chǎn)生的假陽性點。l如果實際上實驗中有大量的基因表

6、達發(fā)生改變，如果實際上實驗中有大量的基因表達發(fā)生改變，Z Z值法值法還是機械的找出還是機械的找出5 5的差異表達基因，丟失了一部分真的差異表達基因，丟失了一部分真陽性點。陽性點。排秩統(tǒng)計量法排秩統(tǒng)計量法l選擇一個統(tǒng)計量給基因排秩（研究多，方法多）選擇一個統(tǒng)計量給基因排秩（研究多，方法多）l為排秩統(tǒng)計量選擇一個閾值，在閾值之上的值將為排秩統(tǒng)計量選擇一個閾值，在閾值之上的值將被認為是表達差異顯著的值被認為是表達差異顯著的值重復(fù)芯片（重復(fù)芯片（replicatesreplicates）M M值法值法l根據(jù)比率平均值或根據(jù)比率平均值或M M值對基因排序。值對基因排序。M M值為信號強值為信號強度比值

7、的度比值的log2log2值，值，M M杠是任一特定基因在重復(fù)序列杠是任一特定基因在重復(fù)序列中中M M值的均值。值的均值。l缺點：這一排序法忽略了一個基因在重復(fù)實驗中缺點：這一排序法忽略了一個基因在重復(fù)實驗中的不同芯片上表達水平的差異程度。例如，可能的不同芯片上表達水平的差異程度。例如，可能某一個基因在某一張芯片上某一個基因在某一張芯片上M M值很大，但在其他芯值很大，但在其他芯片上片上M M值很小，其實這條基因并沒有差異表達，但值很小，其實這條基因并沒有差異表達，但由于個別由于個別M M值的影響，從而顯示出一個差異表達的值的影響，從而顯示出一個差異表達的特性，造成假陽性特性，造成假陽性。 T

8、 T值排序值排序l假如一個基因在幾張重復(fù)芯片的假如一個基因在幾張重復(fù)芯片的M M值都很小，值都很小，但是這些但是這些M M值非常接近，所以值非常接近，所以s s值也非常小，這值也非常小，這樣可能會導(dǎo)致樣可能會導(dǎo)致t t值很大，從而會把這個本沒有值很大，從而會把這個本沒有差異表達的基因誤認為差異表達。差異表達的基因誤認為差異表達。修正的修正的T T值法值法l修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計而得。修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計而得。結(jié)果顯示：在一個模擬的數(shù)據(jù)集中，雖然帶有結(jié)果顯示：在一個模擬的數(shù)據(jù)集中，雖然帶有一些經(jīng)驗性質(zhì)，但用修正一些經(jīng)驗性質(zhì)，但用修正t-t-統(tǒng)計量給基因排秩統(tǒng)計量給基因

9、排秩比用均數(shù)和一般的比用均數(shù)和一般的t-t-統(tǒng)計量效果要好。統(tǒng)計量效果要好。單通道寡核苷酸芯片差異基因（兩個樣本直接比較）單通道寡核苷酸芯片差異基因（兩個樣本直接比較）Affymetrix，illumina芯片由于有探針重復(fù)，可以利用統(tǒng)計方法芯片由于有探針重復(fù)，可以利用統(tǒng)計方法計算出一個統(tǒng)計性的計算出一個統(tǒng)計性的P值或者值或者score值，篩選差異表達基因。值，篩選差異表達基因。不同類樣本差異基因識別不同類樣本差異基因識別評價一組數(shù)的統(tǒng)計量評價一組數(shù)的統(tǒng)計量l平均值平均值標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差比較多組數(shù)的方法比較多組數(shù)的方法lT檢驗：平均值檢驗：平均值lF檢驗：檢驗：方差方差SAM（signifi

10、cance analysis of microarrays）微陣列顯著性分析微陣列顯著性分析在單通道在單通道Oligo芯片中，尤其芯片中，尤其是是affymetrix芯芯片數(shù)據(jù)分析中片數(shù)據(jù)分析中用得較多用得較多雙通道雙通道cDNA芯片數(shù)據(jù)分析用得較多芯片數(shù)據(jù)分析用得較多False Discovery Rate (FDR)錯誤發(fā)現(xiàn)率錯誤發(fā)現(xiàn)率l統(tǒng)計學(xué)家都想用更符合統(tǒng)計學(xué)的手段得到差異基統(tǒng)計學(xué)家都想用更符合統(tǒng)計學(xué)的手段得到差異基因，即通過假設(shè)檢驗后，賦予每個基因統(tǒng)計顯著因，即通過假設(shè)檢驗后，賦予每個基因統(tǒng)計顯著性或者性或者P P值，使得每個基因的判別更有統(tǒng)計學(xué)上值，使得每個基因的判別更有統(tǒng)計學(xué)上

11、的意義。的意義。l為了達到這個目的，統(tǒng)計學(xué)家們常常用控制錯誤為了達到這個目的，統(tǒng)計學(xué)家們常常用控制錯誤發(fā)現(xiàn)率（發(fā)現(xiàn)率（False Discovery RateFalse Discovery Rate）的方法來判斷）的方法來判斷差異基因。錯誤發(fā)現(xiàn)率是評估檢驗統(tǒng)計顯著性的差異基因。錯誤發(fā)現(xiàn)率是評估檢驗統(tǒng)計顯著性的最有力工具之一。最有力工具之一。 Multiple test (P-value adjustment)多重檢驗（多重檢驗（P-價值判斷）價值判斷）火山圖（火山圖（volcano plot）lStatistical test: P-value（統(tǒng)計檢驗：P值）lFold change: Ra

12、tio（折疊變換：比率）其他方法lB-statistics (Smyth,2004)lBayes T-test (Baldi and Long, 2001)lSAMROC (Broberg, 2002)lZhao-Pan method (Zhao and Pan, 2003)l lImproved Detection of Differentially Expressed Genesl對差異表達基因的改良性觀測對差異表達基因的改良性觀測 lTime series microarray dataset 微陣列數(shù)據(jù)的時間序列微陣列數(shù)據(jù)的時間序列聚類：聚類：發(fā)現(xiàn)一些未知的細胞狀態(tài)、疾病的亞型以及一

13、些能識別這些樣本狀態(tài)的基因，或者說發(fā)現(xiàn)一類功能相似的基因或者一類有共同調(diào)控機制的基因。歸類（分類）歸類（分類）：基于已有知識，并有改進現(xiàn)有知識的潛力，通過訓(xùn)練分類器來辨識與已知細胞狀態(tài)或疾病亞型相類似的樣本，或者是與已知的共調(diào)控基因表達相似的基因。第二節(jié)第二節(jié) 基因芯片聚類分析基因芯片聚類分析分類分類(classification)(classification)分類(classification)l樣本分類情況已知l分類基因選取l分類準(zhǔn)確性判斷：準(zhǔn)確率，相關(guān)性層級聚類方法：層級聚類方法：得到類似于進化分析的系統(tǒng)樹圖，具有相似表達譜的基因彼此得到類似于進化分析的系統(tǒng)樹圖，具有相似表達譜的基

14、因彼此臨近，他們可能具有相似的功能。臨近，他們可能具有相似的功能。其重要思想是：先將其重要思想是：先將n個樣本看成個樣本看成n類，計算類間的距離，再將類，計算類間的距離，再將相似性最高的兩類合并成為一個新類，得到相似性最高的兩類合并成為一個新類，得到n-1類，再重新計算類，再重新計算關(guān)系矩陣，不斷重復(fù)這個過程直至所有的基因融合成為一個關(guān)系矩陣，不斷重復(fù)這個過程直至所有的基因融合成為一個基因表達數(shù)據(jù)矩陣基因表達數(shù)據(jù)矩陣 (Affymetrix GeneChip (Affymetrix GeneChip oligonucleotide arrays)oligonucleotide arrays)G

15、ene expression table X：log sam/ref intensitiesX0:gene is overexpressedX0:gene is underexpressed 基因表達數(shù)據(jù)矩陣基因表達數(shù)據(jù)矩陣 (glass slides)Gene expression table X：log red/green intensitiesX0:gene is overexpressedX0:gene is underexpressed 數(shù)據(jù)矩陣具體形式數(shù)據(jù)矩陣具體形式數(shù)據(jù)形式數(shù)據(jù)形式對任意一個基因來說，樣本值是特征值，數(shù)據(jù)的維數(shù)是對任意一個基因來說，樣本值是特征值，數(shù)據(jù)的維數(shù)是M對

16、任意一個樣本來說，基因值是特征值，數(shù)據(jù)的維數(shù)是對任意一個樣本來說，基因值是特征值，數(shù)據(jù)的維數(shù)是N數(shù)據(jù)矩陣數(shù)據(jù)矩陣, ,基因數(shù)遠大于樣品數(shù)?；驍?shù)遠大于樣品數(shù)。聚類時，考查基因間的相似性，從數(shù)學(xué)上講就是看對應(yīng)的聚類時，考查基因間的相似性，從數(shù)學(xué)上講就是看對應(yīng)的M M維維數(shù)據(jù)之間的相似性。數(shù)據(jù)之間的相似性。Cluster&TreeviewCluster&Treeview軟件軟件Cluster&TreeviewCluster&Treeview軟件軟件Genesis軟件軟件預(yù)分析（預(yù)分析（Pre-Analysis）l重復(fù)值合并（重復(fù)值合并（ replicate handling ）l數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化（

17、數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化（data transformation and standardization）l缺失數(shù)據(jù)處理（缺失數(shù)據(jù)處理（ missing value management ）l基因篩選（基因篩選（pattern selection）重復(fù)值合并重復(fù)值合并在特定條件下把所有的重復(fù)值合并成一個數(shù)值可能更為方便，在特定條件下把所有的重復(fù)值合并成一個數(shù)值可能更為方便，而這一個值是給定基因而這一個值是給定基因/條件的代表。條件的代表。通常的合并：計算這些重復(fù)值的集中趨勢指標(biāo)，如均數(shù)、中位通常的合并：計算這些重復(fù)值的集中趨勢指標(biāo)，如均數(shù)、中位數(shù)或眾數(shù)。但是，使用一個集中趨勢指標(biāo)代替一組數(shù)值意味著數(shù)或

18、眾數(shù)。但是，使用一個集中趨勢指標(biāo)代替一組數(shù)值意味著信息的丟失，因此數(shù)據(jù)的合并應(yīng)謹慎。信息的丟失，因此數(shù)據(jù)的合并應(yīng)謹慎。去除奇異值：可以通過計算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差，去除位去除奇異值：可以通過計算原始數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差，去除位于給定區(qū)間外的數(shù)據(jù)（如均數(shù)加減于給定區(qū)間外的數(shù)據(jù)（如均數(shù)加減3個標(biāo)準(zhǔn)差外的數(shù)據(jù)）。剩個標(biāo)準(zhǔn)差外的數(shù)據(jù)）。剩余的數(shù)據(jù)重新計算均數(shù)和標(biāo)準(zhǔn)差，并消除給定區(qū)間外的數(shù)據(jù)。余的數(shù)據(jù)重新計算均數(shù)和標(biāo)準(zhǔn)差，并消除給定區(qū)間外的數(shù)據(jù)。重復(fù)值合并：重復(fù)值合并：數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化l數(shù)據(jù)變換的目的：在盡量保證原始數(shù)據(jù)特征不數(shù)據(jù)變換的目的：在盡量保證原始數(shù)據(jù)特征不變的前提下，使變換后

19、的數(shù)據(jù)更適于進行統(tǒng)計變的前提下，使變換后的數(shù)據(jù)更適于進行統(tǒng)計分析。分析。 l對數(shù)轉(zhuǎn)化（對數(shù)轉(zhuǎn)化（log-transformationlog-transformation）l中心化處理（中心化處理（centercenter）l單位圓化單位圓化l正態(tài)化（均值為正態(tài)化（均值為0 0，方差為，方差為1 1）缺失數(shù)據(jù)處理缺失數(shù)據(jù)處理l芯片上的某些點可能因為芯片的缺陷、點像素強度達芯片上的某些點可能因為芯片的缺陷、點像素強度達到飽和、點像素強度非常小等因素而產(chǎn)生異常的數(shù)據(jù)到飽和、點像素強度非常小等因素而產(chǎn)生異常的數(shù)據(jù)點，在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點刪除。點，在數(shù)據(jù)的預(yù)處理階段把這些數(shù)據(jù)點刪除。l未觀測點

20、未觀測點l若后續(xù)的統(tǒng)計分析要求數(shù)據(jù)滿足完整性，如特征基因若后續(xù)的統(tǒng)計分析要求數(shù)據(jù)滿足完整性，如特征基因提取的奇異值分解、某些基因的聚類分析方法等，則提取的奇異值分解、某些基因的聚類分析方法等，則需要對含有缺失值的數(shù)據(jù)進行處理需要對含有缺失值的數(shù)據(jù)進行處理 l刪除含有缺失值的整條記錄，這種方法操作簡單，但刪除含有缺失值的整條記錄，這種方法操作簡單，但卻因為個別值的缺失而刪除整個記錄，可能丟失大量卻因為個別值的缺失而刪除整個記錄，可能丟失大量有價值的信息有價值的信息 l填充或修補缺失數(shù)據(jù)填充或修補缺失數(shù)據(jù)缺失數(shù)據(jù)的處理缺失數(shù)據(jù)的處理l固定值法，比如固定值法，比如0 0或者或者1 1l行平均法行平均

21、法l使用重復(fù)數(shù)據(jù)點對缺失數(shù)據(jù)進行填充。對于生物學(xué)重使用重復(fù)數(shù)據(jù)點對缺失數(shù)據(jù)進行填充。對于生物學(xué)重復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重，應(yīng)當(dāng)使用盡量同質(zhì)的樣復(fù)中缺失數(shù)據(jù)的填充應(yīng)慎重，應(yīng)當(dāng)使用盡量同質(zhì)的樣品對缺失值進行估計。品對缺失值進行估計。l使用基因間的相關(guān)性對缺失數(shù)據(jù)進行填充。奇異值分使用基因間的相關(guān)性對缺失數(shù)據(jù)進行填充。奇異值分解法，解法，KNNKNN法。法。l其他方法，最小二乘法擬合修補，方差迭代分析，最其他方法，最小二乘法擬合修補，方差迭代分析，最大可能性分析大可能性分析缺失數(shù)據(jù)的處理方法缺失數(shù)據(jù)的處理方法KNN法K最近鄰法（最近鄰法（K-nearest neighborhood method）

22、：）：假定某個基因在某個指標(biāo)上含有缺失值，計算含缺失值假定某個基因在某個指標(biāo)上含有缺失值，計算含缺失值的基因與在該指標(biāo)上無缺失的基因間的相似性指標(biāo)。的基因與在該指標(biāo)上無缺失的基因間的相似性指標(biāo)。與該基因相似性最大的與該基因相似性最大的K個基因稱為該基因的個基因稱為該基因的K個最近個最近鄰，這鄰，這K個基因在該指標(biāo)上的數(shù)據(jù)就是估計該基因缺失個基因在該指標(biāo)上的數(shù)據(jù)就是估計該基因缺失數(shù)據(jù)的基礎(chǔ)，估計值可以是這數(shù)據(jù)的基礎(chǔ)，估計值可以是這K個基因在該指標(biāo)上的均個基因在該指標(biāo)上的均數(shù)，也可以是這數(shù)，也可以是這K個基因的加權(quán)均數(shù)。個基因的加權(quán)均數(shù)。在加權(quán)均數(shù)中，權(quán)重為上面計算的基因間的相似性。在加權(quán)均數(shù)中，

23、權(quán)重為上面計算的基因間的相似性。K值的確定具有一定的經(jīng)驗性，但不宜太大和太小。值的確定具有一定的經(jīng)驗性，但不宜太大和太小。基因篩選（基因篩選（gene selection）l在進行分析之前，要先選擇用來分析的基因。芯片中的基在進行分析之前，要先選擇用來分析的基因。芯片中的基因有上萬條，相應(yīng)的數(shù)據(jù)矩陣也有上萬行時，要預(yù)先進行因有上萬條，相應(yīng)的數(shù)據(jù)矩陣也有上萬行時，要預(yù)先進行基因的濾取，否則既會增加運算的難度，又會引入了不必基因的濾取，否則既會增加運算的難度，又會引入了不必要的基因，更增加了解釋結(jié)果的難度。要的基因，更增加了解釋結(jié)果的難度。l去掉無效基因，當(dāng)某條基因在表達譜數(shù)據(jù)中的無效數(shù)據(jù)個去掉

24、無效基因，當(dāng)某條基因在表達譜數(shù)據(jù)中的無效數(shù)據(jù)個數(shù)超過一定范圍時，該基因就被認為是一條無效基因，在數(shù)超過一定范圍時，該基因就被認為是一條無效基因，在聚類分析中不考慮該基因。一條基因表達譜數(shù)據(jù)的波動很聚類分析中不考慮該基因。一條基因表達譜數(shù)據(jù)的波動很小，即數(shù)據(jù)的方差小于一定范圍，意味著這條基因與所要小，即數(shù)據(jù)的方差小于一定范圍，意味著這條基因與所要研究的生物過程或?qū)ο箨P(guān)聯(lián)很小，也可濾掉。研究的生物過程或?qū)ο箨P(guān)聯(lián)很小，也可濾掉?；蚝Y選基因篩選針對特別目的針對特別目的的基因篩選，的基因篩選，如篩選不同類如篩選不同類之間差異表達之間差異表達基因，常用假基因，常用假設(shè)檢驗的方法，設(shè)檢驗的方法，比如比如t

25、檢驗、檢驗、F檢驗等。檢驗等。發(fā)展新算法新算法新角度新角度合并多種方法合并多種方法第三節(jié)第三節(jié) 主成分分析主成分分析（Principle Component Analysis，PCA）不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu)，去除數(shù)據(jù)的冗不改變整體數(shù)據(jù)矩陣的數(shù)據(jù)結(jié)構(gòu)，去除數(shù)據(jù)的冗余性，常用主成分分析法。余性，常用主成分分析法。降維概述降維概述降維：指將樣降維：指將樣本從輸入空間本從輸入空間通過線性或非通過線性或非線性映射到一線性映射到一個低維空間。個低維空間。降維：將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù)，減少了無用信降維：將高維數(shù)據(jù)轉(zhuǎn)換為易于處理的低維數(shù)據(jù)，減少了無用信息和冗余信息，減少了后續(xù)的計算量。當(dāng)降

26、至三維以下時，可息和冗余信息，減少了后續(xù)的計算量。當(dāng)降至三維以下時，可以使用可視化技術(shù)，從而發(fā)揮人在低維空間感知上的優(yōu)點，發(fā)以使用可視化技術(shù)，從而發(fā)揮人在低維空間感知上的優(yōu)點，發(fā)現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征。主成分分析（PCA，principal component analysis） l對于一組原始隨機變量為對于一組原始隨機變量為X X1 1,X,Xp p，尋找一個新的變量，尋找一個新的變量Z Z1 1，這，這個新的變量是原始變量的線性組合，個新的變量是原始變量的線性組合，Z Z1 1=a=a1111X X1 1+a+a2121X X2 2+a

27、+ap1p1X Xp p，并使得并使得Z Z1 1的變異最大化的變異最大化lZ1Z1即為原始變量的最大主成分，它使用一個變量試圖最大化即為原始變量的最大主成分，它使用一個變量試圖最大化地包含一組變量的變異。通常一個變量還不足夠，因此，需地包含一組變量的變異。通常一個變量還不足夠，因此，需要尋找第二個主成分要尋找第二個主成分Z2Z2，Z2Z2與與Z1Z1不相關(guān)，且是除不相關(guān)，且是除Z1Z1外具有最外具有最大方差的原始變量的線性組合。大方差的原始變量的線性組合。主成分分析主成分分析本章小結(jié)本章小結(jié):l確定兩個基因表達是否有差異，需要確定一個閾值，確定兩個基因表達是否有差異，需要確定一個閾值，超過這個值，兩個基因

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《基因芯片技術(shù)》第8章-利用基因芯片進行差異表達基因分析

文檔簡介

溫馨提示

最新文檔

評論

《基因芯片技術(shù)》第8章-利用基因芯片進行差異表達基因分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔