




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
《數(shù)據(jù)分析與處理》主講:數(shù)理與信息工程學(xué)院何國龍
2011年8月8日數(shù)學(xué)建?;A(chǔ)選講《數(shù)據(jù)分析與處理》主講:數(shù)理與信息工程學(xué)院何國龍數(shù)據(jù)導(dǎo)入與導(dǎo)出從外部文本文件導(dǎo)入數(shù)據(jù)到MatLab的工作區(qū);
1)File/Importdata2)利用內(nèi)置函數(shù)高級IO函數(shù)低級IO函數(shù)loadfopenImportdatafclosedlmreadfgetstextreadfgetlstrreadtextscan數(shù)據(jù)導(dǎo)入與導(dǎo)出從外部文本文件導(dǎo)入數(shù)據(jù)到MatLab的工作區(qū);……MatLab程序區(qū)數(shù)據(jù)外部數(shù)據(jù)文本外部Excel文件數(shù)據(jù)交換示意圖…外部數(shù)據(jù)文本外部Excel文件數(shù)據(jù)交換示意圖2.將MatLab的工作區(qū)數(shù)據(jù)寫出到外部磁盤文件;1)save(e.g.save'123.txt'test-asciisave'123'test->123.mat)useloadtoretrieve2)dlmwriterefpdfhelpfile3)fprintfrefout_data.m3.從Excel文件導(dǎo)入數(shù)據(jù)到MatLab工作區(qū)
1)importdata,工作區(qū)變量data,textdata2)用xlsread調(diào)入數(shù)據(jù)2.將MatLab的工作區(qū)數(shù)據(jù)寫出到外部磁盤文件;4.從MatLab寫出數(shù)據(jù)到Excel文件
xlswrite函數(shù)
e.g.[s,t]=xlswrite(filename,var)從MatLab操作Excel文件
Excel=actxserver('Excel.Application');Excel.Visible=1;
將Excel作為ACtiveX服務(wù)器打開,與MatLab交互,refVBAe.g.test_Excel.m4.從MatLab寫出數(shù)據(jù)到Excel文件數(shù)據(jù)預(yù)處理1.數(shù)據(jù)的平滑處理
smooth函數(shù)的使用smooth_1.mref:smooth.pdf
對于多元數(shù)據(jù),當(dāng)各變量的量綱和數(shù)量級不一致時,往往需要對數(shù)據(jù)進行預(yù)處理,以消除量綱和數(shù)量級的限制,便于分析.2.數(shù)據(jù)的標準化變換
3.數(shù)據(jù)的極差歸一化變換數(shù)據(jù)預(yù)處理1.數(shù)據(jù)的平滑處理數(shù)據(jù)的標準化變換數(shù)據(jù)的標準化變換極差歸一化變換經(jīng)過極差變換,每個元素位于[0,1],列的最大最小元分別變換為1與0極差歸一化變換經(jīng)過極差變換,每個元素位于[0,1],列的最大數(shù)據(jù)擬合0.觀察數(shù)據(jù)的散點圖,輔助判別數(shù)據(jù)擬合應(yīng)采納的模型
plot_1.m數(shù)據(jù)文件:cliamate_data.xlsplot_2.m數(shù)據(jù)文件:data2009.xls一元線性回歸分析函數(shù)regressregress函數(shù)可用于多重線性或廣義線性回歸分析,特別地也適合作一元線性回歸分析Ref:editregress.m數(shù)據(jù)擬合0.觀察數(shù)據(jù)的散點圖,輔助判別數(shù)據(jù)擬合應(yīng)采納的模p-重廣義線性回歸模型Y的n次獨立觀察數(shù)據(jù)模型設(shè)計矩陣X需要擬合估計的系數(shù)向量誤差向量p-重廣義線性回歸模型Y的n次獨立觀察數(shù)據(jù)模型設(shè)計矩陣X需要p-重線性回歸模型最簡單的情形:一元線性p-重線性回歸模型最簡單的情形:一元線性多重回歸分析序號yx1x2x3x4x5144.64489.56.862178245.34075.1662185354.34485.85.245156459.64268.24.940166549.938895.555178644.84777.5758176745.740767.270176849.14381.26.564162939.44481.47.9631741060.13881.95.2481701150.544736.1451681237.44587.78.4561861344.84566.56.751176假設(shè)的關(guān)聯(lián)數(shù)據(jù)dchg.xls多重回歸分析序號yx1x2x3x4x5144.64489.5一次項多重回歸一次項交叉項二次項多重回歸一次項多重回歸一次項交叉項二次項多重回歸研究樣本或指標之間存在程度不同的相似性(親疏關(guān)系——以樣本間距離衡量)。根據(jù)一批樣本的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,以這些統(tǒng)計量為劃分類型的依據(jù)。把一些相似程度較大的樣本(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣本(或指標)又聚合為另一類,直到把所有的樣本(或指標)聚合完畢,這就是分類的基本思想。在聚類分析中,根據(jù)分類對象的不同分為Q型聚類分析和R型聚類分析兩大類。聚類分析研究樣本或指標之間存在程度不同的相似性(親疏關(guān)系——以樣本間常用的樣品對距離Ref:pdist常用的樣品對距離Ref:pdist常用聚類方法最短距離法(singlelinkagemethod)最長距離法(completelinkagemethod)中間距離法(medianmethod)重心法(centroidhierarchicalmethod)類平均法(averagelinkagemethod)離差平方和法(Wardmethod)常用聚類方法最短距離法(singlelinkagemet與系統(tǒng)聚類法相關(guān)的MatLab函數(shù)包括:pdist;squareform;linkage;dendrogram;cophenet;inconsistent;cluster;clusterdata與系統(tǒng)聚類法相關(guān)的MatLab函數(shù)包括:g1g2g3g4g5g10g210g3540g47620g5109530g6g3g4G5G60G340G4620G59530g6g7G5G60G740G5930G6={g1,g2}g8g5g80g540G7={g3,g4}G8={g5,g7}G9={g5,g8}聚類分析示意圖g1g2g3g4g5g10g210g3540g47620g5
主成分分析是一種通過降維技術(shù)把多個變量化為少數(shù)幾個主成分(即綜合變量)的多元統(tǒng)計方法,這些主成分能夠反映原始變量的大部分信息,通常表現(xiàn)為原始變量的線性組合,為使得主成分所包含的信息互不重疊,要求各主成分之間線性無關(guān).MatLab的主成分分析函數(shù)
pcacov;根據(jù)相關(guān)系數(shù)矩陣進行主成分分析
princomp;根據(jù)樣本觀察值矩陣進行主成分分析
pcares;根據(jù)主成分重建原始數(shù)據(jù)主成分分析主成分分析是一種通過降維技術(shù)把多個變量化為少數(shù)幾個主Ref:zcffx.mRef:zcffx.mpcares函數(shù)重建數(shù)據(jù)為了分析丟掉后面的主成分所造成的信息損失,設(shè)原始樣本數(shù)據(jù)矩陣為,由前m個主成分重建的樣本數(shù)據(jù)矩陣為Ref:pca.m分析主成分效果的統(tǒng)計量pcares函數(shù)重建數(shù)據(jù)為了分析丟掉后面的主成分所造成的信息基于Excel的數(shù)據(jù)處理與分析一般的數(shù)據(jù)計算VBA程序設(shè)計加載數(shù)據(jù)分析工具庫基于Excel的數(shù)據(jù)處理與分析一般的數(shù)據(jù)計算計算趨勢線的公式線性多項式對數(shù)指數(shù)乘冪R平方值計算趨勢線的公式線性多項式對數(shù)指數(shù)乘冪R平方值《數(shù)據(jù)分析與處理》主講:數(shù)理與信息工程學(xué)院何國龍
2011年8月8日數(shù)學(xué)建?;A(chǔ)選講《數(shù)據(jù)分析與處理》主講:數(shù)理與信息工程學(xué)院何國龍數(shù)據(jù)導(dǎo)入與導(dǎo)出從外部文本文件導(dǎo)入數(shù)據(jù)到MatLab的工作區(qū);
1)File/Importdata2)利用內(nèi)置函數(shù)高級IO函數(shù)低級IO函數(shù)loadfopenImportdatafclosedlmreadfgetstextreadfgetlstrreadtextscan數(shù)據(jù)導(dǎo)入與導(dǎo)出從外部文本文件導(dǎo)入數(shù)據(jù)到MatLab的工作區(qū);……MatLab程序區(qū)數(shù)據(jù)外部數(shù)據(jù)文本外部Excel文件數(shù)據(jù)交換示意圖…外部數(shù)據(jù)文本外部Excel文件數(shù)據(jù)交換示意圖2.將MatLab的工作區(qū)數(shù)據(jù)寫出到外部磁盤文件;1)save(e.g.save'123.txt'test-asciisave'123'test->123.mat)useloadtoretrieve2)dlmwriterefpdfhelpfile3)fprintfrefout_data.m3.從Excel文件導(dǎo)入數(shù)據(jù)到MatLab工作區(qū)
1)importdata,工作區(qū)變量data,textdata2)用xlsread調(diào)入數(shù)據(jù)2.將MatLab的工作區(qū)數(shù)據(jù)寫出到外部磁盤文件;4.從MatLab寫出數(shù)據(jù)到Excel文件
xlswrite函數(shù)
e.g.[s,t]=xlswrite(filename,var)從MatLab操作Excel文件
Excel=actxserver('Excel.Application');Excel.Visible=1;
將Excel作為ACtiveX服務(wù)器打開,與MatLab交互,refVBAe.g.test_Excel.m4.從MatLab寫出數(shù)據(jù)到Excel文件數(shù)據(jù)預(yù)處理1.數(shù)據(jù)的平滑處理
smooth函數(shù)的使用smooth_1.mref:smooth.pdf
對于多元數(shù)據(jù),當(dāng)各變量的量綱和數(shù)量級不一致時,往往需要對數(shù)據(jù)進行預(yù)處理,以消除量綱和數(shù)量級的限制,便于分析.2.數(shù)據(jù)的標準化變換
3.數(shù)據(jù)的極差歸一化變換數(shù)據(jù)預(yù)處理1.數(shù)據(jù)的平滑處理數(shù)據(jù)的標準化變換數(shù)據(jù)的標準化變換極差歸一化變換經(jīng)過極差變換,每個元素位于[0,1],列的最大最小元分別變換為1與0極差歸一化變換經(jīng)過極差變換,每個元素位于[0,1],列的最大數(shù)據(jù)擬合0.觀察數(shù)據(jù)的散點圖,輔助判別數(shù)據(jù)擬合應(yīng)采納的模型
plot_1.m數(shù)據(jù)文件:cliamate_data.xlsplot_2.m數(shù)據(jù)文件:data2009.xls一元線性回歸分析函數(shù)regressregress函數(shù)可用于多重線性或廣義線性回歸分析,特別地也適合作一元線性回歸分析Ref:editregress.m數(shù)據(jù)擬合0.觀察數(shù)據(jù)的散點圖,輔助判別數(shù)據(jù)擬合應(yīng)采納的模p-重廣義線性回歸模型Y的n次獨立觀察數(shù)據(jù)模型設(shè)計矩陣X需要擬合估計的系數(shù)向量誤差向量p-重廣義線性回歸模型Y的n次獨立觀察數(shù)據(jù)模型設(shè)計矩陣X需要p-重線性回歸模型最簡單的情形:一元線性p-重線性回歸模型最簡單的情形:一元線性多重回歸分析序號yx1x2x3x4x5144.64489.56.862178245.34075.1662185354.34485.85.245156459.64268.24.940166549.938895.555178644.84777.5758176745.740767.270176849.14381.26.564162939.44481.47.9631741060.13881.95.2481701150.544736.1451681237.44587.78.4561861344.84566.56.751176假設(shè)的關(guān)聯(lián)數(shù)據(jù)dchg.xls多重回歸分析序號yx1x2x3x4x5144.64489.5一次項多重回歸一次項交叉項二次項多重回歸一次項多重回歸一次項交叉項二次項多重回歸研究樣本或指標之間存在程度不同的相似性(親疏關(guān)系——以樣本間距離衡量)。根據(jù)一批樣本的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,以這些統(tǒng)計量為劃分類型的依據(jù)。把一些相似程度較大的樣本(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣本(或指標)又聚合為另一類,直到把所有的樣本(或指標)聚合完畢,這就是分類的基本思想。在聚類分析中,根據(jù)分類對象的不同分為Q型聚類分析和R型聚類分析兩大類。聚類分析研究樣本或指標之間存在程度不同的相似性(親疏關(guān)系——以樣本間常用的樣品對距離Ref:pdist常用的樣品對距離Ref:pdist常用聚類方法最短距離法(singlelinkagemethod)最長距離法(completelinkagemethod)中間距離法(medianmethod)重心法(centroidhierarchicalmethod)類平均法(averagelinkagemethod)離差平方和法(Wardmethod)常用聚類方法最短距離法(singlelinkagemet與系統(tǒng)聚類法相關(guān)的MatLab函數(shù)包括:pdist;squareform;linkage;dendrogram;cophenet;inconsistent;cluster;clusterdata與系統(tǒng)聚類法相關(guān)的MatLab函數(shù)包括:g1g2g3g4g5g10g210g3540g47620g5109530g6g3g4G
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合作伙伴管理數(shù)據(jù)統(tǒng)計表
- 鋼絲繩施工方案
- 關(guān)于開展消防安全培訓(xùn)的正式通知
- HZS拌合站施工方案
- 生產(chǎn)效率提升方案實戰(zhàn)案例分享
- 樓板隔音涂料施工方案
- js丙綸防水施工方案
- 網(wǎng)絡(luò)維護技術(shù)操作手冊
- 季度營銷工作計劃書
- 東營廠區(qū)屏障施工方案
- 圖解心經(jīng)心得整理分享PPT課件
- (完整版)學(xué)生課堂學(xué)習(xí)自我評價表
- 《英語專業(yè)畢業(yè)論文寫作指導(dǎo)》
- SAE-J400-2002-中文版
- Unit 1 How tall are you B Read and write(課堂PPT)
- 最新部編版九年級語文下冊 12《詞四首》課后習(xí)題參考答案
- 部編版四年級語文下冊27《巨人的花園》PPT課件(共2課時)
- 新人教版六年級下冊科學(xué)全冊教學(xué)設(shè)計教案
- 《成本會計學(xué)》習(xí)題集及答案
- 熒光綠送貨單樣本excel模板
- 科技館解說詞
評論
0/150
提交評論