




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、-作者xxxx-日期xxxx統(tǒng)計(jì)分析模型【精品文檔】200731130165 彭軍 地信4 統(tǒng)計(jì)分析模型統(tǒng)計(jì)分析模型一般包括回歸分析,聚類分析和判別分析.一. 回歸分析回歸分析(regression analysis)是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。運(yùn)用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和
2、自變量之間是線性關(guān)系,則稱為多元線性回歸分析?;貧w分析的主要內(nèi)容為:從一組數(shù)據(jù)出發(fā)確定某些變量之間的定量關(guān)系式,即建立數(shù)學(xué)模型并估計(jì)其中的未知參數(shù)。估計(jì)參數(shù)的常用方法是最小二乘法。對(duì)這些關(guān)系式的可信程度進(jìn)行檢驗(yàn)。在許多自變量共同影響著一個(gè)因變量的關(guān)系中,判斷哪個(gè)(或哪些)自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,而剔除影響不顯著的變量,通常用逐步回歸、向前回歸和向后回歸等方法。利用所求的關(guān)系式對(duì)某一生產(chǎn)過(guò)程進(jìn)行預(yù)測(cè)或控制。回歸分析的應(yīng)用是非常廣泛的,統(tǒng)計(jì)軟件包使各種回歸方法計(jì)算十分方便。回歸分析的步驟:1.根據(jù)預(yù)測(cè)目標(biāo),確定自變量和因變量. 明確預(yù)測(cè)的具體
3、目標(biāo),也就確定了因變量。如預(yù)測(cè)具體目標(biāo)是下一年度的銷售量,那么銷售量Y就是因變量。通過(guò)市場(chǎng)調(diào)查和查閱資料,尋找與預(yù)測(cè)目標(biāo)的相關(guān)影響因素,即自變量,并從中選出主要的影響因素。 2.建立回歸預(yù)測(cè)模型. 依據(jù)自變量和因變量的歷史統(tǒng)計(jì)資料進(jìn)行計(jì)算,在此基礎(chǔ)上建立回歸分析方程,即回歸分析預(yù)測(cè)模型。 3.進(jìn)行相關(guān)分析. 回歸分析是對(duì)具有因果關(guān)系的影響因素(自變量)和預(yù)測(cè)對(duì)象(因變量)所進(jìn)行的數(shù)理統(tǒng)計(jì)分析處理。只有當(dāng)變量與因變量確實(shí)存在某種關(guān)系時(shí),建立的回歸方程才有意義。因此,作為自變量的因素與作為因變量的預(yù)測(cè)對(duì)象是否有關(guān),相關(guān)程度如何,以及判斷這種相關(guān)程度的把握性多大,就成為進(jìn)行回歸分析必須要解決的問(wèn)題。
4、進(jìn)行相關(guān)分析,一般要求出相關(guān)關(guān)系,以相關(guān)系數(shù)的大小來(lái)判斷自變量和因變量的相關(guān)的程度。 檢驗(yàn)回歸預(yù)測(cè)模型,計(jì)算預(yù)測(cè)誤差回歸預(yù)測(cè)模型是否可用于實(shí)際預(yù)測(cè),取決于對(duì)回歸預(yù)測(cè)模型的檢驗(yàn)和對(duì)預(yù)測(cè)誤差的計(jì)算?;貧w方程只有通過(guò)各種檢驗(yàn),且預(yù)測(cè)誤差較小,才能將回歸方程作為預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。 4.計(jì)算并確定預(yù)測(cè)值. 利用回歸預(yù)測(cè)模型計(jì)算預(yù)測(cè)值,并對(duì)預(yù)測(cè)值進(jìn)行綜合分析,確定最后的預(yù)測(cè)值。 回歸分析應(yīng)注意的問(wèn)題應(yīng)用回歸預(yù)測(cè)法時(shí)應(yīng)首先確定變量之間是否存在相關(guān)關(guān)系。如果變量之間不存在相關(guān)關(guān)系,對(duì)這些變量應(yīng)用回歸預(yù)測(cè)法就會(huì)得出錯(cuò)誤的結(jié)果. 正確應(yīng)用回歸分析預(yù)測(cè)時(shí)應(yīng)注意: 用定性分析判斷現(xiàn)象之間的依存關(guān)系; 避免回歸預(yù)測(cè)的任
5、意外推; 應(yīng)用合適的數(shù)據(jù)資料; 二. 聚類分析聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。它是一種重要的人類行為。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類。其基本步驟:1. 數(shù)據(jù)預(yù)處理, 2. 為衡量數(shù)據(jù)點(diǎn)間的相似度定義一個(gè)距離函數(shù), 3. 聚類或分組, 4. 評(píng)估輸出。 數(shù)據(jù)預(yù)處理包括選擇數(shù)量,類型和特征的標(biāo)度,它依靠特征選擇和特征抽取,特征選擇選擇重要的特征,特征抽取把輸入的特征轉(zhuǎn)化為一個(gè)新的顯著特征,它們經(jīng)常被用來(lái)獲取一個(gè)合適的特征集來(lái)為避免“維數(shù)災(zāi)”進(jìn)行聚類,數(shù)據(jù)預(yù)處理還包括將孤立點(diǎn)移出數(shù)據(jù),孤立點(diǎn)是不依附于一般數(shù)據(jù)行為或模型的數(shù)據(jù),因此孤立點(diǎn)經(jīng)常
6、會(huì)導(dǎo)致有偏差的聚類結(jié)果,因此為了得到正確的聚類,我們必須將它們剔除。 既然相類似性是定義一個(gè)類的基礎(chǔ),那么不同數(shù)據(jù)之間在同一個(gè)特征空間相似度的衡量對(duì)于聚類步驟是很重要的,由于特征類型和特征標(biāo)度的多樣性,距離度量必須謹(jǐn)慎,它經(jīng)常依賴于應(yīng)用,例如,通常通過(guò)定義在特征空間的距離度量來(lái)評(píng)估不同對(duì)象的相異性,很多距離度都應(yīng)用在一些不同的領(lǐng)域,一個(gè)簡(jiǎn)單的距離度量,如Euclidean距離,經(jīng)常被用作反映不同數(shù)據(jù)間的相異性,一些有關(guān)相似性的度量,例如PMC和SMC,能夠被用來(lái)特征化不同數(shù)據(jù)的概念相似性,在圖像聚類上,子圖圖像的誤差更正能夠被用來(lái)衡量?jī)蓚€(gè)圖形的相似性。 將數(shù)據(jù)對(duì)象分到不同的類中是一個(gè)很重要的步
7、驟,數(shù)據(jù)基于不同的方法被分到不同的類中,劃分方法和層次方法是聚類分析的兩個(gè)主要方法,劃分方法一般從初始劃分和最優(yōu)化一個(gè)聚類標(biāo)準(zhǔn)開(kāi)始。Crisp Clustering,它的每一個(gè)數(shù)據(jù)都屬于單獨(dú)的類;Fuzzy Clustering,它的每個(gè)數(shù)據(jù)可能在任何一個(gè)類中,Crisp Clustering和Fuzzy Clusterin是劃分方法的兩個(gè)主要技術(shù),劃分方法聚類是基于某個(gè)標(biāo)準(zhǔn)產(chǎn)生一個(gè)嵌套的劃分系列,它可以度量不同類之間的相似性或一個(gè)類的可分離性用來(lái)合并和分裂類,其他的聚類方法還包括基于密度的聚類,基于模型的聚類,基于網(wǎng)格的聚類。 評(píng)估聚類結(jié)果的質(zhì)量是另一個(gè)重要的階段,聚類是一個(gè)無(wú)管理的程序,也
8、沒(méi)有客觀的標(biāo)準(zhǔn)來(lái)評(píng)價(jià)聚類結(jié)果,它是通過(guò)一個(gè)類有效索引來(lái)評(píng)價(jià),一般來(lái)說(shuō),幾何性質(zhì),包括類間的分離和類內(nèi)部的耦合,一般都用來(lái)評(píng)價(jià)聚類結(jié)果的質(zhì)量,類有效索引在決定類的數(shù)目時(shí)經(jīng)常扮演了一個(gè)重要角色,類有效索引的最佳值被期望從真實(shí)的類數(shù)目中獲取,一個(gè)通常的決定類數(shù)目的方法是選擇一個(gè)特定的類有效索引的最佳值,這個(gè)索引能否真實(shí)的得出類的數(shù)目是判斷該索引是否有效的標(biāo)準(zhǔn),很多已經(jīng)存在的標(biāo)準(zhǔn)對(duì)于相互分離的類數(shù)據(jù)集合都能得出很好的結(jié)果,但是對(duì)于復(fù)雜的數(shù)據(jù)集,卻通常行不通,例如,對(duì)于交疊類的集合。 聚類分析是數(shù)據(jù)挖掘中的一個(gè)很活躍的研究領(lǐng)域,并提出了許多聚類算法。傳統(tǒng)的聚類算法可以被分為五類:劃分方法、層次方法、基于
9、密度方法、基于網(wǎng)格方法和基于模型方法。 傳統(tǒng)的聚類算法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問(wèn)題。但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多問(wèn)題時(shí),現(xiàn)有的算法經(jīng)常失效,特別是對(duì)于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。因?yàn)閭鹘y(tǒng)聚類方法在高維數(shù)據(jù)集中進(jìn)行聚類時(shí),主要遇到兩個(gè)問(wèn)題。高維數(shù)據(jù)集中存在大量無(wú)關(guān)的屬性使得在所有維中存在簇的可能性幾乎為零;高維空間中數(shù)據(jù)較低維空間中數(shù)據(jù)分布要稀疏,其中數(shù)據(jù)間距離幾乎相等是普遍現(xiàn)象,而傳統(tǒng)聚類方法是基于距離進(jìn)行聚類的,因此在高維空間中無(wú)法基于距離來(lái)構(gòu)建簇。 高維聚類分析已成為聚類分析的一個(gè)重要研究方向。同時(shí)高維數(shù)據(jù)聚類也是聚類技術(shù)的難點(diǎn)。隨著技術(shù)的進(jìn)步使得數(shù)據(jù)收集變得越來(lái)越容
10、易,導(dǎo)致數(shù)據(jù)庫(kù)規(guī)模越來(lái)越大、復(fù)雜性越來(lái)越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web 文檔、基因表達(dá)數(shù)據(jù)等,它們的維度(屬性)通??梢赃_(dá)到成百上千維,甚至更高。但是,受“維度效應(yīng)”的影響,許多在低維數(shù)據(jù)空間表現(xiàn)良好的聚類方法運(yùn)用在高維空間上往往無(wú)法獲得好的聚類效果。高維數(shù)據(jù)聚類分析是聚類分析中一個(gè)非?;钴S的領(lǐng)域,同時(shí)它也是一個(gè)具有挑戰(zhàn)性的工作。目前,高維數(shù)據(jù)聚類分析在市場(chǎng)分析、信息安全、金融、娛樂(lè)、反恐等方面都有很廣泛的應(yīng)用。 三. 判別分析判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對(duì)象的各種特征值判別其類型歸屬問(wèn)題的一種多變量統(tǒng)計(jì)分析方法。 其基本原理是按照一定的判別準(zhǔn)則,建立一個(gè)或多個(gè)判別函數(shù),用研究對(duì)象的大量資料確定判別函數(shù)中的待定系數(shù),并計(jì)算判別指標(biāo)。據(jù)此即可確定某一樣本屬于何類。根據(jù)判別中的組數(shù),可以分為兩組判別分析和多組判別分析; 根據(jù)判別函數(shù)的形式,可以分為線性判別和非線性判別; 根據(jù)判別式處理變量的方法不同,可以分為逐步判別、序貫判別等; 根據(jù)判別標(biāo)準(zhǔn)不同,可以分為距離判別、Fisher判別、Bayes判別法等在市場(chǎng)調(diào)研中,一般根據(jù)事先確定的因變量(例如產(chǎn)品的主要用戶、普通用
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《采購(gòu)策略深度解析》課件
- 孩子們的探索之旅
- 業(yè)委會(huì)臨時(shí)合同范例
- 單位工作服制作合同范本
- 社區(qū)困難申請(qǐng)書
- 四川品牌化工產(chǎn)品合同范本
- 臨床生物化學(xué)復(fù)習(xí)試題附答案
- 務(wù)工合同范本建筑
- 吧臺(tái)咖啡設(shè)備轉(zhuǎn)讓合同范本
- 嘉定區(qū)?;愤\(yùn)輸合同范本
- 2025山西國(guó)際能源集團(tuán)社會(huì)招聘258人筆試參考題庫(kù)附帶答案詳解
- 普華永道中天會(huì)計(jì)師事務(wù)所-人工智能機(jī)遇在汽車領(lǐng)域
- 2025年皖西衛(wèi)生職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)新版
- 2025年湖南高速鐵路職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)附答案
- 腰椎穿刺的護(hù)理
- 2025屆高考英語(yǔ)二輪復(fù)習(xí)備考策略課件
- 2022年7月9日公務(wù)員多省聯(lián)考安徽省《申論》(安徽A卷、B卷、C卷)三套真題及參考答案
- Unit 5 Dinners ready Part B Let's learn Let's do(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教PEP版英語(yǔ)四年級(jí)上冊(cè)
- 下肢深靜脈血栓的介入治療
- 2025年春新人教版歷史七年級(jí)下冊(cè)全冊(cè)課件
- 《社群電商平臺(tái)小紅書商業(yè)模式研究》開(kāi)題報(bào)告文獻(xiàn)綜述(含提綱)5100字
評(píng)論
0/150
提交評(píng)論