數(shù)據(jù)庫建立、整理及其分析_第1頁
數(shù)據(jù)庫建立、整理及其分析_第2頁
數(shù)據(jù)庫建立、整理及其分析_第3頁
數(shù)據(jù)庫建立、整理及其分析_第4頁
數(shù)據(jù)庫建立、整理及其分析_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1數(shù)據(jù)庫建立、整理及其分析

21.什么是數(shù)據(jù)、數(shù)據(jù)庫?數(shù)據(jù)(Data)即就是數(shù)值,也就是我們通過觀察、實(shí)驗(yàn)或計(jì)算得出的結(jié)果。數(shù)據(jù)有很多種,最簡單的就是數(shù)字,也可以是文字、圖像、聲音等。數(shù)據(jù)可以用于科學(xué)研究、設(shè)計(jì)、查證等。數(shù)據(jù)庫(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲(chǔ)和管理數(shù)據(jù)的倉庫,它產(chǎn)生于距今六十多年前,數(shù)據(jù)庫不再僅僅是存儲(chǔ)和管理數(shù)據(jù),而轉(zhuǎn)變成用戶所需要的各種數(shù)據(jù)管理的方式。數(shù)據(jù)庫有很多種類型,從最簡單的存儲(chǔ)有各種數(shù)據(jù)的表格到能夠進(jìn)行海量數(shù)據(jù)存儲(chǔ)的大型數(shù)據(jù)庫系統(tǒng)都在各個(gè)方面得到了廣泛的應(yīng)用。

32.原始數(shù)據(jù)與頻數(shù)數(shù)據(jù)原始數(shù)據(jù)是按一定分析目的的要求,將各個(gè)觀察對(duì)象的不同觀察指標(biāo)有序排列的數(shù)據(jù)值,常用二維數(shù)據(jù)庫的形式列出。統(tǒng)計(jì)中,對(duì)于二維數(shù)據(jù)庫中所有觀察對(duì)象的單指標(biāo)數(shù)據(jù)或多指標(biāo)數(shù)據(jù)都稱為原始數(shù)據(jù),如表1、表2。4頻數(shù)數(shù)據(jù)(Frequencydata)是按分類變量的類別特征或數(shù)值變量的數(shù)值分組統(tǒng)計(jì)原始數(shù)據(jù)中觀察對(duì)象的個(gè)數(shù)(即頻數(shù)表中的頻數(shù)),是統(tǒng)計(jì)分析中常見的一種數(shù)據(jù)類型,如表3、表4。5原始數(shù)據(jù)可以轉(zhuǎn)換為頻數(shù)數(shù)據(jù),但對(duì)于數(shù)值變量而言,會(huì)浪費(fèi)其中一些可用的數(shù)據(jù)信息。頻數(shù)數(shù)據(jù)也可轉(zhuǎn)換為原始數(shù)據(jù),但一般僅限于分類變量。63、數(shù)據(jù)庫2023/12/11672023/12/1178

在調(diào)查研究中獲取的數(shù)據(jù)有時(shí)很大而零散,且常常存在著異常值和缺失值,如果不能進(jìn)行科學(xué)的整理匯總,就會(huì)顯得雜亂無章,理不清頭緒,抓不住要點(diǎn),甚至無所適從,最后可能束之高閣、棄之不用,造成數(shù)據(jù)的極大浪費(fèi)。

那如何才能對(duì)數(shù)據(jù)有效的利用和分析呢?9數(shù)據(jù)挖掘數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測(cè)模型。10數(shù)據(jù)挖掘的特征礦山(數(shù)據(jù))挖掘工具(軟件分析)金子(目標(biāo))11數(shù)據(jù)挖掘技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測(cè)未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律和現(xiàn)象數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類(預(yù)言)聚集異常檢測(cè)12

數(shù)據(jù)的挖掘和分析必須基于理論基礎(chǔ)開展的,需相關(guān)的研究證據(jù)和統(tǒng)計(jì)分析能力的支撐。二、數(shù)據(jù)預(yù)處理14為什么需要預(yù)處理數(shù)據(jù)不完整含異常值不一致包含其它不希望的成分?jǐn)?shù)據(jù)清理通過填寫空缺值,平滑異常數(shù)據(jù),識(shí)別刪除孤立點(diǎn),并解決不一致來清理數(shù)據(jù)。15污染數(shù)據(jù)形成的原因?yàn)E用縮寫詞數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)中的內(nèi)嵌控制信息重復(fù)記錄丟失值拼寫變化不同的計(jì)量單位過時(shí)的編碼含有各種異常值16數(shù)據(jù)清理的重要性污染數(shù)據(jù)的普遍存在,使得在數(shù)據(jù)庫中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)及其困難的任務(wù)。好的數(shù)據(jù)庫直接影響數(shù)據(jù)結(jié)果的好壞。17異常數(shù)據(jù)處理內(nèi)容格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除錯(cuò)誤糾正重復(fù)數(shù)據(jù)的清除缺失值的處理18異常檢測(cè)異常檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面,用來發(fā)現(xiàn)”小的模式”(相對(duì)于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對(duì)象。19異常檢測(cè)方法的分類基于統(tǒng)計(jì)(statistical-based)的方法基于距離(distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法高維數(shù)據(jù)的異常探測(cè)20缺失值的處理1、缺失值產(chǎn)生的原因缺失值產(chǎn)生的原因多種多樣,主要分為機(jī)械原因和人為原因。(1)機(jī)械原因是由于機(jī)械原因?qū)е碌臄?shù)據(jù)收集或保存的失敗造成的數(shù)據(jù)缺失,比如數(shù)據(jù)存儲(chǔ)的失敗,存儲(chǔ)器損壞,機(jī)械故障導(dǎo)致數(shù)據(jù)未能收集。(2)人為原因是由于人的主觀失誤、有意隱瞞造成的數(shù)據(jù)缺失,比如,在調(diào)查中被訪人拒絕透露相關(guān)問題的答案,或者回答的問題是無效的,數(shù)據(jù)錄入人員失誤漏錄了數(shù)據(jù)。212、缺失值的處理方法對(duì)于缺失值的處理,從總體上來說分為刪除存在缺失值的個(gè)案和缺失值插補(bǔ)。對(duì)于主觀數(shù)據(jù),個(gè)人將影響數(shù)據(jù)的真實(shí)性,存在缺失值的樣本的其他屬性的真實(shí)值不能保證,那么依賴于這些屬性值的插補(bǔ)也是不可靠的,所以對(duì)于主觀數(shù)據(jù)一般不推薦插補(bǔ)的方法。插補(bǔ)主要是針對(duì)客觀數(shù)據(jù),它的可靠性有保證。223.缺失值的處理方法刪除缺失較大的個(gè)案人工填寫空缺值使用固定值使用屬性平均值使用最有可能值23如何做數(shù)據(jù)挖掘和分析一、明確研究目的研究目的是統(tǒng)計(jì)分析的目標(biāo)和方向,決定了研究設(shè)計(jì)、研究對(duì)象、研究指標(biāo)等,而研究的設(shè)計(jì)方案、分析指標(biāo)是選擇不同統(tǒng)計(jì)分析方法的決定因素。因此,正確的統(tǒng)計(jì)學(xué)分析一定要建立在明確的研究目的基礎(chǔ)之上,那些沒有目的的統(tǒng)計(jì)分析,或者事先沒有研究設(shè)計(jì),事后找來一堆數(shù)據(jù)的統(tǒng)計(jì)分析都是不可取的。24二、建好分析數(shù)據(jù)庫一般來講,統(tǒng)計(jì)分析需要借助于統(tǒng)計(jì)分析軟件計(jì)算,而統(tǒng)計(jì)分析軟件都要有完整、符合要求的數(shù)據(jù)或數(shù)據(jù)庫,所以建好分析數(shù)據(jù)庫是統(tǒng)計(jì)分析的需要。此外,建好分析數(shù)據(jù)庫還可以理清分析思路。25

在調(diào)查研究中獲取的數(shù)據(jù)有時(shí)多而零散,如果不能進(jìn)行科學(xué)的整理匯總,就會(huì)顯得雜亂無章,理不清頭緒,抓不住要點(diǎn),甚至無所適從,最后可能束之高閣、棄之不用,造成數(shù)據(jù)的極大浪費(fèi)。相反,建好數(shù)據(jù)庫,可以使觀察對(duì)象的研究指標(biāo)一目了然,使研究思路清晰明確。因此建好數(shù)據(jù)庫是正確統(tǒng)計(jì)分析的前提和基礎(chǔ)。26三、分清楚變量類型數(shù)據(jù)庫中各個(gè)研究對(duì)象的每項(xiàng)觀察指標(biāo)可以看作是一個(gè)個(gè)有待分析的變量,變量的不同類型是統(tǒng)計(jì)分析中選擇不同統(tǒng)計(jì)方法的依據(jù),所以,分清楚變量類型是正確選擇統(tǒng)計(jì)方法的基礎(chǔ)和關(guān)鍵。變量分為數(shù)值變量和分類變量兩類,其中分類變量按是否有序以及項(xiàng)數(shù)的多少,又分為二項(xiàng)無序、多項(xiàng)無序、二項(xiàng)有序、多項(xiàng)有序分類變量4種類型。27四、正確選用統(tǒng)計(jì)學(xué)方法統(tǒng)計(jì)學(xué)分析可看作是變量與變量之間關(guān)系的分析,當(dāng)研究目的和設(shè)計(jì)方案確定以后,不同類型的變量組合決定了不同統(tǒng)計(jì)方法的選擇。如:二項(xiàng)分類變量與二項(xiàng)分類變量組合的關(guān)系分析選用X2-檢驗(yàn),二項(xiàng)分類變量與數(shù)值變量組合的關(guān)系分析選用t-檢驗(yàn),多項(xiàng)無序分類變量與數(shù)值變量組合的關(guān)系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論