數(shù)據(jù)分析與可視化

上傳人：d*** IP屬地：天津上傳時(shí)間：2021-11-08 格式：DOC 頁數(shù)：28 大?。?45.50KB 積分：35 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩23頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精品文檔數(shù)據(jù)分析與可視化1. 什么是數(shù)據(jù)分析？數(shù)據(jù)分析是基于商業(yè)目的，有目的的進(jìn)行收集、整理、加工和分析數(shù)據(jù)，提煉有價(jià)信息的一個(gè)過程。其過程概括起來主要包括：明確分析目的與框架、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)和撰寫報(bào)告等6 個(gè)階段。1、明確分析目的與框架一個(gè)分析項(xiàng)目，你的數(shù)據(jù)對(duì)象是誰？商業(yè)目的是什么？要解決什么業(yè)務(wù)問題？數(shù)據(jù)分析師對(duì)這些都要了然于心。基于商業(yè)的理解，整理分析框架和分析思路。例如，減少新客戶的流失、優(yōu)化活動(dòng)效果、提高客戶響應(yīng)率等等。不同的項(xiàng)目對(duì)數(shù)據(jù)的要求，使用的分析手段也是不一樣的。2、數(shù)據(jù)收集數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析和框架內(nèi)容，有目的的收集、整合相關(guān)數(shù)據(jù)的一個(gè)過程，

2、它是數(shù)據(jù)分析的一個(gè)基礎(chǔ)。3、數(shù)據(jù)處理數(shù)據(jù)處理是指對(duì)收集到的數(shù)據(jù)進(jìn)行加工、整理，以便開展數(shù)據(jù)分析，它是數(shù)據(jù)分析前必不可少的階段。這個(gè)過程是數(shù)據(jù)分析整個(gè)過程中最占據(jù)時(shí)間的，也在一定程度上取決于數(shù)據(jù)倉庫的搭建和數(shù)據(jù)質(zhì)量的保證。數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化等處理方法。4、數(shù)據(jù)分析數(shù)據(jù)分析是指通過分析手段、方法和技巧對(duì)準(zhǔn)備好的數(shù)據(jù)進(jìn)行探索、分析，從中發(fā)現(xiàn)因果關(guān)系、內(nèi)部聯(lián)系和業(yè)務(wù)規(guī)律，為商業(yè)目提供決策參考。到了這個(gè)階段，要能駕馭數(shù)據(jù)、開展數(shù)據(jù)分析，就要涉及到工具和方法的使用。其一要熟悉常規(guī)數(shù)據(jù)分析方法，最基本的要了解例如方差、回歸、因子、聚類、分類、時(shí)間序列等多元和數(shù)據(jù)分析方法的原理、使用范圍、

3、優(yōu)缺點(diǎn)和結(jié)果的解釋；其二是熟悉1+1 種數(shù)據(jù)分析工具， Excel 是最常見，一般的數(shù)據(jù)分析我們可以通過Excel 完成，后而要熟悉一個(gè)專業(yè)的分析軟件，如數(shù)據(jù)分析工具SPSS/SAS/R/Matlab 等，便于進(jìn)行一些專業(yè)的統(tǒng)計(jì)分析、數(shù)據(jù)建模等。5、數(shù)據(jù)展現(xiàn)一般情況下，數(shù)據(jù)分析的結(jié)果都是通過圖、表的方式來呈現(xiàn)，俗話說：字不如表，表不如圖。借助數(shù)據(jù)展現(xiàn)手段，能更直觀的讓數(shù)據(jù)分析師表述想要呈現(xiàn)的信息、觀點(diǎn)和建議。常用的圖表包括餅圖、折線圖、柱形圖/ 條形圖、散點(diǎn)圖、雷達(dá)圖等、金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。6 、撰寫報(bào)告最后階段，就是撰寫數(shù)據(jù)分析報(bào)告，這是對(duì)整個(gè)數(shù)據(jù)分析成果的一個(gè)呈現(xiàn)。通

4、過分析報(bào)。1 歡迎下載精品文檔告，把數(shù)據(jù)分析的目的、過程、結(jié)果及方案完整呈現(xiàn)出來，以供商業(yè)目的提供參考。一份好的數(shù)據(jù)分析報(bào)告，首先需要有一個(gè)好的分析框架，并且圖文并茂，層次明晰，能夠讓閱讀者一目了然。結(jié)構(gòu)清晰、主次分明可以使閱讀者正確理解報(bào)告內(nèi)容；圖文并茂，可以令數(shù)據(jù)更加生動(dòng)活潑，提高視覺沖擊力，有助于閱讀者更形象、直觀地看清楚問題和結(jié)論，從而產(chǎn)生思考。另外，數(shù)據(jù)分析報(bào)告需要有明確的結(jié)論、建議和解決方案，不僅僅是找出問題，后者是更重要的，否則稱不上好的分析，同時(shí)也失去了報(bào)告的意義，數(shù)據(jù)的初衷就是為解決一個(gè)商業(yè)目的才進(jìn)行的分析，不能舍本求末。2. 數(shù)據(jù)分析常用的方法有哪些？他們多用來

5、分析哪些類型的數(shù)據(jù)？通過分析可以得到怎樣的結(jié)果和結(jié)論？怎樣得到保證其信度和效度？常用數(shù)據(jù)分析方法：聚類分析、因子分析、相關(guān)分析、對(duì)應(yīng)分析、回歸分析、方差分析；數(shù)據(jù)分析常用的圖表方法：柏拉圖( 排列圖 ) 、直方圖 (Histogram)、散點(diǎn)圖(scatterdiagram) 、魚骨圖（ Ishikawa ）、 FMEA、點(diǎn)圖、柱狀圖、雷達(dá)圖、趨勢(shì)圖。數(shù)據(jù)分析統(tǒng)計(jì)工具： SPSS、 minitab 、 JMP。常用數(shù)據(jù)分析方法:1、聚類分析（Cluster Analysis）聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)

6、過程，所以同一個(gè)簇中的對(duì)象有很大的相似性，而不同簇間的對(duì)象有很大的相異性。聚類分析是一種探索性的分析，在分類的過程中，人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn)，聚類分析能夠從樣本數(shù)據(jù)出發(fā)，自動(dòng)進(jìn)行分類。聚類分析所使用方法的不同，常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析，所得到的聚類數(shù)未必一致。2、因子分析（Factor Analysis）因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。因子分析就是從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系，減少?zèng)Q策的困難。因子分析的方法約有10 多種，如重心法、影像分析法，最大似然解、最小平方法、阿爾發(fā)抽因法、拉奧典型抽因法等等。這些方法本質(zhì)上大都屬近似

7、方法，是以相關(guān)系數(shù)矩陣為基礎(chǔ)的，所不同的是相關(guān)系數(shù)矩陣對(duì)角線上的值，采用不同的共同性2 估值。在社會(huì)學(xué)研究中，因子分析常采用以主成分分析為基礎(chǔ)的反覆法。3、相關(guān)分析（Correlation Analysis）相關(guān)分析（ correlationanalysis），相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系，并對(duì)具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度。相關(guān)關(guān)系是一種非確定性的關(guān)系，例如，以 X 和 Y 分別記一個(gè)人的身高和體重，或分別記每公頃施肥量與每公頃小麥產(chǎn)量，。2 歡迎下載精品文檔則 X 與 Y 顯然有關(guān)系，而又沒有確切到可由其中的一個(gè)去精確地決定另一個(gè)的程度，這就是相關(guān)關(guān)系。4、

8、對(duì)應(yīng)分析（Correspondence Analysis）對(duì)應(yīng)分析 (Correspondence analysis) 也稱關(guān)聯(lián)分析、 R-Q 型因子分析，通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系?？梢越沂就蛔兞康母鱾€(gè)類別之間的差異，以及不同變量各個(gè)類別之間的對(duì)應(yīng)關(guān)系。對(duì)應(yīng)分析的基本思想是將一個(gè)聯(lián)列表的行和列中各元素的比例結(jié)構(gòu)以點(diǎn)的形式在較低維的空間中表示出來。5、回歸分析研究一個(gè)隨機(jī)變量 Y 對(duì)另一個(gè) (X) 或一組 (X1， X2，， Xk) 變量的相依關(guān)系的統(tǒng)計(jì)分析方法?；貧w分析（ regression analysis) 是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的

9、一種統(tǒng)計(jì)分析方法。運(yùn)用十分廣泛，回歸分析按照涉及的自變量的多少，可分為一元回歸分析和多元回歸分析；按照自變量和因變量之間的關(guān)系類型，可分為線性回歸分析和非線性回歸分析。6、方差分析 (ANOVA/Analysis of Variance)又稱“變異數(shù)分析”或“ F 檢驗(yàn)”，是發(fā)明的，用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。由于各種因素的影響，研究所得的數(shù)據(jù)呈現(xiàn)波動(dòng)狀。造成波動(dòng)的原因可分成兩類，一是不可控的隨機(jī)因素，另一是研究中施加的對(duì)結(jié)果形成影響的可控因素。方差分析是從觀測(cè)變量的方差入手，研究諸多控制變量中哪些變量是對(duì)觀測(cè)變量有顯著影響的變量。數(shù)據(jù)分析常用的圖表方法有：柏

10、拉圖 ( 排列圖 )排列圖是分析和尋找影響質(zhì)量主原因素的一種工具，其形式用雙直角坐標(biāo)圖，左邊縱坐標(biāo)表示頻數(shù)（如件數(shù)金額等），右邊縱坐標(biāo)表示頻率（如百分比表示）。分折線表示累積頻率，橫坐標(biāo)表示影響質(zhì)量的各項(xiàng)因素，按影響程度的大小（即出現(xiàn)頻數(shù)多少）從左向右排列。通過對(duì)排列圖的觀察分析可抓住影響質(zhì)量的主原因素。直方圖將一個(gè)變量的不同等級(jí)的相對(duì)頻數(shù)用矩形塊標(biāo)繪的圖表( 每一矩形的面積對(duì)應(yīng)于頻數(shù)) 。直方圖 (Histogram)又稱柱狀圖、質(zhì)量分布圖。是一種統(tǒng)計(jì)報(bào)告圖，由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。一般用橫軸表示數(shù)據(jù)類型，縱軸表示分布情況。散點(diǎn)圖 (scatter diag

11、ram)散點(diǎn)圖表示因變量隨自變量而變化的大致趨勢(shì)，據(jù)此可以選擇合適的函數(shù)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行擬合。用兩組數(shù)據(jù)構(gòu)成多個(gè)坐標(biāo)點(diǎn)，考察坐標(biāo)點(diǎn)的分布，判斷兩變量之間是否存在某種關(guān)聯(lián)或總結(jié)坐標(biāo)點(diǎn)的分布模式。魚骨圖（ Ishikawa ）。3 歡迎下載精品文檔魚骨圖是一種發(fā)現(xiàn)問題“根本原因”的方法，它也可以稱之為“因果圖”。其特點(diǎn)是簡(jiǎn)捷實(shí)用，深入直觀。它看上去有些象魚骨，問題或缺陷（即后果）標(biāo)在"魚頭 "外。FMEAFMEA是一種可靠性設(shè)計(jì)的重要方法。它實(shí)際上是FMA（故障模式分析）和FEA（故障影響分析）的組合。它對(duì)各種可能的風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià)、分析，以便在現(xiàn)有技術(shù)的基礎(chǔ)上消除這些風(fēng)險(xiǎn)或?qū)⑦@些

12、風(fēng)險(xiǎn)減小到可接受的水平。數(shù)據(jù)分析統(tǒng)計(jì)工具：SPSS： SPSS 是世界上最早采用圖形菜單驅(qū)動(dòng)界面的統(tǒng)計(jì)軟件，它最突出的特點(diǎn)就是操作界面極為友好，輸出結(jié)果美觀漂亮。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來，使用 Windows 的窗口方式展示各種管理和分析數(shù)據(jù)方法的功能，對(duì)話框展示出各種功能選擇項(xiàng)。用戶只要掌握一定的Windows 操作技能，粗通統(tǒng)計(jì)分析原理，就可以使用該軟件為特定的科研工作服務(wù)。minitab：MINITAB 功能菜單包括：假設(shè)檢驗(yàn) （參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)），回歸分析（一元回歸和多元回歸、線性回歸和非線性回歸），方差分析（單因子、多因子、一般線性模型等），時(shí)間序

13、列分析，圖表（散點(diǎn)圖、點(diǎn)圖、矩陣圖、直方圖、莖葉圖、箱線圖、概率圖、概率分布圖、邊際圖、矩陣圖、單值圖、餅圖、區(qū)間圖、Pareto 、 Fishbone 、運(yùn)行圖等）、蒙特卡羅模擬和仿真、 SPC(StatisticalProcess Control- 統(tǒng)計(jì)過程控制 ) 、可靠性分析（分布擬合、檢驗(yàn)計(jì)劃、加速壽命測(cè)試等）、MSA（交叉、嵌套、量具運(yùn)行圖、類型I 量具研究等）等。JMP：JMP的算法源于 SAS，特別強(qiáng)調(diào)以統(tǒng)計(jì)方法的實(shí)際應(yīng)用為導(dǎo)向，交互性、可視化能力強(qiáng)，使用方便，尤其適合非統(tǒng)計(jì)專業(yè)背景的數(shù)據(jù)分析人員使用，在同類軟件中有較大的優(yōu)勢(shì)。 JMP的應(yīng)用領(lǐng)域包括業(yè)務(wù)可視化、探索性數(shù)

14、據(jù)分析、六西格瑪及持續(xù)改善（可視化六西格瑪、質(zhì)量管理、流程優(yōu)化）、試驗(yàn)設(shè)計(jì)、生存及可靠性、統(tǒng)計(jì)分析與建模、交互式數(shù)據(jù)挖掘、分析程序開發(fā)等。 JMP是六西格瑪軟件的鼻祖，當(dāng)年摩托羅拉開始推六西格瑪?shù)臅r(shí)候，用的就是 JMP軟件，目前有非常多的全球頂尖企業(yè)采用JMP作為六西格瑪軟件，包括陶氏化學(xué)、惠而浦、鐵姆肯、招商銀行、美國銀行、中國石化等等。1描述性統(tǒng)計(jì)分析包括樣本基本資料的描述，作各變量的次數(shù)分配及百分比分析，以了解樣本的分布情況。此外，以平均數(shù)和標(biāo)準(zhǔn)差來描述市場(chǎng)導(dǎo)向、競(jìng)爭(zhēng)優(yōu)勢(shì)、組織績(jī)效等各個(gè)構(gòu)面，以了解樣本企業(yè)的管理人員對(duì)這些相關(guān)變量的感知，并利用 t 檢驗(yàn)及相關(guān)分析對(duì)背景變量所造

15、成的影響做檢驗(yàn)。2 Cronbach a 信度系數(shù)分析信度是指測(cè)驗(yàn)結(jié)果的一致性、穩(wěn)定性及可靠性，一般多以內(nèi)部一致性(consistency)來。4 歡迎下載精品文檔加以表示該測(cè)驗(yàn)信度的高低。信度系數(shù)愈高即表示該測(cè)驗(yàn)的結(jié)果愈一致、穩(wěn)定與可靠。針對(duì)各研究變量的衡量題項(xiàng)進(jìn)行Cronbach a 信度分析，以了解衡量構(gòu)面的內(nèi)部一致性。一般來說， Cronbach a 僅大于0 7 為高信度，低于0 35 為低信度 (Cuieford，1965) ， 0 5 為最低可以接受的信度水準(zhǔn)(Nunnally，1978) 。3 探索性因素分析(exploratory factor analysis)和驗(yàn)訌

16、性因素分析(confirmatoryfactor analysis)用以測(cè) 試各構(gòu) 面衡量題項(xiàng) 的聚合效度 (convergentvalidity)與區(qū)別效度(discriminant validity)。因?yàn)閮H有信度是不夠的，可信度高的測(cè)量，可能是完全無效或是某些程度上無效。所以我們必須對(duì)效度進(jìn)行檢驗(yàn)。效度是指工具是否能測(cè)出在設(shè)計(jì)時(shí)想測(cè)出的結(jié)果。收斂效度的檢驗(yàn)根據(jù)各個(gè)項(xiàng)目和所衡量的概念的因素的負(fù)荷量來決定；而區(qū)別效度的檢驗(yàn)是根據(jù)檢驗(yàn)性因素分析計(jì)算理論上相關(guān)概念的相關(guān)系數(shù)，檢定相關(guān)系數(shù)的95信賴區(qū)間是否包含 10，若不包含 1 0，則可確認(rèn)為具有區(qū)別效度(Ander

17、son ， 1987) 。4結(jié)構(gòu)方程模型分析 (structural equations modeling)由于結(jié)構(gòu)方程模型結(jié)合了因素分析(factoranalysis) 和路徑分析 (pathanalysis) ，并納入計(jì)量經(jīng)濟(jì)學(xué)的聯(lián)立方程式，可同時(shí)處理多個(gè)因變量，容許自變量和因變量含測(cè)量誤差，可同時(shí)估計(jì)因子結(jié)構(gòu)和因子關(guān)系。容許更大彈性的測(cè)量模型，可估計(jì)整個(gè)模型的擬合程度 (Bollen 和 Long， 1993) ，因而適用于整體模型的因果關(guān)系。在模型參數(shù)的估計(jì)上，采用最大似然估計(jì)法 (Maximum Likelihood ， ML)；在模型的適合度檢驗(yàn)上，以基本的擬合標(biāo)準(zhǔn)(prelimi

18、nary fit criteria)、整體模型擬合優(yōu)度(overall model fit)以及模型內(nèi)在結(jié)構(gòu)擬合優(yōu)度 (fit of internal structure of model)(Bagozzi和 Yi ， 1988) 三個(gè)方面的各項(xiàng)指標(biāo)作為判定的標(biāo)準(zhǔn)。在評(píng)價(jià)整體模式適配標(biāo)準(zhǔn)方面，本研究采用x2( 卡方 ) df( 自由度 ) 值、擬合優(yōu)度指數(shù) (goodness of f ：iJt in dex，GFI) 、平均殘差平方根(root meansquare ：residual，RMSR)、近似誤差均方根(root-mean square-error-of-approximation

19、，RMSEA)等指標(biāo)；模型內(nèi)在結(jié)構(gòu)擬合優(yōu)度則參考Bagozzi和 Yi(1988)的標(biāo)準(zhǔn)，考察所估計(jì)的參數(shù)是否都到達(dá)顯著水平。一、信度分析信度（ Reliability）即可靠性，是指采用同一方法對(duì)同一對(duì)象進(jìn)行調(diào)查時(shí)，問卷調(diào)查結(jié)果的穩(wěn)定性和一致性，即測(cè)量工具（問卷或量表）能否穩(wěn)定地測(cè)量所測(cè)的事物或變量。信度指標(biāo)多以相關(guān)系數(shù)表示，具體評(píng)價(jià)方法大致可分為三類：穩(wěn)定系數(shù)（跨時(shí)間的一致性），等值系數(shù)（跨形式的一致性）和內(nèi)在一致性系數(shù)（跨項(xiàng)目的一致性）。信度分析的方法主要有以下四種：大部分的信度指標(biāo)都以相關(guān)系數(shù)來表示，即用同一被試樣本所得的兩組資料的相關(guān)作為測(cè)量一致性的指標(biāo)，稱作信度系數(shù)，主要分為四大

20、類：。5 歡迎下載精品文檔1. 重測(cè)信度是指用同樣的測(cè)量工具，對(duì)同一組被測(cè)者隔一定時(shí)間重復(fù)測(cè)量，考察兩次測(cè)量結(jié)果的相關(guān)程度，可以直接采用相關(guān)分析，得到的相關(guān)系數(shù)即為重測(cè)信度系數(shù)。也可以對(duì)兩次重復(fù)測(cè)試結(jié)果做兩相關(guān)樣本差異的統(tǒng)計(jì)檢驗(yàn)。2. 復(fù)本信度是指讓同一組被測(cè)者一次填寫兩份平行問卷，計(jì)算兩份數(shù)據(jù)的相關(guān)系數(shù)，復(fù)本信度要求兩份問卷除了在問題表述不同之外，其余方面要完全一致，實(shí)際操作比較困難。3. 內(nèi)部一致性信度是指測(cè)驗(yàn)內(nèi)部所有題目間的一致性程度。這里的一致性是指題目測(cè)量目的的一致，而不是題目描述或形式的一致，主要方法有：<1>分半信度是指將一份問卷分成兩部分，計(jì)算這兩部分的相關(guān)系數(shù)，

21、即分半信度系數(shù)，以此來衡量整份問卷的信度<2>克朗巴哈信度是最常用的測(cè)量?jī)?nèi)部一致性信度的方法，計(jì)算出的克朗巴哈系數(shù)是所有可能分半信度的均值，取值在 0-1 之間，系數(shù)越高一致性越好，常用在量表的信度分析K 為量表做包含的總題目數(shù)si2 為量表題項(xiàng)的方差總和s2 為量表題項(xiàng)加總后方差<3>庫德 - 理查森信度計(jì)算出的KR20系數(shù)是克朗巴哈系數(shù)的一個(gè)特例，用于計(jì)算二分類變量的量表4. 評(píng)分者信度用來考察評(píng)分者對(duì)于問卷評(píng)分的信度，有兩種方法：<1>隨機(jī)抽取一些問卷，由兩位評(píng)分者評(píng)分，然后根據(jù)每份問卷的分?jǐn)?shù)計(jì)算相關(guān)系數(shù)<2>一位評(píng)分者兩次或兩次以上進(jìn)行

22、評(píng)分，然后計(jì)算這幾次評(píng)分的Kendall和諧系數(shù)或Kappa 系數(shù)對(duì)信度系數(shù)要注意三點(diǎn)：1. 在不同的情況下，對(duì)不同樣本，采用不同方法會(huì)得到不同的信度系數(shù)，因此一個(gè)測(cè)驗(yàn)可能不止一個(gè)信度系數(shù)。6 歡迎下載精品文檔2. 信度系數(shù)只是對(duì)測(cè)量分?jǐn)?shù)不一致程度的估計(jì)，并沒有指出不一致的原因。3. 獲得較高的信度系數(shù)并不是測(cè)量追求的最終目標(biāo)，它只是邁向目標(biāo)的一步，是使測(cè)驗(yàn)有效的一個(gè)必要條件。5. 提高信度的方法1. 適當(dāng)延長(zhǎng)問卷長(zhǎng)度2. 問卷難度適中3. 問卷內(nèi)容盡量同質(zhì)4. 測(cè)量時(shí)間充分5. 測(cè)量程序要統(tǒng)一二、效度分析效度是指測(cè)量工具能夠準(zhǔn)確測(cè)量出所要測(cè)量特性的程度，除受隨機(jī)誤差影響外，還受系統(tǒng)

23、誤差的影響。效度越高表示測(cè)量真實(shí)性越高，由于真實(shí)值往往未知，所以我們對(duì)于效度的評(píng)價(jià)也不可能有絕對(duì)肯定的答案，但是可以用指標(biāo)來評(píng)價(jià)，對(duì)于一個(gè)標(biāo)準(zhǔn)的測(cè)量來說，效度比信度更為重要。效度的性質(zhì)：1. 效度具有相對(duì)性，任何測(cè)驗(yàn)的效度都是針對(duì)一定的目標(biāo)而言2. 效度具有連續(xù)性 ?測(cè)驗(yàn)效度通常用相關(guān)系數(shù)表示，它只有程度上的不同，不是“全有”或“全無”的區(qū)別。效度的評(píng)估方法：效度分為四大類：標(biāo)準(zhǔn)效度，內(nèi)容效度、結(jié)構(gòu)效度、區(qū)分效度1. 標(biāo)準(zhǔn)效度：人為指定一種測(cè)量結(jié)果作為“金標(biāo)準(zhǔn)”，考察其他待測(cè)結(jié)果與其是否一致2. 內(nèi)容效度：是一種定性評(píng)價(jià)標(biāo)準(zhǔn)，主要通過經(jīng)驗(yàn)判斷進(jìn)行，評(píng)價(jià)測(cè)量指標(biāo) ( 問卷內(nèi)

24、容 )的含義是否能準(zhǔn)確反映真實(shí)情況，通常用專家評(píng)價(jià)的方法。3. 結(jié)構(gòu)效度：是評(píng)價(jià)量表效度常用的指標(biāo)，是指測(cè)量結(jié)果體現(xiàn)出來的某種結(jié)構(gòu)與測(cè)量值之間的對(duì)應(yīng)程度，常使用因子分析。4. 區(qū)分效度：如果測(cè)量的結(jié)果能區(qū)分不同的測(cè)量結(jié)果，就認(rèn)為該測(cè)量具有區(qū)分效度，例如如果測(cè)量結(jié)果能區(qū)分A/B 兩類人群，那么對(duì)這兩類人群做t 檢驗(yàn)或方差分析，比較差異是否具有統(tǒng)計(jì)學(xué)意義，以此判斷測(cè)量是否具有區(qū)分效度。信度與效度的關(guān)系：。7 歡迎下載精品文檔1. 可信的測(cè)量未必有效，而有效的測(cè)量必定可信。2. 沒有信度就不可能有效度，沒有效度，信度也就毫無意義情況 1：過于分散，既沒有效度也沒有信度情況 2：點(diǎn)很集中，雖

25、然有一致性，但是沒有命中中心，有信度但是無效度情況 3：即有信度也有效度3. 影響數(shù)據(jù)分析的結(jié)果因素有哪些？舉例說明？預(yù)期結(jié)果分析（ 1）描述性模式：該方法通過挖掘歷史和當(dāng)前數(shù)據(jù)，分析過去展現(xiàn)情況來決定接下來的計(jì)劃步驟。描述性模式能確定許多不同客戶或產(chǎn)品之間的關(guān)系，來決定需要采取什么方法向前發(fā)展。幾乎所有的報(bào)表，如：銷售、市場(chǎng)、操作以及財(cái)務(wù)都適用這樣的模式進(jìn)行事后分析，來提出這些問題：發(fā)什么什么？多少？頻率如何？什么地方？何時(shí)？問題關(guān)鍵是什么？應(yīng)該采取怎樣的行動(dòng)？（ 2）預(yù)測(cè)模式：分析過去可以知道客戶可能會(huì)有的操作，這樣可以預(yù)測(cè)單一用戶的操作。他可以陳述這樣的問題：將會(huì)發(fā)生什么？如果

26、這個(gè)趨勢(shì)持續(xù)會(huì)怎樣？如果.,下一次會(huì)怎樣？（ 3）規(guī)范模式：又叫做決定模式。這個(gè)模式闡述了所有的決定因素之間的關(guān)系，來預(yù)測(cè)決定可能帶來的結(jié)果。我們可以預(yù)測(cè)這樣的問題：怎樣才能達(dá)到最好的效果？怎樣應(yīng)對(duì)變數(shù)？客戶可能感興趣的其他商品是什么？。8 歡迎下載精品文檔雖然預(yù)測(cè)分析在現(xiàn)在數(shù)據(jù)分析中凸顯，但是他還是經(jīng)常以描述模式出現(xiàn)在傳統(tǒng)商業(yè)智能領(lǐng)域。一個(gè)例子看去年的銷售收入，再為下一年指定目標(biāo)?；仡櫼郧暗臄?shù)據(jù)，指定未來的目標(biāo)，這就是數(shù)年來商業(yè)的標(biāo)準(zhǔn)模式。更加復(fù)雜的預(yù)測(cè)、規(guī)范模式現(xiàn)在正在商業(yè)中扮演更加重要的角色，這是因?yàn)橛布杀镜南陆?，大量的?shù)據(jù)隨之而來，特別是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。深入理解這些

27、模式間的關(guān)系對(duì)于正確分析預(yù)測(cè)數(shù)據(jù)至關(guān)重要。就像所有的項(xiàng)目，剛開始我們都要明確他的商業(yè)目標(biāo)目的一樣。一旦有明確的業(yè)務(wù)目標(biāo)目的，任何模式或者這三個(gè)模式都可以用在 BI 系統(tǒng)中，為達(dá)到最終目標(biāo)目的服務(wù)。重復(fù)篩選 (Rinse-and-Repeat )我們不能忽略掉預(yù)測(cè)數(shù)據(jù)給我們帶來的誤區(qū)。大多數(shù)情況下， 100%精準(zhǔn)的數(shù)據(jù)分析師不可能的，原因如下：1、歷史數(shù)據(jù)不能準(zhǔn)確預(yù)測(cè)未來2、預(yù)測(cè)模式中可能會(huì)有不定因素3、操作各種模式的時(shí)候，可能會(huì)有偏頗以及不符合實(shí)際的預(yù)測(cè)當(dāng)實(shí)踐各個(gè)模式的時(shí)候，可能的錯(cuò)誤區(qū)域應(yīng)該被記錄。通常表現(xiàn)為預(yù)測(cè)分析系統(tǒng)質(zhì)量提高，或者說第三方因素對(duì)其的影響下降。因此，不斷優(yōu)化數(shù)據(jù)分

28、析預(yù)測(cè)模式非常有必要。模式部署周期，不斷優(yōu)化，不斷操作實(shí)踐，這樣可以保證他在分析預(yù)測(cè)中以最高精度運(yùn)行。4. 數(shù)據(jù)統(tǒng)計(jì)，數(shù)據(jù)分析，數(shù)據(jù)挖掘，數(shù)據(jù)處理，知識(shí)發(fā)現(xiàn)，大數(shù)據(jù)處理等，這些概念之間的區(qū)別和聯(lián)系？。9 歡迎下載精品文檔數(shù)據(jù)統(tǒng)計(jì)：數(shù)據(jù)統(tǒng)計(jì)，是互聯(lián)網(wǎng)傳媒行業(yè)或其他操作流程的數(shù)據(jù)統(tǒng)計(jì)的統(tǒng)稱，用于歷史資料、科學(xué)實(shí)驗(yàn)、檢驗(yàn)、統(tǒng)計(jì)等領(lǐng)域。以便精準(zhǔn)快速的查找與分類。知識(shí)發(fā)現(xiàn)：從數(shù)據(jù)中鑒別出有效模式的非平凡過程，該模式是新的、可能有用的和最終可理解的。知識(shí)發(fā)現(xiàn)是指在積累了大量數(shù)據(jù)后，利用各種數(shù)據(jù)挖掘算法來分析數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)，從中識(shí)別出有效的、新穎的、潛在有用的及最終可以理解的知識(shí)。我們可以

29、理解為，知識(shí)發(fā)現(xiàn)就是從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程，即把數(shù)據(jù)轉(zhuǎn)化為知識(shí)、把知識(shí)轉(zhuǎn)化為決策的一個(gè)多次循環(huán)反復(fù)的高級(jí)處理過程。數(shù)據(jù)挖掘：數(shù)據(jù)挖掘又叫數(shù)據(jù)開采，數(shù)據(jù)采掘，分為基于數(shù)據(jù)庫的數(shù)據(jù)挖掘、基于應(yīng)用數(shù)據(jù)的挖掘、基于信息集合的挖掘等多種概念。數(shù)據(jù)挖掘的定義雖然表達(dá)方式不同，但本質(zhì)都是一樣的，我們認(rèn)為數(shù)據(jù)挖掘是指從各種數(shù)據(jù)庫或觀察的數(shù)據(jù)集合中提取人們事先未知的、隱含的、潛在有用的、感興趣的概念、規(guī)則、規(guī)律、模式等形式的知識(shí)，用以支持用戶的決策。數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)都可以看作是一門交叉性學(xué)科，它們都涉及到機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、高性能計(jì)算機(jī)和專家系統(tǒng)等多個(gè)領(lǐng)域，特別是都可以

30、被看成是數(shù)據(jù)庫理論和機(jī)器學(xué)習(xí)的交叉科學(xué)。兩個(gè)術(shù)語在定義上有一定的重合度，內(nèi)涵也大致相同，都是從數(shù)據(jù)中挖掘或發(fā)現(xiàn)隱藏的知識(shí); 它們的研究對(duì)象、方法和結(jié)果的表現(xiàn)形式等方面基本上都是相同的。因此，有些人認(rèn)為，數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)只是叫法不一樣，其含義是相同的。而且，在現(xiàn)今的文獻(xiàn)中，有許多場(chǎng)合，如技術(shù)綜述等，這兩個(gè)術(shù)語仍然不加區(qū)分地使用著。數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)有一定的區(qū)別。關(guān)于數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的區(qū)別有不同的表述，典型的表述有兩種 : 知識(shí)發(fā)現(xiàn)是數(shù)據(jù)挖掘的特例，即把用于挖掘的數(shù)據(jù)集限制在數(shù)據(jù)庫這種數(shù)據(jù)組織形式上，因此數(shù)據(jù)挖掘可以看作是知識(shí)發(fā)現(xiàn)在挖掘?qū)ο蟮难由旌蛿U(kuò)展。數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程中的

31、一個(gè)特定步驟。知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的全部過程而數(shù)據(jù)挖掘則是此全部過程的一個(gè)特定的關(guān)鍵步驟。從知識(shí)發(fā)現(xiàn)的含義可以得知，知識(shí)發(fā)現(xiàn)一般可包括以下步驟 :數(shù)據(jù)清理，消除噪聲和不一致數(shù)據(jù);數(shù)據(jù)集成，多種數(shù)據(jù)源可以組合在一起 ; 數(shù)據(jù)選擇，從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù); 數(shù)據(jù)變換，通過匯總、聚集操作等方式將數(shù)據(jù)統(tǒng)一變換成適合挖掘的形式; 數(shù)據(jù)挖掘，使用智能方法提取數(shù)據(jù)模式;模式評(píng)估，根據(jù)某種興趣度量，識(shí)別表示知識(shí)的真正有趣的模式; 知識(shí)表示，使用可視化和知識(shí)表示技術(shù)，向用戶提供挖掘的知識(shí)。從這7 個(gè)步驟，可以看出，數(shù)據(jù)挖掘只是知識(shí)發(fā)現(xiàn)整個(gè)過程中的一個(gè)特定步驟，它用專門算法從數(shù)

32、據(jù)中提取數(shù)據(jù)模式，是知識(shí)發(fā)現(xiàn)過程中重要的環(huán)節(jié)。而知識(shí)發(fā)現(xiàn)是一個(gè)高級(jí)的復(fù)雜的處理過程，它還包括前期處理和后期評(píng)估，即是一個(gè)應(yīng)用了數(shù)據(jù)挖倔算法和評(píng)價(jià)解釋模式的循環(huán)反復(fù)過程，它們之間相互影響、反復(fù)調(diào)整。數(shù)據(jù)分析：數(shù)據(jù)分析只是在已定的假設(shè)，先驗(yàn)約束上處理原有計(jì)算方法，統(tǒng)計(jì)方法，將數(shù)據(jù)分析轉(zhuǎn)化為信息，而這些信息需要進(jìn)一步的獲得認(rèn)知，轉(zhuǎn)化為有效的預(yù)測(cè)和決策，這時(shí)。10 歡迎下載精品文檔就需要數(shù)據(jù)挖掘，數(shù)據(jù)挖掘與數(shù)據(jù)分析兩者緊密相連，具有循環(huán)遞歸的關(guān)系，數(shù)據(jù)分析結(jié)果需要進(jìn)一步進(jìn)行數(shù)據(jù)挖掘才能指導(dǎo)決策，而數(shù)據(jù)挖掘進(jìn)行價(jià)值評(píng)估的過程也需要調(diào)整先驗(yàn)約束而再次進(jìn)行數(shù)據(jù)分析。而兩者的具體區(qū)別在于：（其實(shí)

33、數(shù)據(jù)分析的范圍廣，包含了數(shù)據(jù)挖掘，在這里區(qū)別主要是指統(tǒng)計(jì)分析）數(shù)據(jù)量上：數(shù)據(jù)分析的數(shù)據(jù)量可能并不大，而數(shù)據(jù)挖掘的數(shù)據(jù)量極大。約束上：數(shù)據(jù)分析是從一個(gè)假設(shè)出發(fā)，需要自行建立方程或模型來與假設(shè)吻合，而數(shù)據(jù)挖掘不需要假設(shè)，可以自動(dòng)建立方程。對(duì)象上：數(shù)據(jù)分析往往是針對(duì)數(shù)字化的數(shù)據(jù)，而數(shù)據(jù)挖掘能夠采用不同類型的數(shù)據(jù)，比如聲音，文本等。結(jié)果上：數(shù)據(jù)分析對(duì)結(jié)果進(jìn)行解釋，呈現(xiàn)出有效信息，數(shù)據(jù)挖掘的結(jié)果不容易解釋，對(duì)信息進(jìn)行價(jià)值評(píng)估，著眼于預(yù)測(cè)未來，并提出決策性建議。數(shù)據(jù)分析是把數(shù)據(jù)變成信息的工具，數(shù)據(jù)挖掘是把信息變成認(rèn)知的工具，如果我們想要從數(shù)據(jù)中提取一定的規(guī)律（即認(rèn)知）往往需要數(shù)據(jù)分析和數(shù)據(jù)挖掘結(jié)合

34、使用。5. 第 (4) 題中所列出的概念有哪些數(shù)學(xué)模型？( 寫出這些模型的形式化描述) ，那些是新近的模型，以教育( 教學(xué)、學(xué)習(xí) ) 為例，可以分析和挖掘的數(shù)據(jù)模型？數(shù)據(jù)分析的模型：(1.)PEST 分析模型 (2.)5W2H分析模型 (3.)邏輯樹分析模型(4.)4P營銷理論 (5). 用戶行為模型數(shù)據(jù)分析模型的形式化描述：(1.)PEST分析模型主要針對(duì)宏觀市場(chǎng)環(huán)境進(jìn)行分析，從政治、經(jīng)濟(jì)、社會(huì)以及技術(shù)四個(gè)維度對(duì)產(chǎn)品或服務(wù)是否適合進(jìn)入市場(chǎng)進(jìn)行數(shù)據(jù)化的分析，最終得到結(jié)論，輔助判斷產(chǎn)品或服務(wù)是否滿足大環(huán)境。(2.)5W2H分析模型的應(yīng)用場(chǎng)景較廣，可用于對(duì)用戶行為進(jìn)行分析以及產(chǎn)品業(yè)務(wù)分析。 (3

35、.) 邏輯樹分析模型主要針對(duì)已知問題進(jìn)行分析，通過對(duì)已知問題的細(xì)化分析，通過分析結(jié)論找到問題的最優(yōu)解決方案。(4.)4P營銷理論模型主要用于公司或其中某一個(gè)產(chǎn)品線的整體運(yùn)營情況分析，通過分析結(jié)論，輔助決策近期運(yùn)營計(jì)劃與方案。(5.)用戶行為分析模型應(yīng)用場(chǎng)景比較單一，完全針對(duì)用戶的行為進(jìn)行研究分析。數(shù)據(jù)統(tǒng)計(jì)的數(shù)學(xué)模型：多變量統(tǒng)計(jì)分析主要用于數(shù)據(jù)分類和綜合評(píng)價(jià)。綜合評(píng)價(jià)是區(qū)劃和規(guī)劃的基礎(chǔ)。從人類認(rèn)識(shí)的角度來看有精確的和模糊的兩種類型，因?yàn)榻^大多數(shù)地理現(xiàn)象難以用精確的定量關(guān)系劃分和表示，因此模糊的模型更為實(shí)用，結(jié)果也往往更接近實(shí)際，模糊評(píng)價(jià)一般經(jīng)過四個(gè)過程：(1) 評(píng)價(jià)因子的選擇與簡(jiǎn)化 ;(2)

36、多因子重要性指標(biāo) ( 權(quán)重 ) 的確定 ;(3) 因子內(nèi)各類別對(duì)評(píng)價(jià)目標(biāo)的隸屬度確定;。11 歡迎下載精品文檔(4) 選用某種方法進(jìn)行多因子綜合。1. 主成分分析地理問題往往涉及大量相互關(guān)聯(lián)的自然和社會(huì)要素，眾多的要素常常給模型的構(gòu)造帶來很大困難，為使用戶易于理解和解決現(xiàn)有存儲(chǔ)容量不足的問題，有必要減少某些數(shù)據(jù)而保留最必要的信息。主成分分析是通過數(shù)理統(tǒng)計(jì)分析，求得各要素間線性關(guān)系的實(shí)質(zhì)上有意義的表達(dá)式，將眾多要素的信息壓縮表達(dá)為若干具有代表性的合成變量，這就克服了變量選擇時(shí)的冗余和相關(guān)，然后選擇信息最豐富的少數(shù)因子進(jìn)行各種聚類分析，構(gòu)造應(yīng)用模型。2. 層次分析法 (AHP)Hierarahy

37、 Analysis是等在 70 年代提出和廣泛應(yīng)用的, 是系統(tǒng)分析的數(shù)學(xué)工具之一，它把人的思維過程層次化、數(shù)量化，并用數(shù)學(xué)方法為分析、決策、預(yù)報(bào)或控制提供定量的依據(jù)。AHP方法把相互關(guān)聯(lián)的要素按隸屬關(guān)系分為若干層次，請(qǐng)有經(jīng)驗(yàn)的專家對(duì)各層次各因素的相對(duì)重要性給出定量指標(biāo)，利用數(shù)學(xué)方法綜合專家意見給出各層次各要素的相對(duì)重要性權(quán)值，作為綜合分析的基礎(chǔ)。例如要比較n 個(gè)因素 y=yl ， y2，， yn 對(duì)目標(biāo) Z 的影響，確定它們?cè)趜中的比重，每次取兩個(gè)因素yi 和 yJ ，用 aij表示 yi 與 yJ 對(duì) Z 的影響之比，全部比較結(jié)果可用矩陣A=(aij)n*n表示， A 叫成對(duì)比矩陣，它

38、應(yīng)滿足：aij>0,aij=1/aij (i,j=1,2,.n)使上式成立的矩陣稱互反陣，必有aij=l。3. 系統(tǒng)聚類分析聚類分析的主要依據(jù)是把相似的樣本歸為一類，而把差異大的樣本區(qū)分開來。在由m個(gè)變量組成為m維的空間中可以用多種方法定義樣本之間的相似性和差異性統(tǒng)計(jì)量。4.判別分析判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類求出判別函數(shù)，根據(jù)判別函數(shù)對(duì)未知所屬類別的事物進(jìn)行分類的一種分析方法，與聚類分析不同，它需要已知一系列反映事物特性的數(shù)值變量值及其變量值。判別分析就是在已知研究對(duì)象分為若干類型( 組別 ) 并已經(jīng)取得各種類型的一批已知樣品的觀測(cè)數(shù)據(jù)基礎(chǔ)上，根據(jù)某些準(zhǔn)則，建立

39、起盡可能把屬于不同類型的數(shù)據(jù)區(qū)分開來的判別函數(shù)，然后用它們來判別未知類型的樣品應(yīng)該屬于哪一類。根據(jù)判別的組數(shù)，判別分析可以分為兩組判別分析和多組判別分析; 根據(jù)判別函數(shù)的形式，判別分析可以分為線性判別和非線性判別 ; 根據(jù)判別時(shí)處理變量的方法不同，判別分析可以分為逐步判別、序貫判別等 ; 根據(jù)判別標(biāo)準(zhǔn)的不同，判別分析有距離判別、Fisher判別、 Bayes 判別等。數(shù)據(jù)挖掘的數(shù)學(xué)模型：可分為四大類（1. ）分類與預(yù)測(cè)，決策樹、神經(jīng)網(wǎng)絡(luò)、回歸、時(shí)間序列（2. ）聚類，K-means，。12 歡迎下載精品文檔快速聚類，系統(tǒng)聚類（3. ）關(guān)聯(lián)， apriori算法等（ 4. ）異常值處理。

40、以教育 ( 教學(xué)、學(xué)習(xí) ) 為例，可以分析和挖掘的數(shù)據(jù)模型？基于教育數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管研究為例進(jìn)行論述（1. ）教育數(shù)據(jù)挖掘及其應(yīng)用。教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的具體應(yīng)用。根據(jù)國際教育數(shù)據(jù)挖掘工作組網(wǎng)站的定義，教育數(shù)據(jù)挖掘是指運(yùn)用不斷發(fā)展的方法和技術(shù)，探索特定的教育環(huán)境中的數(shù)據(jù)類型，挖掘出有價(jià)值的信息，以幫助教師更好地理解學(xué)生，并改善他們所學(xué)習(xí)的環(huán)境，為教育者、學(xué)習(xí)者、管理者等教育工作者提供服務(wù)。教育數(shù)據(jù)挖掘的主要目標(biāo)包括：構(gòu)建學(xué)習(xí)者模型，預(yù)測(cè)學(xué)習(xí)發(fā)展趨勢(shì)；分析已有教學(xué)內(nèi)容、教學(xué)模型，提出改進(jìn)優(yōu)化建議；針對(duì)各種教育軟件系統(tǒng)，評(píng)估其有效性；構(gòu)建教育領(lǐng)域模型，促進(jìn)有效學(xué)習(xí)的產(chǎn)生

41、。教育數(shù)據(jù)挖掘的數(shù)據(jù)來源可以來自于網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)或者教育辦公軟件等，也可以來自于傳統(tǒng)學(xué)習(xí)課堂或傳統(tǒng)測(cè)試結(jié)果等。數(shù)據(jù)屬性既可以是個(gè)人信息（人口學(xué)信息），也可以是學(xué)習(xí)過程信息。教育數(shù)據(jù)挖掘過程包括數(shù)據(jù)獲取與預(yù)處理、數(shù)據(jù)分析和結(jié)果解釋三個(gè)階段。教育數(shù)據(jù)挖掘的模型主要可分為描述性模型和預(yù)測(cè)性模型兩類。描述性模型用于模式的描述，為決策制定提供參考意見；而預(yù)測(cè)性模型主要用于基于數(shù)據(jù)的預(yù)測(cè)（如預(yù)測(cè)學(xué)生成績(jī)或課程通過情況等）。（2. ）網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的教育數(shù)據(jù)挖掘模型根據(jù)網(wǎng)絡(luò)學(xué)習(xí)的特殊屬性及教育數(shù)據(jù)挖掘流程，本研究構(gòu)建了如圖1 所示的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的教育數(shù)據(jù)挖掘模型。數(shù)據(jù)源主要來自網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)數(shù)據(jù)庫，以及

42、教務(wù)管理平臺(tái)數(shù)據(jù)庫中的學(xué)生課程考試成績(jī)、個(gè)人信息等數(shù)據(jù)。由于數(shù)據(jù)來源的多樣化，因此在完成數(shù)據(jù)采集之后，必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，包括去除冗余數(shù)據(jù)、處理缺失數(shù)據(jù)、數(shù)值轉(zhuǎn)換等。數(shù)據(jù)預(yù)處理完成后，進(jìn)入教育數(shù)據(jù)挖掘的核心環(huán)節(jié)選擇挖掘方法分析數(shù)據(jù)并得出結(jié)果。針對(duì)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的學(xué)習(xí)過程監(jiān)管，使用統(tǒng)計(jì)分析與可視化方法了解學(xué)習(xí)者的網(wǎng)絡(luò)學(xué)習(xí)時(shí)間分布、偏好頁面等；使用關(guān)聯(lián)規(guī)則了解學(xué)習(xí)者的網(wǎng)絡(luò)學(xué)習(xí)屬性與學(xué)業(yè)成績(jī)之間的關(guān)聯(lián)；。13 歡迎下載精品文檔使用聚類分析對(duì)學(xué)習(xí)者分類，教師可以依據(jù)分類結(jié)果對(duì)各類學(xué)生進(jìn)行不同形式的監(jiān)管，也可根據(jù)分類結(jié)果給予相應(yīng)的網(wǎng)絡(luò)學(xué)習(xí)效果評(píng)價(jià)。最后，將教育數(shù)據(jù)挖掘的結(jié)果應(yīng)用到網(wǎng)絡(luò)學(xué)習(xí)過程的監(jiān)管中

43、，學(xué)生進(jìn)行新一輪的網(wǎng)絡(luò)學(xué)習(xí)，產(chǎn)生新的網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)，對(duì)產(chǎn)生的新數(shù)據(jù)繼續(xù)進(jìn)行分析。如此不斷迭代，對(duì)網(wǎng)絡(luò)學(xué)習(xí)過程進(jìn)行調(diào)整和優(yōu)化，使其朝著研究性學(xué)習(xí)和自主性學(xué)習(xí)的目標(biāo)實(shí)現(xiàn)可持續(xù)發(fā)展。6. 大數(shù)據(jù)的本質(zhì)特征是什么？大數(shù)據(jù)是指按照一定的組織結(jié)構(gòu)連接起來的數(shù)據(jù)，是非常簡(jiǎn)單而且直接的事物，但是從現(xiàn)象上分析，大數(shù)據(jù)所呈現(xiàn)出來的狀態(tài)復(fù)雜多樣，這是因?yàn)楝F(xiàn)象是由觀察角度決定的. 大數(shù)據(jù)的結(jié)構(gòu)是一個(gè)多層次、交織關(guān)聯(lián)的復(fù)雜系統(tǒng)結(jié)構(gòu)，數(shù)據(jù)是分布在節(jié)點(diǎn)上的構(gòu)成物質(zhì)，數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系是由節(jié)點(diǎn)的位置決定的，而不是由數(shù)據(jù)本身來決定。也就是說，不同的數(shù)據(jù)位于同一個(gè)節(jié)點(diǎn)時(shí)，就可以獲得相同的關(guān)聯(lián)關(guān)系。(1.)使用所有的數(shù)據(jù)運(yùn)用

44、用戶行為觀察等大數(shù)據(jù)出現(xiàn)前的分析方法，通常是將調(diào)查對(duì)象范圍縮小至幾個(gè)人。這是因?yàn)椋?整理所有目標(biāo)用戶的數(shù)據(jù)實(shí)在太費(fèi)時(shí)間，所以采取了從總用戶群中，爭(zhēng)取不產(chǎn)生偏差地抽取一部分作為調(diào)查對(duì)象，并僅僅根據(jù)那幾個(gè)人的數(shù)據(jù)進(jìn)行分析。而使用大數(shù)據(jù)技術(shù)，能夠通過發(fā)達(dá)的數(shù)據(jù)抽選和分析技術(shù)，完全可以做到對(duì)所有的數(shù)據(jù)進(jìn)行分析，以提高數(shù)據(jù)的正確性。(2.)不拘泥于單個(gè)數(shù)據(jù)的精確度如果我們連續(xù)扔骰子，偶爾會(huì)連續(xù)好幾次都扔出同樣的數(shù)字。但是如果無限增加扔骰子的次數(shù)，每個(gè)數(shù)字出現(xiàn)的概率都將越來越接近六分之一。同樣的，在大數(shù)據(jù)領(lǐng)域，通過觀察數(shù)量龐大的數(shù)據(jù)，更容易提高整體而言的數(shù)據(jù)的精準(zhǔn)度。因此，可以不拘泥于個(gè)別數(shù)

45、據(jù)的精確度，而迅速地進(jìn)階到數(shù)據(jù)分析的步驟。（不過這種情況當(dāng)然不包括人為的篡改等由于外部因素扭曲了數(shù)據(jù)的情況）(3.)不過分強(qiáng)調(diào)因果關(guān)系企業(yè)在考慮服務(wù)方針時(shí)，會(huì)綜合考慮現(xiàn)狀、問題、改善措施、實(shí)施后果等要素之間的相互關(guān)系，在此基礎(chǔ)上建立假設(shè)。但是大數(shù)據(jù)能夠通過觀察海量的數(shù)據(jù)，發(fā)現(xiàn)人所注意不到的相互關(guān)聯(lián)。7. 怎樣使用并行計(jì)算的方法（模型）實(shí)現(xiàn)并行數(shù)據(jù)的處理與分析？面向大數(shù)據(jù)處理的并行計(jì)算模型及性能優(yōu)化：（ 1. ）p-DOT 模型分析p-DOT模型在設(shè)計(jì)時(shí)將BPS模型作為基礎(chǔ)，模型的基本組成是一系列iteration，該模型主要由三個(gè)層次組成：首先，D-layer ，也就是數(shù)據(jù)層，整個(gè)系統(tǒng)的

46、結(jié)構(gòu)呈現(xiàn)出分布式，各個(gè)數(shù)據(jù)節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù)集。其次，O-layer ，也就是計(jì)算層，假設(shè)q 為計(jì)算的一個(gè)階段，那么該階段內(nèi)的所有節(jié)點(diǎn)會(huì)同時(shí)進(jìn)行獨(dú)立計(jì)算，所有節(jié)點(diǎn)只需要處理自己對(duì)應(yīng)的數(shù)據(jù)，這些。14 歡迎下載精品文檔數(shù)據(jù)中包括最初輸入的數(shù)據(jù)，也包括計(jì)算中生成的中間數(shù)據(jù)，這樣實(shí)現(xiàn)了并發(fā)計(jì)算，得到的中間結(jié)果直接存儲(chǔ)在模型中。最后，T-layer，也就是通信層，在q 這一階段內(nèi)，通信操作子會(huì)自動(dòng)傳遞模型中的消息，傳遞過程遵循點(diǎn)對(duì)點(diǎn)的原則，因?yàn)?q 階段中的所有節(jié)點(diǎn)在經(jīng)過計(jì)算以后都會(huì)產(chǎn)生一個(gè)中間結(jié)果，在通信操作子的作用下，這些中間結(jié)果會(huì)被一一傳遞到q 1 階段內(nèi)。也就是說，一個(gè)階段的輸出數(shù)據(jù)會(huì)直接被作為下

47、一個(gè)階段的輸入數(shù)據(jù)，如果不存在下一個(gè)階段或者是兩個(gè)相鄰階段之間不存在通信，則這些數(shù)據(jù)會(huì)被作為最終結(jié)果輸出并存儲(chǔ)。在并行計(jì)算模型下，應(yīng)用大數(shù)據(jù)和應(yīng)用高性能之間并不矛盾，因此并行計(jì)算模型具有普適性的特征，前者為后者提供模式支持，反過來，后者也為前者提供運(yùn)算能力上的支持。另外，在并行計(jì)算模型下，系統(tǒng)的擴(kuò)展性和容錯(cuò)性明顯提升，在不改變?nèi)蝿?wù)效率的前提下，數(shù)據(jù)規(guī)模以及機(jī)器數(shù)量之間的關(guān)系就能夠描述出系統(tǒng)的擴(kuò)展性，而即使系統(tǒng)中的一些組件出現(xiàn)故障，系統(tǒng)整體運(yùn)行也不會(huì)受到影響，體現(xiàn)出較好的容錯(cuò)性。p-DOT模型雖然是在DOT模型的基礎(chǔ)上發(fā)展起來的，但是其絕對(duì)不會(huì)是后者的簡(jiǎn)單擴(kuò)展或者延伸，而是具備更加強(qiáng)大的功

48、能：一是 p-DOT 模型可以涵蓋DOT以及 BSP模型的處理范式，應(yīng)用范圍比較廣；二是將該模型作為依據(jù)能夠構(gòu)造出時(shí)間成本函數(shù)，如果在某個(gè)環(huán)境負(fù)載下大數(shù)據(jù)運(yùn)算任務(wù)已經(jīng)確定，我們就可以根據(jù)該函數(shù)計(jì)算出整個(gè)運(yùn)算過程所需要的機(jī)器數(shù)量（這里將最短運(yùn)行時(shí)間作為計(jì)算標(biāo)準(zhǔn)）；三是該并行計(jì)算模型是可以擴(kuò)展的，模型也自帶容錯(cuò)功能，具有一定的普適性。（ 2. ） 2.1 D-layer 的優(yōu)化要想實(shí)現(xiàn)容錯(cuò)性，要對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行備份，因?yàn)椴僮魅藛T出現(xiàn)失誤或者是系統(tǒng)自身存在問題，數(shù)據(jù)有可能大面積丟失，這時(shí)備份數(shù)據(jù)就會(huì)發(fā)揮作用。一般情況下，系統(tǒng)中比較重要的數(shù)據(jù)會(huì)至少制作三個(gè)備份，這些備份數(shù)據(jù)會(huì)被存儲(chǔ)在不同場(chǎng)所，一

49、旦系統(tǒng)數(shù)據(jù)層出現(xiàn)問題就會(huì)利用這些數(shù)據(jù)進(jìn)行回存。對(duì)于數(shù)據(jù)復(fù)本可以這樣布局：一是每個(gè)數(shù)據(jù)塊中的每個(gè)復(fù)本只能存儲(chǔ)在對(duì)應(yīng)節(jié)點(diǎn)上；二是如果集群中機(jī)架數(shù)量比較多，每個(gè)機(jī)架中可以存儲(chǔ)一個(gè)數(shù)據(jù)塊中的一個(gè)復(fù)本或者是兩個(gè)復(fù)本。從以上布局策略中我們可以看出，數(shù)據(jù)復(fù)本的存儲(chǔ)與原始數(shù)據(jù)一樣，都是存儲(chǔ)在數(shù)據(jù)節(jié)點(diǎn)上，呈現(xiàn)出分散性存儲(chǔ)的特征，這種存儲(chǔ)方式是實(shí)現(xiàn)大數(shù)據(jù)容錯(cuò)性的基礎(chǔ)。2.2O-layer 的優(yōu)化隨著信息技術(shù)的發(fā)展以及工業(yè)規(guī)模的擴(kuò)大，人們對(duì)大數(shù)據(jù)任務(wù)性能提出了更高的要求，為了實(shí)現(xiàn)提高性能的目標(biāo)，一般計(jì)算機(jī)程序會(huì)對(duì)系統(tǒng)的橫向擴(kuò)展提供支持。隨著計(jì)算機(jī)多核技術(shù)的普及，系統(tǒng)的并行處理能力明顯增強(qiáng)，計(jì)算密度明顯提高，對(duì)

50、多核硬件資源的利用效率明顯提升。傳統(tǒng)并行計(jì)算模型主要依靠進(jìn)程間的通信，而優(yōu)化后的模型則主要依靠線程間的通信，由于后者明顯小于前者，因此在利用多核技術(shù)進(jìn)行并行計(jì)算時(shí)，能夠在不增大通信開銷的基礎(chǔ)上明顯提升計(jì)算性能。15 歡迎下載精品文檔2.3T-layer 的優(yōu)化為了提升計(jì)算模型的通信性能，需要對(duì)大數(shù)據(jù)進(jìn)行深度學(xué)習(xí)，具體原因如下：首先，無論使用哪種算法，都需要不斷更新模型，從分布式平臺(tái)的角度來說，每一次迭代都代表一次全局通信，而一部分模型的迭代次數(shù)又非常多，同時(shí)模型中包含大量位移參數(shù)以及權(quán)重，例如模型 Alex Net 的基礎(chǔ)是卷積神經(jīng)網(wǎng)絡(luò)，其迭代次數(shù)可以達(dá)到45 萬，耗費(fèi)系統(tǒng)大量通信開銷。其次，如果分布式平臺(tái)上本身就有很多機(jī)器，那么迭代過程就需要將機(jī)器的運(yùn)行或者計(jì)算作為基礎(chǔ)，就是說要想完成一次迭代，

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)分析與可視化

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)分析與可視化

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔