版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精品文檔數(shù)據(jù)分析與可視化1. 什么是數(shù)據(jù)分析?數(shù)據(jù)分析是基于商業(yè)目的,有目的的進(jìn)行收集、整理、加工和分析數(shù)據(jù),提煉有價(jià)信息的一個(gè)過程。其過程概括起來主要包括:明確分析目的與框架、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)和撰寫報(bào)告等6 個(gè)階段。1、明確分析目的與框架一個(gè)分析項(xiàng)目,你的數(shù)據(jù)對(duì)象是誰?商業(yè)目的是什么?要解決什么業(yè)務(wù)問題?數(shù)據(jù)分析師對(duì)這些都要了然于心。基于商業(yè)的理解,整理分析框架和分析思路。例如,減少新客戶的流失、優(yōu)化活動(dòng)效果、提高客戶響應(yīng)率等等。不同的項(xiàng)目對(duì)數(shù)據(jù)的要求,使用的分析手段也是不一樣的。2、數(shù)據(jù)收集數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析和框架內(nèi)容,有目的的收集、整合相關(guān)數(shù)據(jù)的一個(gè)過程,
2、它是數(shù)據(jù)分析的一個(gè)基礎(chǔ)。3、數(shù)據(jù)處理數(shù)據(jù)處理是指對(duì)收集到的數(shù)據(jù)進(jìn)行加工、整理,以便開展數(shù)據(jù)分析,它是數(shù)據(jù)分析前必不可少的階段。 這個(gè)過程是數(shù)據(jù)分析整個(gè)過程中最占據(jù)時(shí)間的,也在一定程度上取決于數(shù)據(jù)倉庫的搭建和數(shù)據(jù)質(zhì)量的保證。數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化等處理方法。4、數(shù)據(jù)分析數(shù)據(jù)分析是指通過分析手段、方法和技巧對(duì)準(zhǔn)備好的數(shù)據(jù)進(jìn)行探索、分析,從中發(fā)現(xiàn)因果關(guān)系、內(nèi)部聯(lián)系和業(yè)務(wù)規(guī)律,為商業(yè)目提供決策參考。到了這個(gè)階段,要能駕馭數(shù)據(jù)、開展數(shù)據(jù)分析,就要涉及到工具和方法的使用。其一要熟悉常規(guī)數(shù)據(jù)分析方法,最基本的要了解例如方差、回歸、因子、聚類、分類、時(shí)間序列等多元和數(shù)據(jù)分析方法的原理、使用范圍、
3、優(yōu)缺點(diǎn)和結(jié)果的解釋;其二是熟悉1+1 種數(shù)據(jù)分析工具, Excel 是最常見,一般的數(shù)據(jù)分析我們可以通過Excel 完成,后而要熟悉一個(gè)專業(yè)的分析軟件, 如數(shù)據(jù)分析工具SPSS/SAS/R/Matlab 等,便于進(jìn)行一些專業(yè)的統(tǒng)計(jì)分析、數(shù)據(jù)建模等。5、數(shù)據(jù)展現(xiàn)一般情況下,數(shù)據(jù)分析的結(jié)果都是通過圖、表的方式來呈現(xiàn),俗話說:字不如表,表不如圖。借助數(shù)據(jù)展現(xiàn)手段,能更直觀的讓數(shù)據(jù)分析師表述想要呈現(xiàn)的信息、觀點(diǎn)和建議。常用的圖表包括餅圖、折線圖、柱形圖/ 條形圖、散點(diǎn)圖、雷達(dá)圖等、金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。6 、撰寫報(bào)告最后階段, 就是撰寫數(shù)據(jù)分析報(bào)告,這是對(duì)整個(gè)數(shù)據(jù)分析成果的一個(gè)呈現(xiàn)。通
4、過分析報(bào)。1 歡迎下載精品文檔告,把數(shù)據(jù)分析的目的、過程、結(jié)果及方案完整呈現(xiàn)出來,以供商業(yè)目的提供參考。一份好的數(shù)據(jù)分析報(bào)告,首先需要有一個(gè)好的分析框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。結(jié)構(gòu)清晰、主次分明可以使閱讀者正確理解報(bào)告內(nèi)容;圖文并茂,可以令數(shù)據(jù)更加生動(dòng)活潑, 提高視覺沖擊力, 有助于閱讀者更形象、 直觀地看清楚問題和結(jié)論,從而產(chǎn)生思考。另外,數(shù)據(jù)分析報(bào)告需要有明確的結(jié)論、建議和解決方案,不僅僅是找出問題,后者是更重要的, 否則稱不上好的分析, 同時(shí)也失去了報(bào)告的意義, 數(shù)據(jù)的初衷就是為解決一個(gè)商業(yè)目的才進(jìn)行的分析,不能舍本求末。2. 數(shù)據(jù)分析常用的方法有哪些?他們多用來
5、分析哪些類型的數(shù)據(jù)?通過分析可以得到怎樣的結(jié)果和結(jié)論?怎樣得到保證其信度和效度?常用數(shù)據(jù)分析方法 :聚類分析、因子分析、相關(guān)分析、對(duì)應(yīng)分析、回歸分析、方差分析;數(shù)據(jù)分析常用的圖表方法:柏拉圖( 排列圖 ) 、直方圖 (Histogram)、散點(diǎn)圖(scatterdiagram) 、魚骨圖( Ishikawa )、 FMEA、點(diǎn)圖、柱狀圖、雷達(dá)圖、趨勢(shì)圖。數(shù)據(jù)分析統(tǒng)計(jì)工具: SPSS、 minitab 、 JMP。常用數(shù)據(jù)分析方法:1、聚類分析(Cluster Analysis)聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)
6、過程, 所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn), 聚類分析能夠從樣本數(shù)據(jù)出發(fā), 自動(dòng)進(jìn)行分類。 聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。2、因子分析(Factor Analysis)因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。因子分析就是從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系,減少?zèng)Q策的困難。因子分析的方法約有10 多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發(fā)抽因法、 拉奧典型抽因法等等。這些方法本質(zhì)上大都屬近似
7、方法,是以相關(guān)系數(shù)矩陣為基礎(chǔ)的,所不同的是相關(guān)系數(shù)矩陣對(duì)角線上的值,采用不同的共同性2 估值。在社會(huì)學(xué)研究中,因子分析常采用以主成分分析為基礎(chǔ)的反覆法。3、相關(guān)分析(Correlation Analysis)相關(guān)分析( correlationanalysis),相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系,并對(duì)具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度。相關(guān)關(guān)系是一種非確定性的關(guān)系,例如,以 X 和 Y 分別記一個(gè)人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,。2 歡迎下載精品文檔則 X 與 Y 顯然有關(guān)系, 而又沒有確切到可由其中的一個(gè)去精確地決定另一個(gè)的程度,這就是相關(guān)關(guān)系。4、
8、對(duì)應(yīng)分析(Correspondence Analysis)對(duì)應(yīng)分析 (Correspondence analysis) 也稱關(guān)聯(lián)分析、 R-Q 型因子分析,通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系??梢越沂就蛔兞康母鱾€(gè)類別之間的差異,以及不同變量各個(gè)類別之間的對(duì)應(yīng)關(guān)系。 對(duì)應(yīng)分析的基本思想是將一個(gè)聯(lián)列表的行和列中各元素的比例結(jié)構(gòu)以點(diǎn)的形式在較低維的空間中表示出來。5、回歸分析研究一個(gè)隨機(jī)變量 Y 對(duì)另一個(gè) (X) 或一組 (X1, X2, , Xk) 變量的相依關(guān)系的統(tǒng)計(jì)分析方法?;貧w分析( regression analysis) 是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的
9、一種統(tǒng)計(jì)分析方法。 運(yùn)用十分廣泛, 回歸分析按照涉及的自變量的多少, 可分為一元回歸分析和多元回歸分析; 按照自變量和因變量之間的關(guān)系類型, 可分為線性回歸分析和非線性回歸分析。6、方差分析 (ANOVA/Analysis of Variance)又稱“變異數(shù)分析”或“ F 檢驗(yàn)”,是發(fā)明的,用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。 由于各種因素的影響, 研究所得的數(shù)據(jù)呈現(xiàn)波動(dòng)狀。 造成波動(dòng)的原因可分成兩類,一是不可控的隨機(jī)因素,另一是研究中施加的對(duì)結(jié)果形成影響的可控因素。方差分析是從觀測(cè)變量的方差入手, 研究諸多控制變量中哪些變量是對(duì)觀測(cè)變量有顯著影響的變量。數(shù)據(jù)分析常用的圖表方法有:柏
10、拉圖 ( 排列圖 )排列圖是分析和尋找影響質(zhì)量主原因素的一種工具, 其形式用雙直角坐標(biāo)圖, 左邊縱坐標(biāo)表示頻數(shù)(如件數(shù)金額等),右邊縱坐標(biāo)表示頻率(如百分比表示)。分折線表示累積頻率,橫坐標(biāo)表示影響質(zhì)量的各項(xiàng)因素,按影響程度的大小 (即出現(xiàn)頻數(shù)多少)從左向右排列。通過對(duì)排列圖的觀察分析可抓住影響質(zhì)量的主原因素。直方圖將一個(gè)變量的不同等級(jí)的相對(duì)頻數(shù)用矩形塊標(biāo)繪的圖表( 每一矩形的面積對(duì)應(yīng)于頻數(shù)) 。直方圖 (Histogram)又稱柱狀圖、質(zhì)量分布圖。是一種統(tǒng)計(jì)報(bào)告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。一般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。散點(diǎn)圖 (scatter diag
11、ram)散點(diǎn)圖表示因變量隨自變量而變化的大致趨勢(shì),據(jù)此可以選擇合適的函數(shù)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行擬合。 用兩組數(shù)據(jù)構(gòu)成多個(gè)坐標(biāo)點(diǎn),考察坐標(biāo)點(diǎn)的分布,判斷兩變量之間是否存在某種關(guān)聯(lián)或總結(jié)坐標(biāo)點(diǎn)的分布模式。魚骨圖( Ishikawa )。3 歡迎下載精品文檔魚骨圖是一種發(fā)現(xiàn)問題“根本原因”的方法,它也可以稱之為“因果圖”。其特點(diǎn)是簡(jiǎn)捷實(shí)用,深入直觀。它看上去有些象魚骨,問題或缺陷(即后果)標(biāo)在"魚頭 "外。FMEAFMEA是一種可靠性設(shè)計(jì)的重要方法。它實(shí)際上是FMA(故障模式分析)和FEA(故障影響分析)的組合。它對(duì)各種可能的風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià)、 分析,以便在現(xiàn)有技術(shù)的基礎(chǔ)上消除這些風(fēng)險(xiǎn)或?qū)⑦@些
12、風(fēng)險(xiǎn)減小到可接受的水平。數(shù)據(jù)分析統(tǒng)計(jì)工具:SPSS: SPSS 是世界上最早采用圖形菜單驅(qū)動(dòng)界面的統(tǒng)計(jì)軟件,它最突出的特點(diǎn)就是操作界面極為友好, 輸出結(jié)果美觀漂亮。 它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來,使用 Windows 的窗口方式展示各種管理和分析數(shù)據(jù)方法的功能,對(duì)話框展示出各種功能選擇項(xiàng)。用戶只要掌握一定的Windows 操作技能, 粗通統(tǒng)計(jì)分析原理,就可以使用該軟件為特定的科研工作服務(wù)。minitab:MINITAB 功能菜單包括: 假設(shè)檢驗(yàn) (參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)),回歸分析 (一元回歸和多元回歸、線性回歸和非線性回歸),方差分析(單因子、多因子、一般線性模型等),時(shí)間序
13、列分析,圖表(散點(diǎn)圖、點(diǎn)圖、矩陣圖、直方圖、莖葉圖、箱線圖、概率圖、概率分布圖、邊際圖、矩陣圖、單值圖、餅圖、區(qū)間圖、Pareto 、 Fishbone 、運(yùn)行圖等)、蒙特卡羅模擬和仿真、 SPC(StatisticalProcess Control- 統(tǒng)計(jì)過程控制 ) 、可靠性分析 (分布擬合、檢驗(yàn)計(jì)劃、加速壽命測(cè)試等)、MSA(交叉、嵌套、量具運(yùn)行圖、類型I 量具研究等)等。JMP:JMP的算法源于 SAS,特別強(qiáng)調(diào)以統(tǒng)計(jì)方法的實(shí)際應(yīng)用為導(dǎo)向,交互性、 可視化能力強(qiáng), 使用方便, 尤其適合非統(tǒng)計(jì)專業(yè)背景的數(shù)據(jù)分析人員使用,在同類軟件中有較大的優(yōu)勢(shì)。 JMP的應(yīng)用領(lǐng)域包括業(yè)務(wù)可視化、探索性數(shù)
14、據(jù)分析、六西格瑪及持續(xù)改善(可視化六西格瑪、質(zhì)量管理、流程優(yōu)化)、試驗(yàn)設(shè)計(jì)、生存及可靠性、統(tǒng)計(jì)分析與建模、交互式數(shù)據(jù)挖掘、分析程序開發(fā)等。 JMP是六西格瑪軟件的鼻祖,當(dāng)年摩托羅拉開始推六西格瑪?shù)臅r(shí)候,用的就是 JMP軟件,目前有非常多的全球頂尖企業(yè)采用JMP作為六西格瑪軟件, 包括陶氏化學(xué)、惠而浦、鐵姆肯、招商銀行、美國銀行、中國石化等等。1描述性統(tǒng)計(jì)分析包括樣本基本資料的描述, 作各變量的次數(shù)分配及百分比分析, 以了解樣本的分布情況。此外, 以平均數(shù)和標(biāo)準(zhǔn)差來描述市場(chǎng)導(dǎo)向、競(jìng)爭(zhēng)優(yōu)勢(shì)、組織績(jī)效等各個(gè)構(gòu)面,以了解樣本企業(yè)的管理人員對(duì)這些相關(guān)變量的感知, 并利用 t 檢驗(yàn)及相關(guān)分析對(duì)背景變量所造
15、成的影響做檢驗(yàn)。2 Cronbach a 信度系數(shù)分析信度是指測(cè)驗(yàn)結(jié)果的一致性、穩(wěn)定性及可靠性,一般多以內(nèi)部一致性(consistency)來。4 歡迎下載精品文檔加以表示該測(cè)驗(yàn)信度的高低。 信度系數(shù)愈高即表示該測(cè)驗(yàn)的結(jié)果愈一致、穩(wěn)定與可靠。 針對(duì)各研究變量的衡量題項(xiàng)進(jìn)行Cronbach a 信度分析, 以了解衡量構(gòu)面的內(nèi)部一致性。一般來說, Cronbach a 僅大于0 7 為高信度,低于0 35 為低信度 (Cuieford,1965) , 0 5 為最低可以接受的信度水準(zhǔn)(Nunnally,1978) 。3 探索性因素分析(exploratory factor analysis)和驗(yàn)訌
16、性因素分析(confirmatoryfactor analysis)用 以 測(cè) 試 各 構(gòu) 面 衡 量 題 項(xiàng) 的 聚 合 效 度 (convergentvalidity)與區(qū)別效度(discriminant validity)。因?yàn)閮H有信度是不夠的,可信度高的測(cè)量,可能是完全無效或是某些程度上無效。 所以我們必須對(duì)效度進(jìn)行檢驗(yàn)。效度是指工具是否能測(cè)出在設(shè)計(jì)時(shí)想測(cè)出的結(jié)果。 收斂效度的檢驗(yàn)根據(jù)各個(gè)項(xiàng)目和所衡量的概念的因素的負(fù)荷量來決定;而區(qū)別效度的檢驗(yàn)是根據(jù)檢驗(yàn)性因素分析計(jì)算理論上相關(guān)概念的相關(guān)系數(shù),檢定相關(guān)系數(shù)的95信賴區(qū)間是否包含 10,若不包含 1 0,則可確認(rèn)為具有區(qū)別效度(Ander
17、son , 1987) 。4結(jié)構(gòu)方程模型分析 (structural equations modeling)由于結(jié)構(gòu)方程模型結(jié)合了因素分析(factoranalysis) 和路徑分析 (pathanalysis) ,并納入計(jì)量經(jīng)濟(jì)學(xué)的聯(lián)立方程式,可同時(shí)處理多個(gè)因變量,容許自變量和因變量含測(cè)量誤差,可同時(shí)估計(jì)因子結(jié)構(gòu)和因子關(guān)系。容許更大彈性的測(cè)量模型,可估計(jì)整個(gè)模型的擬合程度 (Bollen 和 Long, 1993) ,因而適用于整體模型的因果關(guān)系。在模型參數(shù)的估計(jì)上,采用最大似然估計(jì)法 (Maximum Likelihood , ML);在模型的適合度檢驗(yàn)上,以基本的擬合標(biāo)準(zhǔn)(prelimi
18、nary fit criteria)、整體模型擬合優(yōu)度(overall model fit)以及模型內(nèi)在結(jié)構(gòu)擬合優(yōu)度 (fit of internal structure of model)(Bagozzi和 Yi , 1988) 三個(gè)方面的各項(xiàng)指標(biāo)作為判定的標(biāo)準(zhǔn)。在評(píng)價(jià)整體模式適配標(biāo)準(zhǔn)方面,本研究采用x2( 卡方 ) df( 自由度 ) 值、擬合優(yōu)度指數(shù) (goodness of f :iJt in dex,GFI) 、平均殘差平方根(root meansquare :residual,RMSR)、近似誤差均方根(root-mean square-error-of-approximation
19、,RMSEA)等指標(biāo);模型內(nèi)在結(jié)構(gòu)擬合優(yōu)度則參考Bagozzi和 Yi(1988)的標(biāo)準(zhǔn),考察所估計(jì)的參數(shù)是否都到達(dá)顯著水平。一、信度分析信度( Reliability)即可靠性,是指采用同一方法對(duì)同一對(duì)象進(jìn)行調(diào)查時(shí),問卷調(diào)查結(jié)果的穩(wěn)定性和一致性,即測(cè)量工具 (問卷或量表)能否穩(wěn)定地測(cè)量所測(cè)的事物或變量。信度指標(biāo)多以相關(guān)系數(shù)表示,具體評(píng)價(jià)方法大致可分為三類:穩(wěn)定系數(shù)(跨時(shí)間的一致性),等值系數(shù)(跨形式的一致性)和內(nèi)在一致性系數(shù)(跨項(xiàng)目的一致性)。信度分析的方法主要有以下四種:大部分的信度指標(biāo)都以相關(guān)系數(shù)來表示,即用同一被試樣本所得的兩組資料的相關(guān)作為測(cè)量一致性的指標(biāo),稱作信度系數(shù),主要分為四大
20、類:。5 歡迎下載精品文檔1. 重測(cè)信度是指用同樣的測(cè)量工具,對(duì)同一組被測(cè)者隔一定時(shí)間重復(fù)測(cè)量,考察兩次測(cè)量結(jié)果的相關(guān)程度, 可以直接采用相關(guān)分析,得到的相關(guān)系數(shù)即為重測(cè)信度系數(shù)。也可以對(duì)兩次重復(fù)測(cè)試結(jié)果做兩相關(guān)樣本差異的統(tǒng)計(jì)檢驗(yàn)。2. 復(fù)本信度是指讓同一組被測(cè)者一次填寫兩份平行問卷,計(jì)算兩份數(shù)據(jù)的相關(guān)系數(shù),復(fù)本信度要求兩份問卷除了在問題表述不同之外,其余方面要完全一致,實(shí)際操作比較困難。3. 內(nèi)部一致性信度是指測(cè)驗(yàn)內(nèi)部所有題目間的一致性程度。這里的一致性是指題目測(cè)量目的的一致,而不是題目描述或形式的一致,主要方法有:<1>分半信度是指將一份問卷分成兩部分,計(jì)算這兩部分的相關(guān)系數(shù),
21、即分半信度系數(shù),以此來衡量整份問卷的信度<2>克朗巴哈信度是最常用的測(cè)量?jī)?nèi)部一致性信度的方法, 計(jì)算出的克朗巴哈系數(shù)是所有可能分半信度的均值,取值在 0-1 之間,系數(shù)越高一致性越好,常用在量表的信度分析K 為量表做包含的總題目數(shù)si2 為量表題項(xiàng)的方差總和s2 為量表題項(xiàng)加總后方差<3>庫德 - 理查森信度計(jì)算出的KR20系數(shù)是克朗巴哈系數(shù)的一個(gè)特例,用于計(jì)算二分類變量的量表4. 評(píng)分者信度用來考察評(píng)分者對(duì)于問卷評(píng)分的信度,有兩種方法:<1>隨機(jī)抽取一些問卷,由兩位評(píng)分者評(píng)分,然后根據(jù)每份問卷的分?jǐn)?shù)計(jì)算相關(guān)系數(shù)<2>一位評(píng)分者兩次或兩次以上進(jìn)行
22、評(píng)分,然后計(jì)算這幾次評(píng)分的Kendall和諧系數(shù)或Kappa 系數(shù)對(duì)信度系數(shù)要注意三點(diǎn):1. 在不同的情況下,對(duì)不同樣本, 采用不同方法會(huì)得到不同的信度系數(shù),因此一個(gè)測(cè)驗(yàn)可能不止一個(gè)信度系數(shù)。6 歡迎下載精品文檔2. 信度系數(shù)只是對(duì)測(cè)量分?jǐn)?shù)不一致程度的估計(jì),并沒有指出不一致的原因。3. 獲得較高的信度系數(shù)并不是測(cè)量追求的最終目標(biāo), 它只是邁向目標(biāo)的一步, 是使測(cè)驗(yàn)有效的一個(gè)必要條件。5. 提高信度的方法1. 適當(dāng)延長(zhǎng)問卷長(zhǎng)度2. 問卷難度適中3. 問卷內(nèi)容盡量同質(zhì)4. 測(cè)量時(shí)間充分5. 測(cè)量程序要統(tǒng)一二、效度分析效度是指測(cè)量工具能夠準(zhǔn)確測(cè)量出所要測(cè)量特性的程度, 除受隨機(jī)誤差影響外, 還受系統(tǒng)
23、誤差的影響。 效度越高表示測(cè)量真實(shí)性越高, 由于真實(shí)值往往未知, 所以我們對(duì)于效度的評(píng)價(jià)也不可能有絕對(duì)肯定的答案, 但是可以用指標(biāo)來評(píng)價(jià), 對(duì)于一個(gè)標(biāo)準(zhǔn)的測(cè)量來說, 效度比信度更為重要。效度的性質(zhì):1. 效度具有相對(duì)性,任何測(cè)驗(yàn)的效度都是針對(duì)一定的目標(biāo)而言2. 效度具有連續(xù)性 ?測(cè)驗(yàn)效度通常用相關(guān)系數(shù)表示, 它只有程度上的不同, 不是“全有”或“全無”的區(qū)別。效度的評(píng)估方法:效度分為四大類:標(biāo)準(zhǔn)效度,內(nèi)容效度、結(jié)構(gòu)效度、區(qū)分效度1. 標(biāo)準(zhǔn)效度:人為指定一種測(cè)量結(jié)果作為“金標(biāo)準(zhǔn)”,考察其他待測(cè)結(jié)果與其是否一致2. 內(nèi)容效度: 是一種定性評(píng)價(jià)標(biāo)準(zhǔn), 主要通過經(jīng)驗(yàn)判斷進(jìn)行, 評(píng)價(jià)測(cè)量指標(biāo) ( 問卷內(nèi)
24、容 )的含義是否能準(zhǔn)確反映真實(shí)情況,通常用專家評(píng)價(jià)的方法。3. 結(jié)構(gòu)效度: 是評(píng)價(jià)量表效度常用的指標(biāo), 是指測(cè)量結(jié)果體現(xiàn)出來的某種結(jié)構(gòu)與測(cè)量值之間的對(duì)應(yīng)程度,常使用因子分析。4. 區(qū)分效度: 如果測(cè)量的結(jié)果能區(qū)分不同的測(cè)量結(jié)果,就認(rèn)為該測(cè)量具有區(qū)分效度,例如如果測(cè)量結(jié)果能區(qū)分A/B 兩類人群, 那么對(duì)這兩類人群做t 檢驗(yàn)或方差分析, 比較差異是否具有統(tǒng)計(jì)學(xué)意義,以此判斷測(cè)量是否具有區(qū)分效度。信度與效度的關(guān)系:。7 歡迎下載精品文檔1. 可信的測(cè)量未必有效,而有效的測(cè)量必定可信。2. 沒有信度就不可能有效度,沒有效度,信度也就毫無意義情況 1:過于分散,既沒有效度也沒有信度情況 2:點(diǎn)很集中,雖
25、然有一致性,但是沒有命中中心,有信度但是無效度情況 3:即有信度也有效度3. 影響數(shù)據(jù)分析的結(jié)果因素有哪些?舉例說明?預(yù)期結(jié)果分析( 1)描述性模式:該方法通過挖掘歷史和當(dāng)前數(shù)據(jù),分析過去展現(xiàn)情況來決定接下來的計(jì)劃步驟。 描述性模式能確定許多不同客戶或產(chǎn)品之間的關(guān)系,來決定需要采取什么方法向前發(fā)展。 幾乎所有的報(bào)表, 如:銷售、市場(chǎng)、操作以及財(cái)務(wù)都適用這樣的模式進(jìn)行事后分析,來提出這些問題: 發(fā)什么什么?多少?頻率如何?什么地方?何時(shí)?問題關(guān)鍵是什么?應(yīng)該采取怎樣的行動(dòng)?( 2)預(yù)測(cè)模式: 分析過去可以知道客戶可能會(huì)有的操作,這樣可以預(yù)測(cè)單一用戶的操作。他可以陳述這樣的問題:將會(huì)發(fā)生什么?如果
26、這個(gè)趨勢(shì)持續(xù)會(huì)怎樣?如果.,下一次會(huì)怎樣?( 3)規(guī)范模式:又叫做決定模式。這個(gè)模式闡述了所有的決定因素之間的關(guān)系,來預(yù)測(cè)決定可能帶來的結(jié)果。我們可以預(yù)測(cè)這樣的問題:怎樣才能達(dá)到最好的效果?怎樣應(yīng)對(duì)變數(shù)?客戶可能感興趣的其他商品是什么?。8 歡迎下載精品文檔雖然預(yù)測(cè)分析在現(xiàn)在數(shù)據(jù)分析中凸顯, 但是他還是經(jīng)常以描述模式出現(xiàn)在傳統(tǒng)商業(yè)智能領(lǐng)域。 一個(gè)例子看去年的銷售收入, 再為下一年指定目標(biāo)?;仡櫼郧暗臄?shù)據(jù),指定未來的目標(biāo),這就是數(shù)年來商業(yè)的標(biāo)準(zhǔn)模式。更加復(fù)雜的預(yù)測(cè)、 規(guī)范模式現(xiàn)在正在商業(yè)中扮演更加重要的角色, 這是因?yàn)橛布杀镜南陆?,大量的?shù)據(jù)隨之而來,特別是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。深入理解這些
27、模式間的關(guān)系對(duì)于正確分析預(yù)測(cè)數(shù)據(jù)至關(guān)重要。 就像所有的項(xiàng)目, 剛開始我們都要明確他的商業(yè)目標(biāo)目的一樣。 一旦有明確的業(yè)務(wù)目標(biāo)目的, 任何模式或者這三個(gè)模式都可以用在 BI 系統(tǒng)中,為達(dá)到最終目標(biāo)目的服務(wù)。重復(fù)篩選 (Rinse-and-Repeat )我們不能忽略掉預(yù)測(cè)數(shù)據(jù)給我們帶來的誤區(qū)。 大多數(shù)情況下, 100%精準(zhǔn)的數(shù)據(jù)分析師不可能的,原因如下:1、歷史數(shù)據(jù)不能準(zhǔn)確預(yù)測(cè)未來2、預(yù)測(cè)模式中可能會(huì)有不定因素3、操作各種模式的時(shí)候,可能會(huì)有偏頗以及不符合實(shí)際的預(yù)測(cè)當(dāng)實(shí)踐各個(gè)模式的時(shí)候,可能的錯(cuò)誤區(qū)域應(yīng)該被記錄。通常表現(xiàn)為預(yù)測(cè)分析系統(tǒng)質(zhì)量提高,或者說第三方因素對(duì)其的影響下降。因此,不斷優(yōu)化數(shù)據(jù)分
28、析預(yù)測(cè)模式非常有必要。模式部署周期,不斷優(yōu)化,不斷操作實(shí)踐,這樣可以保證他在分析預(yù)測(cè)中以最高精度運(yùn)行。4. 數(shù)據(jù)統(tǒng)計(jì),數(shù)據(jù)分析,數(shù)據(jù)挖掘,數(shù)據(jù)處理,知識(shí)發(fā)現(xiàn),大數(shù)據(jù)處理等,這些概念之間的區(qū)別和聯(lián)系?。9 歡迎下載精品文檔數(shù)據(jù)統(tǒng)計(jì): 數(shù)據(jù)統(tǒng)計(jì), 是互聯(lián)網(wǎng)傳媒行業(yè)或其他操作流程的數(shù)據(jù)統(tǒng)計(jì)的統(tǒng)稱,用于歷史資料、科學(xué)實(shí)驗(yàn)、檢驗(yàn)、統(tǒng)計(jì)等領(lǐng)域。以便精準(zhǔn)快速的查找與分類。知識(shí)發(fā)現(xiàn): 從數(shù)據(jù)中鑒別出有效模式的非平凡過程,該模式是新的、 可能有用的和最終可理解的。 知識(shí)發(fā)現(xiàn)是指在積累了大量數(shù)據(jù)后,利用各種數(shù)據(jù)挖掘算法來分析數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù), 從中識(shí)別出有效的、 新穎的、潛在有用的及最終可以理解的知識(shí)。我們可以
29、理解為,知識(shí)發(fā)現(xiàn)就是從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程,即把數(shù)據(jù)轉(zhuǎn)化為知識(shí)、 把知識(shí)轉(zhuǎn)化為決策的一個(gè)多次循環(huán)反復(fù)的高級(jí)處理過程。數(shù)據(jù)挖掘: 數(shù)據(jù)挖掘又叫數(shù)據(jù)開采,數(shù)據(jù)采掘,分為基于數(shù)據(jù)庫的數(shù)據(jù)挖掘、基于應(yīng)用數(shù)據(jù)的挖掘、 基于信息集合的挖掘等多種概念。數(shù)據(jù)挖掘的定義雖然表達(dá)方式不同,但本質(zhì)都是一樣的,我們認(rèn)為數(shù)據(jù)挖掘是指從各種數(shù)據(jù)庫或觀察的數(shù)據(jù)集合中提取人們事先未知的、隱含的、潛在有用的、感興趣的概念、規(guī)則、規(guī)律、模式等形式的知識(shí),用以支持用戶的決策。數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)都可以看作是一門交叉性學(xué)科,它們都涉及到機(jī)器學(xué)習(xí)、 模式識(shí)別、統(tǒng)計(jì)學(xué)、 數(shù)據(jù)可視化、 高性能計(jì)算機(jī)和專家系統(tǒng)等多個(gè)領(lǐng)域,特別是都可以
30、被看成是數(shù)據(jù)庫理論和機(jī)器學(xué)習(xí)的交叉科學(xué)。兩個(gè)術(shù)語在定義上有一定的重合度,內(nèi)涵也大致相同, 都是從數(shù)據(jù)中挖掘或發(fā)現(xiàn)隱藏的知識(shí); 它們的研究對(duì)象、 方法和結(jié)果的表現(xiàn)形式等方面基本上都是相同的。 因此,有些人認(rèn)為, 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)只是叫法不一樣,其含義是相同的。 而且,在現(xiàn)今的文獻(xiàn)中,有許多場(chǎng)合,如技術(shù)綜述等,這兩個(gè)術(shù)語仍然不加區(qū)分地使用著。數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)有一定的區(qū)別。關(guān)于數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的區(qū)別有不同的表述,典型的表述有兩種 : 知識(shí)發(fā)現(xiàn)是數(shù)據(jù)挖掘的特例, 即把用于挖掘的數(shù)據(jù)集限制在數(shù)據(jù)庫這種數(shù)據(jù)組織形式上, 因此數(shù)據(jù)挖掘可以看作是知識(shí)發(fā)現(xiàn)在挖掘?qū)ο蟮难由旌蛿U(kuò)展。數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程中的
31、一個(gè)特定步驟。知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的全部過程而數(shù)據(jù)挖掘則是此全部過程的一個(gè)特定的關(guān)鍵步驟。從知識(shí)發(fā)現(xiàn)的含義可以得知,知識(shí)發(fā)現(xiàn)一般可包括以下步驟 :數(shù)據(jù)清理, 消除噪聲和不一致數(shù)據(jù);數(shù)據(jù)集成, 多種數(shù)據(jù)源可以組合在一起 ; 數(shù)據(jù)選擇, 從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù); 數(shù)據(jù)變換, 通過匯總、 聚集操作等方式將數(shù)據(jù)統(tǒng)一變換成適合挖掘的形式; 數(shù)據(jù)挖掘,使用智能方法提取數(shù)據(jù)模式;模式評(píng)估, 根據(jù)某種興趣度量, 識(shí)別表示知識(shí)的真正有趣的模式; 知識(shí)表示, 使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí)。從這7 個(gè)步驟,可以看出,數(shù)據(jù)挖掘只是知識(shí)發(fā)現(xiàn)整個(gè)過程中的一個(gè)特定步驟,它用專門算法從數(shù)
32、據(jù)中提取數(shù)據(jù)模式,是知識(shí)發(fā)現(xiàn)過程中重要的環(huán)節(jié)。而知識(shí)發(fā)現(xiàn)是一個(gè)高級(jí)的復(fù)雜的處理過程,它還包括前期處理和后期評(píng)估,即是一個(gè)應(yīng)用了數(shù)據(jù)挖倔算法和評(píng)價(jià)解釋模式的循環(huán)反復(fù)過程,它們之間相互影響、 反復(fù)調(diào)整。數(shù)據(jù)分析: 數(shù)據(jù)分析只是在已定的假設(shè),先驗(yàn)約束上處理原有計(jì)算方法,統(tǒng)計(jì)方法,將數(shù)據(jù)分析轉(zhuǎn)化為信息, 而這些信息需要進(jìn)一步的獲得認(rèn)知,轉(zhuǎn)化為有效的預(yù)測(cè)和決策,這時(shí)。10 歡迎下載精品文檔就需要數(shù)據(jù)挖掘, 數(shù)據(jù)挖掘與數(shù)據(jù)分析兩者緊密相連, 具有循環(huán)遞歸的關(guān)系, 數(shù)據(jù)分析結(jié)果需要進(jìn)一步進(jìn)行數(shù)據(jù)挖掘才能指導(dǎo)決策, 而數(shù)據(jù)挖掘進(jìn)行價(jià)值評(píng)估的過程也需要調(diào)整先驗(yàn)約束而再次進(jìn)行數(shù)據(jù)分析。而兩者的具體區(qū)別在于:(其實(shí)
33、數(shù)據(jù)分析的范圍廣,包含了數(shù)據(jù)挖掘,在這里區(qū)別主要是指統(tǒng)計(jì)分析)數(shù)據(jù)量上 :數(shù)據(jù)分析的數(shù)據(jù)量可能并不大,而數(shù)據(jù)挖掘的數(shù)據(jù)量極大。約束上 :數(shù)據(jù)分析是從一個(gè)假設(shè)出發(fā),需要自行建立方程或模型來與假設(shè)吻合,而數(shù)據(jù)挖掘不需要假設(shè),可以自動(dòng)建立方程。對(duì)象上 :數(shù)據(jù)分析往往是針對(duì)數(shù)字化的數(shù)據(jù),而數(shù)據(jù)挖掘能夠采用不同類型的數(shù)據(jù),比如聲音,文本等。結(jié)果上 :數(shù)據(jù)分析對(duì)結(jié)果進(jìn)行解釋,呈現(xiàn)出有效信息,數(shù)據(jù)挖掘的結(jié)果不容易解釋,對(duì)信息進(jìn)行價(jià)值評(píng)估,著眼于預(yù)測(cè)未來,并提出決策性建議。數(shù)據(jù)分析是把數(shù)據(jù)變成信息的工具,數(shù)據(jù)挖掘是把信息變成認(rèn)知的工具,如果我們想要從數(shù)據(jù)中提取一定的規(guī)律(即認(rèn)知)往往需要數(shù)據(jù)分析和數(shù)據(jù)挖掘結(jié)合
34、使用。5. 第 (4) 題中所列出的概念有哪些數(shù)學(xué)模型?( 寫出這些模型的形式化描述) ,那些是新近的模型,以教育( 教學(xué)、學(xué)習(xí) ) 為例,可以分析和挖掘的數(shù)據(jù)模型?數(shù)據(jù)分析的模型:(1.)PEST 分析模型 (2.)5W2H分析模型 (3.)邏輯樹分析模型(4.)4P營銷理論 (5). 用戶行為模型數(shù)據(jù)分析模型的形式化描述:(1.)PEST分析模型主要針對(duì)宏觀市場(chǎng)環(huán)境進(jìn)行分析,從政治、經(jīng)濟(jì)、社會(huì)以及技術(shù)四個(gè)維度對(duì)產(chǎn)品或服務(wù)是否適合進(jìn)入市場(chǎng)進(jìn)行數(shù)據(jù)化的分析,最終得到結(jié)論, 輔助判斷產(chǎn)品或服務(wù)是否滿足大環(huán)境。(2.)5W2H分析模型的應(yīng)用場(chǎng)景較廣,可用于對(duì)用戶行為進(jìn)行分析以及產(chǎn)品業(yè)務(wù)分析。 (3
35、.) 邏輯樹分析模型主要針對(duì)已知問題進(jìn)行分析,通過對(duì)已知問題的細(xì)化分析,通過分析結(jié)論找到問題的最優(yōu)解決方案。(4.)4P營銷理論模型主要用于公司或其中某一個(gè)產(chǎn)品線的整體運(yùn)營情況分析,通過分析結(jié)論, 輔助決策近期運(yùn)營計(jì)劃與方案。(5.)用戶行為分析模型應(yīng)用場(chǎng)景比較單一,完全針對(duì)用戶的行為進(jìn)行研究分析。數(shù)據(jù)統(tǒng)計(jì)的數(shù)學(xué)模型:多變量統(tǒng)計(jì)分析主要用于數(shù)據(jù)分類和綜合評(píng)價(jià)。綜合評(píng)價(jià)是區(qū)劃和規(guī)劃的基礎(chǔ)。從人類認(rèn)識(shí)的角度來看有精確的和模糊的兩種類型,因?yàn)榻^大多數(shù)地理現(xiàn)象難以用精確的定量關(guān)系劃分和表示,因此模糊的模型更為實(shí)用,結(jié)果也往往更接近實(shí)際,模糊評(píng)價(jià)一般經(jīng)過四個(gè)過程:(1) 評(píng)價(jià)因子的選擇與簡(jiǎn)化 ;(2)
36、多因子重要性指標(biāo) ( 權(quán)重 ) 的確定 ;(3) 因子內(nèi)各類別對(duì)評(píng)價(jià)目標(biāo)的隸屬度確定;。11 歡迎下載精品文檔(4) 選用某種方法進(jìn)行多因子綜合。1. 主成分分析地理問題往往涉及大量相互關(guān)聯(lián)的自然和社會(huì)要素,眾多的要素常常給模型的構(gòu)造帶來很大困難, 為使用戶易于理解和解決現(xiàn)有存儲(chǔ)容量不足的問題,有必要減少某些數(shù)據(jù)而保留最必要的信息。主成分分析是通過數(shù)理統(tǒng)計(jì)分析,求得各要素間線性關(guān)系的實(shí)質(zhì)上有意義的表達(dá)式,將眾多要素的信息壓縮表達(dá)為若干具有代表性的合成變量,這就克服了變量選擇時(shí)的冗余和相關(guān),然后選擇信息最豐富的少數(shù)因子進(jìn)行各種聚類分析,構(gòu)造應(yīng)用模型。2. 層次分析法 (AHP)Hierarahy
37、 Analysis是 等在 70 年代提出和廣泛應(yīng)用的, 是系統(tǒng)分析的數(shù)學(xué)工具之一,它把人的思維過程層次化、數(shù)量化,并用數(shù)學(xué)方法為分析、決策、預(yù)報(bào)或控制提供定量的依據(jù)。AHP方法把相互關(guān)聯(lián)的要素按隸屬關(guān)系分為若干層次,請(qǐng)有經(jīng)驗(yàn)的專家對(duì)各層次各因素的相對(duì)重要性給出定量指標(biāo),利用數(shù)學(xué)方法綜合專家意見給出各層次各要素的相對(duì)重要性權(quán)值,作為綜合分析的基礎(chǔ)。例如要比較n 個(gè)因素 y=yl , y2, , yn 對(duì)目標(biāo) Z 的影響,確定它們?cè)趜 中的比重,每次取兩個(gè)因素yi 和 yJ ,用 aij表示 yi 與 yJ 對(duì) Z 的影響之比,全部比較結(jié)果可用矩陣A=(aij)n*n表示, A 叫成對(duì)比矩陣,它
38、應(yīng)滿足:aij>0,aij=1/aij (i,j=1,2,.n)使上式成立的矩陣稱互反陣,必有aij=l。3. 系統(tǒng)聚類分析聚類分析的主要依據(jù)是把相似的樣本歸為一類,而把差異大的樣本區(qū)分開來。在由m個(gè)變量組成為m維的空間中可以用多種方法定義樣本之間的相似性和差異性統(tǒng)計(jì)量。4.判別分析判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類求出判別函數(shù),根據(jù)判別函數(shù)對(duì)未知所屬類別的事物進(jìn)行分類的一種分析方法,與聚類分析不同, 它需要已知一系列反映事物特性的數(shù)值變量值及其變量值。判別分析就是在已知研究對(duì)象分為若干類型( 組別 ) 并已經(jīng)取得各種類型的一批已知樣品的觀測(cè)數(shù)據(jù)基礎(chǔ)上,根據(jù)某些準(zhǔn)則, 建立
39、起盡可能把屬于不同類型的數(shù)據(jù)區(qū)分開來的判別函數(shù), 然后用它們來判別未知類型的樣品應(yīng)該屬于哪一類。根據(jù)判別的組數(shù),判別分析可以分為兩組判別分析和多組判別分析; 根據(jù)判別函數(shù)的形式,判別分析可以分為線性判別和非線性判別 ; 根據(jù)判別時(shí)處理變量的方法不同,判別分析可以分為逐步判別、序貫判別等 ; 根據(jù)判別標(biāo)準(zhǔn)的不同,判別分析有距離判別、Fisher判別、 Bayes 判別等。數(shù)據(jù)挖掘的數(shù)學(xué)模型:可分為四大類 (1. )分類與預(yù)測(cè), 決策樹、神經(jīng)網(wǎng)絡(luò)、 回歸、時(shí)間序列(2. )聚類,K-means,。12 歡迎下載精品文檔快速聚類,系統(tǒng)聚類(3. )關(guān)聯(lián), apriori算法等( 4. )異常值處理。
40、以教育 ( 教學(xué)、學(xué)習(xí) ) 為例,可以分析和挖掘的數(shù)據(jù)模型?基于教育數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管研究為例進(jìn)行論述(1. )教育數(shù)據(jù)挖掘及其應(yīng)用。教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的具體應(yīng)用。根據(jù)國際教育數(shù)據(jù)挖掘工作組網(wǎng)站的定義, 教育數(shù)據(jù)挖掘是指運(yùn)用不斷發(fā)展的方法和技術(shù),探索特定的教育環(huán)境中的數(shù)據(jù)類型,挖掘出有價(jià)值的信息,以幫助教師更好地理解學(xué)生,并改善他們所學(xué)習(xí)的環(huán)境,為教育者、學(xué)習(xí)者、管理者等教育工作者提供服務(wù)。教育數(shù)據(jù)挖掘的主要目標(biāo)包括:構(gòu)建學(xué)習(xí)者模型,預(yù)測(cè)學(xué)習(xí)發(fā)展趨勢(shì);分析已有教學(xué)內(nèi)容、教學(xué)模型,提出改進(jìn)優(yōu)化建議;針對(duì)各種教育軟件系統(tǒng),評(píng)估其有效性;構(gòu)建教育領(lǐng)域模型,促進(jìn)有效學(xué)習(xí)的產(chǎn)生
41、。教育數(shù)據(jù)挖掘的數(shù)據(jù)來源可以來自于網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)或者教育辦公軟件等,也可以來自于傳統(tǒng)學(xué)習(xí)課堂或傳統(tǒng)測(cè)試結(jié)果等。數(shù)據(jù)屬性既可以是個(gè)人信息(人口學(xué)信息),也可以是學(xué)習(xí)過程信息。 教育數(shù)據(jù)挖掘過程包括數(shù)據(jù)獲取與預(yù)處理、數(shù)據(jù)分析和結(jié)果解釋三個(gè)階段。教育數(shù)據(jù)挖掘的模型主要可分為描述性模型和預(yù)測(cè)性模型兩類。描述性模型用于模式的描述,為決策制定提供參考意見;而預(yù)測(cè)性模型主要用于基于數(shù)據(jù)的預(yù)測(cè)(如預(yù)測(cè)學(xué)生成績(jī)或課程通過情況等)。(2. )網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的教育數(shù)據(jù)挖掘模型根據(jù)網(wǎng)絡(luò)學(xué)習(xí)的特殊屬性及教育數(shù)據(jù)挖掘流程,本研究構(gòu)建了如圖1 所示的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的教育數(shù)據(jù)挖掘模型。數(shù)據(jù)源主要來自網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)數(shù)據(jù)庫,以及
42、教務(wù)管理平臺(tái)數(shù)據(jù)庫中的學(xué)生課程考試成績(jī)、個(gè)人信息等數(shù)據(jù)。由于數(shù)據(jù)來源的多樣化,因此在完成數(shù)據(jù)采集之后,必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括去除冗余數(shù)據(jù)、處理缺失數(shù)據(jù)、數(shù)值轉(zhuǎn)換等。數(shù)據(jù)預(yù)處理完成后, 進(jìn)入教育數(shù)據(jù)挖掘的核心環(huán)節(jié)選擇挖掘方法分析數(shù)據(jù)并得出結(jié)果。針對(duì)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的學(xué)習(xí)過程監(jiān)管, 使用統(tǒng)計(jì)分析與可視化方法了解學(xué)習(xí)者的網(wǎng)絡(luò)學(xué)習(xí)時(shí)間分布、偏好頁面等;使用關(guān)聯(lián)規(guī)則了解學(xué)習(xí)者的網(wǎng)絡(luò)學(xué)習(xí)屬性與學(xué)業(yè)成績(jī)之間的關(guān)聯(lián);。13 歡迎下載精品文檔使用聚類分析對(duì)學(xué)習(xí)者分類,教師可以依據(jù)分類結(jié)果對(duì)各類學(xué)生進(jìn)行不同形式的監(jiān)管,也可根據(jù)分類結(jié)果給予相應(yīng)的網(wǎng)絡(luò)學(xué)習(xí)效果評(píng)價(jià)。最后,將教育數(shù)據(jù)挖掘的結(jié)果應(yīng)用到網(wǎng)絡(luò)學(xué)習(xí)過程的監(jiān)管中
43、, 學(xué)生進(jìn)行新一輪的網(wǎng)絡(luò)學(xué)習(xí),產(chǎn)生新的網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù),對(duì)產(chǎn)生的新數(shù)據(jù)繼續(xù)進(jìn)行分析。 如此不斷迭代, 對(duì)網(wǎng)絡(luò)學(xué)習(xí)過程進(jìn)行調(diào)整和優(yōu)化,使其朝著研究性學(xué)習(xí)和自主性學(xué)習(xí)的目標(biāo)實(shí)現(xiàn)可持續(xù)發(fā)展。6. 大數(shù)據(jù)的本質(zhì)特征是什么?大數(shù)據(jù)是指按照一定的組織結(jié)構(gòu)連接起來的數(shù)據(jù),是非常簡(jiǎn)單而且直接的事物,但是從現(xiàn)象上分析,大數(shù)據(jù)所呈現(xiàn)出來的狀態(tài)復(fù)雜多樣,這是因?yàn)楝F(xiàn)象是由觀察角度決定的. 大數(shù)據(jù)的結(jié)構(gòu)是一個(gè)多層次、交織關(guān)聯(lián)的復(fù)雜系統(tǒng)結(jié)構(gòu),數(shù)據(jù)是分布在節(jié)點(diǎn)上的構(gòu)成物質(zhì),數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系是由節(jié)點(diǎn)的位置決定的,而不是由數(shù)據(jù)本身來決定。也就是說, 不同的數(shù)據(jù)位于同一個(gè)節(jié)點(diǎn)時(shí),就可以獲得相同的關(guān)聯(lián)關(guān)系。(1.)使用所有的數(shù)據(jù)運(yùn)用
44、用戶行為觀察等大數(shù)據(jù)出現(xiàn)前的分析方法,通常是將調(diào)查對(duì)象范圍縮小至幾個(gè)人。這是因?yàn)椋?整理所有目標(biāo)用戶的數(shù)據(jù)實(shí)在太費(fèi)時(shí)間, 所以采取了從總用戶群中, 爭(zhēng)取不產(chǎn)生偏差地抽取一部分作為調(diào)查對(duì)象, 并僅僅根據(jù)那幾個(gè)人的數(shù)據(jù)進(jìn)行分析。 而使用大數(shù)據(jù)技術(shù),能夠通過發(fā)達(dá)的數(shù)據(jù)抽選和分析技術(shù), 完全可以做到對(duì)所有的數(shù)據(jù)進(jìn)行分析, 以提高數(shù)據(jù)的正確性。(2.)不拘泥于單個(gè)數(shù)據(jù)的精確度如果我們連續(xù)扔骰子,偶爾會(huì)連續(xù)好幾次都扔出同樣的數(shù)字。但是如果無限增加扔骰子的次數(shù),每個(gè)數(shù)字出現(xiàn)的概率都將越來越接近六分之一。同樣的, 在大數(shù)據(jù)領(lǐng)域,通過觀察數(shù)量龐大的數(shù)據(jù),更容易提高整體而言的數(shù)據(jù)的精準(zhǔn)度。因此,可以不拘泥于個(gè)別數(shù)
45、據(jù)的精確度, 而迅速地進(jìn)階到數(shù)據(jù)分析的步驟。(不過這種情況當(dāng)然不包括人為的篡改等由于外部因素扭曲了數(shù)據(jù)的情況)(3.)不過分強(qiáng)調(diào)因果關(guān)系企業(yè)在考慮服務(wù)方針時(shí),會(huì)綜合考慮現(xiàn)狀、問題、改善措施、 實(shí)施后果等要素之間的相互關(guān)系, 在此基礎(chǔ)上建立假設(shè)。但是大數(shù)據(jù)能夠通過觀察海量的數(shù)據(jù),發(fā)現(xiàn)人所注意不到的相互關(guān)聯(lián)。7. 怎樣使用并行計(jì)算的方法(模型)實(shí)現(xiàn)并行數(shù)據(jù)的處理與分析?面向大數(shù)據(jù)處理的并行計(jì)算模型及性能優(yōu)化:( 1. )p-DOT 模型分析p-DOT模型在設(shè)計(jì)時(shí)將BPS模型作為基礎(chǔ),模型的基本組成是一系列iteration,該模型主要由三個(gè)層次組成:首先,D-layer ,也就是數(shù)據(jù)層,整個(gè)系統(tǒng)的
46、結(jié)構(gòu)呈現(xiàn)出分布式,各個(gè)數(shù)據(jù)節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù)集。其次,O-layer ,也就是計(jì)算層,假設(shè)q 為計(jì)算的一個(gè)階段,那么該階段內(nèi)的所有節(jié)點(diǎn)會(huì)同時(shí)進(jìn)行獨(dú)立計(jì)算,所有節(jié)點(diǎn)只需要處理自己對(duì)應(yīng)的數(shù)據(jù),這些。14 歡迎下載精品文檔數(shù)據(jù)中包括最初輸入的數(shù)據(jù),也包括計(jì)算中生成的中間數(shù)據(jù),這樣實(shí)現(xiàn)了并發(fā)計(jì)算,得到的中間結(jié)果直接存儲(chǔ)在模型中。最后,T-layer,也就是通信層,在q 這一階段內(nèi),通信操作子會(huì)自動(dòng)傳遞模型中的消息,傳遞過程遵循點(diǎn)對(duì)點(diǎn)的原則,因?yàn)?q 階段中的所有節(jié)點(diǎn)在經(jīng)過計(jì)算以后都會(huì)產(chǎn)生一個(gè)中間結(jié)果,在通信操作子的作用下,這些中間結(jié)果會(huì)被一一傳遞到q 1 階段內(nèi)。也就是說,一個(gè)階段的輸出數(shù)據(jù)會(huì)直接被作為下
47、一個(gè)階段的輸入數(shù)據(jù),如果不存在下一個(gè)階段或者是兩個(gè)相鄰階段之間不存在通信, 則這些數(shù)據(jù)會(huì)被作為最終結(jié)果輸出并存儲(chǔ)。在并行計(jì)算模型下, 應(yīng)用大數(shù)據(jù)和應(yīng)用高性能之間并不矛盾,因此并行計(jì)算模型具有普適性的特征,前者為后者提供模式支持,反過來, 后者也為前者提供運(yùn)算能力上的支持。另外,在并行計(jì)算模型下,系統(tǒng)的擴(kuò)展性和容錯(cuò)性明顯提升,在不改變?nèi)蝿?wù)效率的前提下,數(shù)據(jù)規(guī)模以及機(jī)器數(shù)量之間的關(guān)系就能夠描述出系統(tǒng)的擴(kuò)展性,而即使系統(tǒng)中的一些組件出現(xiàn)故障,系統(tǒng)整體運(yùn)行也不會(huì)受到影響,體現(xiàn)出較好的容錯(cuò)性。p-DOT模型雖然是在DOT模型的基礎(chǔ)上發(fā)展起來的,但是其絕對(duì)不會(huì)是后者的簡(jiǎn)單擴(kuò)展或者延伸,而是具備更加強(qiáng)大的功
48、能:一是 p-DOT 模型可以涵蓋DOT以及 BSP模型的處理范式,應(yīng)用范圍比較廣;二是將該模型作為依據(jù)能夠構(gòu)造出時(shí)間成本函數(shù),如果在某個(gè)環(huán)境負(fù)載下大數(shù)據(jù)運(yùn)算任務(wù)已經(jīng)確定,我們就可以根據(jù)該函數(shù)計(jì)算出整個(gè)運(yùn)算過程所需要的機(jī)器數(shù)量(這里將最短運(yùn)行時(shí)間作為計(jì)算標(biāo)準(zhǔn)) ;三是該并行計(jì)算模型是可以擴(kuò)展的,模型也自帶容錯(cuò)功能,具有一定的普適性。( 2. ) 2.1 D-layer 的優(yōu)化要想實(shí)現(xiàn)容錯(cuò)性,要對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行備份,因?yàn)椴僮魅藛T出現(xiàn)失誤或者是系統(tǒng)自身存在問題, 數(shù)據(jù)有可能大面積丟失,這時(shí)備份數(shù)據(jù)就會(huì)發(fā)揮作用。一般情況下,系統(tǒng)中比較重要的數(shù)據(jù)會(huì)至少制作三個(gè)備份,這些備份數(shù)據(jù)會(huì)被存儲(chǔ)在不同場(chǎng)所,一
49、旦系統(tǒng)數(shù)據(jù)層出現(xiàn)問題就會(huì)利用這些數(shù)據(jù)進(jìn)行回存。對(duì)于數(shù)據(jù)復(fù)本可以這樣布局:一是每個(gè)數(shù)據(jù)塊中的每個(gè)復(fù)本只能存儲(chǔ)在對(duì)應(yīng)節(jié)點(diǎn)上; 二是如果集群中機(jī)架數(shù)量比較多,每個(gè)機(jī)架中可以存儲(chǔ)一個(gè)數(shù)據(jù)塊中的一個(gè)復(fù)本或者是兩個(gè)復(fù)本。從以上布局策略中我們可以看出,數(shù)據(jù)復(fù)本的存儲(chǔ)與原始數(shù)據(jù)一樣, 都是存儲(chǔ)在數(shù)據(jù)節(jié)點(diǎn)上,呈現(xiàn)出分散性存儲(chǔ)的特征,這種存儲(chǔ)方式是實(shí)現(xiàn)大數(shù)據(jù)容錯(cuò)性的基礎(chǔ)。2.2O-layer 的優(yōu)化隨著信息技術(shù)的發(fā)展以及工業(yè)規(guī)模的擴(kuò)大,人們對(duì)大數(shù)據(jù)任務(wù)性能提出了更高的要求,為了實(shí)現(xiàn)提高性能的目標(biāo),一般計(jì)算機(jī)程序會(huì)對(duì)系統(tǒng)的橫向擴(kuò)展提供支持。隨著計(jì)算機(jī)多核技術(shù)的普及, 系統(tǒng)的并行處理能力明顯增強(qiáng),計(jì)算密度明顯提高,對(duì)
50、多核硬件資源的利用效率明顯提升。 傳統(tǒng)并行計(jì)算模型主要依靠進(jìn)程間的通信,而優(yōu)化后的模型則主要依靠線程間的通信, 由于后者明顯小于前者,因此在利用多核技術(shù)進(jìn)行并行計(jì)算時(shí),能夠在不增大通信開銷的基礎(chǔ)上明顯提升計(jì)算性能。15 歡迎下載精品文檔2.3T-layer 的優(yōu)化為了提升計(jì)算模型的通信性能,需要對(duì)大數(shù)據(jù)進(jìn)行深度學(xué)習(xí),具體原因如下: 首先,無論使用哪種算法, 都需要不斷更新模型, 從分布式平臺(tái)的角度來說,每一次迭代都代表一次全局通信, 而一部分模型的迭代次數(shù)又非常多,同時(shí)模型中包含大量位移參數(shù)以及權(quán)重,例如模型 Alex Net 的基礎(chǔ)是卷積神經(jīng)網(wǎng)絡(luò),其迭代次數(shù)可以達(dá)到45 萬,耗費(fèi)系統(tǒng)大量通信開銷。其次, 如果分布式平臺(tái)上本身就有很多機(jī)器,那么迭代過程就需要將機(jī)器的運(yùn)行或者計(jì)算作為基礎(chǔ), 就是說要想完成一次迭代,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年證券交易合同注意事項(xiàng)與市場(chǎng)風(fēng)險(xiǎn)控制3篇
- 二零二五年度在線教育平臺(tái)合同擔(dān)保服務(wù)標(biāo)準(zhǔn)3篇
- 二零二五年度林業(yè)資源保護(hù)與林地承包經(jīng)營權(quán)租賃合同3篇
- 二零二五年度拆墻工程施工監(jiān)理協(xié)議書2篇
- 二零二五年度施工合同工程保險(xiǎn)要求2篇
- 二零二五年度室內(nèi)外景觀綠化養(yǎng)護(hù)保修服務(wù)協(xié)議3篇
- 二零二五年度新能源電站投資建設(shè)合同3篇
- 2024版法律咨詢保密條款合同版B版
- 2025新編包機(jī)運(yùn)輸合同
- 2024版施工材料采購協(xié)議執(zhí)行管理指南版B版
- 棋牌室消防應(yīng)急預(yù)案
- 《ISO56001-2024創(chuàng)新管理體系 - 要求》之22:“8運(yùn)行-8.2 創(chuàng)新行動(dòng)”解讀和應(yīng)用指導(dǎo)材料(雷澤佳編制-2024)
- 幼兒園大班主題課程《愛在我身邊》主題活動(dòng)方案
- 廣西桂林市(2024年-2025年小學(xué)三年級(jí)語文)部編版期末考試(上學(xué)期)試卷(含答案)
- 煤炭行業(yè)智能化煤炭篩分與洗選方案
- 高級(jí)會(huì)計(jì)實(shí)務(wù)案例分析-第三章 企業(yè)全面預(yù)算管理
- 2024年數(shù)學(xué)四年級(jí)上冊(cè)線段、射線和直線基礎(chǔ)練習(xí)題(含答案)
- 2024至2030年中國防彈衣行業(yè)市場(chǎng)全景分析及投資策略研究報(bào)告
- 高三日語復(fù)習(xí):高考日語語法總結(jié)
- 3.16謠言止于智者-正確處理同學(xué)關(guān)系班會(huì)解析
- 2024年美國氟苯尼考市場(chǎng)現(xiàn)狀及上下游分析報(bào)告
評(píng)論
0/150
提交評(píng)論