《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》課件 項(xiàng)目五 數(shù)據(jù)分析_第1頁(yè)
《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》課件 項(xiàng)目五 數(shù)據(jù)分析_第2頁(yè)
《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》課件 項(xiàng)目五 數(shù)據(jù)分析_第3頁(yè)
《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》課件 項(xiàng)目五 數(shù)據(jù)分析_第4頁(yè)
《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》課件 項(xiàng)目五 數(shù)據(jù)分析_第5頁(yè)
已閱讀5頁(yè),還剩118頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目五數(shù)據(jù)分析《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》模塊一數(shù)據(jù)描述核心目標(biāo)職業(yè)能力1.熟悉常用的數(shù)據(jù)描述性分析方法,理解數(shù)據(jù)特征、統(tǒng)計(jì)參數(shù)、統(tǒng)計(jì)量與統(tǒng)計(jì)分布之間的關(guān)系;2.具備使用數(shù)據(jù)描述性分析的能力,能夠?qū)︻A(yù)處理后的數(shù)據(jù)找到合適的分析方法;3.具備在不同的業(yè)務(wù)場(chǎng)景能夠找到合適模型進(jìn)行分析的能力;4.具備撰寫完整數(shù)據(jù)分析報(bào)告的能力;5.具備使用Python進(jìn)行數(shù)據(jù)建模的能力。職業(yè)素養(yǎng)1.培養(yǎng)描述性分析習(xí)慣,對(duì)處理完后的數(shù)據(jù)進(jìn)行初步分析;2.養(yǎng)成專業(yè)業(yè)務(wù)素養(yǎng),根據(jù)專業(yè)業(yè)務(wù)選定數(shù)據(jù)分析方法;3.培養(yǎng)數(shù)據(jù)建模思維;4.培養(yǎng)全局思維、合作思維。知識(shí)圖譜項(xiàng)目背景學(xué)習(xí)完數(shù)據(jù)預(yù)處理之后,小張開始對(duì)他爬取得到的進(jìn)行了幾種數(shù)據(jù)預(yù)處理操作,將最開始混亂的數(shù)據(jù)表格轉(zhuǎn)化為清晰整潔的數(shù)據(jù)表格?,F(xiàn)在,小張可以開始學(xué)習(xí)正式的數(shù)據(jù)分析相關(guān)的知識(shí)了,小張即將邁出走向數(shù)據(jù)分析師最關(guān)鍵的一步。在本項(xiàng)目中,小張需要學(xué)習(xí)數(shù)據(jù)的特征描述,以及如何與實(shí)際的業(yè)務(wù)場(chǎng)景相結(jié)合,然后進(jìn)一步學(xué)習(xí)相關(guān)的統(tǒng)計(jì)量以及統(tǒng)計(jì)分布最后嘗試自己進(jìn)行統(tǒng)計(jì)建模。除此之外,小張還需要與實(shí)際業(yè)務(wù)結(jié)合,了解業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法以及數(shù)據(jù)分析報(bào)告的撰寫方法。0102數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的關(guān)系數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布問題引入在學(xué)習(xí)完數(shù)據(jù)預(yù)處理的相關(guān)操作之后,小張通過清洗得到了清晰整潔的數(shù)據(jù)。那么接下來小張需要先對(duì)數(shù)據(jù)進(jìn)行描述性的分析,這需要了解一些統(tǒng)計(jì)量與統(tǒng)計(jì)分布相關(guān)的知識(shí),更重要的是小張需要了解如何將這些知識(shí)與實(shí)際的業(yè)務(wù)場(chǎng)景聯(lián)系在一起。數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的關(guān)系01一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的關(guān)系一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的關(guān)系靜態(tài)數(shù)據(jù)是不同主體在同一時(shí)間點(diǎn)或同一時(shí)間段的數(shù)據(jù)圖5-1截面數(shù)據(jù)聚類分析判別分析回歸分析因子分析(一)截面數(shù)據(jù)一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的關(guān)系時(shí)間序列數(shù)據(jù)指在不同時(shí)間點(diǎn)上收集到的數(shù)據(jù)。反映了某一事物、現(xiàn)象等隨時(shí)間的變化狀態(tài)或程度。圖5-2截面數(shù)據(jù)(二)時(shí)序數(shù)據(jù)一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的關(guān)系“平行數(shù)據(jù)”指在時(shí)間序列上取多個(gè)截面,在這些截面上同時(shí)選取樣本觀測(cè)值所構(gòu)成的樣本數(shù)據(jù)。圖5-3面板數(shù)據(jù)(三)面板數(shù)據(jù)或者說是一個(gè)m*n的數(shù)據(jù)矩陣,記載的是n個(gè)時(shí)間節(jié)點(diǎn)上,m個(gè)對(duì)象的某一數(shù)據(jù)指標(biāo)。隨機(jī)效應(yīng)模型03固定效應(yīng)模型02混合效應(yīng)模型01常用面板數(shù)據(jù)分析方法一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的關(guān)系(四)非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)高度組織和整齊格式化的數(shù)據(jù)。可以放入表格和電子表格中的數(shù)據(jù)類型。與非結(jié)構(gòu)化數(shù)據(jù)相比,是更容易使用的數(shù)據(jù)類型。數(shù)據(jù)運(yùn)用十分方便,商業(yè)上的可挖掘價(jià)值方面比較差。01日期02地址03信用卡號(hào)碼格式固定失去多樣性一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的關(guān)系(四)非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)除了結(jié)構(gòu)化數(shù)據(jù)以外的所有數(shù)據(jù)都可稱之為非結(jié)構(gòu)化數(shù)據(jù),是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來表現(xiàn)的數(shù)據(jù)。所有格式的辦公文檔文本圖片HTML各類報(bào)表圖像和音頻/視頻信息一、數(shù)據(jù)特征、數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的關(guān)系(四)非結(jié)構(gòu)化數(shù)據(jù)物聯(lián)網(wǎng)、工業(yè)4.0、視頻直播產(chǎn)生了更多的非結(jié)構(gòu)化數(shù)據(jù)。人工智能、機(jī)器學(xué)習(xí)、語義分析、圖像識(shí)別等技術(shù)方向需要大量的非結(jié)構(gòu)化數(shù)據(jù)來開展工作。非結(jié)構(gòu)化數(shù)據(jù)以及占據(jù)企業(yè)數(shù)據(jù)的80%以上。非結(jié)構(gòu)化數(shù)據(jù)不符合任何預(yù)定義的模型,傳統(tǒng)的數(shù)據(jù)分析工具和方法已不足以適用于非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布02二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布常見的統(tǒng)計(jì)參數(shù)反映數(shù)據(jù)離散程度:異眾比率、四分位數(shù)、極差、平均差、方差、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)分?jǐn)?shù)和切比雪夫不等式反映相對(duì)離散程度:離散系數(shù)(變異系數(shù))等反映分布形態(tài):偏態(tài)系數(shù)、峰態(tài)系數(shù)等反映數(shù)據(jù)集中趨勢(shì):眾數(shù)、分位數(shù)和均值等二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布常見的統(tǒng)計(jì)量統(tǒng)計(jì)量用于估計(jì)統(tǒng)計(jì)參數(shù)的變量。統(tǒng)計(jì)距離統(tǒng)計(jì)分布刻畫兩個(gè)樣本(記錄)之間的相似程度。描繪一個(gè)隨機(jī)變量的分布規(guī)律,最常見的分布為正態(tài)分布。01樣本均值02樣本方差03樣本標(biāo)準(zhǔn)差二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(一)集中趨勢(shì)指標(biāo)1.眾數(shù)一列數(shù)據(jù)中出現(xiàn)最多次數(shù)的一個(gè)圖5-4抽取出來并處理后的凈含量數(shù)據(jù)代碼5-1importpandasaspd#導(dǎo)入pandas庫(kù)并記為pddf=pd.read_excel('C:/下載/茶葉凈含量數(shù)據(jù).xlsx')#讀取數(shù)據(jù)mode=df['凈含量'].mode()#求眾數(shù)print(mode)輸出結(jié)果0500dtype:int64案例:選取數(shù)據(jù)表中“凈含量”一列求眾數(shù),代碼命令與輸出結(jié)果如代碼5-1所示。(在數(shù)據(jù)中心中下載茶葉凈含量數(shù)據(jù).xlsx)二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(一)集中趨勢(shì)指標(biāo)眾數(shù)不受極端值的影響,適合分類數(shù)據(jù)。特殊情況下可能出現(xiàn)多個(gè)眾數(shù)。例如:一場(chǎng)有40人參加的考試中有15人考了95分且同時(shí)有另外15人考了100分,剩下的同學(xué)隨機(jī)分布在各個(gè)分?jǐn)?shù)段,則出現(xiàn)了100分和95分兩個(gè)眾數(shù)。1.眾數(shù)一列數(shù)據(jù)中出現(xiàn)最多次數(shù)的一個(gè)二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(一)集中趨勢(shì)指標(biāo)2.分位數(shù)表示一列數(shù)據(jù)中處于某個(gè)位置的值案例:利用pandas可以輕松求出任意分位數(shù),以凈含量為例,代碼命令與輸出結(jié)果如代碼5-2所示。代碼5-2importpandasaspd#導(dǎo)入pandas庫(kù)并記為pddf=pd.read_excel('C:/下載/茶葉凈含量數(shù)據(jù).xlsx')#讀取數(shù)據(jù)q1=df['凈含量'].quantile(0.25)#求上四分位數(shù)q2=df['凈含量'].quantile(0.50)#求中位數(shù)q3=df['凈含量'].quantile(0.75)#求下四分位數(shù)print(q1)print(q2)print(q3)輸出結(jié)果160.0250.0500.0相比于眾數(shù),中位數(shù)具有唯一性,也不受極端值影響,更適合定序數(shù)據(jù)。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(一)集中趨勢(shì)指標(biāo)3.均值即平均值。一列數(shù)據(jù)之和除以數(shù)據(jù)個(gè)數(shù)所得到的的值案例:使用茶葉商品凈含量作為示例,代碼命令與輸出結(jié)果如代碼5-3所示。代碼5-3importpandasaspd#導(dǎo)入pandas庫(kù)并記為pddf=pd.read_excel('C:/下載/茶葉凈含量數(shù)據(jù).xlsx')#讀取數(shù)據(jù)mean=df['凈含量'].mean()

#求均值print(mean)輸出結(jié)果310.95705521472394相比與眾數(shù)與中位數(shù),均值易受極端值影響,同時(shí)也不具有唯一性,適合數(shù)值型數(shù)據(jù)。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(二)離散程度指標(biāo)1.四分位差下四分位數(shù)與上四分位數(shù)之差四分位差:500-160=340說明第四分之一大的數(shù)據(jù)與第四分之三大的數(shù)據(jù)相差了340。相差越大則說明數(shù)據(jù)越離散,即分散的越開。與分位數(shù)一致,四分位差不受極端值的影響,適合順序數(shù)據(jù)而不適合分類數(shù)據(jù)。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(二)離散程度指標(biāo)2.極差

又稱全距,一列數(shù)據(jù)的最大值與最小值之差。在Pandas中使用“max”屬性減去“min”屬性即可得到(例5-3代碼中的“mean”改成“max”或“min”即可),極差反映的是數(shù)據(jù)最大的變動(dòng)范圍。優(yōu)點(diǎn):計(jì)算非常簡(jiǎn)單,極差越大則說明數(shù)據(jù)的離散程度越大。

用茶葉數(shù)據(jù)的凈含量列,求出的最小值為30g,最大值為670g,則極差為640g。說明茶葉商品的凈含量最大的與最小的之間相差了640g。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(二)離散程度指標(biāo)2.極差

又稱全距,一列數(shù)據(jù)的最大值與最小值之差。極差只能反映一列數(shù)據(jù)兩個(gè)端點(diǎn)的情況,不能反映中間數(shù)據(jù)的情況,且非常容易受到極端值的影響,不能準(zhǔn)確地描述出數(shù)據(jù)的離散程度。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(二)離散程度指標(biāo)表5-1測(cè)試成績(jī)表XY150732100703100754607255070均值7272例如:兩人的5次測(cè)驗(yàn)成績(jī)?nèi)绫?-1所示,X、Y兩人平均成績(jī)均為72,但X不穩(wěn)定,對(duì)平均值的偏離大,Y的五次成績(jī)則都與平均值很接近,對(duì)平均值的偏離小。方差就是用來描述這種關(guān)系的,解釋為隨機(jī)變量對(duì)于數(shù)學(xué)期望的偏離程度。3.方差與標(biāo)準(zhǔn)差

二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(二)離散程度指標(biāo)方差計(jì)算公式

3.方差與標(biāo)準(zhǔn)差

二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(二)離散程度指標(biāo)標(biāo)準(zhǔn)差計(jì)算公式標(biāo)準(zhǔn)差由方差計(jì)算而來,將方差開平方根即可得到標(biāo)準(zhǔn)差,即標(biāo)準(zhǔn)差乘標(biāo)準(zhǔn)差等于方差。方差或標(biāo)準(zhǔn)差越大則代表數(shù)據(jù)的離散程度越大。

3.方差與標(biāo)準(zhǔn)差

二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(二)離散程度指標(biāo)3.方差與標(biāo)準(zhǔn)差

方差與標(biāo)準(zhǔn)差有單位。標(biāo)準(zhǔn)差與數(shù)據(jù)值的單位是保持一致,所以標(biāo)準(zhǔn)差更為常用。因涉及到數(shù)學(xué)運(yùn)算,所以方差與標(biāo)準(zhǔn)差更適用于數(shù)值型數(shù)據(jù)。相對(duì)于極差而言,方差與標(biāo)準(zhǔn)差考慮到每一個(gè)數(shù)據(jù)值對(duì)離散程度的影響,在準(zhǔn)確性方面會(huì)優(yōu)于極差,但計(jì)算方面會(huì)相對(duì)復(fù)雜。在Pandas中也可以使用var屬性可以得到方差,使用std屬性可以得到標(biāo)準(zhǔn)差。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(二)離散程度指標(biāo)4.標(biāo)準(zhǔn)分?jǐn)?shù)對(duì)應(yīng)數(shù)據(jù)預(yù)處理中的標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的值除了在數(shù)據(jù)預(yù)處理中提及的作用以外,在度量離散程度方面也有用處。標(biāo)準(zhǔn)化之后的數(shù)據(jù)值單位為標(biāo)準(zhǔn)差。例如:-1.5則代表比均值低了1.5個(gè)標(biāo)準(zhǔn)差。通常可以認(rèn)為大于或小于3個(gè)標(biāo)準(zhǔn)差的數(shù)據(jù)值為離群值,這被稱為六西格瑪原則。又稱“標(biāo)準(zhǔn)化值“二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(二)離散程度指標(biāo)5.離散系數(shù)又稱“變異系數(shù)“離散系數(shù)是相對(duì)離散指標(biāo),計(jì)算公式為標(biāo)準(zhǔn)差除以均值。離散系數(shù)是一個(gè)沒有單位的指標(biāo),可以用來比較不同數(shù)據(jù)列之間的離散程度大小。例如:A數(shù)據(jù)列離散系數(shù)為5,B數(shù)據(jù)列離散系數(shù)為10,則可以認(rèn)為B數(shù)據(jù)列的離散程度相較于A數(shù)據(jù)列更高。生產(chǎn)與銷售場(chǎng)景中離散程度越低穩(wěn)定性越高二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(三)統(tǒng)計(jì)量不含未知參數(shù)的樣本函數(shù),最大特征:不含任何未知的參數(shù)。概念什么是樣本函數(shù)呢?二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(三)統(tǒng)計(jì)量在數(shù)據(jù)分析過程中,研究對(duì)象的所有單位就稱之為總體,而從總體中抽出的一部分單位則稱之為樣本??傮w與樣本研究市場(chǎng)上的茶葉商品價(jià)格總體:所有的茶葉商品的價(jià)格樣本:通過爬蟲爬取到的三百多條茶葉品類數(shù)據(jù),并不能涵蓋所有的茶葉商品,可視為總體的一個(gè)抽樣樣本。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(三)統(tǒng)計(jì)量案例:以小張爬取的茶葉品類數(shù)據(jù)中的凈含量為例。假設(shè)預(yù)處理之后剩下300個(gè)數(shù)據(jù),分別記為X1、X2、……X300我要了解整個(gè)市場(chǎng)所有茶葉商品的凈含量,即總體。已知的只有300種商品的凈含量。用樣本來估計(jì)總體,統(tǒng)計(jì)量承擔(dān)著工具的作用。常用的統(tǒng)計(jì)量有樣本均值、樣本方差和樣本標(biāo)準(zhǔn)差等。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(四)統(tǒng)計(jì)距離在一個(gè)二維平面中,若要衡量?jī)蓚€(gè)坐標(biāo)點(diǎn)(假設(shè)為x點(diǎn)與y點(diǎn))之間的距離,可以使用歐式距離,如圖5-5所示。圖5-5二維空間歐氏距離若B點(diǎn)坐標(biāo)為(3,0),M點(diǎn)坐標(biāo)為(0,-4),則它們間的歐氏距離為5,通過(3-0)2+[0-(-4)]2=25,25再開平方跟可以得到。計(jì)算公式:d代表距離的符號(hào)x點(diǎn)的坐標(biāo)為(x1,x2)y點(diǎn)的坐標(biāo)為(y1,y2)。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布若此時(shí)B點(diǎn)坐標(biāo)為(3,0,13),M點(diǎn)坐標(biāo)為(0,-4,1),通過(3-0)2+[0-(-4)]2+(13-1)2=169,169再經(jīng)過開平方根得到13,即為此時(shí)B和M間的歐氏距離。(四)統(tǒng)計(jì)距離計(jì)算公式:x點(diǎn)的坐標(biāo)為(x1,x2,......,xn)y點(diǎn)的坐標(biāo)為(y1,y2,......,yn)二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布?xì)W式距離的定義如式:(四)統(tǒng)計(jì)距離P,Q是兩個(gè)樣本X,Y分別是它們的數(shù)據(jù)矩陣A是對(duì)稱陣,對(duì)不同的統(tǒng)計(jì)距離A矩陣各部不同二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布常用的統(tǒng)計(jì)距離之一——馬氏距離在一維場(chǎng)合下的定義式(四)統(tǒng)計(jì)距離s代表標(biāo)準(zhǔn)差馬氏距離表示點(diǎn)與一個(gè)分布之間的距離,它是一種有效的計(jì)算兩個(gè)未知樣本集的相似度的方法。與歐氏距離不同的是,它考慮到各種特性之間的聯(lián)系。在實(shí)際度量?jī)蓚€(gè)樣本的相似性時(shí),馬氏距離是比歐氏距離更優(yōu)秀的替代品。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布統(tǒng)計(jì)分布亦稱“次數(shù)(頻數(shù))分布(分配)”。(五)統(tǒng)計(jì)分布在統(tǒng)計(jì)分組的基礎(chǔ)上,將總體中的所有單位按組歸類整理,形成總體單位在各組間的分布。分布在各組中的單位數(shù)叫做次數(shù)或頻數(shù)。各組次數(shù)與總次數(shù)(全部總體單位數(shù))之比,稱為比率或頻率。將各組別與次數(shù)依次編排而成的數(shù)列就叫做統(tǒng)計(jì)分布數(shù)列,簡(jiǎn)稱分布數(shù)列或分配數(shù)列。作用:反映總體中所有單位在各組間的分布狀態(tài)和分布特征。統(tǒng)計(jì)分布及其分布數(shù)列,可以用表格或圖形來表示。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布(五)統(tǒng)計(jì)分布離散分布的值只在有限或者可數(shù)的點(diǎn)取到連續(xù)分布的值可以取到一個(gè)區(qū)間內(nèi)的任意值二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布1.二項(xiàng)分布(五)統(tǒng)計(jì)分布二項(xiàng)分布描述的是隨機(jī)事件如果發(fā)生了n次,那么出現(xiàn)成功的次數(shù)為k次的可能性(即概率)。案例:下雨的幾率是70%,如果有兩天,假設(shè)這兩天沒有聯(lián)系,那么兩天都下雨的概率為70%×70%=49%;一天下雨一天不下雨的概率為70%×30%×2=42%,而兩天都不下雨的概率為30%×30%=9%。這三個(gè)概率相加為1,表示事情發(fā)生只有這三種可能性,而這樣的分布情況正是二項(xiàng)分布。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布1.二項(xiàng)分布(五)統(tǒng)計(jì)分布圖5-6二項(xiàng)分布二項(xiàng)分布具有兩個(gè)參數(shù):一個(gè)是事件發(fā)生的次數(shù)n。一個(gè)是只有兩種結(jié)果的隨機(jī)事件中其中之一(可以認(rèn)為是成功事件)發(fā)生的概率p。如圖5-6所示,二項(xiàng)分布是離散型分布,在圖像上表示為離散的點(diǎn)。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布2.正態(tài)分布(五)統(tǒng)計(jì)分布圖5-7正態(tài)曲線圖也稱“常態(tài)分布”,又名高斯分布。正態(tài)曲線呈鐘型,兩頭低,中間高,左右對(duì)稱因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線許多的統(tǒng)計(jì)模型和分析方法都以正態(tài)分布作為基礎(chǔ),如方差分析、回歸分析的正態(tài)假設(shè)等。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布3.擬合分布(五)統(tǒng)計(jì)分布對(duì)于一個(gè)隨機(jī)變量(屬性),如果需要研究它的分布,可以嘗試使用已知的分布類型去擬合它。擬合就是把平面上一系列的點(diǎn),用一條光滑的曲線連接起來。因?yàn)檫@條曲線有無數(shù)種可能,從而有各種擬合方法。擬合的曲線一般可以用函數(shù)表示,根據(jù)這個(gè)函數(shù)的不同有不同的擬合名字。二、數(shù)據(jù)參數(shù)與統(tǒng)計(jì)量、距離、模擬統(tǒng)計(jì)分布3.擬合分布(五)統(tǒng)計(jì)分布圖5-8二次函數(shù)擬合紅點(diǎn)為樣本點(diǎn),藍(lán)色曲線為擬合曲線,光滑曲線為一元二次函數(shù),為二次函數(shù)擬合,除此之外,也可以用其它函數(shù)如指數(shù)函數(shù)等擬合一條與樣本點(diǎn)相近的光滑曲線。探討實(shí)踐梳理本節(jié)所學(xué)知識(shí)點(diǎn)的相互聯(lián)系,構(gòu)建描述性統(tǒng)計(jì)知識(shí)框架。拓展訓(xùn)練嘗試對(duì)小張爬取的茶葉品類數(shù)據(jù)做更多描述性統(tǒng)計(jì)分析。謝謝觀看項(xiàng)目五數(shù)據(jù)分析《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》模塊二

數(shù)據(jù)建模核心目標(biāo)職業(yè)能力1.熟悉常用的數(shù)據(jù)描述性分析方法,理解數(shù)據(jù)特征、統(tǒng)計(jì)參數(shù)、統(tǒng)計(jì)量與統(tǒng)計(jì)分布之間的關(guān)系;2.具備使用數(shù)據(jù)描述性分析的能力,能夠?qū)︻A(yù)處理后的數(shù)據(jù)找到合適的分析方法;3.具備在不同的業(yè)務(wù)場(chǎng)景能夠找到合適模型進(jìn)行分析的能力;4.具備撰寫完整數(shù)據(jù)分析報(bào)告的能力;5.具備使用Python進(jìn)行數(shù)據(jù)建模的能力。核心目標(biāo)職業(yè)素養(yǎng)1.培養(yǎng)描述性分析習(xí)慣,對(duì)處理完后的數(shù)據(jù)進(jìn)行初步分析;2.養(yǎng)成專業(yè)業(yè)務(wù)素養(yǎng),根據(jù)專業(yè)業(yè)務(wù)選定數(shù)據(jù)分析方法;3.培養(yǎng)數(shù)據(jù)建模思維;4.培養(yǎng)全局思維、合作思維。知識(shí)圖譜項(xiàng)目背景學(xué)習(xí)完數(shù)據(jù)預(yù)處理之后,小張開始對(duì)他爬取得到的進(jìn)行了幾種數(shù)據(jù)預(yù)處理操作,將最開始混亂的數(shù)據(jù)表格轉(zhuǎn)化為清晰整潔的數(shù)據(jù)表格?,F(xiàn)在,小張可以開始學(xué)習(xí)正式的數(shù)據(jù)分析相關(guān)的知識(shí)了,小張即將邁出走向數(shù)據(jù)分析師最關(guān)鍵的一步。在本項(xiàng)目中,小張需要學(xué)習(xí)數(shù)據(jù)的特征描述,以及如何與實(shí)際的業(yè)務(wù)場(chǎng)景相結(jié)合,然后進(jìn)一步學(xué)習(xí)相關(guān)的統(tǒng)計(jì)量以及統(tǒng)計(jì)分布最后嘗試自己進(jìn)行統(tǒng)計(jì)建模。除此之外,小張還需要與實(shí)際業(yè)務(wù)結(jié)合,了解業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法以及數(shù)據(jù)分析報(bào)告的撰寫方法。0102線性回歸法的基本原理線性回歸法的應(yīng)用問題引入小張已經(jīng)在前文學(xué)習(xí)了方便快捷的數(shù)據(jù)描述性分析,并且已經(jīng)知道了如何根據(jù)不同的業(yè)務(wù)場(chǎng)景與經(jīng)營(yíng)目標(biāo)選擇不同的數(shù)據(jù)分析方法,不過他還沒有學(xué)習(xí)到一個(gè)完整的數(shù)據(jù)建模的過程。盡管數(shù)據(jù)的描述性分析可以幫助小張初步提取數(shù)據(jù)中的有效信息,但這還不夠,如果需要更進(jìn)一步的數(shù)據(jù)分析,小張必須學(xué)習(xí)如何對(duì)數(shù)據(jù)建立模型進(jìn)行分析,并從中獲取更加有效的信息以及結(jié)論。認(rèn)知實(shí)踐本任務(wù)主要使用的函數(shù)及變量屬性如表5-2所示。其中主要使用了pandas庫(kù)、random庫(kù)、numpy庫(kù)以及sklearn庫(kù)的LinerRegression和train_test_split方法,使用importpandasaspdimportnumpyasnpimportrandomfromsklearnimportLinerRegressionformsklearnimporttrain_test_split導(dǎo)入。其中random是一個(gè)專門提供隨機(jī)數(shù)的庫(kù),其他的庫(kù)在上文已有提及或在下文中詳細(xì)介紹。此處通過LinerRegression方法擬合得到的模型其變量名記為reg。認(rèn)知實(shí)踐代碼用途df.corr()求相關(guān)系數(shù)random.uniform()獲取一個(gè)隨機(jī)數(shù)np.array()創(chuàng)建array數(shù)組array.reshape()改變array數(shù)組形狀train_test_split()劃分訓(xùn)練集與測(cè)試集LinearRegression().fit()擬合線性回歸模型reg.predict()使用模型進(jìn)行預(yù)測(cè)reg.coef_獲取模型的系數(shù)ercept_獲取模型的截距reg.score()獲取模型的R方值表5-2本節(jié)所出現(xiàn)的新函數(shù)及變量屬性線性回歸法的基本原理01一、線性回歸法的基本原理在1875年,高爾頓想通過進(jìn)行對(duì)豌豆的實(shí)驗(yàn)來確定植物尺寸的遺傳規(guī)律。他挑選了7組尺寸不一的豌豆,并找到他在英國(guó)不同地區(qū)的朋友,同時(shí)對(duì)每一組各種下10粒種子,然后將原來的豌豆種子(下稱父帶)與新長(zhǎng)出的豌豆種子(下稱子代)的尺寸進(jìn)行對(duì)比。弗朗西斯·高爾頓一、線性回歸法的基本原理向平均回歸父代大小子代小大豌豆實(shí)驗(yàn)人們將事物極端性的減弱趨勢(shì)稱為“回歸效應(yīng)”。極端性:指事物高于或低于它所在總體的平均值,在高爾頓的實(shí)驗(yàn)中父代的豌豆就是尺寸不一,有的高于均值有的低于均值,這就是極端性的表現(xiàn),而子代出現(xiàn)的現(xiàn)象正是其極端性減弱的表現(xiàn)。一、線性回歸法的基本原理如在身高上,非常矮小的父輩通常會(huì)有偏高的子代,而非常高大的父輩則通常會(huì)有偏矮的子代,當(dāng)然這是相對(duì)于他們的父輩而言的。此外,在班級(jí)的考試中,成績(jī)最差的同學(xué)在下一次的考試中傾向于會(huì)有更好的成績(jī),而成績(jī)最好的同學(xué)在下一次的考試中傾向于會(huì)有較差的成績(jī),這也是回歸效應(yīng)的現(xiàn)象之一。圖5-9回歸現(xiàn)象回歸效應(yīng)遠(yuǎn)遠(yuǎn)不止能用在豌豆甚至不止用在植物上??荚嚦煽?jī)回歸現(xiàn)象一、線性回歸法的基本原理回歸分析是處理變量之間關(guān)系的一種統(tǒng)計(jì)方法一元回歸:研究?jī)蓚€(gè)變量之間的關(guān)系(x與y)二元回歸以及多元回歸:研究三個(gè)及三個(gè)以上變量間的關(guān)系根據(jù)變量之間關(guān)系形態(tài)的不同,又可以分為線性回歸與非線性回歸兩類一、線性回歸法的基本原理(一)變量之間的關(guān)系強(qiáng)度在許多業(yè)務(wù)場(chǎng)景中,都要對(duì)變量之間的關(guān)系進(jìn)行研究分析,如廣告支出與銷售量之間的關(guān)系,如果了解了它們之間的關(guān)系,就可以通過控制廣告支出的費(fèi)用來得到預(yù)期的銷售量。變量之間的關(guān)系可以分為兩種,分別是函數(shù)關(guān)系與相關(guān)關(guān)系。一、線性回歸法的基本原理(一)變量之間的關(guān)系強(qiáng)度函數(shù)關(guān)系與在數(shù)學(xué)中學(xué)習(xí)的一樣,有一個(gè)x就一定對(duì)應(yīng)一個(gè)y,即y=f(x)的形式,其中y為因變量,x為自變量。但在實(shí)際問題中,變量之間往往不是一一對(duì)應(yīng)的,一個(gè)變量可能是許多其他變量以及外界因素相互疊加影響得到的結(jié)果。一、線性回歸法的基本原理(一)變量之間的關(guān)系強(qiáng)度如茶葉的產(chǎn)量,其不止與季節(jié)有關(guān),還和土壤、施肥量、采摘手法等等因素相關(guān),不能找到一一對(duì)應(yīng)的關(guān)系,但產(chǎn)量與季節(jié)是一定有關(guān)系的,這種關(guān)系就稱為相關(guān)關(guān)系,是區(qū)別于函數(shù)關(guān)系的存在。季節(jié)土壤施肥量采摘手法一、線性回歸法的基本原理(一)變量之間的關(guān)系強(qiáng)度在線性回歸法中,主要關(guān)注的是變量之間線性的關(guān)系。變量之間的關(guān)系可以通過散點(diǎn)圖來直觀觀察(在第六章中詳細(xì)介紹),以及通過線性相關(guān)系數(shù)的計(jì)算來衡量。一、線性回歸法的基本原理(一)變量之間的關(guān)系強(qiáng)度線性相關(guān)系數(shù)的值在-1與1之間系數(shù)絕對(duì)值的大小度量了兩個(gè)變量之間相關(guān)強(qiáng)度的大小。當(dāng)線性相關(guān)系數(shù)為-1或1時(shí)為完全線性,也就是函數(shù)關(guān)系,但大部分的變量線性相關(guān)系數(shù)都達(dá)不到-1或1。一、線性回歸法的基本原理(一)變量之間的關(guān)系強(qiáng)度若線性相關(guān)系數(shù)為正則稱兩個(gè)變量為正相關(guān),當(dāng)其中一個(gè)變量增加時(shí),另一個(gè)變量也會(huì)增加;若系數(shù)為負(fù),則稱兩個(gè)變量負(fù)相關(guān),當(dāng)其中一個(gè)變量增加時(shí),另一個(gè)變量就會(huì)減少。在Python中可以很方便的實(shí)現(xiàn)線性相關(guān)系數(shù)的計(jì)算,此處使用Python生成的數(shù)據(jù)作為示例,使用的代碼及輸出結(jié)果如例5-4所示。一、線性回歸法的基本原理(一)變量之間的關(guān)系強(qiáng)度例5-4代碼importpandasaspd#導(dǎo)入pandas庫(kù)并命名為pdimportrandom#導(dǎo)入random庫(kù)x=[1,2,3,4]#定義列表xy=[i*3+2foriinx]#定義y列表,為x中的元素乘3加2df=pd.DataFrame({'x':x,'y':y})#定義DataFrame對(duì)象,數(shù)據(jù)為x和yprint(df.corr())#輸出x與y的相關(guān)系數(shù)矩陣y2=[i*3+2+random.uniform(-1,1)foriinx]#定義一個(gè)y2列表,為x中的元素乘3加2再加上一個(gè)-1到1之間的隨機(jī)數(shù)df2=pd.DataFrame({'x':x,'y2':y2})#定義DataFrame對(duì)象,數(shù)據(jù)為x和y2print(df2.corr())#輸出x與y2的相關(guān)系數(shù)矩陣輸出結(jié)果xyx1.01.0y1.01.0x

y2x1.0000000.995357y20.9953571.000000一、線性回歸法的基本原理(一)變量之間的關(guān)系強(qiáng)度說明:第一次x與y之間的相關(guān)系數(shù)為1,這是因?yàn)閥完全是由x經(jīng)過線性變換得到的(即加減乘除)。第二次x與y2之間的相關(guān)系數(shù)為0.995357,不為1,這是因?yàn)榧尤肓穗S機(jī)數(shù)的干擾,在實(shí)際中這樣的干擾因素會(huì)有很多所以大部分的變量都不會(huì)是函數(shù)關(guān)系而是相關(guān)關(guān)系的。一、線性回歸法的基本原理(二)變量之間的數(shù)量關(guān)系相關(guān)系數(shù)只是度量?jī)蓚€(gè)變量之間的有無關(guān)系,有多強(qiáng)的關(guān)系,而回歸分析可以度量變量之間的數(shù)量關(guān)系,并通過一定的數(shù)學(xué)表達(dá)式的形式將這種關(guān)系描述出來,如例5-4中y2的數(shù)據(jù)可以用y2=3x+2來表示,但是有一定的偏差?;貧w分析的目的:找到一個(gè)表達(dá)式使得對(duì)所有數(shù)據(jù)偏差的和最小。一、線性回歸法的基本原理(二)變量之間的數(shù)量關(guān)系在進(jìn)行回歸分析時(shí),與數(shù)學(xué)中學(xué)習(xí)函數(shù)類似,需要先確定哪個(gè)變量是因變量,通常用y表示,以及哪個(gè)變量是自變量或在多元回歸中哪些變量是自變量,通常用x來表示,在多元中可用x1,x2,x3等來表示。一、線性回歸法的基本原理(二)變量之間的數(shù)量關(guān)系在一元回歸分析中因變量與自變量都只有一個(gè),可用用如式(5.7)的模型來表示。其中:a和b是未知數(shù),是根據(jù)已有的數(shù)據(jù)擬合而來??代表隨機(jī)誤差,反映x和y之間存在的線性關(guān)系之外的隨機(jī)因素的干擾或影響一、線性回歸法的基本原理(二)變量之間的數(shù)量關(guān)系圖上的圓點(diǎn)代表已知的數(shù)據(jù)直線代表使用已知數(shù)據(jù)擬合出來的未知數(shù)a和b確定的直線虛線代表x值確定的情況下,擬合出來的直線上的值與真實(shí)值的差距圖5-10最小二乘法示意圖確定a與b的值一般用最小二乘法,如圖5-2所示:最小二乘法的目的:找到使得所有直線距離的和加起來最小的a和b的值。線性回歸法的應(yīng)用02二、線性回歸法的應(yīng)用(一)一元線性回歸刪去品牌、商品名、建議茶具、采摘要求、采摘地、類別、生產(chǎn)許可證號(hào)、產(chǎn)品標(biāo)準(zhǔn)號(hào)、好評(píng)率和網(wǎng)址等屬性。刪除含缺失值的行以及重復(fù)行。將商品毛重和凈含量單位轉(zhuǎn)化為kg。將儲(chǔ)存方法計(jì)數(shù),需要幾種儲(chǔ)存方法對(duì)應(yīng)數(shù)字幾。將保質(zhì)期轉(zhuǎn)化為以月為單位。將全部評(píng)價(jià)、好評(píng)、中評(píng)和差評(píng)單位全部轉(zhuǎn)化為1條。將發(fā)酵程度、包裝形式進(jìn)行獨(dú)熱編碼。將所有的屬性值都轉(zhuǎn)化為數(shù)值型。了解了線性回歸法的原理,接下來用具體的例子來講解其應(yīng)用。針對(duì)線性回歸法的數(shù)據(jù)要求,小張對(duì)茶葉品類數(shù)據(jù)進(jìn)行了如下預(yù)處理:二、線性回歸法的應(yīng)用(一)一元線性回歸例5-5輸出結(jié)果圖5-11預(yù)處理之后的數(shù)據(jù)二、線性回歸法的應(yīng)用(一)一元線性回歸Scikit-learn(簡(jiǎn)稱sklearn)是一個(gè)開源的機(jī)器學(xué)習(xí)庫(kù),它支持有監(jiān)督和無監(jiān)督的學(xué)習(xí),線性回歸正是有監(jiān)督學(xué)習(xí)模型的其中一種。此外,它還提供了用于模型擬合,數(shù)據(jù)預(yù)處理,模型選擇和評(píng)估以及許多其他實(shí)用程序的各種工具。在Python中一般不直接調(diào)用整個(gè)sklearn庫(kù),而時(shí)直接調(diào)用它的某些方法,使用的代碼為fromsklearnimportxxx。在Python中進(jìn)行線性回歸主要用到sklearn庫(kù)中的LinerRegression方法。二、線性回歸法的應(yīng)用(一)一元線性回歸使用進(jìn)行線性回歸建模的主要步驟有:讀取數(shù)據(jù)。將數(shù)據(jù)劃分為因變量X與自變量Y兩部分。將X、Y劃分為訓(xùn)練集與測(cè)試集共四個(gè)部分,即X的訓(xùn)練集、X的測(cè)試集、Y的訓(xùn)練集和Y的測(cè)試集四部分。訓(xùn)練集是為了找到合適的線性模型,而測(cè)試集是為了檢驗(yàn)訓(xùn)練集所找到的模型準(zhǔn)確性有多高而存在的。將X訓(xùn)練集與Y訓(xùn)練集傳入LinerRegression方法中進(jìn)行模型的擬合從而得到模型。假設(shè)Y測(cè)試集是不知道的,用X測(cè)試集代入擬合的模型中得到Y(jié)測(cè)試集的擬合值。通過Y測(cè)試集的擬合值與Y測(cè)試集的比較得到衡量模型準(zhǔn)確性的指標(biāo)R方,R方代表回歸方程能夠解釋因變量對(duì)自變量影響的部分,R方越接近1說明方程擬合的效果越好。畫出Y測(cè)試集的擬合值與Y測(cè)試集的比較圖像(此步驟可去)。二、線性回歸法的應(yīng)用(一)一元線性回歸由于商品的全部評(píng)價(jià)包含了商品的好評(píng)、中評(píng)、差評(píng)以及用戶未作出的評(píng)價(jià),故在案例中將全部評(píng)價(jià)的值看作商品的銷量,以商品的銷量作為因變量Y,首先進(jìn)行一元線性回歸,使用價(jià)格作為自變量X,使用的代碼與輸出結(jié)果如例5-6所示。例5-6輸出結(jié)果[44.4281201]74416.51367121126-0.0047959977385665375二、線性回歸法的應(yīng)用(一)一元線性回歸說明:由輸出結(jié)果可以看出得到的模型為y=44.4281201x+74416.51367121126,但是可以看到R方的值小于0,說明模型并沒有參考意義,且圖像中兩條曲線差距較大,說明擬合的并不好。圖5-12一元回歸Y實(shí)際值與擬合值的對(duì)比二、線性回歸法的應(yīng)用(二)多元線性回歸下面再進(jìn)行多個(gè)因變量即多元線性回歸進(jìn)行擬合,建模步驟基本一致,只是因變量的個(gè)數(shù)增加了,使用的代碼及輸出結(jié)果如例5-7所示。例5-7[4.81459195e+031.91114333e+04-4.58501608e+021.59723690e+00-1.74588875e+001.00240667e+001.25898647e+02-1.16157909e+02-7.34951405e+031.22731003e+044.79654401e+03-1.26984251e+03-8.45028779e+031.06073499e+03-6.62905522e+02-4.64817134e+034.14144644e+038.14954774e+03-8.04065231e+03]8690.9685474139110.943547034130466輸出結(jié)果二、線性回歸法的應(yīng)用(二)多元線性回歸圖5-13多元回歸Y實(shí)際值與擬合值的對(duì)比說明:其中e+03等標(biāo)記為科學(xué)計(jì)數(shù)法,+后面的數(shù)值代表10的幾次方,如1e+03代表1×103。由輸出結(jié)果可以看出得到的函數(shù)模型為y=4.81459195×103x1+1.91114333×104x2+......+8690.968547413911可以看到R方的值為0.94多,接近1,說明擬合程度較好,模型較為準(zhǔn)確,且圖像中兩條曲線較為類似,說明擬合結(jié)果較好。對(duì)比一元回歸與多元回歸,可以看到多元回歸得到的結(jié)果明顯優(yōu)于一元回歸,這說明茶葉商品的銷量可能與多種因素相關(guān),且對(duì)于擬合較好的模型,可以給定自變量的值以得到較為準(zhǔn)確的因變量的值即產(chǎn)品的銷量,這樣可以通過控制某些屬性以得到較高銷售量的茶葉商品。探討實(shí)踐理解回歸分析法的原理,梳理回歸分析法的應(yīng)用流程。拓展訓(xùn)練嘗試對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化等更多的預(yù)處理操作,觀察是否能得到更加優(yōu)良的線性回歸模型。謝謝觀看項(xiàng)目五數(shù)據(jù)分析《大數(shù)據(jù)技術(shù)應(yīng)用基礎(chǔ)》模塊三

業(yè)務(wù)數(shù)據(jù)分析核心目標(biāo)職業(yè)能力1.熟悉常用的數(shù)據(jù)描述性分析方法,理解數(shù)據(jù)特征、統(tǒng)計(jì)參數(shù)、統(tǒng)計(jì)量與統(tǒng)計(jì)分布之間的關(guān)系;2.具備使用數(shù)據(jù)描述性分析的能力,能夠?qū)︻A(yù)處理后的數(shù)據(jù)找到合適的分析方法;3.具備在不同的業(yè)務(wù)場(chǎng)景能夠找到合適模型進(jìn)行分析的能力;4.具備撰寫完整數(shù)據(jù)分析報(bào)告的能力;5.具備使用Python進(jìn)行數(shù)據(jù)建模的能力。職業(yè)素養(yǎng)1.培養(yǎng)描述性分析習(xí)慣,對(duì)處理完后的數(shù)據(jù)進(jìn)行初步分析;2.養(yǎng)成專業(yè)業(yè)務(wù)素養(yǎng),根據(jù)專業(yè)業(yè)務(wù)選定數(shù)據(jù)分析方法;3.培養(yǎng)數(shù)據(jù)建模思維;4.培養(yǎng)全局思維、合作思維。知識(shí)圖譜項(xiàng)目背景學(xué)習(xí)完數(shù)據(jù)預(yù)處理之后,小張開始對(duì)他爬取得到的進(jìn)行了幾種數(shù)據(jù)預(yù)處理操作,將最開始混亂的數(shù)據(jù)表格轉(zhuǎn)化為清晰整潔的數(shù)據(jù)表格?,F(xiàn)在,小張可以開始學(xué)習(xí)正式的數(shù)據(jù)分析相關(guān)的知識(shí)了,小張即將邁出走向數(shù)據(jù)分析師最關(guān)鍵的一步。在本項(xiàng)目中,小張需要學(xué)習(xí)數(shù)據(jù)的特征描述,以及如何與實(shí)際的業(yè)務(wù)場(chǎng)景相結(jié)合,然后進(jìn)一步學(xué)習(xí)相關(guān)的統(tǒng)計(jì)量以及統(tǒng)計(jì)分布最后嘗試自己進(jìn)行統(tǒng)計(jì)建模。除此之外,小張還需要與實(shí)際業(yè)務(wù)結(jié)合,了解業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法以及數(shù)據(jù)分析報(bào)告的撰寫方法。0102業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法數(shù)據(jù)分析報(bào)告的撰寫方法問題引入學(xué)習(xí)了數(shù)據(jù)的描述性統(tǒng)計(jì)分析,小張已經(jīng)可以初步完成一個(gè)較為完整的數(shù)據(jù)分析任務(wù)了。數(shù)據(jù)分析的方法很多,但是光學(xué)會(huì)數(shù)據(jù)分析的各種方法與流程是遠(yuǎn)遠(yuǎn)不夠的,更重要的是學(xué)會(huì)在不同的業(yè)務(wù)場(chǎng)景下選擇不同的經(jīng)營(yíng)目標(biāo),并且還需要可以寫出能夠讓業(yè)務(wù)人員或決策人員清楚明了的數(shù)據(jù)分析報(bào)告,以輔助業(yè)務(wù)決策的正確制定與高效實(shí)施。接下來小張將學(xué)習(xí)如何根據(jù)不同的業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)選擇不同的數(shù)據(jù)分析方法,并在完成數(shù)據(jù)分析之后如何編寫令人滿意的數(shù)據(jù)分析報(bào)告書。業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法01一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法小明在本科學(xué)習(xí)了許多數(shù)據(jù)分析的方法,在大四的時(shí)候小明進(jìn)入一家公司進(jìn)行畢業(yè)實(shí)習(xí),在一次任務(wù)中,小明打算使用深度學(xué)習(xí)算法訓(xùn)練一個(gè)完美的模型,但是卻發(fā)現(xiàn)可以使用的數(shù)據(jù)只有星星點(diǎn)點(diǎn),使用了其他模型得出的結(jié)論給了上級(jí)之后,上級(jí)卻說實(shí)現(xiàn)的幾率不大,即使實(shí)現(xiàn)了投入產(chǎn)出比也不大。由此看出在進(jìn)行數(shù)據(jù)分析之時(shí)了解業(yè)務(wù)場(chǎng)景與經(jīng)營(yíng)目標(biāo)是非常重要的。一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(一)業(yè)務(wù)場(chǎng)景指企業(yè)和商家需要在用戶某個(gè)特定的環(huán)節(jié)中,適時(shí)提供給消費(fèi)者可能需要的以及關(guān)聯(lián)的產(chǎn)品或服務(wù)。業(yè)務(wù)場(chǎng)景連接器商家和消費(fèi)者平臺(tái)商和供應(yīng)商企業(yè)和客戶一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(一)業(yè)務(wù)場(chǎng)景一個(gè)業(yè)務(wù)場(chǎng)景總是可以通過“誰”,“在什么環(huán)境下”,“干什么或遇到什么問題”,“如何互動(dòng)”,“有何價(jià)值”這五個(gè)要素綜合進(jìn)行表述。1.“誰”:業(yè)務(wù)場(chǎng)景中的主體,是業(yè)務(wù)的參與者,常用人或者系統(tǒng)來描述。2.“在什么環(huán)境下”:業(yè)務(wù)發(fā)生的時(shí)間、空間或者狀態(tài)等。3.“干什么或遇到什么問題”:主要事件,主體完成的事情,可以用任務(wù)序列來描述。4.“如何互動(dòng)”:人與業(yè)務(wù)的連接方式,它們的中介是什么,用產(chǎn)品的介質(zhì)或服務(wù)形態(tài)進(jìn)行描述。5.“有何價(jià)值”:業(yè)務(wù)完成的目標(biāo),回答了這一業(yè)務(wù)場(chǎng)景的價(jià)值是什么。一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(一)業(yè)務(wù)場(chǎng)景一個(gè)復(fù)雜的業(yè)務(wù)場(chǎng)景可以被結(jié)構(gòu)成幾個(gè)獨(dú)立的元素。百度引擎搜索問題場(chǎng)景業(yè)務(wù)主體:用戶環(huán)境:互聯(lián)網(wǎng)上或?yàn)g覽器中事件:搜索互動(dòng):搜索框進(jìn)行互動(dòng)價(jià)值:用戶得到想查找的問題答案一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(二)經(jīng)營(yíng)目標(biāo)經(jīng)營(yíng)目標(biāo)是企業(yè)愿景的具體化體現(xiàn),是企業(yè)在一定時(shí)期內(nèi)對(duì)生產(chǎn)經(jīng)營(yíng)活動(dòng)的具體的預(yù)期。經(jīng)營(yíng)目標(biāo)(包括不限于)01培養(yǎng)忠誠(chéng)的客戶05員工的能力不斷地增長(zhǎng)03在行業(yè)內(nèi)具有領(lǐng)導(dǎo)地位02獲得合理的利潤(rùn)04企業(yè)產(chǎn)值或企業(yè)規(guī)模持續(xù)地增長(zhǎng)提高團(tuán)隊(duì)領(lǐng)導(dǎo)力和承擔(dān)好相應(yīng)的社會(huì)責(zé)任06不同經(jīng)營(yíng)目標(biāo)反映企業(yè)對(duì)未來的不同預(yù)期一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法預(yù)測(cè)模型分類模型聚類模型

監(jiān)督模型與非監(jiān)督模型

參數(shù)模型與非參數(shù)模型

生成模型與判別模型數(shù)據(jù)分析模型一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法監(jiān)督模型與非監(jiān)督模型01按照數(shù)據(jù)集中是否存在因變量的數(shù)據(jù)劃分中間類別即半監(jiān)督模型例如:一位茶葉經(jīng)銷商想通過往年的茶葉產(chǎn)量數(shù)據(jù)來預(yù)測(cè)今年的茶葉產(chǎn)量。往年茶葉產(chǎn)量都已知,則可以選擇使用監(jiān)督模型進(jìn)行分析;不知往年產(chǎn)量,只有一些土壤、季節(jié)和施肥之類的信息,則需要使用無監(jiān)督模型進(jìn)行分析;過去一些年份的產(chǎn)量數(shù)據(jù)已知,但近些年的產(chǎn)量數(shù)據(jù)未知,則可以使用半監(jiān)督模型進(jìn)行分析。無監(jiān)督學(xué)習(xí)的模型訓(xùn)練相對(duì)困難,半監(jiān)督模型比無監(jiān)督模型更常用。一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法生成模型與判別模型02判別模型生成模型監(jiān)督模型相同:數(shù)據(jù)集中都包含因變量的數(shù)據(jù)不同:判別模型只關(guān)心新的樣本數(shù)據(jù)所對(duì)應(yīng)的因變量的值,而生產(chǎn)模型還關(guān)心因變量的完整統(tǒng)計(jì)分布。一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法生成模型與判別模型02例如:需要一個(gè)模型來辨認(rèn)紅茶和綠茶。會(huì)從已有的數(shù)據(jù)中學(xué)習(xí),然后提取新茶葉的特征來預(yù)測(cè)出是紅茶的概率和是綠茶的概率分別是多少。會(huì)從已有的數(shù)據(jù)中分別學(xué)習(xí)一個(gè)綠茶模型和一個(gè)紅茶模型,然后將新茶葉的特征分別放入兩個(gè)模型中得到概率,哪個(gè)概率大新的茶葉就屬于哪種類別。判別模型生成模型一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法生成模型與判別模型02關(guān)注的是數(shù)據(jù)的完整分布,學(xué)習(xí)到的數(shù)據(jù)信息更多,而不只是一個(gè)預(yù)測(cè)的數(shù)值,故生成模型訓(xùn)練所需要的成本較高,且需要的數(shù)據(jù)量更大。只關(guān)注數(shù)據(jù)之間的差異信息,并不關(guān)注數(shù)據(jù)的分布,故需要的訓(xùn)練成本較低,即使沒有大的數(shù)據(jù)量也可以訓(xùn)練的較好。生成模型判別模型一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法生成模型與判別模型02數(shù)據(jù)量較大且具備一定的時(shí)間以及硬件條件時(shí)數(shù)據(jù)量較小或時(shí)間以及硬件條件較差時(shí)在一定的條件下生成模型可以轉(zhuǎn)化為判別模型,但判別模型是無法轉(zhuǎn)化為生成模型的。生成模型判別模型一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法參數(shù)模型與非參數(shù)模型03通常假設(shè)數(shù)據(jù)服從某種分布,這個(gè)分布可以由某一些參數(shù)組成。對(duì)分布的假設(shè)不加限制,故對(duì)分布的參數(shù)也沒有限制。參數(shù)模型非參數(shù)模型一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法參數(shù)模型與非參數(shù)模型03通常給定模型目標(biāo)函數(shù)的類型。例如:一元回歸分析的目標(biāo)函數(shù)為Y=aX+ba和b為預(yù)先設(shè)定的參數(shù),訓(xùn)練模型實(shí)質(zhì)上就是確定a和b的值。參數(shù)模型間接移動(dòng),由于目標(biāo)函數(shù)類型的確定也具備可解釋性以及可理解性。且由于參數(shù)數(shù)量有限,訓(xùn)練速度很快并且不需要大量的數(shù)據(jù)。參數(shù)模型一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法參數(shù)模型與非參數(shù)模型03通常不對(duì)模型的目標(biāo)函數(shù)形式做假定,通過對(duì)大量的數(shù)據(jù)進(jìn)行訓(xùn)練,擬合出某種形式的目標(biāo)函數(shù)。例如:神經(jīng)網(wǎng)絡(luò)中參數(shù)量很多,通過對(duì)數(shù)據(jù)的擬合可以確定哪些參數(shù)是需要的,為什么樣的值,哪些參數(shù)是可以放棄的,以此來得到一個(gè)最優(yōu)的模型。非參數(shù)模型可以對(duì)數(shù)據(jù)擬合的能力比參數(shù)模型更強(qiáng),但由于參數(shù)量眾多,通常不能弄清楚每一個(gè)參數(shù)的含義,且訓(xùn)練速度比參數(shù)模型慢得多,也需要大量的數(shù)據(jù)做支撐。非參數(shù)模型一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法預(yù)測(cè)模型、分類模型和聚類模型04例如:茶葉經(jīng)銷商想了解下一個(gè)季度茶葉的產(chǎn)量大概會(huì)是多少,他可以訓(xùn)練一個(gè)預(yù)測(cè)模型,輸入以往季度的產(chǎn)量等數(shù)據(jù),就可以預(yù)測(cè)出下一個(gè)季度可能的產(chǎn)量,以此做參考,決定他的供銷策略。按照模型的目的不同,可以分為預(yù)測(cè)模型、分類模型與聚類模型。預(yù)測(cè)模型

指對(duì)未來數(shù)據(jù)的預(yù)測(cè)。一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)間的分析方法(三)合適的數(shù)據(jù)分析方法預(yù)測(cè)模型、分類模型和聚類模型04例如:茶葉行業(yè)對(duì)茶葉商品分了等級(jí),通過對(duì)茶葉的各種屬性進(jìn)行評(píng)判,已確定該茶葉屬于哪一個(gè)等級(jí)。這其中每一個(gè)等級(jí)就是一個(gè)類別,茶葉的屬性為新的輸出數(shù)據(jù),茶葉的評(píng)判標(biāo)準(zhǔn)就相當(dāng)于已經(jīng)訓(xùn)練好的分類模型。分類模型

將不同的數(shù)據(jù)歸到某一個(gè)類別中。一、業(yè)務(wù)場(chǎng)景和經(jīng)營(yíng)目標(biāo)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論