自行車市場(chǎng)前景預(yù)測(cè)分析報(bào)告_第1頁(yè)
自行車市場(chǎng)前景預(yù)測(cè)分析報(bào)告_第2頁(yè)
自行車市場(chǎng)前景預(yù)測(cè)分析報(bào)告_第3頁(yè)
自行車市場(chǎng)前景預(yù)測(cè)分析報(bào)告_第4頁(yè)
自行車市場(chǎng)前景預(yù)測(cè)分析報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2010015223信管1001文東自行車市場(chǎng)前景預(yù)測(cè)分析報(bào)告問(wèn)題分析影響自行車購(gòu)買的因素有很多,如何根據(jù)銷售歷史數(shù)據(jù)找出目標(biāo)客戶群,是生產(chǎn)和銷售部門收益、獲利,實(shí)現(xiàn)其價(jià)值的一大難題;怎樣通過(guò)對(duì)歷史銷售數(shù)據(jù)進(jìn)行分析,提煉出有效信息來(lái)幫助鎖定目標(biāo)客戶群已經(jīng)成為實(shí)現(xiàn)其利益最大化的一大法寶。研究目標(biāo)通過(guò)對(duì)問(wèn)題實(shí)質(zhì)性的分析和提煉,運(yùn)用數(shù)據(jù)挖掘(DataMining)技術(shù)來(lái)實(shí)現(xiàn)對(duì)現(xiàn)有數(shù)據(jù)的分析,挖掘出有價(jià)值的信息,用來(lái)指導(dǎo)產(chǎn)品市場(chǎng)的投放和根據(jù)預(yù)測(cè)對(duì)未來(lái)的發(fā)展強(qiáng)勁做出展望,為決策提供支撐依據(jù)。數(shù)據(jù)分析評(píng)估1、Microsoft決策樹分析Microsoft決策樹算法是一種適合預(yù)測(cè)性建模的分類算法,該算法支持離散屬性和連續(xù)屬性的預(yù)測(cè)。對(duì)于離散屬性,該算法根據(jù)數(shù)據(jù)集中輸入列之間的關(guān)系進(jìn)行預(yù)測(cè)。它使用這些列的值或狀態(tài)預(yù)測(cè)指定的可預(yù)測(cè)列的狀態(tài);具體地說(shuō),該算法標(biāo)識(shí)與可預(yù)測(cè)列相關(guān)的輸入列。對(duì)于連續(xù)屬性,該算法使用線性回歸確定決策樹的拆分位置,如果有多個(gè)列設(shè)置為可預(yù)測(cè)列,或輸入數(shù)據(jù)包含設(shè)置為可預(yù)測(cè)的嵌套表,則該算法將為每個(gè)可預(yù)測(cè)列分別生成一個(gè)決策樹。Microsoft決策樹算法通過(guò)在樹中創(chuàng)建一系列拆分來(lái)生成數(shù)據(jù)挖掘模型。這些拆分以“節(jié)點(diǎn)”來(lái)表示。每當(dāng)發(fā)現(xiàn)輸入列與可預(yù)測(cè)列密切相關(guān)時(shí),該算法便會(huì)向該模型中添加一個(gè)節(jié)點(diǎn)。該算法確定拆分的方式不同,主要取決于它預(yù)測(cè)的是連續(xù)列還是離散列。Microsoft決策樹是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Microsoft決策樹算法通過(guò)獲取模型的近似后驗(yàn)分布,將Bayesian方法應(yīng)用于學(xué)習(xí)因果交互模型。決策樹算法使用不同的方法來(lái)計(jì)算最佳的樹。

所使用的方法具體取決于任務(wù),任務(wù)可為線性回歸、分類或關(guān)聯(lián)分析。

一個(gè)模型可包含多個(gè)針對(duì)不同可預(yù)測(cè)屬性的樹。

而且每個(gè)樹可包含多個(gè)分支,具體取決于數(shù)據(jù)中包含的屬性和值的量。

特定模型中生成的樹的形狀和深度取決于所使用的計(jì)分方法以及其參數(shù)。

參數(shù)更改還會(huì)影響節(jié)點(diǎn)的拆分位置。決策樹算法高效快速且可伸縮,可輕松實(shí)現(xiàn)并行化,這意味著所有處理器均可協(xié)同工作,共同生成一個(gè)一致的模型。

這些特征使決策樹分類器成為了理想的數(shù)據(jù)挖掘工具。使用1000個(gè)調(diào)查數(shù)據(jù)建立數(shù)據(jù)模型后得到的決策樹分類如下:※圖中矩形表示一個(gè)拆分節(jié)點(diǎn),矩形中文字是拆分條件?!匦晤伾顪\代表此節(jié)點(diǎn)包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點(diǎn)包含所有的1000個(gè)樣本數(shù)據(jù),顏色最深?!?jié)點(diǎn)中的條包含三種顏色,藍(lán)色、紅色和綠色,分別表示此節(jié)點(diǎn)中的事例不購(gòu)買和購(gòu)買自行車以及缺省值的比例。通過(guò)對(duì)數(shù)據(jù)樣本運(yùn)用決策樹分析后可得出在總數(shù)為1000的的樣本數(shù)據(jù)中,出去需要預(yù)測(cè)的300個(gè)數(shù)據(jù)外,購(gòu)買自行車的比例為34.58%,不買自行車的比例為35.37%。所有樣本數(shù)據(jù)經(jīng)過(guò)第一次基于地區(qū)的拆分后,所在地區(qū)為NorthAmerica的實(shí)例總計(jì)508個(gè),購(gòu)買自行車的為85個(gè),不購(gòu)買自行車的為123個(gè);所在地區(qū)不在NorthAmerica的實(shí)例總計(jì)492個(gè),購(gòu)買自行車的為261個(gè),不購(gòu)買自行車的為231個(gè);同時(shí)此時(shí)的拆分節(jié)點(diǎn)顏色較深,表明影響是否購(gòu)買自行車的主要影響因素是地域。樣本數(shù)據(jù)基于該拆分節(jié)點(diǎn)又進(jìn)行第二次拆分,孩子(Children)不等于5的實(shí)例總計(jì)451,其中購(gòu)買自行車的為255個(gè),不購(gòu)買的為196個(gè);孩子(Children)等于5的實(shí)例總計(jì)41,其中購(gòu)買自行車的為6個(gè),不購(gòu)買的為35個(gè)。接著可以通過(guò)依賴關(guān)系網(wǎng)絡(luò)來(lái)分析購(gòu)買自行車與否的影響因素,依賴關(guān)系網(wǎng)絡(luò)如下圖:通過(guò)運(yùn)用Microsoft決策樹算法進(jìn)行建模分析可以得出一下兩條結(jié)論:(1)、所在地域(NorthAmerica)是人們購(gòu)買自行車與否的關(guān)鍵影響因素;(2)、同一地域的人們購(gòu)買自行車的能力還與家庭中孩子的個(gè)數(shù)(5個(gè))有關(guān)。2、Microsoft聚類分析Microsoft聚類分析算法首先標(biāo)識(shí)數(shù)據(jù)集中的關(guān)系并根據(jù)這些關(guān)系生成一系列分類。

散點(diǎn)圖是一種非常有用的方法,可以直觀地表示算法如何對(duì)數(shù)據(jù)進(jìn)行分組,如下面的關(guān)系圖所示。

散點(diǎn)圖可以表示數(shù)據(jù)集中的所有事例,在該圖中每個(gè)事例就是一個(gè)點(diǎn)。分類對(duì)該圖中的點(diǎn)進(jìn)行分組并闡釋該算法所標(biāo)識(shí)的關(guān)系。Microsoft聚類分析算法提供兩種創(chuàng)建分類并為分類分配數(shù)據(jù)點(diǎn)的方法。第一種方法是

K-means

算法,這是一種較難的聚類分析方法。

這意味著一個(gè)數(shù)據(jù)點(diǎn)只能屬于一個(gè)分類,并會(huì)為該分類中的每個(gè)數(shù)據(jù)點(diǎn)的成員身份計(jì)算一個(gè)概率。第二種方法是“期望值最化”(EM)方法,這是“軟聚類分析”方法。

這意味著一個(gè)數(shù)據(jù)點(diǎn)總是屬于多個(gè)分類,并會(huì)為每個(gè)數(shù)據(jù)點(diǎn)和分類的組合計(jì)算一個(gè)概率。聚類分析模型標(biāo)識(shí)數(shù)據(jù)集中可能無(wú)法通過(guò)隨意觀察在邏輯上得出的關(guān)系。

例如,在邏輯上可以得知,騎自行車上下班的人的居住地點(diǎn)通常離其工作地點(diǎn)不遠(yuǎn)。

但該算法可以找出有關(guān)騎自行車上下班人員的其他并不明顯的特征。

在下面的關(guān)系圖中,分類A表示有關(guān)通常開車上班人員的數(shù)據(jù),而分類B表示通常騎自行車上班人員的數(shù)據(jù)。聚類分析算法不同于Microsoft決策樹算法等其他數(shù)據(jù)挖掘算法,區(qū)別在于無(wú)需指定可預(yù)測(cè)列便能生成聚類分析模型。

聚類分析算法嚴(yán)格地根據(jù)數(shù)據(jù)以及該算法所標(biāo)識(shí)的分類中存在的關(guān)系定型。聚類分析算法使用迭代技術(shù)將數(shù)據(jù)集中的事例分組為包含類似特征的分類。

在瀏覽數(shù)據(jù)、標(biāo)識(shí)數(shù)據(jù)中的異常及創(chuàng)建預(yù)測(cè)時(shí),這些分組十分有用。通過(guò)聚類分析我們可以很方便地得出目標(biāo)群體的潛在市場(chǎng)。將樣本數(shù)據(jù)運(yùn)用聚類分析建立如下分類關(guān)系網(wǎng):通過(guò)分類關(guān)系網(wǎng)可以得出購(gòu)買自行車最強(qiáng)的分類分別是分類10、分類2,次之為分類1、分類7。因此可以得出在未來(lái)上述分類中的人們是自行車銷售的目標(biāo)客戶。在確定了未來(lái)自行車銷售的目標(biāo)客戶后,我們還可以通過(guò)分類特征(以分類10為例)來(lái)分析目標(biāo)客戶自身購(gòu)買力的一些影響因素,如下圖所示:可以看出,在目標(biāo)客戶群體分類10中,影響顧客購(gòu)買力的因素有很多,其中關(guān)鍵影響因素有所在地區(qū)、婚姻狀況、收入、職業(yè)等,如在歐洲地區(qū)的單身男性,收入在10000~35175之間,購(gòu)買自行車的比例概率很大;然而生活在歐洲地區(qū)的單身女性、活動(dòng)范圍在0~1Miles,她們購(gòu)買自行車的概率則低很多,大約在50%左右;對(duì)于有2個(gè)孩子的家庭,收入在35176~56140之間的持家者來(lái)說(shuō),購(gòu)買自行車的概率大概在30%左右。與此同時(shí)還可以通過(guò)對(duì)比分析兩個(gè)較強(qiáng)分類的差異,從中挖掘出有力信息,分類對(duì)比如下(分類10&分類2):如收入在48887~170000之間的人群則傾向于分類10,因此對(duì)于他們應(yīng)以分類10的分類特征來(lái)分析目標(biāo)客戶自身購(gòu)買力的一些影響因素;而收入在10000~48886之間的人群則傾向于分類2,因此對(duì)于他們應(yīng)以分類2的分類特征來(lái)分析目標(biāo)客戶自身購(gòu)買力的一些影響因素。逐步縮小分類,鎖定目標(biāo)客戶。在聚類分析中還可以通過(guò)分類剖面圖來(lái)進(jìn)行更加詳細(xì)的分析,分類剖面圖如下:通過(guò)運(yùn)用Microsoft聚類分析我們可以得出如下結(jié)論:(1)、通過(guò)分析我們可以得出最有可能購(gòu)買自行車的目標(biāo)群體的條件組合,利于決策者做出市場(chǎng)決策,鎖定客戶群體:歐洲地區(qū)的單身男性,收入在10000~35175之間;歐洲地區(qū)的單身女性、活動(dòng)范圍在0~1Miles;(2)、通過(guò)分類關(guān)系網(wǎng)可以得出尚存在的潛在客戶(分類1和分類7),客戶群體在歐洲和大洋洲。3、Microsoft神經(jīng)網(wǎng)絡(luò)分析Microsoft神經(jīng)網(wǎng)絡(luò)算法組合輸入屬性的每個(gè)可能狀態(tài)和可預(yù)測(cè)屬性的每個(gè)可能狀態(tài),并使用定型數(shù)據(jù)計(jì)算概率。之后,可以根據(jù)輸入屬性,將這些概率用于分類或回歸,并預(yù)測(cè)被預(yù)測(cè)屬性的結(jié)果。使用Microsoft神經(jīng)元網(wǎng)絡(luò)算法構(gòu)造的挖掘模型可以包含多個(gè)網(wǎng)絡(luò),這取決于用于輸入和預(yù)測(cè)的列的數(shù)量,或者取決于僅用于預(yù)測(cè)的列的數(shù)量。一個(gè)挖掘模型包含的網(wǎng)絡(luò)數(shù)取決于挖掘模型使用的輸入列和預(yù)測(cè)列包含的狀態(tài)數(shù)。 神經(jīng)網(wǎng)絡(luò)模型必須包含一個(gè)鍵列、一個(gè)或多個(gè)輸入列以及一個(gè)或多個(gè)可預(yù)測(cè)列。在多層感知器神經(jīng)網(wǎng)絡(luò)中,每個(gè)神經(jīng)元可接收一個(gè)或多個(gè)輸入,并產(chǎn)生一個(gè)或多個(gè)相同的輸出。

每個(gè)輸出都是對(duì)神經(jīng)元的輸入之和的簡(jiǎn)單非線性函數(shù)。

輸入將從輸入層中的節(jié)點(diǎn)傳遞到隱藏層中的節(jié)點(diǎn),然后再?gòu)碾[藏層傳遞到輸出層;同一層中的神經(jīng)元之間沒(méi)有連接。

如果像邏輯回歸模型那樣沒(méi)有隱藏層,則輸入將會(huì)直接從輸入層中的節(jié)點(diǎn)傳遞到輸出層中的節(jié)點(diǎn)。使用Microsoft神經(jīng)網(wǎng)絡(luò)算法的數(shù)據(jù)挖掘模型與為該算法的可用參數(shù)指定的值緊密相關(guān)。這些參數(shù)定義如何對(duì)數(shù)據(jù)進(jìn)行采樣、數(shù)據(jù)在每個(gè)列中的分布方式或預(yù)期分布方式以及何時(shí)調(diào)用功能選擇以限制在最終模型中使用的值。該算法將確定挖掘模型支持的網(wǎng)絡(luò)的數(shù)目以及復(fù)雜性。

如果挖掘模型包含一個(gè)或多個(gè)僅用于預(yù)測(cè)的屬性,算法將創(chuàng)建一個(gè)代表所有這些屬性的單一網(wǎng)絡(luò)。

如果挖掘模型包含一個(gè)或多個(gè)同時(shí)用于輸入和預(yù)測(cè)的屬性,則該算法提供程序?qū)槠渲械拿總€(gè)屬性構(gòu)建一個(gè)網(wǎng)絡(luò)。算法提供程序通過(guò)接受之前保留的定型數(shù)據(jù)集并將維持?jǐn)?shù)據(jù)中的每個(gè)事例的實(shí)際已知值與網(wǎng)絡(luò)的預(yù)測(cè)進(jìn)行比較,即通過(guò)一個(gè)稱為“批學(xué)習(xí)”的進(jìn)程來(lái)同時(shí)迭代計(jì)算整個(gè)網(wǎng)絡(luò)的所有輸入的權(quán)重。

該算法處理了整個(gè)定型數(shù)據(jù)集后,將檢查每個(gè)神經(jīng)元的預(yù)測(cè)值和實(shí)際值。

該算法將計(jì)算錯(cuò)誤程度(如果有錯(cuò)誤),并調(diào)整與神經(jīng)元輸入關(guān)聯(lián)的權(quán)重,并通過(guò)一個(gè)稱為“回傳”的過(guò)程從輸出神經(jīng)元返回到輸入神經(jīng)元。

然后,該算法對(duì)整個(gè)定型數(shù)據(jù)集重復(fù)該過(guò)程。

該算法支持多個(gè)權(quán)重和輸出神經(jīng)元,因此這個(gè)共軛梯度算法用于引導(dǎo)定型過(guò)程來(lái)分配和計(jì)算輸入權(quán)重。

有關(guān)共軛梯度算法的探討不屬于本文檔的討論范圍。神經(jīng)網(wǎng)絡(luò)分析可以通過(guò)選定相關(guān)的影響因素及其取值,來(lái)分析其他影響因子的作用。如上圖所述,年齡在25~36歲之間,沒(méi)有孩子的北美家庭他們大多偏向于不購(gòu)買自行車,只有收入在77093~35186之間,教授職位,活動(dòng)范圍在2~5Miles的人們才購(gòu)買自行車,這就分析到在北美這中潛在客戶的大前提下,存在一定特征的人們?nèi)稳徊毁?gòu)買自行車,從而為決策者多提供了一份信息,避免盲目投產(chǎn)造成的經(jīng)濟(jì)損失。神經(jīng)網(wǎng)絡(luò)分析結(jié)果表明,通過(guò)確定相關(guān)屬性的值,該分析模型能夠定性計(jì)算出其他可預(yù)測(cè)的狀態(tài)值,可用于市場(chǎng)假設(shè)分析。4、MicrosoftNaiveBayes分析MicrosoftNaiveBayes算法是一種可以快速生成并且適合預(yù)測(cè)性建模的分類算法。該算法僅支持離散屬性或離散化屬性。而且在給定可預(yù)測(cè)屬性的情況下,它將所有輸入屬性都當(dāng)做獨(dú)立屬性。與其他Microsoft算法相比,該算法所需的運(yùn)算量小,因而能夠快速生成挖掘模型,以發(fā)現(xiàn)輸入列和可預(yù)測(cè)列之間的關(guān)系??梢允褂迷撍惴ㄟM(jìn)行初始數(shù)據(jù)探測(cè),然后根據(jù)該算法的結(jié)果使用其他運(yùn)算量較大、更加精確的算法創(chuàng)建其他挖掘模型。在給定可預(yù)測(cè)列的各種可能狀態(tài)的情況下,MicrosoftNaiveBayes算法將計(jì)算每個(gè)輸入列的每種狀態(tài)的概率。使用MicrosoftNaiveBayes查看器可以直觀地觀察算法分布狀態(tài)的方式。MicrosoftNaiveBayes查看器可列出數(shù)據(jù)集中的每個(gè)輸入列。如果提供了可預(yù)測(cè)列的每種狀態(tài),它還會(huì)顯示每一列中狀態(tài)的分布情況??梢岳迷撘晥D確定對(duì)區(qū)分可預(yù)測(cè)列狀態(tài)具有重要作用的輸入列。例如,在此圖中,如果某一客戶的通勤距離為一至二英里,則該客戶購(gòu)買自行車的概率是0.387,不購(gòu)買自行車的概率是0.287。在本示例中,該算法使用從諸如上下班路程之類的客戶特征得出的數(shù)字信息來(lái)預(yù)測(cè)客戶是否會(huì)購(gòu)買自行車。通過(guò)MicrosoftNaiveBayes依賴關(guān)系網(wǎng)絡(luò)圖分析課得出,影響購(gòu)買自行車的關(guān)鍵因素有三個(gè),分別是:收入、地區(qū)和職業(yè)。顯然,MicrosoftNaiveBayes模型分析比Microsoft決策樹更準(zhǔn)確,提供的信息更全面,更具有價(jià)值。我們還可以通過(guò)MicrosoftNaiveBayes的屬性特征,來(lái)進(jìn)一步有針對(duì)性、有目的地對(duì)所研究的的是否購(gòu)買自行車進(jìn)行相關(guān)屬性分析。如我們選擇購(gòu)買自行車,由此可觀察到具備什么樣特征屬性的人群具有購(gòu)買自行車的能力,結(jié)果顯示:Incomes:39050~71062Region:Europe這類人他們購(gòu)買自行車的概率為45%左右。而Incomes<39050Region:Pacific、NorthAmerica Occupation:Professional、Clerical、SkilledManual、Management這類人他們購(gòu)買自行車的概率大概為23%左右。通過(guò)屬性對(duì)比可以觀察到購(gòu)買自行車與不購(gòu)買自行車的群體之間你的差異,如上圖結(jié)果顯示:Incomes:39050~71062Region:Pacific偏向于購(gòu)買自行車,而Region:NorthAmericaIncomes<39050這類群體則不偏重于構(gòu)面自行車。以屬性配置文件可以得出個(gè)影響因素在具體的影響因子中所占的比重,如下圖所示:下面是對(duì)收入(Income)的數(shù)字展現(xiàn)形式:?Д????(?)NoYes?????/TD>10003543463000Income39050-710624820.3310.4540.6930.000Income<390502850.4120.3120.1030.000Income71062-971111290.1470.1160.1230.000Income97111-127371620.0680.0660.0500.000Income>=127371420.0420.0520.0300.000Income??00.0000.0000.0000.000OccupationProfessional2760.2200.2830.3330.000OccupationSkilledManual2550.2180.1850.3800.000OccupationClerical1770.2120.2340.0700.000Occup

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論