應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)

上傳人：活*** IP屬地：寧夏上傳時(shí)間：2021-08-25 格式：DOCX 頁(yè)數(shù)：8 大?。?2.39KB 積分：8.4 舉報(bào) 版權(quán)申訴

應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)_第2頁(yè)

應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)_第3頁(yè)

應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)_第4頁(yè)

應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)_第5頁(yè)

已閱讀5頁(yè)，還剩3頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)計(jì)算案例1,呂曉玲應(yīng)用潛在分類(lèi)泊松回歸模型及em算法分析陳述偏好數(shù)據(jù)：以網(wǎng)絡(luò)購(gòu)物使用次數(shù)為例1 .問(wèn)題提出隨著網(wǎng)絡(luò)的興起，網(wǎng)上購(gòu)物已經(jīng)在人們的生活中發(fā)揮著越來(lái)越重要的作用。網(wǎng)上購(gòu)物以其方便快捷等特點(diǎn)吸引了很多購(gòu)物者，但是也有一些人質(zhì)疑網(wǎng)上購(gòu)物安全性、不可觸摸性等問(wèn)題。影響人們選擇網(wǎng)上購(gòu)物的因素有很多，不同的人對(duì)網(wǎng)上購(gòu)物也有不同的態(tài)度。大學(xué)生是網(wǎng)絡(luò)購(gòu)物這個(gè)群體的很重要的一部分，什么因素影響大學(xué)生對(duì)網(wǎng)絡(luò)購(gòu)物的選擇？大學(xué)生由于對(duì)網(wǎng)絡(luò)購(gòu)物的態(tài)度取向不同可分為多少潛在的類(lèi)別？本文應(yīng)用陳述偏好方法(stated preference method)收集大學(xué)生網(wǎng)上購(gòu)物的數(shù)據(jù)，并應(yīng) 用潛在分類(lèi)

2、泊松回歸模型(latent class poisson regression model) 及em算法分析數(shù)據(jù)，回答以上兩個(gè)問(wèn)題。2 .數(shù)據(jù)收集源于心理學(xué)的陳述偏好調(diào)查已經(jīng)被市場(chǎng)營(yíng)銷(xiāo)中研究消費(fèi)者行為廣泛應(yīng)用。雖然在進(jìn)行每個(gè)具體研究時(shí)操作不盡相同，總的原則是事先設(shè)定兒個(gè)重要因素，每個(gè)因素有若干水平，然后提出一些假想情景，每個(gè)情景是這些因素不同水平的組合。受訪者按照他們的喜好給不同的情景打分或者排序。研究者應(yīng)用模型分析數(shù)據(jù)，尋找各因素的重要性。為了確定影響網(wǎng)絡(luò)購(gòu)物的重要因素，我們首先開(kāi)展了預(yù)調(diào)查，針對(duì)購(gòu) 買(mǎi)商品的種類(lèi)、價(jià)格、郵費(fèi)、賣(mài)家信用度、介紹商品詳細(xì)程度以及網(wǎng)上購(gòu) 物節(jié)省時(shí)間和到貨時(shí)間

3、等因素對(duì)大學(xué)生進(jìn)行了調(diào)查，并應(yīng)用簡(jiǎn)單統(tǒng)計(jì)分析得到了對(duì)網(wǎng)上購(gòu)物次數(shù)影響比較顯著的四個(gè)因素，分別是購(gòu)買(mǎi)商品的種類(lèi)、價(jià)格、賣(mài)家信譽(yù)度以及介紹商品的詳細(xì)程度。具體因素和因素水平如下所示：種類(lèi)：服飾，化妝品，文體價(jià)格：50元，100元，150元，200元，250元賣(mài)家或網(wǎng)站的信譽(yù)度：1, 2, 3, 4, 5介紹商品的詳細(xì)程度：1, 2, 3, 4, 5若每一種組合都進(jìn)行調(diào)查則共有3x5x5x5 = 225組合，在這里運(yùn)用了正交設(shè)計(jì)的方法進(jìn)行試驗(yàn)設(shè)計(jì)，共進(jìn)行75種不同的組合，將這75種組合分成25組，每組中包含3個(gè)場(chǎng)景（分別為3個(gè)不同的種類(lèi)），每一個(gè)被調(diào)查者將被給定3個(gè)不同的場(chǎng)景。每個(gè)被調(diào)查

4、者回答的問(wèn)題是在特定的場(chǎng)景能夠在十次購(gòu)物中選擇網(wǎng)上購(gòu)物的可能次數(shù)。我們總共訪問(wèn)了 197名在京大學(xué)生，得到了在588種場(chǎng)景下他們對(duì)網(wǎng)絡(luò)購(gòu)物的使用情況的有效回答。3 .模型介紹市場(chǎng)營(yíng)銷(xiāo)中常用的分析陳述偏好數(shù)據(jù)的方法是聯(lián)合分析（conjoint analysis）,我們這里使用泊松回歸模型，因?yàn)椋海?）因變量不是受訪者對(duì)場(chǎng)景的排序，而是使用網(wǎng)絡(luò)購(gòu)物的次數(shù)，它是一個(gè)取值為離散整數(shù)的變量，可以假設(shè)服從泊松分布；（2）可以對(duì)泊松回歸模型進(jìn)一步應(yīng)用潛在分類(lèi)模型分析受訪者的異質(zhì)性。我們首先介紹泊松回歸模型和潛在分類(lèi)模型，然后介紹如何應(yīng)用最大似然法和em算法估計(jì)參數(shù)。令與為第i=個(gè)個(gè)體在面臨第/（

5、/ = 1,j）種場(chǎng)景時(shí)的選擇, 服從參數(shù)為乙的泊松分布。因?yàn)閺钠骄囊饬x上來(lái)講，4取值越大意味著受訪者越傾向于多次使用網(wǎng)絡(luò)購(gòu)物，所以in4可理解為該場(chǎng)景的效用 (utility),它是這個(gè)場(chǎng)景各因素水平和受訪者個(gè)人特征的函數(shù)：卜為=%，其中：為是k維協(xié)變量，。=為,4.,&是參數(shù)，體現(xiàn)了受訪者對(duì)協(xié)變量變化的反映，如果假設(shè)它是常數(shù)，則表明受訪者是同質(zhì)的(homogeneity),但我們知道，不同受訪者對(duì)不同的協(xié)變量的重要程度看法是不一樣的，也就是說(shuō)人群有異質(zhì)性(heterogeneity),處理這種問(wèn)題的辦法是假設(shè)。為一個(gè)隨機(jī)變量，服從概率分布乃()。這里我們可以假設(shè) %(6)為一個(gè)

6、連續(xù)的多元密度函數(shù)，但由于無(wú)法判定哪種形式以及在參數(shù)估計(jì)的時(shí)候很難計(jì)算多維積分，所以一般來(lái)說(shuō)我們不采取這種方式，取而代之的是假設(shè)萬(wàn)(。)是一個(gè)離散的多元分布,取值為人然)，相應(yīng)的概率密度是肛,s = 1,s , s的大小以及0(和再的取值均由數(shù)據(jù)估計(jì)得到。我們稱(chēng)這種方法為潛在分類(lèi)模型或者離散隨機(jī)系數(shù)模型(discrete random-coefficient model)o在上述模型假定下，我們知道第i個(gè)個(gè)體在面臨第/種場(chǎng)景時(shí)，給定參數(shù)取值為優(yōu)時(shí)，泊松分布的參數(shù)4j(o,) = exp(&j+z2/g。則第i個(gè)個(gè)體 k的無(wú)條件概率密度為：3；-1y)j -(1)如果使用最大似然法估計(jì)

7、參數(shù)，樣本的似然函數(shù)可以寫(xiě)成：-1 5-1 7-1y ij(2)4.估計(jì)方法可以看到似然函數(shù)的形式很復(fù)雜，即使使用數(shù)值算法，也不容易找到全局最優(yōu)的最大似然估計(jì)。這里我們使用em算法。引入缺失變量：fl 如果第i個(gè)個(gè)體來(lái)自衰個(gè)潛在類(lèi)其他(3)假定，明的分布為獨(dú)立同分布，密度函數(shù)是肛，則，其中%乃=(即,孫)。完全對(duì)數(shù)似然函數(shù)可寫(xiě)成：s j 4(ojv,jexp(-2. (gj)4=口【口-、二,r-1 1 ”1) ij -(4)5% =4, + zt% m %j-1 y-1i-l .v-1(5)其中，甘力！應(yīng)用em算法，首先給定初始參數(shù)估計(jì)值。方,4,。之后的迭代 (。=0,1,.刀)過(guò)

8、程中，e步就是在給定觀測(cè)數(shù)據(jù)和參數(shù)估計(jì)。3只出的情況下，對(duì)完全對(duì)數(shù)似然函數(shù)以仆的分布求期望，因?yàn)?5)中完全對(duì)數(shù)似然函數(shù)是0的線性函數(shù)，所以它的期望也是期望的線性函數(shù)。為了求明給定觀測(cè)數(shù)據(jù)和參數(shù)估計(jì)。；”產(chǎn)產(chǎn)的條件期望，我們需要尋找它的條件分s5布。因?yàn)橐虻鹭?,?)=立(4“盧，g(力0，即)=4嚴(yán)5，所以以出|為,。,）=（4/.,產(chǎn)4。則。的條件期望是: 5-1j-1% =%，。, = 4/2跖5-1(6)所以在e步得到的完全對(duì)數(shù)似然函數(shù)的期望是：elnlc i功的”嫡=之二噌5% +/噌in肛 f-1 j-1/- 5-1(7)m步即是最大化（7）式得到更新的。*，龍川?？梢钥吹?

9、m 式右側(cè)第一項(xiàng)僅及。了有關(guān)，并且和式的每一項(xiàng)及一個(gè)s對(duì)應(yīng)，（7）式右側(cè)第二項(xiàng)僅及武力有關(guān)，可以單獨(dú)優(yōu)化，大大降低了似然函數(shù)的復(fù)雜度。此外，em算法所得估計(jì)量的均方誤差可以由louis公式計(jì)算而得。5.數(shù)據(jù)分析應(yīng)用上述模型分析大學(xué)生網(wǎng)絡(luò)購(gòu)物數(shù)據(jù)，首先把分類(lèi)變量（商品種類(lèi)）轉(zhuǎn)化為0、1變量，即v （1種類(lèi)為服飾v fl 種類(lèi)為化妝品一。種類(lèi)不是服飾2 - 10 種類(lèi)不是不是化妝品當(dāng)x和x2同時(shí)取。時(shí)，表示種類(lèi)為文體。我們使用bic準(zhǔn)則來(lái)確定s的取值。從開(kāi)始，模型的bic開(kāi)始下降，并且到某一值時(shí)，開(kāi)始上升。我們就選擇使得bic取最小值的s。從表1可以看出93。表2給出了模型在s=3

10、和s=1 （沒(méi)有異質(zhì)性）時(shí)的參數(shù)估計(jì)值。當(dāng)s=1（假設(shè)受訪者沒(méi)有異質(zhì)性時(shí)），受訪者整體表現(xiàn)出更傾向于多次購(gòu)買(mǎi)文體類(lèi)商品，使用次數(shù)隨商品價(jià)格下降，增加賣(mài)家或網(wǎng)站的信譽(yù)以及介紹商品的詳細(xì)程度可以增加受訪者的使用網(wǎng)絡(luò)購(gòu)物的次數(shù)。當(dāng)5二3時(shí)，可以看到受訪者分為三類(lèi)，在網(wǎng)絡(luò)購(gòu)物的使用次數(shù)上，幾個(gè)因素對(duì)這三類(lèi)受訪者有著不同的影響。根據(jù)表2的結(jié)果，第一類(lèi)受訪者（約占18. 89%）更傾向于購(gòu)買(mǎi)文體類(lèi)商品，也傾向于購(gòu)買(mǎi)價(jià)格便宜的商品，并重視賣(mài)家或網(wǎng)站的信譽(yù)程度和介紹商品的詳細(xì)情況；第二類(lèi)受訪者（約占48. 62%）不在乎商品的種類(lèi)、價(jià)格、以及介紹的詳細(xì)情況，只注重網(wǎng)站的信譽(yù)；第三類(lèi)受訪者（約占3

11、2. 49%）更傾向于購(gòu)買(mǎi)文體類(lèi)商品，不重視商品的價(jià)格和賣(mài)家或網(wǎng) 站的信譽(yù)程度，但較看重介紹商品的詳細(xì)情況。表1： bic準(zhǔn)則潛在類(lèi)別估計(jì)參數(shù)的個(gè)數(shù)-log likelihoodbic值161321. 6941340. 8242131257. 9951299. 4443201213. 4821277. 2504271203. 6211286. 518表2：參數(shù)估計(jì)值泊松回歸模型（潛在類(lèi)別s=3）泊松回歸（s=l）類(lèi)別1的類(lèi)別2的類(lèi)別3的加權(quán)均值概率p=o. 1889概率p=0. 4862概率p=0. 3249截距-0.11390. 17061. 2464*0. 46630. 5989*(0.

12、5127)(0. 1898)(0. 1959)(0. 2529)(0. 1056)類(lèi)別（服-1.8109*-0. 1476-0. 2399*-0. 4918*-0. 3221*飾）(0. 3731)(0. 1069)(0. 09600)(0. 1537)(0. 05622)類(lèi)別（化妝-2. 5615*0.01659-1. 7587*-1. 0472*-0. 7061*品）(0. 5693)(0. 09781)(0. 1894)(0. 2166)(0. 06369)商品的價(jià)-0. 5378*-0. 00466-0. 02828-0. 1131-0. 0801*格(0. 1724)(0. 0616

13、3)(0. 06243)(0. 08282)(0. 03469)賣(mài)家或網(wǎng)0. 3798*0. 2424*0. 056490. 2080*0. 1814*站的信譽(yù)度(0. 08954)(0. 03018)(0. 03384)(0. 04258)(0. 01772)介紹商品0. 1784*0. 050130. 1142*0. 09520*0. 09225*的詳細(xì)程度(0.06997)(0. 02986)(0. 03644)(0. 03957)(0. 01749)注：括號(hào)中是參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差，其中*代表0.05的顯著性水平,*代表0.01的顯著性水平。6.總結(jié)本案例應(yīng)用潛在分類(lèi)的泊松回歸模型及em算法分析了大學(xué)生對(duì)網(wǎng)絡(luò)購(gòu)物的使用情況。最終得到三類(lèi)人群，他們對(duì)商品類(lèi)型、價(jià)格、賣(mài)家或網(wǎng) 站的信譽(yù)度、以及介紹商品的詳細(xì)程度有著不同的重視程度，網(wǎng)絡(luò)營(yíng)銷(xiāo)者可以根據(jù)此結(jié)果制定不同的營(yíng)銷(xiāo)策略。此外，我們還可以進(jìn)一步根據(jù)模型估計(jì)結(jié)果得

人人文庫(kù)> 全部分類(lèi)> 生活休閑 > 科普知識(shí)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔