應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)_第1頁(yè)
應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)_第2頁(yè)
應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)_第3頁(yè)
應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)_第4頁(yè)
應(yīng)用潛在分類(lèi)泊松回歸模型及EM算法分析陳述偏好數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)計(jì)算案例1,呂曉玲應(yīng)用潛在分類(lèi)泊松回歸模型及em算法分析陳述偏好數(shù)據(jù):以網(wǎng)絡(luò)購(gòu)物使用次數(shù)為例1 .問(wèn)題提出隨著網(wǎng)絡(luò)的興起,網(wǎng)上購(gòu)物已經(jīng)在人們的生活中發(fā)揮著越來(lái)越重要的 作用。網(wǎng)上購(gòu)物以其方便快捷等特點(diǎn)吸引了很多購(gòu)物者,但是也有一些人 質(zhì)疑網(wǎng)上購(gòu)物安全性、不可觸摸性等問(wèn)題。影響人們選擇網(wǎng)上購(gòu)物的因素 有很多,不同的人對(duì)網(wǎng)上購(gòu)物也有不同的態(tài)度。大學(xué)生是網(wǎng)絡(luò)購(gòu)物這個(gè)群 體的很重要的一部分,什么因素影響大學(xué)生對(duì)網(wǎng)絡(luò)購(gòu)物的選擇?大學(xué)生由 于對(duì)網(wǎng)絡(luò)購(gòu)物的態(tài)度取向不同可分為多少潛在的類(lèi)別?本文應(yīng)用陳述偏 好方法(stated preference method)收集大學(xué)生網(wǎng)上購(gòu)物的數(shù)據(jù),并應(yīng) 用潛在分類(lèi)

2、泊松回歸模型(latent class poisson regression model) 及em算法分析數(shù)據(jù),回答以上兩個(gè)問(wèn)題。2 .數(shù)據(jù)收集源于心理學(xué)的陳述偏好調(diào)查已經(jīng)被市場(chǎng)營(yíng)銷(xiāo)中研究消費(fèi)者行為廣泛 應(yīng)用。雖然在進(jìn)行每個(gè)具體研究時(shí)操作不盡相同,總的原則是事先設(shè)定兒 個(gè)重要因素,每個(gè)因素有若干水平,然后提出一些假想情景,每個(gè)情景是 這些因素不同水平的組合。受訪者按照他們的喜好給不同的情景打分或者 排序。研究者應(yīng)用模型分析數(shù)據(jù),尋找各因素的重要性。為了確定影響網(wǎng)絡(luò)購(gòu)物的重要因素,我們首先開(kāi)展了預(yù)調(diào)查,針對(duì)購(gòu) 買(mǎi)商品的種類(lèi)、價(jià)格、郵費(fèi)、賣(mài)家信用度、介紹商品詳細(xì)程度以及網(wǎng)上購(gòu) 物節(jié)省時(shí)間和到貨時(shí)間

3、等因素對(duì)大學(xué)生進(jìn)行了調(diào)查,并應(yīng)用簡(jiǎn)單統(tǒng)計(jì)分析 得到了對(duì)網(wǎng)上購(gòu)物次數(shù)影響比較顯著的四個(gè)因素,分別是購(gòu)買(mǎi)商品的種 類(lèi)、價(jià)格、賣(mài)家信譽(yù)度以及介紹商品的詳細(xì)程度。具體因素和因素水平如 下所示:種類(lèi):服飾,化妝品,文體價(jià)格:50元,100元,150元,200元,250元賣(mài)家或網(wǎng)站的信譽(yù)度:1, 2, 3, 4, 5介紹商品的詳細(xì)程度:1, 2, 3, 4, 5若每一種組合都進(jìn)行調(diào)查則共有3x5x5x5 = 225組合,在這里運(yùn)用了正 交設(shè)計(jì)的方法進(jìn)行試驗(yàn)設(shè)計(jì),共進(jìn)行75種不同的組合,將這75種組合分 成25組,每組中包含3個(gè)場(chǎng)景(分別為3個(gè)不同的種類(lèi)),每一個(gè)被調(diào)查 者將被給定3個(gè)不同的場(chǎng)景。每個(gè)被調(diào)查

4、者回答的問(wèn)題是在特定的場(chǎng)景能 夠在十次購(gòu)物中選擇網(wǎng)上購(gòu)物的可能次數(shù)。我們總共訪問(wèn)了 197名在京大 學(xué)生,得到了在588種場(chǎng)景下他們對(duì)網(wǎng)絡(luò)購(gòu)物的使用情況的有效回答。3 .模型介紹市場(chǎng)營(yíng)銷(xiāo)中常用的分析陳述偏好數(shù)據(jù)的方法是聯(lián)合分析(conjoint analysis),我們這里使用泊松回歸模型,因?yàn)椋海?)因變量不是受訪者 對(duì)場(chǎng)景的排序,而是使用網(wǎng)絡(luò)購(gòu)物的次數(shù),它是一個(gè)取值為離散整數(shù)的變 量,可以假設(shè)服從泊松分布;(2)可以對(duì)泊松回歸模型進(jìn)一步應(yīng)用潛在分 類(lèi)模型分析受訪者的異質(zhì)性。我們首先介紹泊松回歸模型和潛在分類(lèi)模 型,然后介紹如何應(yīng)用最大似然法和em算法估計(jì)參數(shù)。令與為第i=個(gè)個(gè)體在面臨第/(

5、/ = 1,j)種場(chǎng)景時(shí)的選擇, 服從參數(shù)為乙的泊松分布。因?yàn)閺钠骄囊饬x上來(lái)講,4取值越大意味著 受訪者越傾向于多次使用網(wǎng)絡(luò)購(gòu)物,所以in4可理解為該場(chǎng)景的效用 (utility),它是這個(gè)場(chǎng)景各因素水平和受訪者個(gè)人特征的函數(shù): 卜為=%,其中:為是k維協(xié)變量,。=為,4.,&是參數(shù),體現(xiàn)了受 訪者對(duì)協(xié)變量變化的反映,如果假設(shè)它是常數(shù),則表明受訪者是同質(zhì)的(homogeneity),但我們知道,不同受訪者對(duì)不同的協(xié)變量的重要程度看 法是不一樣的,也就是說(shuō)人群有異質(zhì)性(heterogeneity),處理這種問(wèn)題 的辦法是假設(shè)。為一個(gè)隨機(jī)變量,服從概率分布乃()。這里我們可以假設(shè) %(6)為一個(gè)

6、連續(xù)的多元密度函數(shù),但由于無(wú)法判定哪種形式以及在參數(shù)估 計(jì)的時(shí)候很難計(jì)算多維積分,所以一般來(lái)說(shuō)我們不采取這種方式,取而代 之的是假設(shè)萬(wàn)(。)是一個(gè)離散的多元分布,取值為人然),相 應(yīng)的概率密度是肛,s = 1,s , s的大小以及0(和再的取值均由數(shù)據(jù)估計(jì)得 到。我們稱(chēng)這種方法為潛在分類(lèi)模型或者離散隨機(jī)系數(shù)模型(discrete random-coefficient model)o在上述模型假定下,我們知道第i個(gè)個(gè)體在面臨第/種場(chǎng)景時(shí),給定參 數(shù)取值為優(yōu)時(shí),泊松分布的參數(shù)4j(o,) = exp(&j+z2/g。則第i個(gè)個(gè)體 k的無(wú)條件概率密度為:3;-1y)j -(1)如果使用最大似然法估計(jì)

7、參數(shù),樣本的似然函數(shù)可以寫(xiě)成:-1 5-1 7-1y ij(2)4.估計(jì)方法可以看到似然函數(shù)的形式很復(fù)雜,即使使用數(shù)值算法,也不容易找到 全局最優(yōu)的最大似然估計(jì)。這里我們使用em算法。引入缺失變量:fl 如果第i個(gè)個(gè)體來(lái)自衰個(gè)潛在類(lèi)其他(3)假定,明的分布為獨(dú)立同分布,密度函數(shù)是肛,則,其中%乃=(即,孫)。完全對(duì)數(shù)似然函數(shù)可寫(xiě)成:s j 4(ojv,jexp(-2. (gj)4=口【口-、 二,r-1 1 ”1) ij -(4)5% =4, + zt% m %j-1 y-1i-l .v-1(5)其中, 甘 力!應(yīng)用em算法,首先給定初始參數(shù)估計(jì)值。方,4,。之后的迭代 (。=0,1,.刀)過(guò)

8、程中,e步就是在給定觀測(cè)數(shù)據(jù)和參數(shù)估計(jì)。3只出的情 況下,對(duì)完全對(duì)數(shù)似然函數(shù)以仆的分布求期望,因?yàn)?5)中完全對(duì)數(shù)似 然函數(shù)是0的線性函數(shù),所以它的期望也是期望的線性函數(shù)。為了求明 給定觀測(cè)數(shù)據(jù)和參數(shù)估計(jì)。;”產(chǎn)產(chǎn)的條件期望,我們需要尋找它的條件分s5布。因?yàn)橐虻鹭?,?)=立(4“盧,g(力0,即)=4嚴(yán)5,所以以出|為,。,)=(4/.,產(chǎn)4。則。的條件期望是: 5-1j-1% =%,。, = 4/2跖5-1(6)所以在e步得到的完全對(duì)數(shù)似然函數(shù)的期望是:elnlc i功的”嫡=之二噌5% +/噌in肛 f-1 j-1/- 5-1(7)m步即是最大化(7)式得到更新的。*,龍川??梢钥吹?

9、m 式右側(cè)第一 項(xiàng)僅及。了有關(guān),并且和式的每一項(xiàng)及一個(gè)s對(duì)應(yīng),(7)式右側(cè)第二項(xiàng)僅 及武力有關(guān),可以單獨(dú)優(yōu)化,大大降低了似然函數(shù)的復(fù)雜度。此外,em算 法所得估計(jì)量的均方誤差可以由louis公式計(jì)算而得。5.數(shù)據(jù)分析應(yīng)用上述模型分析大學(xué)生網(wǎng)絡(luò)購(gòu)物數(shù)據(jù),首先把分類(lèi)變量(商品種類(lèi)) 轉(zhuǎn)化為0、1變量,即v (1種類(lèi)為服飾v fl 種類(lèi)為化妝品 一。 種類(lèi)不是服飾2 - 10 種類(lèi)不是不是化妝品當(dāng)x和x2同時(shí)取。時(shí),表示種類(lèi)為文體。我們使用bic準(zhǔn)則來(lái)確定s的取值。從開(kāi)始,模型的bic開(kāi)始下 降,并且到某一值時(shí),開(kāi)始上升。我們就選擇使得bic取最小值的s。從 表1可以看出93。表2給出了模型在s=3

10、和s=1 (沒(méi)有異質(zhì)性)時(shí)的參數(shù)估計(jì)值。當(dāng)s=1(假設(shè)受訪者沒(méi)有異質(zhì)性時(shí)),受訪者整體表現(xiàn)出更傾向于多次購(gòu)買(mǎi)文體 類(lèi)商品,使用次數(shù)隨商品價(jià)格下降,增加賣(mài)家或網(wǎng)站的信譽(yù)以及介紹商品 的詳細(xì)程度可以增加受訪者的使用網(wǎng)絡(luò)購(gòu)物的次數(shù)。當(dāng)5二3時(shí),可以看到 受訪者分為三類(lèi),在網(wǎng)絡(luò)購(gòu)物的使用次數(shù)上,幾個(gè)因素對(duì)這三類(lèi)受訪者有 著不同的影響。根據(jù)表2的結(jié)果,第一類(lèi)受訪者(約占18. 89%)更傾向于 購(gòu)買(mǎi)文體類(lèi)商品,也傾向于購(gòu)買(mǎi)價(jià)格便宜的商品,并重視賣(mài)家或網(wǎng)站的信 譽(yù)程度和介紹商品的詳細(xì)情況;第二類(lèi)受訪者(約占48. 62%)不在乎商品 的種類(lèi)、價(jià)格、以及介紹的詳細(xì)情況,只注重網(wǎng)站的信譽(yù);第三類(lèi)受訪者(約占3

11、2. 49%)更傾向于購(gòu)買(mǎi)文體類(lèi)商品,不重視商品的價(jià)格和賣(mài)家或網(wǎng) 站的信譽(yù)程度,但較看重介紹商品的詳細(xì)情況。表1: bic準(zhǔn)則潛在類(lèi)別估計(jì)參數(shù)的個(gè)數(shù)-log likelihoodbic值161321. 6941340. 8242131257. 9951299. 4443201213. 4821277. 2504271203. 6211286. 518表2:參數(shù)估計(jì)值泊松回歸模型(潛在類(lèi)別s=3)泊松回歸(s=l)類(lèi)別1的類(lèi)別2的類(lèi)別3的加權(quán)均值概率p=o. 1889概率p=0. 4862概率p=0. 3249截距-0.11390. 17061. 2464*0. 46630. 5989*(0.

12、5127)(0. 1898)(0. 1959)(0. 2529)(0. 1056)類(lèi)別(服-1.8109*-0. 1476-0. 2399*-0. 4918*-0. 3221*飾)(0. 3731)(0. 1069)(0. 09600)(0. 1537)(0. 05622)類(lèi)別(化妝-2. 5615*0.01659-1. 7587*-1. 0472*-0. 7061*品)(0. 5693)(0. 09781)(0. 1894)(0. 2166)(0. 06369)商品的價(jià)-0. 5378*-0. 00466-0. 02828-0. 1131-0. 0801*格(0. 1724)(0. 0616

13、3)(0. 06243)(0. 08282)(0. 03469)賣(mài)家或網(wǎng)0. 3798*0. 2424*0. 056490. 2080*0. 1814*站的信譽(yù)度(0. 08954)(0. 03018)(0. 03384)(0. 04258)(0. 01772)介紹商品0. 1784*0. 050130. 1142*0. 09520*0. 09225*的詳細(xì)程度(0.06997)(0. 02986)(0. 03644)(0. 03957)(0. 01749)注:括號(hào)中是參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差,其中*代表0.05的顯著性水平,*代表0.01的顯著性水平。6.總結(jié)本案例應(yīng)用潛在分類(lèi)的泊松回歸模型及em算法分析了大學(xué)生對(duì)網(wǎng)絡(luò)購(gòu)物的使用情況。最終得到三類(lèi)人群,他們對(duì)商品類(lèi)型、價(jià)格、賣(mài)家或網(wǎng) 站的信譽(yù)度、以及介紹商品的詳細(xì)程度有著不同的重視程度,網(wǎng)絡(luò)營(yíng)銷(xiāo)者 可以根據(jù)此結(jié)果制定不同的營(yíng)銷(xiāo)策略。此外,我們還可以進(jìn)一步根據(jù)模型 估計(jì)結(jié)果得

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論