




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 廣西大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院商務(wù)智能課程論文題目:商務(wù)智能在大眾點評中的應(yīng)用 小組成員:1111200139 藍承妙 1111200202 劉金香 摘要:大眾點評是中國領(lǐng)先的本地生活信息及交易平臺,也是全球最早建立的獨立第三方消費點評網(wǎng)站,它不僅為網(wǎng)友提供商戶信息、消費點評及消費優(yōu)惠等信息服務(wù),同時亦提供團購及餐廳預(yù)訂等O2O(Online To Offline)交易服務(wù)。本文通過分類回歸樹和關(guān)聯(lián)規(guī)則挖掘出大眾點評數(shù)據(jù)中關(guān)于全國各地美食商家的可用信息。關(guān)鍵字:大眾點評 分類回歸樹 關(guān)聯(lián)規(guī)則 SPSS一、背景 隨著互聯(lián)網(wǎng)的出現(xiàn)與飛速發(fā)展,人們的生活方式一直在發(fā)生著巨大的變化。特別是交通、購物、飲
2、食、住宿、教育等各方面均受到來自互聯(lián)網(wǎng)的極大的影響。大眾點評便是一個影響人們?nèi)粘I睿奖闳藗儕蕵?、飲食的點評網(wǎng)站。大眾點評是中國領(lǐng)先的本地生活信息及交易平臺,也是全球最早建立的獨立第三方消費點評網(wǎng)站。大眾點評不僅為網(wǎng)友提供商戶信息、消費點評及消費優(yōu)惠等信息服務(wù),同時亦提供團購、電子會員卡及餐廳預(yù)訂等O2O(Online To Offline)交易服務(wù)。大眾點評是國內(nèi)最早開發(fā)本地生活移動應(yīng)用的企業(yè),已經(jīng)成長為一家移動互聯(lián)網(wǎng)公司,大眾點評移動客戶端已成為本地生活必備工具。本文使用的數(shù)據(jù)為大眾點評網(wǎng)在2014年4月份更新后的商家數(shù)據(jù),其中包含全國各地區(qū)1000家美食店相關(guān)數(shù)據(jù),包括商戶ID(sho
3、p_id)、商戶名稱(name)、所處省份(province)、城市(city)、區(qū)(area)、具體地址(address)、聯(lián)系電話(phone)、營業(yè)時間(hours)、平均物價(avg_price)、會員卡服務(wù)、大眾對其產(chǎn)品的各類評價等級、環(huán)境、服務(wù)等級等數(shù)據(jù)項。為了有效的使用該數(shù)據(jù),本文運用分類回歸樹、關(guān)聯(lián)規(guī)則兩種數(shù)據(jù)挖掘方法對該數(shù)據(jù)進行分析。二、分類回歸樹(C&RT) 2.1 C&R tree 分類回歸樹(C&R tree,全稱為the classification and regression tr
4、ee)是一種基于樹的分類和預(yù)測方法,模型使用簡單,易于理解(規(guī)則解釋起來更簡明易),該方法通過在每個步驟最大限度降低不純潔度,使用遞歸分區(qū)來將訓(xùn)練記錄分割為組。 2.2 目的 通過分析數(shù)據(jù)中存在的預(yù)測因子變量,如店鋪的環(huán)境等級、產(chǎn)品等級和服務(wù)等級等預(yù)測并分類,為新用戶在選擇是否光顧某家店鋪提供決策依據(jù)。 2.3 數(shù)據(jù)整理原始數(shù)據(jù)中包含的內(nèi)容多而繁雜,為了方便研究,我們從中篩選了涉及店家評價的數(shù)據(jù)項avg_price、product_rating、environment_rating、service_rating、very_good_remarks、good_remarks、common_rem
5、arks、bad_remarks、very_bad_remarks進行整理,將very_good_remarks、good_remarks、common_remarks這三個字段處理為積極評價,字段jiji的值為這三個字段的總和,視為對該店家的積極評價,將bad_remarks、very_bad_remarks這二個字段處理為消極評價,字段xiaoji的值為這二個字段的總和,為該店家的消極評價。新增字段hh取值為0和1,判定該店鋪是否值得新客戶選擇,如果該店鋪消極評價(xiaoji)的值小于總評價(jiji+xiaoji)的10%,則認為該店鋪值得選擇,hh的值為1;反之,則為0,該店鋪不值得
6、選擇。整理后的數(shù)據(jù):avg_price、product_rating、environment_rating、service_rating、hh。 2.4 創(chuàng)建決策樹將整理后的數(shù)據(jù)添加到SPSS工作區(qū)域,再添加一個類型節(jié)點。在類型節(jié)點中,選擇Read Value來為指定的字段讀取數(shù)據(jù)。選擇hh字段,將其type設(shè)為Flag,Direction設(shè)為Out,如圖1所示。其余所有字段都作為預(yù)測因子變量,將Direction設(shè)為In。圖1 在類型節(jié)點中設(shè)置相關(guān)參數(shù) 在類型節(jié)點上連接一個C&RT節(jié)點,設(shè)置其參數(shù),選擇簡單模式(Simple Mode),如圖2所示。圖2 Simple標(biāo)簽 運行C&a
7、mp;RT節(jié)點,出現(xiàn)交互式窗口,完全展開的決策樹如圖3所示。圖3 C&RT決策樹2.4 分析決策樹從圖3可以看到第一層的劃分是根據(jù)product_rating,第二層的劃分根據(jù)environment_rating,第三層service_rating。從節(jié)點1中,可以看出若大眾對某店家product的綜合評分在8.25分以上,那么該店家值得光顧;product的綜合評分在8.25分以下,則可以參考其環(huán)境評分,若environment_rating大于6.75分,說明其環(huán)境優(yōu)美,值得光顧;同理,若其環(huán)境評分低于6.75,則可參考其員工服務(wù)質(zhì)量。從店鋪角度也能通過該決策樹以及其自身在大眾點評
8、網(wǎng)上的各項評分來做相應(yīng)的調(diào)整,以提高自身的收益。2.5 評估模型根據(jù)創(chuàng)建當(dāng)前決策樹生成評估模型(Generate Model)hh1,工作區(qū)中將hh1與類型節(jié)點連接起來,在模型設(shè)置標(biāo)簽中選擇“Calculate confidence”和“Rule identifier”,如圖4所示。最后,連接一個數(shù)據(jù)表節(jié)點,并運行當(dāng)前數(shù)據(jù)流,如圖5所示。圖4 計算置信度與規(guī)則識別圖5 數(shù)據(jù)流示意圖 運行后的數(shù)據(jù)表列出了那些有可能大眾點評中總評價好的美食店家記錄,如圖6所示。$R-hh列的值表明預(yù)測結(jié)果,若其值為1,預(yù)測該店家值得新用戶光顧。圖6 數(shù)據(jù)表 2.6 小結(jié)通過整理原始數(shù)據(jù)中大眾對1000家全國各地的
9、店家的積極、消極評價,分析預(yù)測因子變量,例如avg_price、product_rating、environment_rating、service_rating,可以預(yù)測并分類1000家店鋪是否值得光顧,并且能夠為提高店家自身評價、收益做出決策。三、關(guān)聯(lián)規(guī)則分析3.1 目的根據(jù)大眾點評網(wǎng)上提及的店鋪提供的美食分類來研究各省份受歡迎的美食,從而可以得出該省份的飲食習(xí)慣。3.2 數(shù)據(jù)整理 選取原始數(shù)據(jù)中的province、city、area、small_cate字段,進行篩選。記錄所有的small_cate,若某省某市某地區(qū)的店鋪提供該類食物,標(biāo)記為1,否則為0。合成一個新的表格,將數(shù)據(jù)導(dǎo)入到SP
10、SS中,連接數(shù)據(jù)集,讀取字段名,然后連接一個類型節(jié)點,運行,顯示結(jié)果如圖7所示。圖7 整理后的數(shù)據(jù)(部分截圖) 用GRI算法生產(chǎn)關(guān)聯(lián)規(guī)則來了解各省的飲食習(xí)慣,選擇在建模過程中使用到的字段變量,將province與所有食物類別的Direction值設(shè)為Both編輯類型節(jié)點如圖8所示。圖8 在類型節(jié)點中設(shè)置字段的Direction值 添加一個GRI節(jié)點,編輯該節(jié)點,選擇“Only true values for flags”運行,瀏覽新生成的模型,查看它所包含的關(guān)聯(lián)規(guī)則。這些規(guī)則顯示了某省與某食物類型之間的關(guān)聯(lián)規(guī)則,選擇按照置信度排序方式,結(jié)果如圖9所示,例如北京與北京菜置信度為1,表明北京人喜歡
11、吃北京菜;廣州與茶餐廳置信度為1,表明廣州人喜歡喝早茶或下午茶等。圖9 使用GRI模型各個省份與食物分類之間的關(guān)聯(lián)關(guān)系四、總結(jié)我們合理利用現(xiàn)有的大眾點評網(wǎng)上全國1000家美食店鋪的相關(guān)信息,通過決策樹與關(guān)聯(lián)規(guī)則方法挖掘潛在的商業(yè)信息,為苦于尋找美食的廣大的“吃貨”們提供可參考的店鋪數(shù)據(jù),同時也為各個商家提高自身客戶源與收益做出決策。從顧客方面考慮,利用大眾點評網(wǎng)中大眾對美食店鋪的各項評價,通過數(shù)據(jù)收集、分類并存放到數(shù)據(jù)倉庫之后,建立模型,進行分析,運用決策樹方法,分別從食物等級、環(huán)境等級和員工服務(wù)等級方面判定該店鋪是否值得光顧,為顧客提供便利。 從商家方便考慮,零售企業(yè)管理中知識化的管理模式是企業(yè)獲得持續(xù)競爭優(yōu)勢的源泉,而數(shù)據(jù)挖掘技術(shù)是挖掘企業(yè)潛在的、有用的、有價值信息的有力工具,為從數(shù)據(jù)海洋中挖掘相關(guān)知識提供了技術(shù)保障。通過大眾點評網(wǎng)獲取的某美食店鋪累積的大量數(shù)據(jù),運用關(guān)聯(lián)規(guī)則方法,從而識別全國各地區(qū)的廣大群眾的口味,了解顧客消費行為,發(fā)現(xiàn)顧客選擇光顧店鋪模式和趨勢,可以提供各商家為滿足大眾需求的創(chuàng)業(yè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO/IEC 23090-6:2021/AMD2:2025 EN Information technology - Coded representation of immersive media - Part 6: Immersive media metrics - Amendment 2: Additional latencies and
- 【正版授權(quán)】 ISO/IEC 25390:2025 EN Information technology - Financial information exchange - Simple binary encoding
- 【正版授權(quán)】 IEC 62149-4:2022+AMD1:2025 CSV EN Fibre optic active components and devices - Performance standards - Part 4: 1 300 nm fibre optic transceivers for Gigabit Ethernet applicat
- 2025年新媒體與傳播研究課程考試試題及答案
- 2025年法語語言及文化考試題及答案
- 2025年海洋與水文專業(yè)基礎(chǔ)考試試題及答案
- 2025年保定市中考二模物理試題及答案
- 2025年節(jié)能技術(shù)服務(wù)項目發(fā)展計劃
- 腫瘤晚期患者教育
- 眼部個性護理
- 中建體系質(zhì)量活動月領(lǐng)導(dǎo)授課培訓(xùn)課件
- 方格稿紙A4直接打印
- GB/T 7178.1-2006鐵路調(diào)車作業(yè)第1部分:基本規(guī)定
- GB/T 33974-2017熱軋花紋鋼板及鋼帶
- 初中英語牛津譯林版八年級下冊Unit2Travelling(市一等獎)
- GB 7099-2003糕點、面包衛(wèi)生標(biāo)準(zhǔn)
- 《產(chǎn)后抑郁患者護理研究6000字【論文】》
- GB 21550-2008聚氯乙烯人造革有害物質(zhì)限量
- 2023年高考重慶理科數(shù)學(xué)試卷和答案(word完美解析版)
- 小型蓋板預(yù)制施工方案及工藝方法
- 超早期腦梗死的CT影像表現(xiàn)及診斷課件
評論
0/150
提交評論