版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于Python的電商評(píng)論數(shù)據(jù)獲取及客戶分析的實(shí)習(xí)報(bào)告實(shí)習(xí)目的當(dāng)今社會(huì)正在迅猛的發(fā)展,為了學(xué)生適應(yīng)即將到來的社會(huì)生活,加強(qiáng)對(duì)我們的實(shí)際動(dòng)手能力的培養(yǎng),讓學(xué)生成為“德、才、識(shí)、體”四者兼?zhèn)涞娜姘l(fā)展的人才,提高我們認(rèn)識(shí)、剖析和處理問題的實(shí)際能力,培養(yǎng)我們的創(chuàng)新意識(shí)和開拓精神,跟上這個(gè)信息爆炸的時(shí)代的步伐,學(xué)校為我們組織了這次夏季短學(xué)期實(shí)踐。本次夏季短學(xué)期實(shí)踐的主要目的是增長學(xué)生的專業(yè)相關(guān)知識(shí),培養(yǎng)學(xué)生的自主動(dòng)手能力,以求讓學(xué)生獲得更多知識(shí)儲(chǔ)備、更有社會(huì)競爭力。實(shí)習(xí)內(nèi)容電商評(píng)論數(shù)據(jù)獲取及評(píng)論情感分析基于Python語言編寫爬蟲程序并取得電商的用戶評(píng)論文本數(shù)據(jù),并對(duì)用戶評(píng)論文本數(shù)據(jù)進(jìn)行情感分析以供決策參考。根據(jù)已有數(shù)據(jù)進(jìn)行航空公司客戶價(jià)值分析基于Python語言對(duì)已有的航空公司客戶數(shù)據(jù)進(jìn)行處理,并根據(jù)客戶價(jià)值進(jìn)行分類。實(shí)習(xí)過程電商評(píng)論數(shù)據(jù)獲取及評(píng)論情感分析背景與目標(biāo)在當(dāng)今社會(huì),互聯(lián)網(wǎng)及電子商務(wù)的發(fā)展蓬勃,線上購物風(fēng)靡,人們?cè)絹碓綗嶂杂诰W(wǎng)絡(luò)購物。這種趨勢給各電商企業(yè)帶來了巨大的發(fā)展機(jī)遇,也使得更多的電商企業(yè)獲得巨大發(fā)展,但同時(shí)也引發(fā)了各企業(yè)之間猛烈的競爭。在現(xiàn)在各企業(yè)激烈競爭的大背景下,企業(yè)不但要注重商品品質(zhì)、降低商品價(jià)格,也應(yīng)該深入了解消費(fèi)者的對(duì)于商品或服務(wù)的評(píng)價(jià),這對(duì)電商平臺(tái)也是非常重要的。而想要了解消費(fèi)者對(duì)于商品或服務(wù)的評(píng)價(jià),對(duì)消費(fèi)者的評(píng)論文本數(shù)據(jù)進(jìn)行對(duì)其內(nèi)在信息的數(shù)據(jù)挖掘及分析是非常重要也是非常有效果的方式。本次對(duì)某平臺(tái)的熱水器評(píng)論進(jìn)行文本挖掘與分析的數(shù)據(jù)挖掘建模目標(biāo)如下:1.取得某品牌熱水器的用戶評(píng)論文本數(shù)據(jù)2.分析用戶評(píng)論文本數(shù)據(jù)中的用戶情感傾向3.從評(píng)淪文本中挖掘出該品牌熱水器的優(yōu)點(diǎn)與不足分析方法與過程取得對(duì)應(yīng)數(shù)據(jù)基于Python語言爬取針對(duì)某商品的消費(fèi)者的評(píng)論文本數(shù)據(jù)(因后續(xù)某熱水器品牌的評(píng)論文本數(shù)據(jù)是導(dǎo)入已有數(shù)據(jù)進(jìn)行操作,故此處以對(duì)某書籍的評(píng)論數(shù)據(jù)進(jìn)行爬取作為實(shí)例)。圖1:圖1:抓取某商品的評(píng)論圖2:圖2:抓取到的評(píng)論數(shù)據(jù)文本處理獲取到評(píng)論數(shù)據(jù)文本后,我們需要對(duì)其進(jìn)行初步的處理,去除無價(jià)值評(píng)論,增加情感分析的準(zhǔn)確程度。包括數(shù)據(jù)預(yù)處理(文本去重、機(jī)械壓縮、短句刪除)、中文分語、停用詞過濾等操作。在剛獲取的文本評(píng)論數(shù)據(jù)中,有許多價(jià)值低,或者是沒有統(tǒng)計(jì)價(jià)值的文本行。如果我們把這些評(píng)論數(shù)據(jù)也保存并進(jìn)入后面的處理階段,必然會(huì)使得分析結(jié)果出現(xiàn)較大偏差,讓最終得到的結(jié)果不準(zhǔn)確,質(zhì)量低下。所以,在進(jìn)入之后的處理階段之前,需要先對(duì)初始文本進(jìn)行預(yù)處理,盡量消除這些無價(jià)值的評(píng)論對(duì)于最終結(jié)果產(chǎn)生的影響。圖3:圖3:去除重復(fù)評(píng)論圖4:清洗掉圖4:清洗掉無意義短句圖5:對(duì)評(píng)論文本進(jìn)行分詞處理圖5:對(duì)評(píng)論文本進(jìn)行分詞處理圖圖6:處理后的文本構(gòu)建情感傾向性模型并繪制詞云圖根據(jù)正面/負(fù)面詞表(經(jīng)過統(tǒng)計(jì)的比較準(zhǔn)確的含有正面/負(fù)面詞匯的文本)對(duì)經(jīng)過處理的文本中的詞語進(jìn)行情感傾向判斷,并繪制成詞云圖。詞語出現(xiàn)次數(shù)越多,則這個(gè)詞語在詞云圖中的字體就越大。圖7:導(dǎo)入情感詞庫并初步處理圖7:導(dǎo)入情感詞庫并初步處理圖8:對(duì)評(píng)論詞語進(jìn)行情感判斷圖8:對(duì)評(píng)論詞語進(jìn)行情感判斷圖9:正面情感詞云圖圖9:正面情感詞云圖圖10:負(fù)面情感詞云圖圖10:負(fù)面情感詞云圖根據(jù)已有數(shù)據(jù)進(jìn)行航空公司客戶價(jià)值分析分析目標(biāo)依據(jù)航空公司提供的客戶數(shù)據(jù)對(duì)其客戶進(jìn)行分類。對(duì)分類之后的各類客戶的特征進(jìn)行分析,并比對(duì)各類型客戶對(duì)于航空公司的價(jià)值,以便進(jìn)行決策。分析方法與過程目前在分析客戶價(jià)值的過程中應(yīng)用最廣泛的是RFM模型,其三個(gè)字母分別指時(shí)間間隔、消費(fèi)頻率和消費(fèi)金額。根據(jù)本次實(shí)際操作中的需要,實(shí)際使用的是LRFMC模型:L:從加入時(shí)間到觀察窗口結(jié)束之間的月數(shù)。R:客戶在觀察窗口中最后一次搭乘飛機(jī)到觀察窗口結(jié)束之間的月數(shù)。F:客戶在觀察窗口中乘坐公司飛機(jī)的次數(shù)。M:客戶在觀察窗口中累積下來的飛行公里數(shù)。C:對(duì)應(yīng)客戶在觀察窗口中的乘坐位置對(duì)應(yīng)的折扣系數(shù)的平均值。觀察窗口:以某個(gè)時(shí)間點(diǎn)作為結(jié)尾,指定時(shí)間長度,得到的時(shí)間段。在本次操作中,我們利用聚類的方式對(duì)航空公司客戶價(jià)值LRFMC模型的五個(gè)指標(biāo)作出k均值聚類,并識(shí)別出客戶的價(jià)值。這次操作的總體流程如下: 將原始數(shù)據(jù)文件中的數(shù)據(jù)提取出來,然后對(duì)這些數(shù)據(jù)先進(jìn)行預(yù)處理(數(shù)據(jù)清理、缺失項(xiàng)填充或去除等)。之后,對(duì)完成預(yù)處理的數(shù)據(jù)進(jìn)行特征構(gòu)造(提取需要的特征數(shù)據(jù))、標(biāo)準(zhǔn)化處理(數(shù)據(jù)格式轉(zhuǎn)換),最后進(jìn)行統(tǒng)計(jì)。原始數(shù)據(jù)獲取導(dǎo)入以2014年3月31日作為結(jié)尾時(shí)間,長兩年的時(shí)間段作為分析窗口,并且提取由在觀察窗口中具有飛行記錄的所有客戶的詳細(xì)數(shù)據(jù)形成的歷史數(shù)據(jù)。數(shù)據(jù)預(yù)處理對(duì)原始數(shù)據(jù)進(jìn)行初步處理,去除其中的無效部分;對(duì)初步后的數(shù)據(jù)進(jìn)行特征構(gòu)建,提取需要的五個(gè)特征并去除其他不相關(guān)特征;對(duì)提取出的特征進(jìn)行標(biāo)準(zhǔn)化,降低其取值范圍的同時(shí)保留其對(duì)比度。圖11:部分標(biāo)準(zhǔn)化特征圖11:部分標(biāo)準(zhǔn)化特征圖11:部分標(biāo)準(zhǔn)化特征構(gòu)建客戶價(jià)值分析模型根據(jù)五個(gè)特征對(duì)客戶進(jìn)行聚類分群,根據(jù)結(jié)果將客戶分為如下四類:a需要重點(diǎn)維持的客戶:高平均乘機(jī)折扣率,高乘坐次數(shù)或乘坐公里數(shù),而且最近乘坐過公司的航班。 b可以重點(diǎn)開發(fā)的客戶:高乘機(jī)平均折扣率,但是乘機(jī)次數(shù)較少,乘機(jī)公里數(shù)較低。c重要保留客戶:乘坐次數(shù)或乘坐公里數(shù)高,但是有較長時(shí)間沒有乘機(jī)。d普通以及低價(jià)值客戶:機(jī)票低折扣率、長時(shí)間未乘坐航班、乘機(jī)次數(shù)和乘機(jī)公里數(shù)低、會(huì)員年限短。圖12:分類結(jié)果圖12:分類結(jié)果實(shí)習(xí)體會(huì)通過這次夏季短學(xué)期的學(xué)習(xí)與實(shí)踐,擴(kuò)展了我的知識(shí)面,使我初步接觸并了解了Python語言以及大數(shù)據(jù)分析的基礎(chǔ)知識(shí),并讓我的實(shí)際操作能力獲得了很大的提升。感謝學(xué)校及老師在這次夏季組織的這次短學(xué)期實(shí)踐活動(dòng),讓我們?cè)鲩L了知識(shí),對(duì)將來步入社會(huì)做出了更好、更全面的準(zhǔn)備。 目前的社會(huì)正處于高科技迅猛發(fā)展的過程中。在這樣的社會(huì)中生活,我們需要具有認(rèn)識(shí)、分析和解決問題的能力,要具有科學(xué)的預(yù)見和決策能力,否則在自己的生活和事業(yè)中會(huì)難以適應(yīng)。個(gè)人素質(zhì)較高、實(shí)際操作能力較強(qiáng)的人方能稱為有用之才,他們有獨(dú)特的創(chuàng)造性思維,善于總結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版房地產(chǎn)項(xiàng)目融資協(xié)議書
- 課題申報(bào)書:新時(shí)代鄉(xiāng)村學(xué)校音樂美育實(shí)踐探究
- 2025浙江省建筑安全員《A證》考試題庫
- 課題申報(bào)書:新時(shí)代高校國家安全教育數(shù)字化轉(zhuǎn)型研究
- 課題申報(bào)書:新時(shí)代“楓橋經(jīng)驗(yàn)”嵌入高校“一站式”學(xué)生社區(qū)的機(jī)制與路徑研究
- 2025年桉樹碳匯交易合作框架協(xié)議3篇
- 奮斗吧主播培訓(xùn)
- 2025年度特色公園綠地養(yǎng)護(hù)托管與文化活動(dòng)策劃合同3篇
- 2025年-山東省安全員B證考試題庫及答案
- 2025年遼寧省安全員A證考試題庫
- 甲烷(沼氣)的理化性質(zhì)及危險(xiǎn)特性表
- 某鋼鐵有限責(zé)任公司管理專案報(bào)告書---提升配電系統(tǒng)管理水平降低變配電裝置事故率
- 促銷費(fèi)用管理辦法15
- 《三國演義》整本書閱讀任務(wù)單
- GB 13296-2013 鍋爐、熱交換器用不銹鋼無縫鋼管(高清版)
- 企業(yè)信用管理制度
- 中醫(yī)院中藥的飲片處方用名與調(diào)劑給付規(guī)定
- 鉆孔灌注樁及后注漿施工方案施工方案
- 3D小白人透明底色PPT素材
- Unit 6 Give Me Liberty or Give Me Death
- 計(jì)算機(jī)信息管理系統(tǒng)基本情況介紹和功能說明
評(píng)論
0/150
提交評(píng)論