版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于電商網(wǎng)站商品數(shù)據(jù)的數(shù)據(jù)分析與挖掘1.電子商務(wù)和數(shù)據(jù)挖掘介紹1.1
電子商務(wù)
電子商務(wù)是指個人或公司通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動?,F(xiàn)在國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上支付結(jié)算等多個類型的電子商務(wù)形式。電子商務(wù)正以其低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優(yōu)點而逐步在全球流行。電子商務(wù)是指以Internet網(wǎng)絡(luò)為載體、運用數(shù)字化電子方式開展的商務(wù)活動。隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,電子商務(wù)正顯示越來越強大的生命力。電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識,為公司發(fā)明更多潛在的利潤。運用數(shù)據(jù)挖掘技術(shù)能夠有效地協(xié)助公司分析從網(wǎng)上獲取的大量數(shù)據(jù),發(fā)現(xiàn)隱藏在其后的規(guī)律性,提取出有效信息,進(jìn)而指導(dǎo)公司調(diào)節(jié)營銷方略,給客戶提供動態(tài)的個性化的高效率服務(wù)1.2
數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘(Data
Mining),又稱數(shù)據(jù)庫中的知識(Knowledge
Discovery
in
Database,
KDD),是從大量的、不完全的、有噪聲的、含糊的和隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不懂得的,但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域特別是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的知識。數(shù)據(jù)挖掘技術(shù)從一開始就是面對應(yīng)用領(lǐng)域,它不僅是面對特定數(shù)據(jù)庫的簡樸檢索查詢調(diào)用,并且,要對數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指定實際問題的求解,企圖發(fā)現(xiàn)事件間的互有關(guān)聯(lián),甚至運用已有的數(shù)據(jù)對將來的活動進(jìn)行預(yù)測。數(shù)據(jù)挖掘技術(shù)在金融、保險、電信、大型超市等積累有大量數(shù)據(jù)的電子商務(wù)行業(yè)有著廣泛的應(yīng)用,如信用分析、風(fēng)險分析、欺詐檢查、顧客聚類分析、消費者習(xí)慣分析等。而電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘,是運用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即We服務(wù))中自動發(fā)現(xiàn)并提取感愛好的、有用的模式和隱含的信息,它是一項綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、、信息學(xué)、學(xué)等多個領(lǐng)域。1.3.
數(shù)據(jù)挖掘過程挖掘數(shù)據(jù)過程能夠分為3個環(huán)節(jié):數(shù)據(jù)預(yù)解決、模式發(fā)現(xiàn)、模式分析。1.3.1
數(shù)據(jù)預(yù)解決
實際系統(tǒng)中的數(shù)據(jù)普通都含有不完全性、冗余性和含糊性。因此,數(shù)據(jù)挖掘普通不對原始數(shù)據(jù)進(jìn)行挖掘,要通過預(yù)解決提供精確、簡潔的數(shù)據(jù)。預(yù)解決重要完畢下列工作:涉及合并數(shù)據(jù),將多個文獻(xiàn)或多個數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行合并解決;選擇數(shù)據(jù),提取出適合分析的數(shù)據(jù)集合;數(shù)據(jù)清洗、過濾,剔除某些無關(guān)統(tǒng)計,將文獻(xiàn)、圖形、圖像及多媒體等文獻(xiàn)轉(zhuǎn)換成可便于數(shù)據(jù)挖掘的格式等。
1.
3.
2
模式發(fā)現(xiàn)
模式發(fā)現(xiàn)階段就是運用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最后能夠理解的信息和知識??捎糜赪eb的挖掘技術(shù)有途徑選擇、關(guān)聯(lián)分析、分類規(guī)則、聚類分析、序列分析、依賴性建模等等。
1.
3.
3
模式分析
模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過濾掉不感愛好的規(guī)則和模式。通過技術(shù)手段,對得到的模式進(jìn)行數(shù)據(jù)分析,得出故意義的結(jié)論。慣用的技術(shù)手段有:關(guān)聯(lián)規(guī)則、分類、聚類、序列模式等。
電子商務(wù)是當(dāng)代信息技術(shù)發(fā)展的必然成果,也是將來商業(yè)運作模式的必然選擇。運用數(shù)據(jù)挖掘技術(shù)來分析大量的數(shù)據(jù),能夠挖掘出商品的消費規(guī)律與客戶的訪問模式,協(xié)助公司制訂有效的營銷方略,充足發(fā)揮公司的獨特優(yōu)勢,增進(jìn)管理創(chuàng)新和技術(shù)創(chuàng)新,提高公司競爭力。
隨著電子商務(wù)發(fā)展的勢頭越來越強勁,
面對電子商務(wù)的數(shù)據(jù)挖掘?qū)⑹且环N非常有前景的領(lǐng)域。它能自動預(yù)測客戶的消費趨勢、市場走向,指導(dǎo)公司建設(shè)個性化智能網(wǎng)站,帶來巨大的商業(yè)利潤,可覺得公司創(chuàng)立新的商業(yè)增加點。但是在面對電子商務(wù)的數(shù)據(jù)挖掘中也存在諸多問題急需解決,例如如何將服務(wù)器的日志數(shù)據(jù)轉(zhuǎn)化成適合某種數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)格式,如何解決分布性、異構(gòu)性數(shù)據(jù)源的挖掘,如何控制整個Web上知識發(fā)現(xiàn)過程等。隨著硬件環(huán)境、挖掘算法的進(jìn)一步研究及應(yīng)用經(jīng)驗的積累,數(shù)據(jù)挖掘技術(shù)及在電子商務(wù)中的應(yīng)用必將獲得長足的進(jìn)展。2.數(shù)據(jù)挖掘2.1數(shù)據(jù)挖掘重要內(nèi)容對于10種品牌的衛(wèi)生巾的屬性、價格、包裝等性能與其銷量的關(guān)系。10種衛(wèi)生巾分別為:555、ABC、高潔絲、護舒寶、潔婷、樂而雅、米婭、七度空間、蘇菲、怡麗2.2數(shù)據(jù)來源天貓超市2.3數(shù)據(jù)挖掘工具1.八爪魚采集器八爪魚采集器是深圳視界信息技術(shù)有限公司研發(fā)的一款業(yè)界領(lǐng)先的網(wǎng)頁采集軟件,含有使用簡樸,功效強大等諸多優(yōu)點。八爪魚數(shù)據(jù)采集系統(tǒng)以完全自主研發(fā)的分布式云計算平臺為核心,能夠在很短的時間內(nèi),輕松從多個不同的網(wǎng)站或者網(wǎng)頁獲取大量的規(guī)范化數(shù)據(jù),協(xié)助任何需要從網(wǎng)頁獲取信息的客戶實現(xiàn)數(shù)據(jù)自動化采集,編輯,規(guī)范化,擺脫對人工搜索及收集數(shù)據(jù)的依賴,從而減少獲取信息的成本,提高效率。使用八爪魚能夠非常容易的從任何網(wǎng)頁精確采集你需要的數(shù)據(jù),生成自定義的、規(guī)整的數(shù)據(jù)格式。八爪魚數(shù)據(jù)采集系統(tǒng)能做的涉及但并不局限于下列內(nèi)容:1.金融數(shù)據(jù),如季報,年報,財務(wù)報告,涉及每日最新凈值自動采集;2.各大新聞門戶網(wǎng)站實時監(jiān)控,自動更新及上傳最新公布的新聞;3.監(jiān)控競爭對手最新信息,涉及商品價格及庫存;4.監(jiān)控各大社交網(wǎng)站,博客,自動抓取公司產(chǎn)品的有關(guān)評論;5.收集最新最全的職場招聘信息;6.監(jiān)控各大地產(chǎn)有關(guān)網(wǎng)站,采集新居二手房最新行情;7.采集各大汽車網(wǎng)站具體的新車二手車信息;8.發(fā)現(xiàn)和收集潛在客戶信息;9.采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;10.在各大電商平臺之間同時商品信息,做到在一種平臺公布,其它平臺自動更新。由于其強大的功效,因此我們小組選擇使用八爪魚采集器對衛(wèi)生巾的有關(guān)屬性進(jìn)行采集。即使其功效強大,但是八爪魚采集器對于網(wǎng)速的規(guī)定較高,若網(wǎng)速太慢,采集數(shù)據(jù)的速度就會很慢,采集的時間就需要更多。RostRost是一款強大的文字分析軟件,這款論文檢測軟件由武漢大學(xué)信息管理學(xué)院出版科學(xué)系教師沈陽副專家所研發(fā),此軟件能夠?qū)?dǎo)入的文檔進(jìn)行分詞、詞頻分析、流量、相似程度等的功效性分析,還能夠?qū)ξ谋具M(jìn)行解決,涉及字段抽取、基于文字特性的行抽取、文本替代與增補等,能夠?qū)α奶旆治?、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、微博分析、期刊分析等,此軟件能夠?qū)⒎治鐾甑某晒苯右訮DF、DOC、PPT、XLS、TXT等形式輸出,其每檢測400字需要6秒鐘,因此如果需要檢測字?jǐn)?shù)較多的文本,就需要等一定時間。3.MicrosoftExcelMicrosoftExcel是微軟公司的辦公軟件Microsoftoffice的組件之一,是由Microsoft為Windows和AppleMacintosh操作系統(tǒng)的電腦而編寫和運行的一款試算表軟件。其功效十分強大,能夠?qū)?shù)據(jù)進(jìn)行清洗、透視等2.4數(shù)據(jù)挖掘必要性和可行性1.數(shù)據(jù)挖掘必要性隨著21世紀(jì)的到來,越來越多的人傾向于網(wǎng)上購物,網(wǎng)上購物是當(dāng)今的重要趨勢,本次數(shù)據(jù)挖掘是基于京東超市對于衛(wèi)生巾的其價格、各方面屬性對其銷售量的影響。本次數(shù)據(jù)挖掘是針對女性每月的必用品衛(wèi)生巾的有關(guān)數(shù)據(jù)進(jìn)行挖掘,這對于女性朋友來說一種很重要也很必要的一種挖掘,通過本次數(shù)據(jù)挖掘可覺得女性朋友提供一種適合其本身的衛(wèi)生巾組合套裝。2.數(shù)據(jù)挖掘可行性挖掘技術(shù)上,我們通過一學(xué)期的學(xué)習(xí)對于有關(guān)的軟件有所理解,網(wǎng)絡(luò)上對于多個數(shù)據(jù)挖掘工具的具體操作的視頻也是不勝枚舉,學(xué)校圖書館對于有關(guān)軟件操作的書也諸多,因此我們在技術(shù)上是完全能夠?qū)崿F(xiàn)數(shù)據(jù)挖掘的整個過程。在人員上,我們小組總共5個人,對于收集數(shù)據(jù)來源為天貓超市這樣一種不是特別大的網(wǎng)站的數(shù)據(jù)信息來說,5個人是完全足夠的,同時尚有老師的指導(dǎo),因此在人員上也是能夠?qū)崿F(xiàn)基于天貓超市的排名前十的衛(wèi)生巾品牌及其銷量的數(shù)據(jù)挖掘的。2.5數(shù)據(jù)挖掘具體過程2.5.1過程描述首先是數(shù)據(jù)預(yù)解決,我們運用八爪魚對網(wǎng)頁上的有關(guān)屬性進(jìn)行采集,采集的屬性涉及:標(biāo)題、價格、產(chǎn)地、包郵與否、規(guī)格、其功效、客戶對商品的評價的指數(shù)(與否與商品相符)月銷量、好評度、這些指標(biāo),由于對有關(guān)軟件運用的不是特別成熟,因此造成有部分?jǐn)?shù)據(jù)缺失。但這對于我們的數(shù)據(jù)分析五影響,缺失的數(shù)據(jù)也正是我們需要將其進(jìn)行清洗過濾的部分?jǐn)?shù)據(jù)。另首先是模式發(fā)現(xiàn)階段,我們采用關(guān)聯(lián)分析和分類規(guī)則對有關(guān)數(shù)據(jù)進(jìn)行再解決,從而得出含有較高精確性和關(guān)聯(lián)性的數(shù)據(jù)。最后模式分析階段,我們運用Rost和Excel工具對有關(guān)數(shù)據(jù)進(jìn)行解決,最后得出有關(guān)含有規(guī)律性和高價值的數(shù)據(jù)信息。2.5.1過程操作1.八爪魚用八爪魚對護舒寶有關(guān)數(shù)據(jù)進(jìn)行采集過程,如圖:首先,命名任務(wù)名、任務(wù)組,并輸入網(wǎng)址:另首先,對天貓超市的網(wǎng)頁的第一種商品的有關(guān)屬性進(jìn)行抓取,并設(shè)立循環(huán)抓取,在本網(wǎng)頁的全部商品與第一種商品同樣的屬性都會被抓取下來,抓取過程如圖:在次,設(shè)立工作流程,并修改有關(guān)字段的字段名,如圖:最后,進(jìn)行數(shù)據(jù)抓取階段,只需要等待幾分鐘數(shù)據(jù)就能抓取完畢,如圖:上述即是對數(shù)據(jù)的抓取過程,10個品牌均是循環(huán)以上操作,最后以Excel表格的形式導(dǎo)出即可。導(dǎo)出的數(shù)據(jù)只是數(shù)據(jù)源,數(shù)據(jù)沒有任何規(guī)律和價值,需要對有關(guān)數(shù)據(jù)進(jìn)行進(jìn)一步的分析和提煉。2.ROST第二個是用rost對導(dǎo)出的excel表格中的文字部分進(jìn)行分析,過程以下:首先是對將表格中的中文部分添加到記事本中,如圖:第二步,由于我們同ROST的目的是對詞頻的統(tǒng)計,用來統(tǒng)計在商品售賣中售賣材質(zhì)、長短、香味等特殊屬性對消費者的吸引程度,因此必須將上述部分的標(biāo)題進(jìn)行分詞解決,解決后以下圖:最后,進(jìn)行詞頻統(tǒng)計,將輸出分詞后的txt導(dǎo)入到ROST,進(jìn)行詞頻統(tǒng)計,如圖:由詞頻統(tǒng)計能夠看出ABC品牌的衛(wèi)生巾在日用、超薄、和純棉的屬性是被顧客高度重視的,超長、涼爽、迷你等屬性顧客關(guān)注度不是特別高,因此在后來的經(jīng)營中,能夠?qū)BC品牌的衛(wèi)生巾含有日用、超薄、純棉等屬性的大量囤貨,對于超長、涼爽、迷你等屬性應(yīng)考慮其銷售熱度。Excel最后是運用excel對導(dǎo)出的數(shù)據(jù)進(jìn)行分析,比較每一種商品的本身屬性與其銷售量的關(guān)系。如圖:高潔絲的價格(X)與收藏(Y)的關(guān)系由上圖能夠看出,當(dāng)價格為25.9元28片時是銷量最多的一種價格,往后的趨勢基本就是價格越高,銷售量月越低。尚有一種可能的影響因素是商品是以組合的形式銷售,背面價格越貴,表達(dá)組合裝越多,女性對于衛(wèi)生巾的使用不必要囤貨太多,由于衛(wèi)生巾也是有保質(zhì)期,普通女性沒有囤大量衛(wèi)生巾的習(xí)慣,因此組合中衛(wèi)生巾量太大,即使是進(jìn)行促銷,但是銷售量不一定好。因此這給商家的的建議就是,不用搞促銷時就采用大包裝量多的組合裝,這樣并不能提高銷售量,而是應(yīng)當(dāng)推出適合的少數(shù)量的組合裝。如圖:高潔絲的銷量與收藏的關(guān)系由上圖能夠看出,高潔絲的月銷售量與收藏的線基本重疊,成正有關(guān)的關(guān)系,收藏的越多,其銷售量越高。這個數(shù)據(jù)對于消費者來說是購置商品的一種可信的信息,在購置商品的時候普通銷售量與收藏量成正比,如是發(fā)現(xiàn)收藏量極少,但是銷售量很高這很可能存在刷單現(xiàn)象,消費者應(yīng)當(dāng)含有一定的辨識能力。如圖:高潔絲的銷售與評價的關(guān)系如圖:高潔絲價格和銷量圖由上圖能夠看出價格9.9的時候
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度辦公用品及辦公設(shè)備租賃一體化服務(wù)合同
- 二零二五年度養(yǎng)老社區(qū)入住與緊急救援協(xié)議3篇
- 2025年度養(yǎng)豬場養(yǎng)殖廢棄物處理設(shè)施建設(shè)合同3篇
- 2025年度農(nóng)村房屋買賣合同及土地承包權(quán)轉(zhuǎn)讓與配套設(shè)施租賃及物業(yè)管理合同
- 2025年度農(nóng)副產(chǎn)品線上與線下銷售融合合作協(xié)議3篇
- 二零二五年度?;饭坟浳镞\輸安全管理合同3篇
- 二零二五年度公司經(jīng)理戰(zhàn)略合作伙伴關(guān)系聘用協(xié)議3篇
- 二零二五年度美發(fā)行業(yè)美容美發(fā)行業(yè)投資合作協(xié)議書3篇
- 2025年度農(nóng)村自建房合同協(xié)議書(含節(jié)能環(huán)保建筑材料)
- 二零二五年度農(nóng)村房屋置換項目合作框架協(xié)議
- 人教版(PEP)小學(xué)六年級英語上冊全冊教案
- 廣東省廣州市海珠區(qū)2023-2024學(xué)年六年級上學(xué)期月考英語試卷
- 消防水域救援個人防護裝備試驗 大綱
- 機電樣板施工主要技術(shù)方案
- 涉稅風(fēng)險管理方案
- 青島市2022-2023學(xué)年七年級上學(xué)期期末道德與法治試題
- 高空作業(yè)安全免責(zé)協(xié)議書范本
- 石油化學(xué)智慧樹知到期末考試答案章節(jié)答案2024年中國石油大學(xué)(華東)
- 手術(shù)后如何防止排尿困難
- 特種設(shè)備“日管控、周排查、月調(diào)度”表格
- 重點關(guān)愛學(xué)生幫扶活動記錄表
評論
0/150
提交評論