第三章電子商務(wù)信息搜集10-09_第1頁
第三章電子商務(wù)信息搜集10-09_第2頁
第三章電子商務(wù)信息搜集10-09_第3頁
第三章電子商務(wù)信息搜集10-09_第4頁
第三章電子商務(wù)信息搜集10-09_第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三章電子商務(wù)信息搜集主要內(nèi)容3.1、電子商務(wù)信息搜集途徑3.2、Web2.0環(huán)境下電子商務(wù)信息搜集3.3、關(guān)鍵績效指標信息3.4、電子商務(wù)信息數(shù)據(jù)挖掘2023/2/513.1.1搜索引擎搜索引擎采用“機器人”、“蜘蛛”、“爬蟲”等軟件不間斷地在網(wǎng)上抓取網(wǎng)頁信息,并建立相應(yīng)索引數(shù)據(jù)庫,從而實現(xiàn)對用戶提出的各種查詢做出響應(yīng)。

美國:google、雅虎等

中國:百度、搜狗等2023/2/523.1電子商務(wù)信息搜集途徑搜索引擎基本結(jié)構(gòu)數(shù)據(jù)采集:Robot定期對Web站點的網(wǎng)頁進行遍歷,將搜集的頁面信息存入到“網(wǎng)頁數(shù)據(jù)庫”標注索引:對搜集數(shù)據(jù)的內(nèi)容分析和分詞,構(gòu)建倒排索引表數(shù)據(jù)檢索:根據(jù)用戶查詢請求,在索引庫中查詢匹配2023/2/532023/2/54Robot搜集數(shù)據(jù)庫Indexer索引數(shù)據(jù)庫UserProfile檢索器用戶接口數(shù)據(jù)挖掘Web1)標注索引2023/2/55例:0號文件內(nèi)容:itiswhatitis1號文件內(nèi)容:whatitis2號文件內(nèi)容:itisabanana倒排序列表如作圖所示:

2023/2/56分詞文件序號a2banana2is0,1,2it0,1,2what0,1若檢索條件是:

“what”*“is”*“it”{0,1}∩{0,1,2}{0,1,2}={0,1}2023/2/57例:0號文件內(nèi)容:重慶南方翻譯學院1號文件內(nèi)容:重慶南方集團2號文件內(nèi)容:渝北回興南方翻譯學院則其倒排列表為:2023/2/58分詞結(jié)果文件序號

重慶0,1

南方0,1,2

翻譯0,2

學院0,2

集團1渝北2回興2

檢索條件檢索結(jié)果

“南方”*“學院”{0,1,2}∩{0,2}={0,2}“重慶”*“集團”{0,1}∩{1}={1}“回興”+“重慶”{2}∪{0,1}={0,1,2}2023/2/592)檢索表達式構(gòu)造方法(i)布爾邏輯檢索策略檢索符:*,+,-(ii)截詞檢索策略檢索符:*(任意多個字符),

?(任意一個字符)比如:張*,張?(iii)限制檢索策略“Title”,

”keywords”,”mp3”,”author”2023/2/510(iv)位置邏輯檢索策略

常用檢索符:W,N,FWith(W):A(nW)B表示詞A與詞B之間最多可以插入n個其他詞,詞A與詞B前后順序不變;Near(N):A(nN)B表示詞A與詞B之間最多可以插入n個其他詞,詞A與詞B不必保持前后順序;2023/2/511

Field(F):A(F)B表示詞A與詞B必須同時出現(xiàn)在一個字段中,如同時出現(xiàn)在摘要,關(guān)鍵字,篇名中;各詞之間可以插入任意個其他詞,詞序任意變化;2023/2/5123.1.2目錄檢索雅虎,galaxy,搜狐,美國虛擬圖書館等,按類別提供相應(yīng)的網(wǎng)絡(luò)資源地址3.1.3網(wǎng)絡(luò)站點3.1.4網(wǎng)絡(luò)數(shù)據(jù)庫知網(wǎng),萬方,維普等3.1.5隱形網(wǎng)絡(luò)2023/2/5133.2、Web2.0環(huán)境下電子商務(wù)信息搜集Web2.0環(huán)境下搜集方式1)blog:網(wǎng)絡(luò)日志,以網(wǎng)絡(luò)作為載體,用戶對相關(guān)話題發(fā)表自己的觀點,及時與他人交流的個性化平臺。主要通過企業(yè)和公司的博客獲得有價值商務(wù)信息。2023/2/5142)Tag:是更為有趣、靈活的分類方式,通過對文檔日志添加不同的標簽實現(xiàn)多種分類。比如:您寫了一篇北京旅游的日志,原先都放到自己的“游記”分類下,但是有了Tag之后,您可以給這篇日志同時加上“旅游”,“北京”,“天安門”,“長城”等幾個Tag,當瀏覽者點擊任意一個Tag時,都會看到您的日志。2023/2/515RSS(RichSiteSummary):豐富的站點摘要2023/2/516

常用的RSS閱讀器Googlereader新浪點點通閱讀器AbotNewsReader2023/2/5173.3、關(guān)鍵績效指標信息2023/2/518網(wǎng)站類型

網(wǎng)站經(jīng)營內(nèi)容關(guān)鍵績效指標

電子交易網(wǎng)站網(wǎng)絡(luò)購物成交數(shù)量平均單筆成交額平均單筆成交品種注冊登錄分布業(yè)務(wù)統(tǒng)計離線交易頻率新老訪客比

品牌推介網(wǎng)站吸引客戶認識、接納特定品牌的商品平均逗留時間訪問深度訪問間隔訪問頻率訪客與非訪客平均單筆交易額之比客戶滿意度調(diào)查品牌形象變化調(diào)查2023/2/519網(wǎng)站類型

網(wǎng)站經(jīng)營內(nèi)容關(guān)鍵績效指標

信息產(chǎn)品內(nèi)容服務(wù)網(wǎng)站以游戲、文獻資料、多媒體、證書認證等與客戶交易每周訪客數(shù)量廣告點擊率新老客戶比訪問間隔訪問頻率訪客黏度3.4、電子商務(wù)信息數(shù)據(jù)挖掘數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的數(shù)據(jù)中提取有用知識的過程。數(shù)據(jù)挖掘主要方法有:統(tǒng)計分析(相關(guān)分析、因子分析、回歸分析)、分類(貝葉斯、決策樹、人工神經(jīng)網(wǎng)絡(luò),支持向量機等)、聚類(k-means聚類、密度聚類)、關(guān)聯(lián)規(guī)則分析(APRIORI)2023/2/5203.4.1Bayes分類以概率論為依據(jù),由先驗概率推導(dǎo)出后驗概率托馬斯·貝葉斯(1701-1761)英國牧師和數(shù)學家。為了證明上帝的存在,他提出了概率統(tǒng)計學原理。遺憾的是,他的美好愿望至今未能實現(xiàn)。貝葉斯理論廣泛應(yīng)用于人工智能,統(tǒng)計決策等領(lǐng)域。2023/2/5211)條件概率定義設(shè)A,B兩個隨機事件,且P(A)>0.稱

為A事件發(fā)生的條件下B事件發(fā)生的概率2023/2/522例:將一枚硬幣拋擲兩次,觀察正反面的情況,設(shè)A為“至少有一次為H”,事件B為“兩次擲出同一面”,求已知事件A已經(jīng)發(fā)生的條件下事件B發(fā)生的概率。樣本空間(隨機試驗所有可能結(jié)果組成的集合)為S={HH,HT,TH,TT};事件A={HH,HT,TH},事件B={HH,TT}

2023/2/5232)劃分的定義設(shè)S為隨機試驗E的樣本空間,B1,B2,…,Bn為E的一組事件(樣本空間的子集),若(i)Bi∩Bj=?,i≠j,i,j=1,2,…,n(積事件)(ii)B1,∪B2∪,…,∪Bn

=S(和事件)則稱B1,B2,…,Bn為E的一個劃分。

2023/2/524例:設(shè)隨機試驗E為“擲一顆骰子觀察其點數(shù)”,其樣本空間為S={1,2,3,4,5,6},則E的一組事件B1={1,2,3},B2={4,5},B3={6}是S的一個劃分;C1={1,2,3},C2={3,4},C3={5,6}不是S的一個劃分。2023/2/5253)全概率公式設(shè)S為隨機試驗E的樣本空間,B1,B2,…,Bn為E的一個劃分,且P(Bi)>0(i=1,2,…,n),則稱P(A)=P(AB1)+P(AB2)+…..+P(ABn)=P(A|B1)P(B1)+P(A|B2)P(B2)+…..+P(A|Bn)P(Bn)為全概率公式。2023/2/526在許多實際問題中,P(A)不容易直接求得,但卻容易找到S的一個劃分B1,B2,…,Bn并且P(Bi)和P(A|Bi)容易得到,此時就可用全概率。2023/2/527例:某一個電子設(shè)備制造廠所用的元件由三家元件制造廠提供,以往記錄有以下數(shù)據(jù),設(shè)這三家工廠產(chǎn)品在倉庫均勻混合,且無區(qū)別標志在倉庫中隨機取一只元件,求它是次品的概率2023/2/528元件制造廠

次品率份額10.020.1520.010.8030.030.05設(shè)A表示“取到的是一只次品”,Bi(i=1,2,3)表示“取到的產(chǎn)品是由第i家工廠提供”,則B1

,

B2

,B3是樣本空間的一個劃分。P(B1)=0.15,P(B2)=0.80,P(B3)=0.05P(A|B1)=0.02,P(A|B2)=0.01,P(A|B3)=0.03由全概率公式可知P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B3)P(B3)=0.0125

2023/2/5294)貝葉斯公式設(shè)S為隨機試驗E的樣本空間,A為E的事件,B1,B2,…,Bn為E的一個劃分,且P(A)>0P(Bi)>0(i=1,2,…,n),則稱為貝葉斯公式2023/2/530依上例,在倉庫中隨機取一只元件,若它是次品,求此次品有那家工廠生產(chǎn)的概率最大由貝葉斯公式得:2023/2/5313.4.2決策樹分類算法決策樹的基本思想:(1)在數(shù)據(jù)集的所有非類別屬性中找出一個最具有分辨能力(提供信息量最大)的屬性作為樹根節(jié)點,并用其將數(shù)據(jù)集分成若干子集,對每一個子集重復(fù)上述操作,直到所有的子集都只含有同類型數(shù)據(jù)。(2)用得到的決策樹新樣本分類2023/2/532廣泛使用的決策樹算法有:ID3(重點講解)、C4.5等ID3引入信息論中的互信息(信息增益),作為判斷非類別屬性分辨能力的度量,即計算各個非類別屬性與類別屬性的互信息,找出最大者作為決策樹的根節(jié)點,直到所有的子集都只含有同類型數(shù)據(jù)。2023/2/5332023/2/534NoOutlookTemperatureWindyHumidityPlay1sunnyhotfalsehighno2sunnyhottruehighno3overcasthotfalsehighyes4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno7overcastcooltruenormalyes8sunnymildfalsehighno9sunnycoolfalsenormalyes10rainmildfalsenormalyes11sunnymildtruenormalyes12overcastmildtruehighyes13overcasthotfalsenormalyes14rainmildtruehighno2023/2/535特點:每一個非葉子節(jié)點代表一個屬性;每一個弧代表一個屬性的取值;每個葉子節(jié)代表一個類別;2023/2/536相關(guān)公式:設(shè)類別屬性U的屬性取值為{u1,u2,…,un}非類別屬性V的屬性取值為{v1,v2,…,vm}則,類別屬性U的先驗熵(平均信息量)為其中,為屬性值ui出現(xiàn)的概率2023/2/537屬性V的不同取值相對于U的后驗熵為U相對于V的條件熵U相對于V的信息增益2023/2/5382023/2/539NoOutlookTemperatureWindyHumidityPlay1sunnyhotFalsehighno2sunnyhottruehighno3overcasthotfalsehighyes4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno7overcastcooltruenormalyes8sunnymildfalsehighno9sunnycoolfalsenormalyes10rainmildfalsenormalyes11sunnymildtruenormalyes12overcastmildtruehighyes13overcastHotfalsenormalyes14rainMildtruehighno非類別屬性類別屬性O(shè)utlookTemperatureWindyHumidityPlaySunny(5)Overcast(4)Rain(5)Hot(4)Mild(6)Cool(4)True(6)False(8)High(7)Normal(7)Yes(9)No(5)2023/2/540構(gòu)造上表數(shù)據(jù)的決策樹計算類別屬性play的先驗熵

2023/2/541outlook屬性信息增益1)計算outlook屬性取值的后驗熵2023/2/542nooutlookplay1sunnyno2sunnyno3overcastyes4rainyes5rainyes6rainno7overcastyes8sunnyno9sunnyyes10rainyes11sunnyyes12overcastyes13overcastyes14rainno2)計算outlook屬性的條件熵3)計算outlook屬性的互信息(信息增益)2023/2/543humidity屬性信息增益1)計算取值的后驗熵2023/2/544nohumidityplay1highno2highno3highyes4highyes5normalyes6normalno7normalyes8highno9normalyes10normalyes11normalyes12highyes13normalyes14highno2)計算條件熵3)計算信息增益2023/2/545windy屬性信息增益1)計算取值的后驗熵2023/2/546nowindyplay1Falseno2trueno3falseyes4falseyes5falseyes6trueno7trueyes8falseno9falseyes10falseyes11trueyes12trueyes13falseyes14trueno2)計算條件熵3)計算信息增益2023/2/547temperature屬性信息增益1)計算后驗熵2023/2/548notemperatureplay1hotno2hotno3hotyes4mildyes5coolyes6coolno7coolyes8mildno9coolyes10mildyes11mildyes12mildyes13Hotyes14Mildno2)計算條件熵3)計算temperature屬性劃分后的信息增益2023/2/549比較不同屬性的信息增益,選出信息增益最大的屬性作為樹根節(jié)點因此,選擇outlook屬性作為樹根節(jié)點2023/2/550構(gòu)造決策樹根節(jié)點2023/2/551數(shù)據(jù)子集1數(shù)據(jù)子集22023/2/552NoOutlookTemperatureWindHumidityPlay1sunnyhotFalsehighno2sunnyhottruehighno8sunnymildfalsehighno9sunnycoolfalsenormalyes11sunnymildtruenormalyesNoOutlookTemperatureWindHumidityPlay3overcasthotfalsehighyes7overcastcooltruenormalyes12overcastmildtruehighyes13overcastHotfalsenormalyes數(shù)據(jù)子集32023/2/553NoOutlookTemperatureWindHumidityPlay4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno10rainmildfalsenormalyes14rainMildtruehighno確定數(shù)據(jù)子集(1)的根節(jié)點計算數(shù)據(jù)子集(1)的先驗熵2023/2/554數(shù)據(jù)子集(1)下Humidity屬性的信息增益1)計算數(shù)據(jù)子集(1)下humidity屬性取值的后驗熵2023/2/555nohumidityplay1highno2highno8highno9normalyes11normalyes2)計算數(shù)據(jù)子集(1)下humidity屬性的條件熵3)計算數(shù)據(jù)子集(1)下humidity屬性的信息增益2023/2/556數(shù)據(jù)子集(1)下windy屬性的信息增益1)計算數(shù)據(jù)子集(1)下windy屬性的取值后驗熵2023/2/557NoWindyPlay1Falseno2trueno8falseno9falseyes11trueyes2)計算數(shù)據(jù)子集(1)下windy屬性的條件熵3)計算數(shù)據(jù)子集(1)下windy屬性的信息增益2023/2/558數(shù)據(jù)子集(1)下temperature屬性的信息增益1)計算數(shù)據(jù)子集(1)下temperature屬性取值的后驗熵2023/2/559NoTemperaturePlay1hotno2hotno8mildno9coolyes11mildyes2)計算數(shù)據(jù)子集(1)下temperature屬性的條件熵3)計算數(shù)據(jù)子集(1)下temperature屬性的信息增益2023/2/560在數(shù)據(jù)集(1)下,比較不同屬性的信息增益,選出信息增益最大的屬性作為樹根節(jié)點因此,選擇humidity屬性作為數(shù)據(jù)集(1)的樹根節(jié)點2023/2/561構(gòu)造子樹根節(jié)點

2023/2/562構(gòu)造子樹根節(jié)點

2023/2/563確定數(shù)據(jù)子集(3)的根節(jié)點計算數(shù)據(jù)子集(3)的先驗熵2023/2/564數(shù)據(jù)子集(3)下windy屬性的信息增益1)計算數(shù)據(jù)子集(3)下windy屬性取值的后驗熵2023/2/565NoWindyPlay4falseyes5falseyes6trueno10falseyes14trueno2)計算數(shù)據(jù)子集(3)下windy屬性的條件熵3)計算數(shù)據(jù)子集(3)下windy屬性的信息增益2023/2/566數(shù)據(jù)子集(3)下temperature屬性的信息增益1)計算數(shù)據(jù)子集(3)下temperature屬性取值的后驗熵2023/2/567NoTemperaturePlay4mildyes5coolyes6coolno10mildyes14Mildno2)計算數(shù)據(jù)子集(3)下temperature屬性的條件熵3)計算數(shù)據(jù)子集(3)下temperature屬性的信息增益2023/2/568在數(shù)據(jù)子集(3)下,比較不同屬性的信息增益,選出信息增益最大的屬性字樹根節(jié)點因此,選擇windy屬性作為數(shù)據(jù)集(3)的樹根節(jié)點2023/2/569構(gòu)造子樹根節(jié)點

rain,cool,normal,falseno/yes?2023/2/5703.4.2K-means聚類算法K-means聚類思想:根據(jù)“物以類聚”的思想,將沒有類別的樣本聚集成不同的組(簇),使得簇內(nèi)緊湊,簇間疏遠。2023/2/5712023/2/572歐氏距離給定數(shù)據(jù)集合X={xi|i=1,2,3,..,n},其中,xi的維度為d,即樣本xi=(xi1,xi2,….,xid),樣本xj=(xj1,xj2,….,xjd);規(guī)定樣本xi和xj歐氏距離為:

2023/2/573k-means聚類算法采用誤差平方和準則函數(shù)評價聚類性能。假設(shè)數(shù)據(jù)集X包含k個聚類子集X1,X2,…,Xk;各個聚類子集的聚類中心分別為m1.m2…,mk,則誤差平方和準則函數(shù)為2023/2/574k-means聚類算法描述:輸入:N個d維聚類樣本

,聚類簇數(shù)k輸出:k個聚類簇,使得誤差平方和準則足夠小或聚類簇不再發(fā)生變化Step1:為每個聚類簇確定一個聚類中心Step2:將樣本集中的樣本按照最小距離原則最鄰近簇中;Step3:計算每個簇中樣本的均值,并將其作為該簇的新聚類中心Step4:重復(fù)step2,step3,直到誤差平方和準則足夠小或聚類中心不再發(fā)生變化2023/2/575例:利用k-means算法將以下用戶分成兩類2023/2/576U

消費金額(萬元)未消費金額(萬元)u102u200u31.50u450u552(1)選擇u1(0,2),u2(0,0)為初始簇中心,對應(yīng)簇分別為C1,C2

即m1=u1=(0,2),m2=u2=(0,0)(2)對剩余的用戶數(shù)據(jù),根據(jù)其到每個簇中心的距離,劃分到不同簇中對u3

則把u3劃分到簇C2中

2023/2/577對u4

則把u4劃分到簇C2中對u5

則把u5劃分到簇C1中2023/2/578得到新簇C1={u1,u5,},C2={u2,u3,u4,}計算平方誤差準則E1=|0-0|2+|2-2|2+|5-0|2+|2-2|2=25E2=|0-0|2+|0-0|2+|1.5-0|2+|0-0|2+|5-0|2+|0-0|2=27.25E

=E1+E2=25+27.25=52.252023/2/579計算簇的新聚類中心m1=((0+5)/2,(2+2)/2)=(2.5,2)m2=((0+5+1.5)/3,(0+0+0)/3)=(2.17,0)80U

消費金額(萬元)未消費金額(萬元)u102u552U

消費金額(萬元)未消費金額(萬元)u200u31.50u450以新聚類中心為基礎(chǔ),重新對所有樣本劃分簇對樣本u1

則把u1劃分到簇C1中2023/2/581對樣本u2

則把u2劃分到簇C2中對樣本u3

則把u3劃分到簇C2中2023/2/582對樣本u4

則把u4劃分到簇C2中對樣本u5

則把u5劃分到簇C1中2023/2/583得到新簇C1={u1,u5,},C2={u2,u3,u4,}重新計算平方誤差準則E1=|0-2.5|2+|2-2|2+|5-2.5|2+|2-2|2=12.5E2=|0-2.17|2+|0-0|2+|1.5-2.17|2+|0-0|2+|5-2.17|2+|0-0|2=13.17E

=E1+E2=12.5+13.17=25.672023/2/5843.4.3Apriori關(guān)聯(lián)規(guī)則分析算法美國沃爾瑪超市中有趣的現(xiàn)象:啤酒和尿布擺放在同一貨架2023/2/5852023/2/586Apriori算法描述CkCandidateitemsetofsizekLkFrequentitemsetofsizekC1={allCandidatesitemsetofsize1fromDB}L1={CandidatesitemsetinC1withmin_support}For(k=1;Lk!=?;k++)dobeginCk=CandidatesgeneratedfromLk-1

foreachtransactiontinDBdoincrementthecountofallcandidatesinCkthatarecontainedint

Lk={CandidatesitemsetinCkwithmin_supportendreturnUkLk

87兩步驟:1)產(chǎn)生頻繁項集:發(fā)現(xiàn)滿足支持度大于閾值的所有項;

2)產(chǎn)生關(guān)聯(lián)強規(guī)則:從上述頻繁項目集中提取大于置信度閾值的規(guī)則。相關(guān)概念項集:包含0個或多個項的集合k-后選項集:包含k個項的項集支持度:k-后選項集中k項在事務(wù)集中出現(xiàn)的次數(shù)k-頻繁項集:k-后選項集中支持度大于閾值的項的集合置信度confidence(AB)=support_count(AUB)/support_count(A)2023/2/588

2023/2/589交易序號

銷售商品1咖啡,果醬,冰激凌2面包,果醬,牛奶3牛奶,果醬,面包,咖啡4面包,牛奶Isetsup{牛奶}3{冰激凌}1{果醬}3{咖啡}2{面包}32候選項目集C21頻繁項目集L1Isetsup{牛奶}3{果醬}3{咖啡}2{面包}3Isetsup{牛奶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論