下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于粗集的數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用摘要 電子商務(wù)是現(xiàn)代商業(yè)的主流趨勢,基于數(shù)據(jù)挖掘技術(shù)可以充分利用企業(yè)的信息數(shù)據(jù),從海量數(shù)據(jù)中挖掘出對企業(yè)有用的信息。文中主要介紹了基于粗糙集的數(shù)據(jù)挖掘過程:數(shù)據(jù)預(yù)處理、約簡和規(guī)則提取。 關(guān)鍵詞 電子商務(wù) 粗集 數(shù)據(jù)挖掘 決策規(guī)則 一、引言 在當(dāng)前信息化時代,世界電子商務(wù)發(fā)展速度非??欤瑐鹘y(tǒng)行業(yè)的電子商務(wù)也得到了廣泛的應(yīng)用。在日益激烈的電子商務(wù)買方市場競爭中,任何與消費者行為有關(guān)的信息對商家來說都是非常寶貴的。雖然電子商務(wù)網(wǎng)站的后臺數(shù)據(jù)庫能夠記錄下來豐富的交易信息和顧客相關(guān)的數(shù)據(jù),但是這些數(shù)據(jù)資源中所蘊涵的大量有益信息至今卻未能得到充分地挖掘和利用。粗糙集作為
2、一種新的數(shù)據(jù)挖掘的手段,在這一領(lǐng)域的應(yīng)用有不錯的前景。在數(shù)據(jù)挖掘的過程中,存在大量冗余數(shù)據(jù)影響我們的決策,粗糙集理論在得到的決策規(guī)則和推理過程方面是最有利的工具,它不但可以在不影響數(shù)據(jù)所表達的信息下使原來的數(shù)據(jù)量大為減少,而且可以產(chǎn)生決策規(guī)則,從而可以挖掘數(shù)據(jù)中的有效的模式。 二、基于粗集的數(shù)據(jù)挖掘方法 1.粗集的基本概念 粗糙集(Rough Set,簡稱RS)理論由波蘭邏輯學(xué)家Pawlak教授于1982年提出,由于它能有效處理不精確、不一致及不完整等不完備信息,并從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律,近年來越來越多的研究人員開始對它進行研究,從理論上建立了Rough集理論的數(shù)據(jù)模型,還提出了很
3、多算法,在機器學(xué)習(xí)、數(shù)據(jù)挖掘、人工神經(jīng)網(wǎng)絡(luò)等方面得到了廣泛應(yīng)用。粗糙集理論和數(shù)據(jù)挖掘關(guān)系密切,它為數(shù)據(jù)挖掘提供了一種新的方法和工具。 在粗集理論中,“知識”被認(rèn)為是一種將現(xiàn)實或抽象的對象進行分類的能力。關(guān)于U的一個知識庫可以理解為一個關(guān)系系統(tǒng),其中U為論域,R是U上的一簇等價關(guān)系。決策表信息系統(tǒng)又叫決策表,他是一類特殊而重要的知識表達系統(tǒng),也是一種特殊的信息表,它表示當(dāng)滿足某些條件時決策(行為、操作、控制)應(yīng)當(dāng)如何進行。它是一張二維表格,每一行描述一個對象,每一列描述對象的一種屬性。屬性分為條件屬性和決策屬性,論域中的對象根據(jù)條件屬性的不同,被劃分到具有不同決策屬性的決策類。 2.基于粗集的數(shù)
4、據(jù)挖掘過程 數(shù)據(jù)挖掘研究的實施對象多為關(guān)系型數(shù)據(jù)庫,關(guān)系表可被看作為粗糙集理論中的決策表,這給粗糙集方法的應(yīng)用帶來極大的方便,現(xiàn)實世界中的規(guī)則有確定性,也有不確定性的,從數(shù)據(jù)庫中發(fā)現(xiàn)不確定性的知識,為粗糙集方法提供了用武之地。數(shù)據(jù)挖掘中采用的其它技術(shù),如神經(jīng)網(wǎng)絡(luò)的方法,不能自動地選擇合適的屬性集,而利用粗糙集方法進行預(yù)處理,去掉多余屬性,可提高發(fā)現(xiàn)效率,降低錯誤率?;诖植诩臄?shù)據(jù)挖掘過程主要有數(shù)據(jù)預(yù)處理、約簡(包括屬性約簡和屬性值約簡)及規(guī)則提取。 (1)數(shù)據(jù)預(yù)處理 在利用粗糙集進行自動規(guī)則獲取時,第一步要進行的工作是數(shù)據(jù)的預(yù)處理。 數(shù)據(jù)預(yù)處理主要包括兩個方面:數(shù)據(jù)的補齊和數(shù)據(jù)的離散化。運用
5、粗糙集理論處理決策表時,要求決策表中各值用離散值表達。如果決策表中某些條件屬性或決策屬性的值域為連續(xù)取值(浮點數(shù)表達),則在處理前必須經(jīng)過離散化。離散化在整個規(guī)則獲取過程中起著至關(guān)重要的作用,好的離散化算法不僅丟失信息很少,而且得到的規(guī)則的適應(yīng)性較強。 (2)屬性約簡 基于粗糙集的數(shù)據(jù)挖掘方法的一個顯著的特點就是它具有顯式的知識表達形式。根據(jù)粗糙集理論中信息系統(tǒng)的定義,把屬性A分為了條件屬性C和決策屬性D,那么我們很容易根據(jù)信息表得到If C Then D的產(chǎn)生式規(guī)則。理論上我們針對信息系統(tǒng)中的每一條記錄,都可以得到這樣一條規(guī)則。但是直接由信息表得到的規(guī)則,條件項較多,規(guī)則的泛化能力弱,適用范
6、圍窄。 一般情況下,信息系統(tǒng)中的條件屬性并不是同等重要的,有些條件屬性是多余的,刪除這些屬性并不影響原來的系統(tǒng)。屬性約簡就是在不影響原來的系統(tǒng)的情況下,刪除不相關(guān)或不重要的條件屬性,使原有的系統(tǒng)得到簡化。通過應(yīng)用粗糙集理論對決策表約簡,就是約簡決策表中的條件屬性及屬性值,約簡后的決策表具有約簡前決策表相同功能,但條件屬性達到最小化從而使我們用最少的信息量即可做到一個正確的判斷,決策表的約簡很有意義。 (3)屬性值約簡 值約簡的目的是為了提取決策規(guī)則,那么這些缺失的屬性值是肯定要被約簡掉的,和屬性約簡不同,值約簡是針對每一個對象而言的。雖然對整個決策表來說沒有冗余的屬性,但對于每一個對象來說,仍
7、然存在著屬性冗余,去掉這些屬性對今后決策規(guī)則的提取、規(guī)則的簡化有重要的作用。根據(jù)定義一般值約簡算法基本描述如下:對于規(guī)則集合中的每條規(guī)則,對于該規(guī)則中的任意條件屬性,如果去掉該屬性,該規(guī)則不和集合中的其他規(guī)則沖突,則可以從該規(guī)則中去掉該條件屬性。 (4)規(guī)則提取 對進行屬性約簡和值約簡后的信息表,就可以進行規(guī)則的獲取,使用一個約簡集RED從決策系統(tǒng)S=(U,A)中產(chǎn)生規(guī)則的過程相當(dāng)直接。直觀地,將每個約簡用在決策表的每個對象上,只要簡單地從表中讀出適當(dāng)?shù)膶傩灾祦硇纬蓻Q策規(guī)則。用類似邏輯語言中的形式表示決策規(guī)則,和分別稱為決策規(guī)則的前件和后件,代表條件屬性值的組合。三、應(yīng)用實例 1.數(shù)據(jù)收集與預(yù)
8、處理 在數(shù)據(jù)挖掘中有一個很重要的步驟就是要為挖掘算法找到合適的數(shù)據(jù)。在客戶通過電子商務(wù)網(wǎng)站進行交易的過程中,企業(yè)獲取相關(guān)數(shù)據(jù)的來源主要有兩個方面:(1)服務(wù)器數(shù)據(jù);(2)客戶登記信息。在本應(yīng)用實例中,將收集某企業(yè)的客戶登記信息進行基于粗集的數(shù)據(jù)挖掘, 對某企業(yè)的部分客戶資料信息經(jīng)過初步處理,得到對決策屬性有潛在因果關(guān)系的條件屬性和決策屬性的字段列表,并對其進行編號。由于運用Rough set理論處理決策表時,要求決策表中各值用離散值,經(jīng)過離散處理后得到如表1所示的決策表。S =< U,R,V, f>,設(shè)論域為抽取樣本,其中R=CD,設(shè)U=1,2,.,條件屬性C=年齡,性別,婚否,學(xué)
9、歷,收入,決策屬性D=是否購買。在用相應(yīng)的算法進行屬性約簡前,所有的數(shù)據(jù)都必須是整型數(shù)據(jù)或浮點型數(shù)據(jù),將表1中的數(shù)據(jù)轉(zhuǎn)換為整型數(shù)據(jù),結(jié)果如表2。 2.約簡 屬性約簡的算法有很多,在本例中采用歸納屬性約簡,約簡后的決策表如表3。在該決策表中,約掉了性別、婚否兩個屬性,說明客戶中性別、婚否不是是否購買公司產(chǎn)品的決定性因素,年齡、學(xué)歷和收入才是決定性因素。 經(jīng)過屬性約簡后的決策表中的每一個記錄可以作為一條規(guī)則,但其中包含著大量的冗余信息,即在約簡后的信息系統(tǒng),并不是每一條記錄的每一個屬性值都對信息系統(tǒng)最后決策規(guī)則的提取產(chǎn)生作用,必須對屬性約簡后的結(jié)果
10、繼續(xù)簡化。剔除經(jīng)過屬性約簡后的決策表中的冗余信息即為屬性值約簡。其實,屬性值的約簡是更進一步的約簡,是真正實現(xiàn)了決策表的最簡化,就實際意義而言,屬性值簡化了的決策表更突出了關(guān)鍵屬性及其關(guān)鍵屬性值對決策屬性的影響。采用啟發(fā)式屬性值約簡對表3進行屬性值約簡,得到表4。 3.決策規(guī)則提取 根據(jù)值約簡后的決策表,可得如下的規(guī)則: 規(guī)則1:IF (a4=3) THEN d=1 規(guī)則2:IF (a5=3) THEN d=1 規(guī)則3:IF (a1=3) AND (a4=4) AND (a5=4) THEN d=1 規(guī)則4:IF (a5=4) THEN d=1 規(guī)則5:IF (a1=1) AND (a4=1)
11、 THEN d=0 從規(guī)則1至規(guī)則4可以分析得到年齡在30歲40歲之間,學(xué)歷為碩士以上且收入在4000元以上的客戶購買了公司的商品,規(guī)則5則說明了年齡在30以下,學(xué)歷為大專及以下的客戶沒有購買。由挖掘得到的規(guī)則,可以為公司在促銷和鎖定目標(biāo)客戶的決策上起到重要作用。 四、結(jié)束語 電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運作模式的必然選擇。利用基于粗集的數(shù)據(jù)挖掘技術(shù),可以充分利用電子商務(wù)企業(yè)現(xiàn)有的信息數(shù)據(jù),從中發(fā)現(xiàn)有利的規(guī)則,為企業(yè)管理提供決策支持,使企業(yè)在在電子商務(wù)的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,數(shù)據(jù)挖掘一定會有更加廣闊的應(yīng)用前景。 參考文獻: 1Pawlak Z. Rough set. International Journal o
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度玻璃鋼化糞池環(huán)保產(chǎn)品市場推廣與品牌建設(shè)合同3篇
- 溫州浙江溫州泰順縣泗溪鎮(zhèn)中心衛(wèi)生院招聘編外工作人員駕駛員筆試歷年參考題庫附帶答案詳解
- 溫州浙江溫州樂清市婦女兒童服務(wù)中心招聘工作人員筆試歷年參考題庫附帶答案詳解
- 清遠2024年廣東清遠陽山縣招聘事業(yè)單位工作人員47人筆試歷年參考題庫附帶答案詳解
- 海南2025年海南醫(yī)科大學(xué)第一附屬醫(yī)院招聘206人筆試歷年參考題庫附帶答案詳解
- 浙江2025年浙江紡織服裝職業(yè)技術(shù)學(xué)院社區(qū)管理人員招聘筆試歷年參考題庫附帶答案詳解
- 濟寧2025年山東濟寧梁山縣教育系統(tǒng)校園招聘7人(曲阜師范大學(xué)站)筆試歷年參考題庫附帶答案詳解
- 河北河北省醫(yī)保局選聘醫(yī)療保障基金社會監(jiān)督員20人筆試歷年參考題庫附帶答案詳解
- 新疆2025年新疆伊犁師范大學(xué)引進高層次人才70人筆試歷年參考題庫附帶答案詳解
- 2025年個人房屋租賃權(quán)抵押借款合同范本
- 垃圾處理廠工程施工組織設(shè)計
- 天皰瘡患者護理
- 機電一體化系統(tǒng)設(shè)計-第5章-特性分析
- 2025年高考物理復(fù)習(xí)壓軸題:電磁感應(yīng)綜合問題(原卷版)
- 雨棚鋼結(jié)構(gòu)施工組織設(shè)計正式版
- 2025年蛇年新年金蛇賀歲金蛇狂舞春添彩玉樹臨風(fēng)福滿門模板
- 《建筑制圖及陰影透視(第2版)》課件 4-直線的投影
- 2024-2030年中國IVD(體外診斷)測試行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 碎紙機設(shè)計說明書
- 湖南省長沙市青竹湖湘一外國語學(xué)校2021-2022學(xué)年八年級下學(xué)期期中語文試題
- 2024年股權(quán)代持協(xié)議經(jīng)典版(3篇)
評論
0/150
提交評論