電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究_第1頁(yè)
電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究_第2頁(yè)
電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究_第3頁(yè)
電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究_第4頁(yè)
電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究_第5頁(yè)
已閱讀5頁(yè),還剩50頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本科生畢業(yè)論文(設(shè)計(jì)) 題 目: 電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究 學(xué) 系: 信息科學(xué)系 專 業(yè): 計(jì)算機(jī)科學(xué)與技術(shù) 學(xué)生姓名: 學(xué) 號(hào): 指導(dǎo)教師: (職 稱) 二一 年 四 月表一 本科畢業(yè)論文(設(shè)計(jì))開(kāi)題報(bào)告論文(設(shè)計(jì))題目:電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究(簡(jiǎn)述選題的目的、思路、方法、相關(guān)支持條件及進(jìn)度安排等)目的: 隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,電子商務(wù)系統(tǒng)在為用戶提供越來(lái)越多選擇的同時(shí),其結(jié)構(gòu)也變得更加復(fù)雜,用戶經(jīng)常會(huì)迷失在大量的商品信息空間中,無(wú)法順利找到自己需要的商品。電子商務(wù)推薦系統(tǒng)(Recommender System)直接與用戶交互,模擬商店銷(xiāo)售人員向用戶提供商品推薦,幫助用

2、戶找到他們真正所需購(gòu)買(mǎi)的商品。近年來(lái)雖然電子商務(wù)推薦系統(tǒng)在理論和實(shí)踐中都得到了很大的發(fā)展,然而電子商務(wù)推薦系統(tǒng)仍面臨著一系列挑戰(zhàn)。針對(duì)電子商務(wù)推薦系統(tǒng)目前所面臨的主要問(wèn)題,本文對(duì)電子商務(wù)推薦系統(tǒng)中推薦算法和推薦系統(tǒng)體系結(jié)構(gòu)等關(guān)鍵技術(shù)進(jìn)行探討。思路: 首先,了解課題的研究背景、研究意思以及課題的國(guó)內(nèi)外現(xiàn)狀;其次,查找相關(guān)資料,以明確電子商務(wù)推薦系統(tǒng)的基本定義、推薦系統(tǒng)體系結(jié)構(gòu)、推薦系統(tǒng)相關(guān)技術(shù)和其基礎(chǔ)理論;最后,深入了解電子商務(wù)推薦系統(tǒng)中關(guān)鍵技術(shù)的推薦算法,如關(guān)聯(lián)規(guī)則推薦算法和協(xié)同過(guò)濾推薦算法,并了解評(píng)價(jià)推薦系統(tǒng)兩個(gè)重要要素。方法:通過(guò)閱讀大量的與電子商務(wù)推薦系統(tǒng)或電子商務(wù)推薦算法相關(guān)的論文、期

3、刊、書(shū)籍,充實(shí)其實(shí)對(duì)這領(lǐng)域的了解和認(rèn)識(shí),最后通過(guò)自身對(duì)其的認(rèn)識(shí)完成論文。相關(guān)支持條件: 在圖書(shū)館查詢相關(guān)資料,同時(shí)利用校園網(wǎng)提供的各種網(wǎng)絡(luò)數(shù)據(jù)庫(kù)資源以及利用Google學(xué)術(shù)搜索引擎等進(jìn)行論文檢索。進(jìn)步安排:第一階段(10月12月):收集大量資料,準(zhǔn)備論文所需材料;第二階段(1月2月):撰寫(xiě)論文,并完成論文體系結(jié)構(gòu);第三階段(3月4月):歸納總結(jié),修改并完善論文。學(xué)生簽名:梁銳彪 2009 年 11 月 15 日指導(dǎo)教師意見(jiàn): 1、同意開(kāi)題( ) 2、修改后開(kāi)題( ) 3、重新開(kāi)題( ) 指導(dǎo)教師簽名: 年 月 日表二 本科畢業(yè)論文(設(shè)計(jì))過(guò)程檢查情況記錄表指導(dǎo)教師分階段檢查論文的進(jìn)展情況(要求

4、過(guò)程檢查記錄不少于3次):第1次檢查學(xué)生總結(jié):開(kāi)始撰寫(xiě)論文,整體思路大致已經(jīng)完成。指導(dǎo)教師意見(jiàn):第2次檢查學(xué)生總結(jié):論文體系結(jié)構(gòu)重新調(diào)整,思路進(jìn)一步完善。指導(dǎo)教師意見(jiàn):第3次檢查學(xué)生總結(jié):論文內(nèi)容進(jìn)行部分調(diào)整,刪除冗余章節(jié),增強(qiáng)論文排版規(guī)范,并增加實(shí)際性較強(qiáng)的內(nèi)容,使論文整體上得到了進(jìn)一步的充實(shí)和規(guī)范。指導(dǎo)教師意見(jiàn):第4次檢查學(xué)生總結(jié):指導(dǎo)教師意見(jiàn): 學(xué)生簽名: 年 月 日指導(dǎo)教師簽名: 年 月 日總體完成情況指導(dǎo)教師意見(jiàn):1、按計(jì)劃完成,完成情況優(yōu)( )2、按計(jì)劃完成,完成情況良( )3、按計(jì)劃完成,完成情況中等( )4、基本按計(jì)劃完成,完成情況及格( )5、完成情況不及格( )指導(dǎo)教師簽名

5、: 年 月 日表三 本科畢業(yè)論文(設(shè)計(jì))成績(jī)?cè)u(píng)定表(試行)學(xué)生姓名學(xué)號(hào)專業(yè)成績(jī)優(yōu) 秀 良 好 中 等 及 格 不 及 格 比例成績(jī)分級(jí)(10090分)(8980分) (7970分)(6960分)(60分)選 題 有相當(dāng)強(qiáng)的理論與實(shí)踐意義。選題有比較強(qiáng)的理論與現(xiàn)實(shí)意義。選題有一定的理論或?qū)嵺`意義。選題意義不大但無(wú)不妥之處。選題不當(dāng),沒(méi)有意義。20%創(chuàng) 新 與 論 證1.用新方法進(jìn)行調(diào)查研究,采用的資料較新,研究結(jié)果有獨(dú)創(chuàng)性。2.論證思路清楚,邏輯性強(qiáng);專業(yè)知識(shí)比較扎實(shí);遵守學(xué)術(shù)規(guī)范,研究所得結(jié)論可靠。1.研究方法及視角有一定新意。2.論證思路較清楚,有一定的邏輯性;結(jié)論比較可靠。1.研究方法及視

6、角均無(wú)創(chuàng)新,但尚能從他人的觀點(diǎn)中發(fā)現(xiàn)問(wèn)題。2.論證基本清楚,結(jié)論有一定可靠性。1.研究方法及視角均無(wú)創(chuàng)新之處,所得出的結(jié)論無(wú)明顯價(jià)值。2.論證不夠嚴(yán)密,超過(guò)20%的篇幅表述不清楚。1.研究方法及視角水平均一般,所得出的結(jié)論無(wú)價(jià)值。2.論證不嚴(yán)密,超過(guò)40%的篇幅表述不清楚。50%寫(xiě) 作 水 平條理清晰,文字流暢;有豐富的文獻(xiàn)材料、充足的理論依據(jù)和數(shù)據(jù)。條理較為清楚,文字流暢;有文獻(xiàn)材料、充足的理論依據(jù)和數(shù)據(jù)。文字流暢;有一些文獻(xiàn)材料、理論依據(jù)和數(shù)據(jù)。文字尚算流暢;文獻(xiàn)材料、理論依據(jù)和數(shù)據(jù)較少?;靖拍畈磺濉㈠e(cuò)別字多;文獻(xiàn)材料、理論依據(jù)和數(shù)據(jù)少。20%格 式 規(guī) 范格式正確,完全符合學(xué)術(shù)規(guī)范及學(xué)

7、院的要求,打印規(guī)范清晰。格式正確,符合學(xué)院論文格式的要求,打印清晰。格式正確,基本符合格式要求,打印規(guī)范清楚,但個(gè)別地方有錯(cuò)漏。格式大部分符合論文格式的要求,并有少量錯(cuò)漏。格式不符合論文格式要求,打印不清晰,錯(cuò)漏較多。10%指導(dǎo)教師簽名成績(jī)(按百分制評(píng)分):表四 優(yōu)秀本科畢業(yè)論文(設(shè)計(jì))答辯情況表答辯人專 業(yè)論文(設(shè)計(jì))題目答辯小組組長(zhǎng)成 員答辯記錄:記錄人簽名: 年 月 日表五 優(yōu)秀本科畢業(yè)論文(設(shè)計(jì))答辯成績(jī)?cè)u(píng)定表(試行)學(xué)生姓名學(xué)號(hào)專業(yè)論文題目評(píng)分項(xiàng)評(píng) 優(yōu) 條 件比例成績(jī)論文選題有相當(dāng)強(qiáng)的理論與實(shí)踐意義。15%學(xué)術(shù)內(nèi)容中心突出,邏輯嚴(yán)密,表述準(zhǔn)確,有創(chuàng)新性且在實(shí)踐中的指導(dǎo)作用較強(qiáng)。40%

8、寫(xiě)作水平條理清晰,論證有力,文字流暢;有豐富的文獻(xiàn)材料、充足的理論依據(jù)和數(shù)據(jù)。15%格式規(guī)范格式正確,完全符合學(xué)術(shù)規(guī)范及學(xué)院要求,打印規(guī)范清晰。10%答辯情況答題正確,重點(diǎn)突出,論述全面,緊扣主題,表達(dá)流暢,具有很強(qiáng)的說(shuō)服力。20%答辯小組成員簽名答辯成績(jī)(按百分制成績(jī)?cè)u(píng)分)注:此表用于推薦的優(yōu)秀畢業(yè)論文的答辯成績(jī)?cè)u(píng)定。學(xué)術(shù)誠(chéng)信聲明本人所呈交的畢業(yè)論文,是在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果,所有數(shù)據(jù)、圖片資料均真實(shí)可靠。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的作品或成果。對(duì)本論文的研究作出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確的方式標(biāo)明。本畢業(yè)論文的

9、知識(shí)產(chǎn)權(quán)歸屬于培養(yǎng)單位。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。本人簽名: 日期: 電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究論文摘要隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,人類(lèi)已進(jìn)入信息社會(huì)和網(wǎng)絡(luò)經(jīng)濟(jì)時(shí)代,電子商務(wù)系統(tǒng)在為用戶提供越來(lái)越多選擇的同時(shí),其結(jié)構(gòu)也變得更加復(fù)雜,用戶經(jīng)常迷失在大量的商品信息空間中,無(wú)法順利找到自己需要的商品。電子商務(wù)推薦系統(tǒng)直接與用戶交互,模擬商店銷(xiāo)售人員向用戶提供商品推薦,幫助用戶找到他們真正需要購(gòu)買(mǎi)的商品,從而順利完成購(gòu)買(mǎi)過(guò)程。在日趨激烈的競(jìng)爭(zhēng)環(huán)境下,電子商務(wù)系統(tǒng)能有效保留用戶、防止用戶流失,提高電子商務(wù)系統(tǒng)的銷(xiāo)售。近年來(lái),電子商務(wù)推薦系統(tǒng)在理論和實(shí)踐中都得到了很大發(fā)展,但是隨著

10、電子商務(wù)系統(tǒng)規(guī)模的進(jìn)一步擴(kuò)大,電子商務(wù)推薦系統(tǒng)也面臨一系列挑戰(zhàn)。針對(duì)這一系列挑戰(zhàn),本文對(duì)電子商務(wù)推薦系統(tǒng)的關(guān)鍵技術(shù)進(jìn)行有益的探討和研究。本文主要的工作包括:首先,對(duì)推薦系統(tǒng)的研究背景、研究意思和當(dāng)前推薦系統(tǒng)的國(guó)內(nèi)外現(xiàn)狀進(jìn)行系統(tǒng)綜述介紹。其次,對(duì)推薦系統(tǒng)的相關(guān)技術(shù)和系統(tǒng)結(jié)構(gòu)進(jìn)行了研究。推薦系統(tǒng)中主要的相關(guān)技術(shù)包括信息過(guò)濾、信息檢索、數(shù)據(jù)挖掘技術(shù)和協(xié)同過(guò)濾技術(shù)。而對(duì)于系統(tǒng)架構(gòu)主要分為輸入、處理和輸出三部分,各個(gè)部分都擔(dān)任著推薦系統(tǒng)的重要角色,這方面的分析為后面的工作提供了理論基礎(chǔ)。最后,對(duì)推薦算法中兩個(gè)關(guān)鍵算法技術(shù)進(jìn)行探討分析,包括關(guān)聯(lián)規(guī)則推薦算法和協(xié)同過(guò)濾推薦算法。通過(guò)對(duì)目前電子商務(wù)推薦算法面臨

11、的主要挑戰(zhàn)提出,希望通過(guò)這些研究為后續(xù)新方法的提出給予一些指導(dǎo),并對(duì)改善關(guān)鍵技術(shù)的展望。 關(guān)鍵字電子商務(wù);推薦系統(tǒng);數(shù)據(jù)挖掘 AbstractWith the popularization of Internet and development of E-Commerce, human being s have been into information society and the Internet economy era, in the meanwhile E-Commerce System offered more and more choices for the consumers,

12、 the structure of E-Commerce web site became more and more complex. This situation made it hard for consumers to find the products they wanted. To solve this issue, recommendation systems were proposed to suggest products and to provide consumers with information to help them decide which products t

13、o purchase. In the increasingly fierce competitive environment, recommendation systems can enhance E-Commerce sales by converting browsers into buyers, increasing cross-sell and building loyalty to prevent user losing. In recent years, E-Commerce Recommendation System, both in theory and practice ha

14、s been great progress. But with the further expansion of the scale of E-Commerce Systems, E-Commerce Recommendation System also faced a series of challenges. Challenge for this series, this Recommendation System on a key e-commerce technologies useful to explore and study. In this paper, mainly incl

15、ude:Firstly, this article will introduce on the recommendation system in the background, meaning and the current recommendation system systematic review status at home and abroad.Secondly, this article will study the related technologies and system architecture on the recommendation system. These re

16、lated technologies, including information filtering, information retrieval, data mining and collaborative filtering technology. The system architecture consists of input, processing and output, all parts of the recommendation system play important role in recommendation system. And this analysis pro

17、vides a theoretical basis for the work.Finally, this article will study two key algorithm of recommendation algorithm, which are association rules and collaborative filtering recommendation algorithm. Through on the current e-commerce recommendation algorithm presenting major challenges, hopes to pr

18、ovide some of the new method propose guidance to follow up research, and the prospect improving of key technologies.Keywords E-Commerce; Recommendation Systems; Data Mining目 錄第1章 緒論11.1 課題研究背景11.2 課題研究意義21.3 課題研究的國(guó)內(nèi)外現(xiàn)狀21.4 本文結(jié)構(gòu)3第2章 電子商務(wù)推薦系統(tǒng)相關(guān)技術(shù)32.1信息檢索和信息過(guò)濾32.1.1 信息檢索32.1.2 信息過(guò)濾42.2 數(shù)據(jù)挖掘技術(shù)52.2.1 數(shù)據(jù)挖

19、掘過(guò)程72.2.2 數(shù)據(jù)挖掘知識(shí)分類(lèi)和數(shù)據(jù)挖掘方法82.2.3 數(shù)據(jù)挖掘與推薦系統(tǒng)92.3 協(xié)同過(guò)濾技術(shù)10第3章 電子商務(wù)推薦系統(tǒng)基礎(chǔ)理論133.1 電子商務(wù)推薦系統(tǒng)133.2 電子商務(wù)推薦系統(tǒng)的輸入和輸出143.2.1 電子商務(wù)推薦系統(tǒng)的輸入153.2.2 電子商務(wù)推薦系統(tǒng)的輸出163.3電子商務(wù)推薦系統(tǒng)分類(lèi)17第4章 電子商務(wù)推薦算法204.1 電子商務(wù)推薦系統(tǒng)算法概述204.2 關(guān)聯(lián)規(guī)則推薦算法214.2.1 關(guān)聯(lián)規(guī)則挖掘224.2.1 關(guān)聯(lián)規(guī)則推薦算法244.3 協(xié)同過(guò)濾推薦算法254.3.1 User-based協(xié)同過(guò)濾推薦算法254.3.2 Item-based協(xié)同過(guò)濾推薦算法2

20、94.4 電子商務(wù)推薦算法面臨的主要挑戰(zhàn)32第5章 推薦系統(tǒng)評(píng)價(jià)要素335.1 平均絕對(duì)誤差MAE335.2 稀疏度33第6章 結(jié)論與展望34參考文獻(xiàn):35致 謝39第1章 緒論1.1 課題研究背景隨著電子商務(wù)規(guī)模的進(jìn)一步擴(kuò)大,為用戶提供越來(lái)越多選擇的同時(shí),其結(jié)構(gòu)也變得更加復(fù)雜。一方面,用戶面對(duì)大量的商品信息束手無(wú)策,用戶經(jīng)常會(huì)迷失在大量的商品信息空間中,無(wú)法順利找到自己需要的商品;另一方面,商家也失去了與消費(fèi)者的聯(lián)系。隨著電子商務(wù)應(yīng)用的領(lǐng)域越來(lái)越廣,對(duì)電子商務(wù)研究越來(lái)越深入,人工智能、Web技術(shù)與商業(yè)模型的集成研究逐步得到了重視。其中在B2C方面,推薦系統(tǒng)(Recommender Syste

21、m)成為研究和應(yīng)用的一個(gè)重點(diǎn)。在海量的商品信息中,推薦系統(tǒng)模擬商店銷(xiāo)售人員向用戶提供商品推薦,幫助用戶找到所需商品,從而順利完成購(gòu)買(mǎi)過(guò)程,因此可以有效保留用戶,提高電子商務(wù)系統(tǒng)的銷(xiāo)售;商家也可以通過(guò)推薦系統(tǒng)保持與客戶的聯(lián)系,重建客戶關(guān)鍵。一方面,電子商務(wù)系統(tǒng)需要推薦系統(tǒng)的大力支持幫助用戶找到所需商品;另一方面,電子商務(wù)系統(tǒng)自身的特點(diǎn)也有利于推薦系統(tǒng)的順利實(shí)施。主要原因包括1:1)豐富的數(shù)據(jù):電子商務(wù)環(huán)境收集的各種數(shù)據(jù)比較豐富,如用戶注冊(cè)數(shù)據(jù)、用戶交易數(shù)據(jù)、用戶評(píng)分?jǐn)?shù)據(jù)、用戶購(gòu)物籃信息、用戶瀏覽數(shù)據(jù)等。豐富的數(shù)據(jù)為建立多種推薦模型,產(chǎn)生高質(zhì)量的推薦提供了可能。2)電子化的數(shù)據(jù)收集:電子商務(wù)環(huán)境中

22、的各種數(shù)據(jù)通過(guò)電子化方式收集,減少了手工方式收集數(shù)據(jù)可能出現(xiàn)的人工誤差,噪音數(shù)據(jù)大大減少,各種數(shù)據(jù)的可信度比較高,數(shù)據(jù)預(yù)處理比較簡(jiǎn)單。3)易于對(duì)推薦效果進(jìn)行評(píng)估:在電子商務(wù)中實(shí)施推薦系統(tǒng)的投資回報(bào)率易于通過(guò)電子商務(wù)Web站點(diǎn)訪問(wèn)量的增加、電子商務(wù)系統(tǒng)銷(xiāo)售額的增加等指標(biāo)直接進(jìn)行評(píng)估。推薦系統(tǒng)具有良好的發(fā)展方向和應(yīng)用前景。推薦系統(tǒng)在幫助了客戶的同時(shí)也提高了顧客對(duì)商務(wù)活動(dòng)的滿意度,換來(lái)對(duì)商務(wù)網(wǎng)站的進(jìn)一步支持。因此,近年來(lái)推薦系統(tǒng)在電子商務(wù)的應(yīng)用越來(lái)越多,幾乎所有大型的電子商務(wù)系統(tǒng),如Amazon、eBay、當(dāng)當(dāng)網(wǎng)等,都不同程度的使用了各種形式的推薦系統(tǒng)。各種提供個(gè)性化服務(wù)的Web站點(diǎn)也需要推薦系統(tǒng)的

23、大力支持。在日趨激烈的競(jìng)爭(zhēng)環(huán)境下,電子商務(wù)推薦系統(tǒng)能有效保留用戶,提高電子商務(wù)系統(tǒng)的銷(xiāo)售。成功的電子商務(wù)推薦系統(tǒng)會(huì)產(chǎn)生巨大的經(jīng)濟(jì)效益。電子商務(wù)推薦系統(tǒng)在理論和實(shí)踐中都得到了很大發(fā)展。但是隨著電子商務(wù)系統(tǒng)的進(jìn)一步發(fā)展,電子商務(wù)推薦系統(tǒng)也面臨一系列挑戰(zhàn)。針對(duì)電子商務(wù)推薦系統(tǒng)面臨的主要挑戰(zhàn),本文將對(duì)電子商務(wù)推薦系統(tǒng)中的核心技術(shù)進(jìn)行了有益的探索和研究。1.2 課題研究意義推薦算法是推薦系統(tǒng)的核心,良好的推薦算法能夠及時(shí)準(zhǔn)確地計(jì)算出符合用戶需求的商品,為客戶提供良好的購(gòu)物體驗(yàn)。本文對(duì)目前應(yīng)用最廣泛的協(xié)同過(guò)濾推薦算法進(jìn)行研究,并嘗試對(duì)其進(jìn)行改進(jìn),使推薦結(jié)果的實(shí)時(shí)性更好,推薦質(zhì)量更高。靈活智能的推薦系統(tǒng)能夠

24、根據(jù)不同的推薦策略進(jìn)行推薦,滿足客戶不同的需要。本文對(duì)目前電子商務(wù)推薦系統(tǒng)的體系結(jié)構(gòu)進(jìn)行了研究,提出的基于Multi-Agent的柔性電子商務(wù)推薦系統(tǒng),使推薦系統(tǒng)更加智能、自動(dòng)和靈活。論文研究具有重要的理論意義和廣闊的應(yīng)用前景。1.3 課題研究的國(guó)內(nèi)外現(xiàn)狀隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,推薦系統(tǒng)逐漸成為電子商務(wù)IT技術(shù)的一個(gè)重要研究?jī)?nèi)容,得到了越來(lái)越多研究者的關(guān)注。美國(guó)計(jì)算機(jī)學(xué)會(huì)ACM從1999年開(kāi)始每年召開(kāi)一次電子商務(wù)的研討會(huì),其中關(guān)于電子商務(wù)推薦系統(tǒng)的研究文章占據(jù)了很大比重。從1999年開(kāi)始此協(xié)會(huì)的數(shù)據(jù)挖掘特別興趣組SIGKDD小組設(shè)立WEBKDD討論組,主題集中在電子商務(wù)中的WEB挖掘

25、技術(shù)和推薦系統(tǒng)技術(shù),而ACM下面的信息檢索特別興趣組SIGIR在召開(kāi)的第24屆研究和發(fā)展會(huì)議上,開(kāi)始專門(mén)把推薦系統(tǒng)作為一個(gè)討論主題。第7屆國(guó)際人工智能聯(lián)合會(huì)議IJCAI01則把E-Business & the Intelligent Web作為一個(gè)獨(dú)立的研討小組。99年召開(kāi)的人機(jī)界面會(huì)議CHI99專門(mén)設(shè)立推薦系統(tǒng)特別興趣組。同時(shí),第十五屆人工智能會(huì)議AAAI-98、第一屆知識(shí)管理應(yīng)用會(huì)議PAKM、96年協(xié)同工作會(huì)議CSCW96等也紛紛開(kāi)始將電子商務(wù)推薦系統(tǒng)作為研究主題。經(jīng)過(guò)多年的努力,國(guó)內(nèi)外在電子商務(wù)推薦技術(shù)和系統(tǒng)的研究方面已取得較多的理論和應(yīng)用成果。1.4 本文結(jié)構(gòu)第一章探討了電子商務(wù)推薦系

26、統(tǒng)提出的背景及其研究意義,介紹了推薦系統(tǒng)的研究現(xiàn)狀,給出本論文的整體組織結(jié)構(gòu)。第二章介紹了電子商務(wù)推薦系統(tǒng)相關(guān)的技術(shù),探討信息檢索、信息過(guò)濾、數(shù)據(jù)挖掘技術(shù)以及協(xié)同過(guò)濾等相關(guān)技術(shù)。第三章探討了電子商務(wù)推薦系統(tǒng)的基礎(chǔ)理論,包括其定義、系統(tǒng)的輸入和輸出、分類(lèi)、目前采用的各種推薦策略和相關(guān)實(shí)例。第四章分析了電子商務(wù)推薦算法在整個(gè)推薦系統(tǒng)中的重要地位,給出了電子商務(wù)推薦算法的分類(lèi)原則及其分類(lèi),然后對(duì)關(guān)聯(lián)規(guī)則推薦算法和協(xié)同過(guò)濾推薦這兩種關(guān)鍵的電子商務(wù)推薦算法進(jìn)行了深入介紹。在協(xié)同過(guò)濾算法中,首先對(duì)協(xié)同過(guò)濾算法所使用的用戶數(shù)據(jù)的收集做了簡(jiǎn)要的描述,然后詳細(xì)介紹了User-based協(xié)同過(guò)濾算法,Item-b

27、ased協(xié)同過(guò)濾算法。第五章闡述了評(píng)價(jià)推薦系統(tǒng)的兩個(gè)重要因素,包括平均絕對(duì)值誤差MAE和稀疏度。第六章總結(jié)全文,并提出對(duì)電子商務(wù)推薦系統(tǒng)中關(guān)鍵技術(shù)的展望。第2章 電子商務(wù)推薦系統(tǒng)相關(guān)技術(shù)2.1信息檢索和信息過(guò)濾推薦系統(tǒng)的關(guān)鍵技術(shù)主要包括信息檢索(IR,Information Retrieval)技術(shù)和信息過(guò)濾(IF,Information Filtering)技術(shù)。 信息檢索是在靜態(tài)信息源中搜索用戶短期的信息需求的過(guò)程;而信息過(guò)濾是對(duì)動(dòng)態(tài)信息進(jìn)行篩選,著重排除不希望得到的信息,帶有即時(shí)性。雖然實(shí)現(xiàn)技術(shù)及其相似,但兩者所完成任務(wù)完全不同41。2.1.1 信息檢索信息檢索技術(shù)一般是指根據(jù)用戶需求,

28、從大規(guī)模的相對(duì)靜止的數(shù)據(jù)庫(kù)中檢索用戶需要的信息,主要滿足用戶瞬時(shí)的信息需求。信息檢索技術(shù)主要用于相對(duì)靜止的信息存儲(chǔ)領(lǐng)域。例如,當(dāng)用戶在數(shù)字圖書(shū)館中進(jìn)行檢索時(shí),用戶提交關(guān)鍵字反映了用戶當(dāng)前的信息需求,數(shù)字圖書(shū)館中的搜索引擎根據(jù)預(yù)先建立好的內(nèi)容檢索,檢索出用戶需要的信息。信息檢索的研究?jī)?nèi)容主要包括索引技術(shù)和查詢技術(shù)。索引技術(shù)是對(duì)資源內(nèi)容進(jìn)行分析,從而將資源內(nèi)容表示為計(jì)算機(jī)可處理的數(shù)據(jù)結(jié)構(gòu)的過(guò)程。查詢技術(shù)根據(jù)用戶需求,查詢用戶需要的資源信息。其研究?jī)?nèi)容主要包括查詢語(yǔ)言設(shè)計(jì)研究、可視化查詢接口研究、用戶請(qǐng)求與資源信息的匹配研究等。在很多情況下,索引技術(shù)與查詢技術(shù)是重疊的,查詢技術(shù)依賴資源信息所采用的索

29、引結(jié)構(gòu)。信息檢索系統(tǒng)的界面主要包括兩種形式。傳統(tǒng)的信息檢索系統(tǒng)主要使用關(guān)鍵字查詢接口,用戶根據(jù)自己的信息需求輸入一到兩個(gè)關(guān)鍵字,信息檢索系統(tǒng)根據(jù)用戶提交的關(guān)鍵字進(jìn)行查詢,然后向用戶返回檢索結(jié)果。目前,越來(lái)越多的信息檢索系統(tǒng)提供動(dòng)態(tài)查詢接口。信息檢索系統(tǒng)動(dòng)態(tài)查詢接口向用戶提供一系列的信息主題供用戶選擇,然后根據(jù)用戶的選擇向用戶提供下一層的信息主題,這樣一直進(jìn)行下去,直到用戶檢索到自己需要的信息為止。這種不斷與用戶進(jìn)行交互的動(dòng)態(tài)查詢接口使得用戶能更容易的檢索到所需信息。信息檢索技術(shù)是實(shí)現(xiàn)推薦系統(tǒng)的關(guān)鍵技術(shù)。推薦系統(tǒng)根據(jù)用戶需求,搜索產(chǎn)品類(lèi)別數(shù)據(jù)庫(kù),然后返回用戶需要的信息。其搜索過(guò)程可以實(shí)時(shí)進(jìn)行,也

30、可以定期周期執(zhí)行。同時(shí),推薦系統(tǒng)提供的推薦界面既可以基于傳統(tǒng)的關(guān)鍵字查詢,也可以基于動(dòng)態(tài)查詢接口。前者的例子如A中的關(guān)鍵字查詢,后者的例子如中的Advisor推薦。2.1.2 信息過(guò)濾信息過(guò)濾技術(shù)一般用戶用戶需求相對(duì)不變,但信息動(dòng)態(tài)呢更新比較頻繁的情況。信息過(guò)濾系統(tǒng)主要面對(duì)的是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),它為用戶的長(zhǎng)期信息需求提供信息過(guò)濾服務(wù)1。用戶的興趣模型可用用戶檔案文件的形式表示。信息過(guò)濾系統(tǒng)將動(dòng)態(tài)信息與用戶檔案文件進(jìn)行匹配,根據(jù)匹配結(jié)果返回用戶需要的信息。信息過(guò)濾與信息檢索的區(qū)別主要包括:1)信息過(guò)濾面向用戶長(zhǎng)期的信息需求,而信息檢索技術(shù)面向的是用戶短期的、實(shí)時(shí)的查詢。2)信息過(guò)濾用檔案

31、文件表示用戶的信息需求特征,而信息檢索技術(shù)是用關(guān)鍵詞表達(dá)用戶的查詢請(qǐng)求。3)信息過(guò)濾中用戶需求相對(duì)不便,但用戶訪問(wèn)的是動(dòng)態(tài)數(shù)據(jù)流,是從動(dòng)態(tài)數(shù)據(jù)流中選擇數(shù)據(jù);信息檢索技術(shù)訪問(wèn)是相對(duì)靜止的數(shù)據(jù),但用戶需求卻具有瞬時(shí)性。表2-1 信息檢索和信息過(guò)濾的區(qū)別信息檢索信息過(guò)濾信息源相對(duì)靜態(tài)的結(jié)構(gòu)化數(shù)據(jù)動(dòng)態(tài)的無(wú)結(jié)構(gòu)或半結(jié)構(gòu)數(shù)據(jù)需求表示檢索詞興趣模板目標(biāo)選擇相關(guān)信息過(guò)濾掉不相關(guān)的信息用戶特點(diǎn)大范圍多用戶的短期使用小范圍少用戶的長(zhǎng)期使用郵件系統(tǒng)信息過(guò)濾和新聞組信息服務(wù)是信息過(guò)濾技術(shù)的典型應(yīng)用。在新聞組信息服務(wù)中,用戶輸入自己感興趣的一組關(guān)鍵詞,新聞組信息服務(wù)通過(guò)關(guān)鍵詞建立用戶檔案。當(dāng)新聞組中加入新信息時(shí),信息過(guò)

32、濾系統(tǒng)對(duì)新信息進(jìn)行過(guò)濾,將滿足用戶需求的新信息反饋給用戶。新聞組信息服務(wù)也可以分析用戶訂閱的信息自動(dòng)抽取關(guān)鍵詞,簡(jiǎn)歷用戶檔案,然后通過(guò)信息過(guò)濾系統(tǒng)將用戶感興趣的新信息反饋給用戶。信息過(guò)濾技術(shù)也是實(shí)現(xiàn)推薦系統(tǒng)的關(guān)鍵技術(shù)。例如,A提供的Eyes推薦就是一個(gè)典型的基于關(guān)鍵詞檢索的信息過(guò)濾系統(tǒng)。用戶輸入基于作者、標(biāo)題、主題、ISBN和出版日期的關(guān)鍵詞,Eyes推薦根據(jù)用戶輸入的關(guān)鍵詞,建立用戶檔案。當(dāng)產(chǎn)品目錄中加入新書(shū)時(shí),Eyes推薦根據(jù)用戶輸入的關(guān)鍵詞和新書(shū)提供的相關(guān)信息,選擇用戶感興趣的新書(shū)作為推薦結(jié)果,通過(guò)E-Mail的方式推薦給用戶。2.2 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘(DataMining),也叫數(shù)

33、據(jù)庫(kù)發(fā)現(xiàn)知識(shí)(KDD, Knowledge Discovery in Database),就是從數(shù)據(jù)庫(kù)中提取隱含的、先前未知的、潛在有用的知識(shí)或信息模式的決策支持方法。數(shù)據(jù)挖掘是20世紀(jì)90年代初針對(duì)“數(shù)據(jù)爆炸,知識(shí)貧乏”這一問(wèn)題而出現(xiàn)的一種新技術(shù),是處理海量信息的有效手段。同傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)相比,數(shù)據(jù)挖掘的主要特點(diǎn)是系統(tǒng)的主動(dòng)性。傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)具有確切性,是正向思維,即首先由用戶設(shè)定一個(gè)前提,然后證實(shí)或否定它,是用戶發(fā)揮主動(dòng)性;而數(shù)據(jù)挖掘技術(shù)具有探索性,是一種逆向思維,即由系統(tǒng)發(fā)現(xiàn)一合適的前提,再證實(shí)或否定,是系統(tǒng)在發(fā)揮主動(dòng)性。自從KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國(guó)家聯(lián)

34、合人工智能學(xué)術(shù)會(huì)議上。1995年在加拿大蒙特利爾市召開(kāi)的第一屆KDD國(guó)際學(xué)術(shù)會(huì)議。隨著研究的深入,數(shù)據(jù)挖掘技術(shù)研究組建成為計(jì)算機(jī)領(lǐng)域的一個(gè)熱門(mén)課題,得到了越來(lái)越多研究者的關(guān)注。許多數(shù)據(jù)挖掘?qū)n}會(huì)議紛紛涌現(xiàn),如PAKDD,PKDD,DLSM-DataMing等。目前,數(shù)據(jù)挖掘技術(shù)在理論和應(yīng)用上都已經(jīng)得到了巨大的發(fā)展。數(shù)據(jù)挖掘能夠從關(guān)系數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù)、時(shí)間序列、空間數(shù)據(jù)、異質(zhì)數(shù)據(jù)等多種數(shù)據(jù)源中挖掘知識(shí)。數(shù)據(jù)挖掘采用的技術(shù)包括數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和OLAP、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、可視化、神經(jīng)元網(wǎng)絡(luò)等不同領(lǐng)域的技術(shù),如圖2.1所示。數(shù)據(jù)挖掘技術(shù)面向應(yīng)用領(lǐng)域,它不僅是面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢調(diào)用,

35、而且,要對(duì)數(shù)據(jù)進(jìn)行微觀、中觀、乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指定實(shí)際問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè)。數(shù)據(jù)挖掘技術(shù)在金融、保險(xiǎn)、電信、大型超市等積累有大量數(shù)據(jù)的電子商務(wù)行業(yè)有著廣泛的應(yīng)用,如信用分析、風(fēng)險(xiǎn)分析、欺詐檢驗(yàn)、用戶聚類(lèi)分析、消費(fèi)者習(xí)慣分析等。圖2.1 典型數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)2.2.1 數(shù)據(jù)挖掘過(guò)程數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的潛在有用信息,提取的知識(shí)表示為概念(concepts)、規(guī)則(rules)規(guī)律(regularities)、模式(patterns)等形式42。從更廣泛的角度來(lái)說(shuō)

36、:數(shù)據(jù)挖掘意味著在一些事實(shí)或者觀察數(shù)據(jù)的集合中尋找模式的決策支持過(guò)程。是利用各種工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系即知識(shí)的過(guò)程,是提高決策科學(xué)性的有利工具。一般來(lái)說(shuō),數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但又潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘是一個(gè)過(guò)程的工程,一般有三個(gè)主要的階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)構(gòu)表達(dá)和解釋。也可以粗略分為:建立目標(biāo)數(shù)據(jù)集、數(shù)據(jù)清理和預(yù)處理、選擇特定的數(shù)據(jù)挖掘算法、結(jié)果的解釋和評(píng)估以及知識(shí)驗(yàn)證及應(yīng)用等幾個(gè)過(guò)程。如圖2.2所示。圖2.2 數(shù)據(jù)挖掘基本過(guò)程(1)建立目標(biāo)數(shù)據(jù)集確定數(shù)據(jù)對(duì)象,清晰地定

37、義出業(yè)務(wù)問(wèn)題,一方面明確實(shí)際工作對(duì)數(shù)據(jù)挖掘的要求,另一方面通過(guò)對(duì)各種學(xué)習(xí)算法的對(duì)比而確定可用的學(xué)習(xí)算法。(2)數(shù)據(jù)清理和預(yù)處理數(shù)據(jù)的質(zhì)量影響著挖掘的結(jié)果,因?yàn)橐M(jìn)行數(shù)據(jù)清理和預(yù)處理。一般包括消除噪聲和無(wú)關(guān)數(shù)據(jù)、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、考慮時(shí)間順序,完成數(shù)據(jù)類(lèi)型轉(zhuǎn)換等。(3)選擇特定的數(shù)據(jù)挖掘算法并執(zhí)行算法首先根據(jù)對(duì)問(wèn)題的定義明確挖掘的任務(wù)或目的,如分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則現(xiàn)或序列模式發(fā)現(xiàn)等。確定挖掘任務(wù)后,進(jìn)行算法的選擇。選擇實(shí)現(xiàn)算法要考慮兩個(gè)因素:一是數(shù)據(jù)特點(diǎn)各異,需要用與之相關(guān)的算法來(lái)挖掘;二是考慮用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求,有的用戶希望獲取描述型的容易理解的知識(shí),而有的用戶只是獲取預(yù)測(cè)

38、準(zhǔn)確度盡可能高的預(yù)測(cè)型知識(shí)。(4)結(jié)果解釋和評(píng)估數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來(lái)的模式,可能存在冗余或無(wú)關(guān)的模式,需要將其剔除。也可能模式不滿足用戶要求,需要整個(gè)發(fā)現(xiàn)過(guò)程回退到前一個(gè)階段。另外,數(shù)據(jù)挖掘是面向最終用戶的,需要對(duì)發(fā)現(xiàn)的模式進(jìn)行可視化,或者將結(jié)果轉(zhuǎn)換為用戶易懂的表示方式。(5)知識(shí)驗(yàn)證及應(yīng)用將以上步驟挖掘出的知識(shí)與運(yùn)行系統(tǒng)結(jié)合,發(fā)揮知識(shí)的作用或證明知識(shí),用預(yù)先可信的知識(shí)檢查和解決知識(shí)中可能存在的矛盾。2.2.2 數(shù)據(jù)挖掘知識(shí)分類(lèi)和數(shù)據(jù)挖掘方法數(shù)據(jù)中隱藏的知識(shí)有各種各樣的形式,這些知識(shí)實(shí)際上是大量數(shù)據(jù)之間的某種關(guān)系。大致說(shuō)來(lái),數(shù)據(jù)挖掘中的知識(shí)可以分為如下幾類(lèi)43:1)分類(lèi)(Classificat

39、ion):將數(shù)據(jù)劃分到事先定義好的類(lèi)別中去。2)回歸(Regression):將數(shù)據(jù)項(xiàng)映射到若干預(yù)定義的變量上。3)聚類(lèi)(Clustering):將數(shù)據(jù)劃分到幾個(gè)聚類(lèi)之中去。4)概括(Summarization):為數(shù)據(jù)的一個(gè)子集給出一個(gè)簡(jiǎn)潔的描述。5)依賴性模型(Dependency Modeling):描述變量之間的相互依賴性。6)鏈接分析(Link Analysis):判斷數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中字段之間存在的關(guān)系。如關(guān)聯(lián)規(guī)則。7)序列分析(Sequence Analysis):構(gòu)造順序模型,發(fā)現(xiàn)數(shù)據(jù)之間在時(shí)間上的相關(guān)性。數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域,其采用的技術(shù)來(lái)自各個(gè)不同的領(lǐng)域,主要的數(shù)據(jù)挖掘

40、方法包括:1)統(tǒng)計(jì)分析方法:利用統(tǒng)計(jì)學(xué)和概率論對(duì)關(guān)系中各個(gè)屬性進(jìn)行統(tǒng)計(jì)分析,找出它們之間存在的關(guān)聯(lián)。2)人工神經(jīng)網(wǎng)絡(luò):模仿生物神經(jīng)網(wǎng)絡(luò),通過(guò)訓(xùn)練進(jìn)行學(xué)習(xí)的非線性預(yù)測(cè)模型,可以完成分類(lèi),聚類(lèi)等多種數(shù)據(jù)挖掘任務(wù)。3)決策樹(shù):用樹(shù)型結(jié)構(gòu)表示決策集合,決策集合通過(guò)對(duì)數(shù)據(jù)集分析產(chǎn)生。典型的決策數(shù)方法如分類(lèi)回歸樹(shù),主要用于分類(lèi)挖掘。4)遺傳算法:一種新的優(yōu)化技術(shù),基于生物進(jìn)化的概念設(shè)計(jì)了一系列過(guò)程來(lái)達(dá)到優(yōu)化的目的,包括基因組合,交又,變異和自然選擇。5)粗糙集:粗糙集是一種處理模糊和不確定性問(wèn)題的新型數(shù)學(xué)工具,粗糙集可以用于數(shù)據(jù)挖掘中的數(shù)據(jù)簡(jiǎn)化、關(guān)聯(lián)規(guī)則挖掘等。6)模糊邏輯:模糊邏輯融合了模糊集合二值邏輯

41、概念。在數(shù)據(jù)挖掘中,模糊邏輯可以用來(lái)進(jìn)行證據(jù)合成、置信度計(jì)算等。7)最近鄰技術(shù):這種技術(shù)通過(guò)K個(gè)最相似的歷史紀(jì)錄的組合來(lái)辨別新的紀(jì)錄??梢杂糜诰垲?lèi)分析、偏差分析等。8)規(guī)則歸納:通過(guò)統(tǒng)計(jì)方法歸納,提取有價(jià)值的IF-THEN規(guī)則,可用于關(guān)聯(lián)規(guī)則挖掘等。9)可視化:采用直觀的圖形方式將信息模式、數(shù)據(jù)關(guān)聯(lián)或趨勢(shì)呈現(xiàn)給決策者,決策者可以通過(guò)可視化技術(shù)交互式分析數(shù)據(jù)關(guān)系。2.2.3 數(shù)據(jù)挖掘與推薦系統(tǒng)電子商務(wù)推薦系統(tǒng)(Recommendation Systems for E-Commerce)的正式定義由Resnick和Varian在1997年給出的,“電子商務(wù)個(gè)性化推薦系統(tǒng)是利用電子商務(wù)網(wǎng)站向用戶提供

42、產(chǎn)品信息和相關(guān)建議,幫助用戶決定購(gòu)買(mǎi)什么產(chǎn)品,通過(guò)模擬銷(xiāo)售人員幫助用戶完成購(gòu)物過(guò)程的系統(tǒng)”。這個(gè)定義現(xiàn)在已經(jīng)被廠泛的引用。推薦系統(tǒng)的使用者是用戶,推薦的對(duì)象是項(xiàng)目。項(xiàng)目是推薦系統(tǒng)提供給用戶的產(chǎn)品或服務(wù),也即最終的推薦內(nèi)容。電子商務(wù)推薦系統(tǒng)是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)領(lǐng)域的范例44隨著電子商務(wù)的應(yīng)用,數(shù)據(jù)庫(kù)中可以收集到大量的用戶數(shù)據(jù),如用戶交易數(shù)據(jù),用戶注冊(cè)數(shù)據(jù)、用戶評(píng)分評(píng)價(jià)數(shù)據(jù)、用戶投票數(shù)據(jù)等;同時(shí),Web服務(wù)器中也保存著用戶訪問(wèn)電子商務(wù)系統(tǒng)的日志數(shù)據(jù)、用戶購(gòu)物籃信息等,這些數(shù)據(jù)中蘊(yùn)含著豐富的知識(shí),基于數(shù)據(jù)挖掘的推薦系統(tǒng)通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)用戶行為和用戶屬性進(jìn)行學(xué)習(xí),從中獲取有價(jià)值的知識(shí),根據(jù)

43、得到的知識(shí)產(chǎn)生推薦45。基于數(shù)據(jù)挖掘的推薦系統(tǒng)根據(jù)數(shù)據(jù)挖掘技術(shù)建立用戶檔案44。用戶檔案的建立可以基于對(duì)用戶長(zhǎng)期行為的分析,如用戶的瀏覽記錄、購(gòu)買(mǎi)歷史、性別、職業(yè)、收入、年齡等。也可以基于用戶的當(dāng)前行為,如用戶當(dāng)前的會(huì)話行為、當(dāng)前購(gòu)物籃信息、當(dāng)前瀏覽商品等。電子商務(wù)推薦系統(tǒng)中的數(shù)據(jù)挖掘主要包括關(guān)聯(lián)規(guī)則挖掘和分類(lèi)挖掘兩類(lèi)46。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個(gè)重要研究?jī)?nèi)容4647。在電子商務(wù)領(lǐng)域,關(guān)聯(lián)規(guī)則挖掘根據(jù)銷(xiāo)售數(shù)據(jù)發(fā)現(xiàn)不同商品在銷(xiāo)售過(guò)程中的相關(guān)性。關(guān)聯(lián)規(guī)則挖掘在電子商務(wù)推薦系統(tǒng)中的應(yīng)用主要包括定點(diǎn)廣告投放和商品推薦。所謂定點(diǎn)廣告投放,就是通過(guò)關(guān)聯(lián)規(guī)則挖掘,將特定廣告投放給可能感興趣的用戶?;?/p>

44、關(guān)聯(lián)規(guī)則的商品推薦根據(jù)生成的關(guān)聯(lián)規(guī)則模型和用戶的購(gòu)買(mǎi)行為產(chǎn)生推薦結(jié)果。分類(lèi)挖掘模型根據(jù)用戶的輸入信息將之劃分為相應(yīng)類(lèi)別,基于分類(lèi)挖掘的推薦系統(tǒng)根據(jù)用戶輸入信息和項(xiàng)的特征信息,預(yù)測(cè)是否向用戶推薦該項(xiàng)。分類(lèi)挖掘通過(guò)對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),訓(xùn)練出對(duì)應(yīng)的分類(lèi)器,然后利用該分類(lèi)器對(duì)新用戶進(jìn)行分類(lèi)。當(dāng)訓(xùn)練集發(fā)生變化時(shí),需要重新進(jìn)行訓(xùn)練以得到新的分類(lèi)器。分類(lèi)挖掘模型可以通過(guò)多種機(jī)器學(xué)習(xí)方法實(shí)現(xiàn),如聚類(lèi)4849、Bayesian網(wǎng)絡(luò)50、神經(jīng)網(wǎng)絡(luò)等51。2.3 協(xié)同過(guò)濾技術(shù)基于內(nèi)容的過(guò)濾(Content-based Filtering)根據(jù)信息的內(nèi)容特性進(jìn)行過(guò)濾,將信息流和用戶檔案文件進(jìn)行匹配,基于匹配程序確定該信

45、息流對(duì)用戶是否有價(jià)值。例如INFOSCOPE利用基于規(guī)則的Agent分析用戶的使用風(fēng)格、監(jiān)測(cè)信息的內(nèi)容特征、判斷其是否是用戶感興趣的,并向用戶提供建議?;趦?nèi)容的推薦技術(shù)可以用圖2.3更形象化的描述。資 源用戶A 的興趣概貌 用戶A圖2.3 基于內(nèi)容的過(guò)濾示意圖基于內(nèi)容的過(guò)濾方法主要存在如下不足52:1)特征提取的能力有限:通常只能對(duì)資源進(jìn)行比較簡(jiǎn)單的特征提取,在一些特定領(lǐng)域如圖形、圖像、視頻、音樂(lè)等媒體,目前還沒(méi)有有效的特征提取方法。即使文本資源,其特征提取方法也只能反映資源的內(nèi)容,但是難以提取資源的質(zhì)量、風(fēng)格等信息。2)推薦的資源過(guò)于狹窄:系統(tǒng)盡可能向用戶推薦最符合用戶檔案的信息,因此,推

46、薦將局限于跟用戶以前瀏覽的資料類(lèi)似的信息。協(xié)同過(guò)濾(CF,Collaborative Filtering)可以有效解決基于內(nèi)容的過(guò)濾存在的問(wèn)題53。在協(xié)同過(guò)濾中,用戶通過(guò)相互協(xié)作來(lái)選擇信息,它依據(jù)其他用戶對(duì)信息作出的評(píng)價(jià)來(lái)挑選信息。協(xié)作方常常是用戶所信任的朋友、同事等,依據(jù)他們的判斷向用戶推薦信息。協(xié)同過(guò)濾方法對(duì)用戶的行為進(jìn)行分析,并不關(guān)心信息的實(shí)際內(nèi)容。自動(dòng)化協(xié)同過(guò)濾系統(tǒng)通過(guò)收集用戶對(duì)信息的評(píng)價(jià),搜索具有相同興趣喜好的用戶,然后根據(jù)具有相同興趣喜好的用戶對(duì)信息的評(píng)價(jià)產(chǎn)生推薦結(jié)果。協(xié)同推薦技術(shù)可以用圖2.4形象化的表示。用戶A 的興趣概貌用戶B 的興趣概貌 用戶A 用戶B圖2.4 協(xié)同推薦技術(shù)

47、示意圖和基于內(nèi)容的過(guò)濾方法相比,協(xié)同過(guò)濾具有如下優(yōu)點(diǎn)5253:1)適合于過(guò)濾難以分析內(nèi)容的資源:協(xié)同過(guò)濾不關(guān)心資源的具體內(nèi)容,因此,在難以分析資源內(nèi)容的情況下,如圖形、圖像、視頻、音樂(lè)等,協(xié)同過(guò)濾是很好的選擇。2)新奇的推薦:協(xié)同過(guò)濾可以發(fā)現(xiàn)內(nèi)容上完全不相似的資源,用戶對(duì)推薦信息的內(nèi)容事先是預(yù)料不到的。 協(xié)同過(guò)濾推薦是當(dāng)前最成功的推薦技術(shù)。最近鄰協(xié)同過(guò)濾根據(jù)評(píng)分相似的最近鄰居的評(píng)分?jǐn)?shù)據(jù)向目標(biāo)用戶產(chǎn)生推薦。由于最近鄰居對(duì)項(xiàng)(電子商務(wù)中的商品,電影,音樂(lè)等)的評(píng)分與目標(biāo)用戶非常相似,因此目標(biāo)用戶對(duì)未評(píng)分項(xiàng)的評(píng)分可以通過(guò)最近鄰居對(duì)項(xiàng)評(píng)分的加權(quán)平均值逼近54。協(xié)同過(guò)濾推薦通過(guò)用戶對(duì)項(xiàng)的評(píng)分信息產(chǎn)生推薦

48、,用戶對(duì)項(xiàng)的評(píng)分信息可以通過(guò)隱式和顯式兩種方式得到。隱式方式通過(guò)用戶瀏覽或購(gòu)買(mǎi)過(guò)的商品推斷用戶興趣愛(ài)好。顯式方式則讓用戶直接輸入用戶對(duì)商品的數(shù)字評(píng)分和文本評(píng)價(jià)信息協(xié)同過(guò)濾推薦系統(tǒng)通過(guò)用戶對(duì)項(xiàng)的評(píng)分信息,建立用戶檔案,然后使用不同的推薦機(jī)制提供推薦服務(wù)。最簡(jiǎn)單的協(xié)同過(guò)濾系統(tǒng)計(jì)算所有用戶對(duì)項(xiàng)的平均評(píng)分,選擇平均評(píng)分最高的前N個(gè)項(xiàng)作為推薦結(jié)果推薦給用戶。這種推薦機(jī)制根據(jù)所有的用戶評(píng)分信息產(chǎn)生推薦,所有用戶在同一時(shí)間得到的推薦都是相同的,因此這種推薦方法又稱為非個(gè)性化推薦。Tapestry是最早提出的個(gè)性化協(xié)同過(guò)濾推薦系統(tǒng)。用戶需要明確指出與自己興趣愛(ài)好相似的其他用戶,推薦系統(tǒng)根據(jù)指定的其他用戶對(duì)商品

49、的評(píng)價(jià)信息產(chǎn)生推薦結(jié)果。與之類(lèi)似,Maltz等人提出的個(gè)性化協(xié)同過(guò)濾推薦系統(tǒng)允許用戶向自己熟悉的用戶群體主動(dòng)提供推薦信息。在上述協(xié)同過(guò)濾推薦系統(tǒng)中,用戶之間必須了解對(duì)方的興趣愛(ài)好,因此一般只適用于用戶數(shù)量比較小的場(chǎng)合。隨著電子商務(wù)系統(tǒng)的發(fā)展,用戶和項(xiàng)的數(shù)量逐漸擴(kuò)大,與之相適應(yīng),研究者提出了自動(dòng)個(gè)性化協(xié)同過(guò)濾推薦系統(tǒng)。在自動(dòng)個(gè)性化協(xié)同過(guò)濾推薦系統(tǒng)中,系統(tǒng)自動(dòng)識(shí)別用戶的最近鄰居,根據(jù)最近鄰居對(duì)項(xiàng)的評(píng)價(jià)產(chǎn)生推薦。GroupLens是最早提出的的自動(dòng)個(gè)性化協(xié)同過(guò)濾推薦系統(tǒng),用于從大量的新聞中搜索用戶感興趣的新聞列表。MovieLens自動(dòng)個(gè)性化協(xié)同過(guò)濾推薦系統(tǒng)用于產(chǎn)生電影推薦。Video自動(dòng)個(gè)性化協(xié)同過(guò)濾推薦系統(tǒng)和Ringo自

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論