




已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘技術(shù)研究及其在零售業(yè)中的應(yīng)用.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
摘要 摘要 海量數(shù)攥靛存在以及扶海量數(shù)據(jù)中提取決策績毖靜強(qiáng)愁需求,傻褥數(shù)擺挖掘 月豁成為研究的熱點(diǎn)。本文主要研究了數(shù)據(jù)挖掘的理論、相關(guān)技術(shù)以及數(shù)據(jù)挖掘 技術(shù)在現(xiàn)實(shí)中懿應(yīng)鬻j 。論文以數(shù)攥挖掘技術(shù)鶼磅究作為核心,深入研究了關(guān)聯(lián)蕊 則和決策樹分類技術(shù)。關(guān)聯(lián)規(guī)則及決策樹歸納分類作為數(shù)據(jù)挖掘的兩個(gè)嫩要方 法,有著可理解性強(qiáng)、簡潔性好、應(yīng)用范闔廣等優(yōu)點(diǎn)。本文探討了這兩種挖掘算 法實(shí)現(xiàn)中的各項(xiàng)技術(shù),以及它們在現(xiàn)實(shí)系統(tǒng)中的應(yīng)用。論文的研究成果與主要內(nèi) 容有以下幾個(gè)方面: ( 1 ) 對傳統(tǒng)關(guān)聯(lián)趣則囂法的改進(jìn)。在貪紹理行冀法a 登r i o 娃算法不足的 基礎(chǔ)上,本文提出了新的改進(jìn)算法。改進(jìn)措施主要包含兩方面:是利用頒集的 特 壘壓縮鎊處理懿數(shù)據(jù)疼記錄,著跌理論上論涯了該方法豹霹行瞧;二是對于候 選2 項(xiàng)集的計(jì)數(shù),采用了獨(dú)特的位置推導(dǎo)方法來鴦接計(jì)數(shù),克服了逐一比較法需 進(jìn)行大量眈較運(yùn)算、效率較低的缺點(diǎn)。經(jīng)商場實(shí)際數(shù)據(jù)測試證疆,改遺后瀚算法 與傳統(tǒng)算法相比具有更好的性能和可擴(kuò)展性。 ( 2 ) i d 3 決策樹分類算法的改進(jìn)。介紹了經(jīng)典的i d 3 決策樹分糞算法,由于 該算法是假定數(shù)據(jù)能夠裝入內(nèi)存的,因此對于數(shù)據(jù)很大的情況則無能為力。本人 在總結(jié)多種簿法的藏礎(chǔ)上,根據(jù)實(shí)際數(shù)據(jù)情況,提出了i d p r o 決策樹改進(jìn)薜法。 浚冀法殼黢了一般籜法霉多次掃撼數(shù)握疼涎缺點(diǎn),只零一次翅接靼可生戲決篆 樹。經(jīng)實(shí)際應(yīng)用證明,該算法可有效應(yīng)用于千兆級數(shù)據(jù)庫,有較強(qiáng)的實(shí)用性。 ( 3 ) 羹翦,國肉在鼗據(jù)挖掘方囂靜磷究僅袋予算法軍囂模型靜褥究,還沒有 提升副實(shí)際應(yīng)用的鼷面上。本文通過深入學(xué)習(xí)和研究,在總結(jié)實(shí)際項(xiàng)目開發(fā)經(jīng)驗(yàn) 的蕊礎(chǔ)上,提出了一個(gè)靈涵的、面淘零售娩的數(shù)據(jù)挖掘系統(tǒng)模型。嘗試將零售業(yè) 中的商業(yè)邏輯與數(shù)據(jù)挖掘功能平滑集成,形成簡單易用的數(shù)據(jù)挖掘系統(tǒng)。并以實(shí) 際項(xiàng)目“王府井集團(tuán)數(shù)據(jù)挖掘系統(tǒng)”為例,詳細(xì)介紹了該數(shù)據(jù)挖掘系統(tǒng)的主 要功能及襄業(yè)價(jià)值,著分櫥了改進(jìn)藤的關(guān)聯(lián)規(guī)則算法及決鑲樹分類獒法對系統(tǒng)的 優(yōu)化作用。 關(guān)鍵詞數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;分類 a b s t r a c t a b s t r a c t t h es t u d yo fd a t am i l l i n gt e c l l l l o l o g yi sb e c o m i n gi n c r e a s i n 9 1 yp o p u l a rb e c a u s e ( ) ft h ee x i s t e n c eo fh u g ev o l u m e so fd a t aa 1 1 d 協(xié)es 仃d n gr e q u i r e m e n t so fe x 觚l c t i i l g 8 t r a t e 百c d e c i s i o ni n f o r m a t i o n 丘o mv e r yl a r g ed a t a b a s e t h et h e s i ss t u d i e st 1 1 e t h e o r i e sa 工l dr e l a 廿v et e c l 】i 1 0 1 0 9 i e so fd a t am i n i n g ,a 1 1 d l e 印p l i c a t i o no fd a t am i n i l l g l e c l l n o l o 百e s t a l ( i n gd a t a 工i l i n i n gt e c h n o l o 百e s a s 也ek e y ,i s t l l d yd e 印l y t 1 1 e a s s o c i a t i o nm l e sa n dd e c i s i o n 廿c ec i a s s i 丘c a 廿o nt e c l l l l o l o g y a sm e 鉚o i m p o r t a l l t m e t h o d su s e di nd a t am i n i l l g ,m ea s s o c i a t i o nm l e sa 1 1 dd e c i s i o n 廿e ec l a s s i 丘c a t i o n 盯e e a s yt ou n d e r s t a n d ,c o n c i s ea n dw i d e l yu s e d t h et 1 1 e s i ss t l l d i e sm et e c h n o l o g i e so f 印p l y i n g t 1 1 et 、】l ,om e 也o d st od a t ai n i n i n g ,a 工l d 協(xié)ea p p l i c a t i o no f t h et e c l l l l o l o g i e s t h e m a i nr c s e a r c ha c 王1 i e v e m e n t s 柚dc o n t e n t so f m em e s i si n c l u d e : 1 t h ei m p m v e m e n to n 血em 以i t i o n a la s s o c i a t i o nn l l em i l l i n ga l g o r i 廿1 m b a s e d o nt 1 1 ed i s c u s s i o no f 出ed i s a d v a l l t a g e so fp r e s e n ta p 一鰣a 1 9 0 r i t 脅,t h et 1 e s i s p r e s e n t san e w 呻r 0 v e da l g o r i 也m t h e r ea r e 錒oa s p e c t so fi m p r o v e m e n t o n ei s c o m p r e s s m g 也e t r a n s a c t i o nr e c o r d su s i l l gt h ec h a r a c t 甜s t i co fi t e ms e t t h em e m o d i s p r o v e dt o b ef e a s i b l e t h eo t l l e ri s c a l c u l a t i n gm ec a n d i d a t e 2 一i t e m s e t s u s i n g s d e c m cl o c a t i o nd e r i v a t i o nm e t l l o d t h em e t l l o do v e r c o m e st h ed m w b a c ko fm e i e m c i e n tm c n l o do f c o n l p 撕n g o n eb yo n e ,州c hn e e d s1 a r g ea m o l l l l to fc o m p 撕n g o p e r a t i o n t h en e wa l g o r i t l l mh a sb e e ni i n p l e m e n t e do ne m p o d u m d a t at h er e s u l t s h o w sm a tn e wa l g o d m m p e r f o m s m u c h b e t t e r ,a n di sm o r es c a l a b l em a l lt r a d m o n a l a l g o r i t m 2 t h ei m p r o v 鋤咖o ft h ed 3d e c i s i o n 打e ec l a s s i f i c a t i o na l g o r i t m t h et h e s i s d i s c u s s e st h et r a d i t i o n a li d 3d e c i s i o n 訂e ec l a s s i f l c a t i o na l g o r i t h i n ,、) l r h i c ha s s m e s t h a td a t ac a nb e1 0 a d e di n t o 也em e m o r y ,也u si ti si n c a p 西b l ef a c i n gl a r g ea m o u n to f d a t a s u m n l 撕z i n gs e v e r a la l g o n m m s ,ip r e s e n tt h ei m p r o v e di d p r od e c i s i o nt r e e a l g o r i t h mm o d e lo nm e b a s i so fa c m “d a t a ,d e s i 甌a n dc a n yo u tt h em o d e l t h e d e c i s i o nt r e ec a nb eg e n e r a t e da n e rs c 鋤i n gm ed a t d b a s eo n l yo n c ew h e r e a sm a n y o m e ra 1 9 0 r i m m sr e q u i r es c a n n i l l gt h ed a t a b a s es e v e r a l t i m e s i ti sp r o v e db ya c t u a l a 1 ) p l i c a t i o nm “t h e n e w a l g o r i t h m c a nb e e f 詫c t i v e l yu s e d a td a t a b a s e so f g i g ad a t a 3 ho u rc o u n t r y ,t h ec u r r e n ts t u d yo nd a t am i n i n gi so n l ya b o u tt h es t u d yo f a l g o r i t h m sa n dm o d e l s ,a 1 1 dh a sn o tr e a c h e dt h ea c t u a l 印p l i c a t i o ny e t t h et 1 1 e s i s p r e s e n t sa f l e x i b l em o d e lo fd a t am i n i n gs y s t e mf o rr e t a i l e r st l l r o u 曲d e 印s t l i d ya 工1 d i i 北京工北大學(xué)工學(xué)碩士學(xué)位詫義 s u i n m a r yo f t h ea c t u a lp r o j e c td e v e l o p m e n te x p e r i e n c e s 礬et h e s i st r yt os m 0 0 t h l y i n t o 舒a t et h eb u s i n e s sl o g i ca n d d a t am i n i n gf h n c t i o n so fr e t a i l e r sa n df o r mas i m p l e a 】1 ( i e a s y - t o u s e d a t am i n i n gs y s t e m t a k i n gt h ea c t u a lp r o j e c t ,t h od a t am i l l i n g s y s t e mo fw a n g f u j i n gg r o u p ,a sa ne x 鋤p l e ,也et h e s i si n t r o d u c e si n t e n s i v e l yt h e m a i nf u n c t i o n sa i l db u s i n e s sv a l u e so ft h ed a t am i n i n gs y s t e m ,a 1 1 da 1 1 a y z e sm e o p l i m i z a t i o n o ft h e 呻r o v e d a s s o c i a t i o nr u l e s a l g o r i t l l m a 1 1 dd e c i s i o nt r e e c l a s s i 矗c a t i o na l g o r i t h m ,t om ed 越am i 越n gs y s t e m k e y w o r d s d a t am i n i n g ;a s s o c i 確o nm l e ;c l a s s i f i c a t i o n i 第1 章緒論 第1 章緒論 1 數(shù)據(jù)挖撼出現(xiàn)的背景 隨著數(shù)據(jù)庫系統(tǒng)的廣泛應(yīng)用,許多企業(yè)和政府部門積累了大量的數(shù)據(jù),這 些海爨數(shù)據(jù)收集、存放在大型數(shù)據(jù)庫中。由于缺乏有效的工具,理解它們已經(jīng) 遠(yuǎn)遠(yuǎn)超出了人們的能力。結(jié)果,這些數(shù)據(jù)成了難得再訪問的數(shù)據(jù)擋案。決鐿者 聯(lián)做出的決策往往不是基于數(shù)據(jù)庫中信息豐富的數(shù)據(jù),面楚基于決策畿的哀 覺。人們漣切鼴要強(qiáng)農(nóng)力麴工具采挖掘數(shù)握蜚后隱藏豹知識(shí),應(yīng)耀于生產(chǎn)控制、 市場分櫥、科學(xué)探索等鑲域。雖然磊翦數(shù)據(jù)瘁系統(tǒng)已目熬成熬,并螢也鏹含了 一些聯(lián)祝分析處毽( 0 l a 秭工其,輿有匯總、合并和聚集功能,以及扶不閶的角 度觀察信息的能力,但它仍只是種驗(yàn)證式分析工具,不能解決深層次的分析, 如數(shù)據(jù)分類、聚類和數(shù)據(jù)隨時(shí)間變化的特征,因此仍然需耍更有效的分析工具。 數(shù)據(jù)挖掘技術(shù)正是在這樣的應(yīng)用需求推動(dòng)下產(chǎn)生并迅速發(fā)展起來的。數(shù)據(jù)挖掘 的出現(xiàn)為蠱動(dòng)和智能地把海量的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識(shí)提供了手段。它 把人們對數(shù)據(jù)豹應(yīng)用從低屢次的麓單糞詢,提丹剿從數(shù)掇中挖掘知識(shí),提供決 策支持。 數(shù)據(jù)挖掘技術(shù)酌痘用領(lǐng)域十分廣闊,它酉 三 扶關(guān)系數(shù)據(jù)律、數(shù)據(jù)倉癢、文 本和多媒體數(shù)據(jù)霹、攀務(wù)數(shù)據(jù)庫和互聯(lián)網(wǎng)等各種數(shù)據(jù)源上設(shè)法獲取諸如分類模 型、聚類模型、回歸模型、關(guān)聯(lián)模型和時(shí)間序列模型等多種知識(shí)模型。可以說, 有數(shù)據(jù)積累的地方,就有數(shù)據(jù)挖掘技術(shù)的用武之地。目前,數(shù)據(jù)挖掘技術(shù)在貨 籃數(shù)據(jù)( b a 8 k e td a t a ) 分析、金融風(fēng)險(xiǎn)預(yù)測、產(chǎn)品質(zhì)量分析、分予生物學(xué)、纂因工 翟研究、觸e m e t 站點(diǎn)訪闖模式發(fā)現(xiàn)以及信息搜索等領(lǐng)域得到了廣泛的成蠼。 數(shù)據(jù)挖掘技術(shù)被認(rèn)為是數(shù)據(jù)瘁積人工纓能領(lǐng)域中硪究、開發(fā)瓤應(yīng)用最活躍的分 支之一,匯聚了不閡镢域瓣磷究囂,尤其是數(shù)據(jù)瘁技術(shù)、入工智能技術(shù)、數(shù)理 統(tǒng)計(jì)、可筏純技術(shù)、并辛亍計(jì)算等方瑟瓣學(xué)嚳稻工程技術(shù)入員,投身到數(shù)搽挖掘 這一新興的研究領(lǐng)域,形成了新的技術(shù)熱點(diǎn)。 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 1 2 目前研究現(xiàn)狀 1 2 1 國外研究及應(yīng)用現(xiàn)狀 數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和應(yīng)用最活躍的分支之一。其研究重點(diǎn)也逐 漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科 之間的相互滲透。目前,世界上比較有影響的通用數(shù)據(jù)挖掘系統(tǒng)有:s a s 公司 的e n t e r p r i s em i n e r 、i b h i 公司的q u e s t 、s g i 公司的s e t m i n e r 、s p s s 公司的 c l e m e n t i n e 、s y b a s e 公司的w a r e h o u s es t u d i o 、r u l e q u e s tr e s e a r c h 公司的 s e e 5 、由加拿大s i m o nf r a s e 大學(xué)“智能數(shù)據(jù)庫系統(tǒng)研究實(shí)驗(yàn)室”與d b m i n e r t e c h n o l o g y 公司共同開發(fā)的產(chǎn)品d b m i n e r 。 通用數(shù)據(jù)挖掘工具對于使用者的要求比較高,需要多種人才的配合,才能 達(dá)到使用目的。為解決這問題,一些專用數(shù)據(jù)挖掘系統(tǒng)應(yīng)運(yùn)而生,如:加州 理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室與天文科學(xué)家合作開發(fā)的s k i c a t 系統(tǒng),幫助天文學(xué) 家發(fā)現(xiàn)遙遠(yuǎn)的類星體:芬蘭赫爾辛基大學(xué)計(jì)算機(jī)科學(xué)系開發(fā)的t a s a 系統(tǒng),幫 助預(yù)測網(wǎng)絡(luò)通信中的警報(bào):i b m 公司的a d v a n c e d s c 。u t 系統(tǒng)針對n b a 的數(shù)據(jù), 幫助教練優(yōu)化戰(zhàn)術(shù)組合,一度在數(shù)據(jù)庫界被傳為佳話。最近,還有不少數(shù)據(jù)挖 掘產(chǎn)品用來篩選i n t e r n e t 上的新聞,保護(hù)用戶不受無聊電子郵件的干擾和商 業(yè)推銷,受到極大的歡迎。 1 2 2 國內(nèi)研究及應(yīng)用現(xiàn)狀 與國外相比,國內(nèi)對數(shù)據(jù)挖掘的研究稍晚,還沒有形成整體力量。目前, 國內(nèi)已有一些科研單位和高等院校開展了知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的基礎(chǔ)理論及其 應(yīng)用研究,這些單位包括清華大學(xué)、中科院計(jì)算技術(shù)研究所、空軍第三研究所、 海軍裝備論證中心等。其中,北京系統(tǒng)工程研究所對模糊方法在知識(shí)發(fā)現(xiàn)中的 應(yīng)用進(jìn)行了較深入的研究,北京大學(xué)也在開展對數(shù)據(jù)立方體代數(shù)的研究,華中 理工大學(xué)、復(fù)旦大學(xué)、浙江大學(xué)、中國科技大學(xué)、中科院數(shù)學(xué)研究所、吉林大 學(xué)等單位開展了對關(guān)聯(lián)規(guī)則開采算法的優(yōu)化和改造;南京大學(xué)、四川聯(lián)合大學(xué) 2 第1 蘋緒論 上海交通大學(xué)等單位探討、研究了非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn)以及w e b 數(shù)據(jù)挖 掘。 國內(nèi)企業(yè)運(yùn)用數(shù)據(jù)挖掘技術(shù)來協(xié)助業(yè)務(wù)活動(dòng)的應(yīng)用還處于起步階段。成功 應(yīng)用的案例還比較少,這對數(shù)據(jù)挖掘技術(shù)和工具的研究人員以及開發(fā)商 來說我國是一個(gè)有巨大潛力的市場。 1 3 課題研究的理論與實(shí)際意義 海量數(shù)據(jù)庫通常有上百個(gè)屬性和數(shù)百萬個(gè)元組,這不僅增大了搜索空間, 也增加了發(fā)現(xiàn)錯(cuò)誤模式的可能性。因此必須利用領(lǐng)域知識(shí)降低維數(shù),除去無關(guān) 數(shù)據(jù),從而提高算法效率。對于大型數(shù)據(jù)庫,數(shù)據(jù)挖掘算法的運(yùn)行時(shí)間必須可 預(yù)測,且可接受。目前基于約束的挖掘成為數(shù)據(jù)挖掘算法研究的重要方向。本 文深入研究了關(guān)聯(lián)規(guī)則挖掘技術(shù)最常用的a p r i o r i 算法及分類規(guī)則挖掘技術(shù)中最 常用的決策樹算法,提出了改進(jìn)算法。并將這些算法應(yīng)用到王府井集團(tuán)的數(shù)據(jù) 挖掘系統(tǒng)中,經(jīng)過實(shí)驗(yàn)證明這些算法是有效的。 通用數(shù)據(jù)挖掘系統(tǒng)在處理特定應(yīng)用問題時(shí)有其局限性,對操作人員要求也 比較高,很難普及,因此目前的一種趨勢是開發(fā)針對特定應(yīng)用的數(shù)據(jù)挖掘系統(tǒng)。 本文通過深入學(xué)習(xí)和研究,嘗試將零售業(yè)中的商業(yè)邏輯與數(shù)據(jù)挖掘功能平滑集 成,形成簡單易用的數(shù)據(jù)挖掘系統(tǒng)。該系統(tǒng)將根據(jù)已有的數(shù)據(jù)協(xié)助決策者發(fā)現(xiàn) 顧客購買模式和趨勢;有針對性的發(fā)放和郵寄新品銷售宣傳單以取得更好的顧 客保持力和滿意度;設(shè)計(jì)更好的打折、促銷策略以提高貨品銷售比率,減少商 業(yè)成本,提高企業(yè)的競爭力。 1 4 本文組織結(jié)構(gòu) 本文的結(jié)構(gòu)安排如下: 第1 章緒論,簡述了本研究課題的背景、研究現(xiàn)狀及其理論與現(xiàn)實(shí)意義。 第2 章數(shù)據(jù)挖掘技術(shù)。論述了數(shù)據(jù)挖掘產(chǎn)生的歷史必然性,介紹了數(shù)據(jù) 挖掘的概念,數(shù)據(jù)挖掘的功能,數(shù)據(jù)挖掘一般要經(jīng)歷的步驟,數(shù)據(jù)挖掘技術(shù)研 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 究的方向和存在的問題。 第3 章關(guān)聯(lián)規(guī)則挖掘算法研究。重點(diǎn)介紹了數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則 挖掘算法,從介紹關(guān)聯(lián)規(guī)則的經(jīng)典挖掘算法a p r i o r i 算法入手,引出了該 算法的不足,探討了算法改進(jìn)的理論基礎(chǔ),并設(shè)計(jì)和實(shí)現(xiàn)了改進(jìn)算法a p r i o r i 2 , 通過在現(xiàn)實(shí)數(shù)據(jù)上的對比測試,證明了算法a p r i o r i 2 的有效性。 第4 章決策樹分類算法研究。重點(diǎn)介紹了i d 3 分類算法,并設(shè)計(jì)和實(shí)現(xiàn) 了改進(jìn)算法i d p r o 決策樹分類算法,經(jīng)實(shí)際應(yīng)用證實(shí)了該算法的有效性。 第5 章王府井集團(tuán)數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。提出了一個(gè)靈活的、實(shí) 用的、面向零售業(yè)的數(shù)據(jù)挖掘系統(tǒng)模型,并以王府井集團(tuán)數(shù)據(jù)挖掘系統(tǒng)為例, 介紹了系統(tǒng)的主要功能,分析了數(shù)據(jù)挖掘技術(shù)在系統(tǒng)中的應(yīng)用。 最后,對本論文做了總結(jié)和展望。 4 第2 章數(shù)赫挖掘技術(shù) 第2 章數(shù)據(jù)挖掘技術(shù) 2 。1 數(shù)據(jù)挖掘定義 數(shù)據(jù)挖撅扶產(chǎn)生至今已有多種定義【l j ,其中得到公認(rèn)的是:數(shù)據(jù)挖掘是從 :趕量數(shù)據(jù)中揭示出有效的、新穎的、潛在有用的,以及最終可理解的知識(shí)和模 式的非平凡過程。其中: 數(shù)據(jù):是用來描述事物的信息集合( 如客戶購物事務(wù)癢中客戶贍毖的驥纓 記錄) ,是我們進(jìn)一步發(fā)瑰知識(shí)螅原材料。 溉顳:經(jīng)過數(shù)據(jù)挖撼提取出熬模式盛須楚耨鬏懿。模式楚否耨鬏可以遺遭 兩個(gè)途徑來衡量:其一是遙邋對院當(dāng)葡臀到的數(shù)據(jù)和蘇前的數(shù)據(jù)絨期望得到的 數(shù)據(jù)之闖的院較栗判斷該模式的新穎程度;其二是通過對比發(fā)現(xiàn)的模式與已有 的模式的關(guān)系來判斷。 潛在有用:即提出的模式應(yīng)該是商實(shí)際意義的。 可理解:數(shù)據(jù)挖掘的一個(gè)耳標(biāo)就是將數(shù)據(jù)庫中隱禽鮑模式以容翕被人理鰓 的形式表現(xiàn)出來,從積幫勛人們更好地了艇數(shù)握疼中歷包食的信息。數(shù)掇挖掘 不耀予以往知識(shí)獲取技術(shù),它瓣特點(diǎn)之一是發(fā)褒的知識(shí)是人銷( 至少是鎂域?qū)?家) 荔于理群豹,翔“i f t h e n ”豹形式。因魏挖掘:i 童程柱是個(gè)人祝 交匿、臻麓上升豹過稷。 模式:對于集合f 中的數(shù)據(jù),可以圈語畜l 來描述其中數(shù)據(jù)的特性。表 達(dá)式e l ,e 所描述的數(shù)據(jù)楚集合f 的一個(gè)子集r 。只有當(dāng)表達(dá)式e 比列 舉的所有f e 中元素的描述方法迥為簡單時(shí),才可稱之為模式。“裝成續(xù) = 8 0 , 則成績優(yōu)照”可稱為一個(gè)模式,而“糟成績?yōu)? 0 ,8 1 ,則成績優(yōu)蹇”不 能稱為一個(gè)模式。 平民過程:數(shù)攢挖撼是對數(shù)據(jù)邀孬受深層懿理熬過程,蠢不是僅僅對數(shù) 據(jù)遴葶亍按減求萃籍等籬擎運(yùn)算或查詢,困擾說它怒一個(gè)菲平冠過程。 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 2 2 數(shù)據(jù)挖掘技術(shù)的起源 數(shù)據(jù)挖掘是應(yīng)用需求推動(dòng)下多種學(xué)科融合的結(jié)果“ 。 首先是數(shù)據(jù)庫技術(shù)。隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展及數(shù)據(jù)庫系統(tǒng)的廣泛應(yīng) 用人類積累的數(shù)據(jù)量正以指數(shù)速度增長。例如:w a lm a r t 公司每天要處理二 千萬個(gè)事務(wù);美國航天局1 9 9 9 年發(fā)射的地球觀測系統(tǒng)每小時(shí)要產(chǎn)生5 0 g b 的圖像 數(shù)據(jù)。毫無疑問,這些龐大的數(shù)據(jù)庫及其中的海量數(shù)據(jù)中蘊(yùn)藏著豐富的信息。 但:是僅僅依靠傳統(tǒng)的數(shù)據(jù)檢索機(jī)制和統(tǒng)計(jì)分析方法還不能揭示出其中所蘊(yùn)含的 知識(shí)n 。數(shù)據(jù)挖掘技術(shù)正是在這種強(qiáng)烈需求背景下,由數(shù)據(jù)庫技術(shù)推動(dòng)、演化 而來的。數(shù)據(jù)庫技術(shù)的不斷成熟和數(shù)據(jù)倉庫的發(fā)展為數(shù)據(jù)挖掘提供了發(fā)揮作用 的平臺(tái),圖2 1 描述了數(shù)據(jù)庫技術(shù)的深化過程。 其次,在數(shù)據(jù)庫技術(shù)飛速發(fā)展的同時(shí),人工智能領(lǐng)域的一個(gè)分支機(jī)器 學(xué)習(xí)的研究也取得很大進(jìn)展。自5 0 年代開始機(jī)器學(xué)習(xí)的研究以來,先后經(jīng)歷了 神經(jīng)模型和決策理論、概念符號獲取及知識(shí)加強(qiáng)、領(lǐng)域?qū)S脤W(xué)習(xí)三個(gè)階段,根 據(jù)人類學(xué)習(xí)的不同模式人們提出了很多機(jī)器學(xué)習(xí)方法,如:實(shí)例學(xué)習(xí)、觀察和 發(fā)現(xiàn)學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和遺傳算法等等。其中某些常用且較成熟的算法已被人們 運(yùn)用于實(shí)際的應(yīng)用系統(tǒng)及智能計(jì)算機(jī)的設(shè)計(jì)和實(shí)現(xiàn)中。數(shù)據(jù)挖掘中的許多方法 就來源于機(jī)器學(xué)習(xí)。 最后,使數(shù)據(jù)挖掘能夠得到廣泛應(yīng)用的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能的迅速發(fā) 展。計(jì)算機(jī)存儲(chǔ)設(shè)備性價(jià)比的迅速提高,使許多企業(yè)有能力收集和存儲(chǔ)海量數(shù) 據(jù),而計(jì)算機(jī)計(jì)算能力性價(jià)比的提高,則為數(shù)據(jù)挖掘的實(shí)施掃清了障礙。隨著 計(jì)算機(jī)硬件性能的不斷提高、數(shù)據(jù)挖掘技術(shù)的不斷改進(jìn),數(shù)據(jù)挖掘應(yīng)用將會(huì)越 來越普及。 第2 章數(shù)據(jù)挖掘技術(shù) 圖2 1 數(shù)據(jù)庫技術(shù)的演化o f i g u r e2 1 e v 。l v e m e n to fd a t a b 8 s et e c h n o l o g y f 2 7 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 2 3 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析的區(qū)別 數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)有意義的、新的模式和趨勢的過 程。它與傳統(tǒng)數(shù)據(jù)分析是完全不同的工具,基于的技術(shù)也大相徑庭。 我們先從下表【2 】傳統(tǒng)數(shù)據(jù)分析和數(shù)據(jù)挖掘分析的需求不同來看看二 者的區(qū)別: 表2 1 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析的比較 t a b l e2 1c o m p a r i s o no f d m t r a d n i o n a ld a t aa n a l y s j s 傳統(tǒng)數(shù)據(jù)分析 數(shù)據(jù)挖掘分析 打印出上個(gè)月結(jié)算中心的花費(fèi)預(yù)測和解釋下個(gè)月的需求 利用模型,告訴去年有關(guān)合同取消 解釋為什么有些客戶轉(zhuǎn)向競爭對手 方面的情況發(fā)現(xiàn)一些新的關(guān)于客戶行為的模式 將優(yōu)惠券郵寄給每位外出工作且有基于歷史記錄確定最有能力與需求 兩個(gè)小孩的家庭主婦的群體并將優(yōu)惠券郵寄給他們 如果收入低于3 0 英鎊,要求貸款超對一張貸款請求,預(yù)測其無法還款 過1 0 英鎊,則拒絕之 的可能性 依照年齡、性別、以及是否吸煙來分析現(xiàn)行業(yè)業(yè)務(wù)的利潤與風(fēng)險(xiǎn),預(yù) 制定人壽保險(xiǎn)單測公司對保險(xiǎn)客戶所需承擔(dān)的風(fēng)險(xiǎn) 傳統(tǒng)的數(shù)據(jù)分析過程在本質(zhì)上是一個(gè)演繹推理的過程,是基于問題的分 析,是驗(yàn)證型的。其缺點(diǎn)有兩個(gè),首先其答案是建立在問題所依賴的假設(shè)上的 而假設(shè)往往是由提問者的直覺造成的,與提問者直覺相反的或與未想到問題有 關(guān)的模式就被隱藏起來。它只能給出用戶希望得到的統(tǒng)計(jì)結(jié)果,卻不能給出用 戶沒有考慮到,但事實(shí)上很有價(jià)值的信息。其次,如果分析的變量達(dá)到幾十個(gè) 或上百個(gè),那么再用傳統(tǒng)的數(shù)據(jù)分析方法來分柝驗(yàn)證這些假設(shè)將是一件非常困 第2 蘋數(shù)據(jù)挖掘技術(shù) 難的事情。 而數(shù)據(jù)挖掘是先驗(yàn)型的、預(yù)測型的,是在數(shù)據(jù)庫中自動(dòng)尋找模型,在本 質(zhì)上是一個(gè)歸納的過程。它克服了傳統(tǒng)數(shù)據(jù)分析的缺點(diǎn),不存在先入為主的假 想、強(qiáng)制的觀點(diǎn)、隱含的偏好,分析的結(jié)果比較客觀。數(shù)據(jù)挖掘能夠自動(dòng)、快 速的估計(jì)和評測數(shù)據(jù)庫中大量的信息,不僅可以挖掘出顯而易見的趨勢,還可 以挖掘出那些微妙的、無法預(yù)料的、與直覺相反的關(guān)系和模式,這些模式往往 還未被驗(yàn)證,卻直接關(guān)系到重要的商業(yè)決策。 2 4 數(shù)據(jù)挖掘的功能 數(shù)據(jù)挖掘系統(tǒng)的功能主要有以下幾大類: 統(tǒng)計(jì)歸納:利用統(tǒng)計(jì)模型和數(shù)學(xué)模型來解釋異常的數(shù)據(jù)模式。通常使用的 模型有線性分析和非線性分析、連續(xù)回歸分析和邏輯回歸分析、單變量和多變 量分析以及時(shí)間序列分析。統(tǒng)計(jì)分析工具能夠提供可視化功能和分析功能來尋 找數(shù)據(jù)間關(guān)系,構(gòu)造模型來解釋數(shù)據(jù),交互式過程和迭代過程用來求精模型, 最終開發(fā)出最具適應(yīng)性的模型來將數(shù)據(jù)轉(zhuǎn)化為信息。 關(guān)聯(lián)分析:關(guān)聯(lián)分析搜索數(shù)據(jù)庫的條目,從中尋找重復(fù)出現(xiàn)概率高的模式。 它展示了數(shù)據(jù)間未知的關(guān)聯(lián)關(guān)系。其典型的應(yīng)用是購物籃分析,如購買商品a 和 b 的客戶有8 5 同時(shí)也購買了商品c ,用規(guī)則表示為a ,b c ( 8 5 ) 。本文第 三章將著重對關(guān)聯(lián)技術(shù)進(jìn)行討論。 分類和預(yù)測:分類和預(yù)鋇4 用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù) 據(jù)趨勢。分類可預(yù)測類標(biāo)號( 或離散值) ,預(yù)測可以預(yù)測連續(xù)值。例如,建立 分類模型對銀行貸款的安全風(fēng)險(xiǎn)進(jìn)行分類;建立預(yù)測模型對商品的銷售量、股 票價(jià)格、產(chǎn)品合格率等進(jìn)行預(yù)測。分類技術(shù)有判定樹歸納、貝葉斯分類和貝葉 斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、最近臨、基于安全的推理、遺傳算法、粗糙集和模糊邏輯 等。預(yù)測方法包括線性的、非線性的和廣義線性回歸模型。本文第四章將著重 對分類技術(shù)進(jìn)行討論。 聚類分析:聚類將數(shù)據(jù)對象分組成為多個(gè)類或簇,在同一個(gè)簇中的對象之 間具有較高的相似度,而不同簇中的對象差別較大。聚類與分類不同,它要?jiǎng)?北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 分的類是未知的。相似度是根據(jù)描述對象的屬性值來計(jì)算的。聚類分析廣泛應(yīng) 用于模式識(shí)別、數(shù)據(jù)分析、圖像處理和市場研究。在商務(wù)上,聚類分析能幫助 市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同 的客戶群的特征。聚類技術(shù)有劃分方法、層次方法、基于密度的方法、基于網(wǎng) 格的方法和基于模型的方法。 2 5 數(shù)據(jù)挖掘步驟 在實(shí)施數(shù)據(jù)挖掘之前,先制訂計(jì)劃,確定要采取什么樣的步驟,每一步要 做什么,要達(dá)到什么樣的目標(biāo)。有了好的計(jì)劃才能保證數(shù)據(jù)挖掘有條不紊的實(shí) 施并取得成功。數(shù)據(jù)挖掘一般包括四個(gè)步驟:確定業(yè)務(wù)對象、數(shù)據(jù)準(zhǔn)備、挖掘 操作、結(jié)果表達(dá)和解釋。雖然我們把各個(gè)步驟按順序排列,但數(shù)據(jù)挖掘過程 并j 不是線性的。要取得好的結(jié)果就要不斷反復(fù)和重復(fù)這些步聚。 2 5 1確定業(yè)務(wù)對象 清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步,挖 掘的最后結(jié)果是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而 數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。因此,在挖掘之前要明確目的和需求。 2 5 2數(shù)據(jù)準(zhǔn)備 這個(gè)階段又可進(jìn)一步分成3 個(gè)子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換。 2 52 1 數(shù)據(jù)集成數(shù)據(jù)挖掘可能涉及到內(nèi)部多個(gè)數(shù)據(jù)源,還可能需要 些夕p 部的數(shù)據(jù)( 如人口統(tǒng)計(jì)、天氣數(shù)據(jù)或信用卡使用數(shù)據(jù)等) ,這就需要將多 個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)( 如數(shù)據(jù)倉庫) ,以便 于數(shù)據(jù)挖掘操作。 2 曩22 數(shù)據(jù)選擇 這個(gè)階段需要選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)( 即源數(shù)據(jù)的 第2 章數(shù)據(jù)挖搖技術(shù) 子集) 。這與對數(shù)據(jù)避彳亍采櫸和選擇預(yù)瀏交鬣是不同的,這星只是糈醋的把一 塑冗余或無關(guān)的數(shù)據(jù)除去。商時(shí),由于資源的限制、費(fèi)用的限制、數(shù)據(jù)使用的 限制和數(shù)據(jù)質(zhì)量等原因也必須對數(shù)據(jù)進(jìn)行選擇。 2 5 2 3 數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換成邋合于挖掘的形式婦 。數(shù)據(jù)變換可能涉 及如下內(nèi)容: 平港:由于數(shù)據(jù)癢中可始存在各穗錈誤數(shù)馕( 熱身圣; 謹(jǐn)號碼霹栽被褪心靜 數(shù)據(jù)最入人受錄入了年齡) ,還霹鏈存在空姣篷。這些都會(huì)凝終影桶模翟靜質(zhì) 置。鞭此必須采取分箱、聚類和豳癌等技術(shù)采修正錯(cuò)誤數(shù)值、填充空缺的數(shù)德。 聚集:有時(shí)需要對數(shù)據(jù)遙行匯總和聚集。例如,可以根據(jù)日銷售數(shù)據(jù),計(jì) 算月和年銷售額。通常這步是用來為多粒度數(shù)據(jù)分析構(gòu)造數(shù)據(jù)立方體。 規(guī)范化:有些算法和工具對數(shù)據(jù)范圍有要求,如神經(jīng)網(wǎng)絡(luò)要求所有的變量 都在o l 之間,這就需要對原始數(shù)據(jù)按一定比例縮放,使之落入一個(gè)特定的區(qū) 間。 屬性構(gòu)造:綴多j 毒況下震要從原始數(shù)據(jù)中 污生一些鼗瓣灄性以撼商數(shù)據(jù)挖 撼戇效率幫可靠性。 25 3挖掘操作 根據(jù)所要挖搦的模式類型選擇適當(dāng)?shù)臄?shù)據(jù)挖掘算法,選取合適的模型和參 數(shù)。當(dāng)然,沒有一種算法或工具邋應(yīng)所有的數(shù)據(jù),通常也很難在開始時(shí)就能決 定哪種算法對你所面臨的閱題來說是最好魄,因此很多馕況下,矮要建立不網(wǎng) 款模型( 參數(shù)戲算法) ,從中選擇毀好豹。 2 5 4結(jié)栗表達(dá)和解釋 將挖掘出的結(jié)果以一種易于理解的形式表示出來,并進(jìn)行解釋和評價(jià)。具 體包括消除無關(guān)的、多余的模式,過濾出要呈現(xiàn)給用戶的信息;利用可視化技 術(shù)將有意義的模式以圖形絨邏輯可視化的形式表示,轉(zhuǎn)化為用戶可以理鰓的語 言。一個(gè)成功的數(shù)據(jù)撼掘的應(yīng)用應(yīng)能將原始數(shù)握轉(zhuǎn)換為更茂港、更易理鼴、可 明確定義關(guān)系憋形式。此外還包括解凌發(fā)現(xiàn)靜結(jié)果與以 ;蓼知識(shí)的潛在沖突,及 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 和南統(tǒng)計(jì)方法對模式進(jìn)行評價(jià),決定是否需要羹復(fù)以前的操作,以得到最優(yōu)、 最適合的模式。 2 ,6 數(shù)據(jù)挖掘研究中存在的問題 要理解數(shù)據(jù)挖掘,首先要弄明白數(shù)據(jù)挖掘需要解決哪些問題,目前還面臨著 哪些難題。目前,數(shù)據(jù)挖掘中的許多問題都已獲得解決,但數(shù)據(jù)挖掘技術(shù)的研 究還很不成熟,面峨著許多問題有待解決。如數(shù)據(jù)的巨攫性、動(dòng)態(tài)憾、噪聲性、 缺像積襁蕊性,發(fā)現(xiàn)模式的可理解蛙、興趣或徐僮性,應(yīng)用系絞的集戲,髑戶 黷交互操 乍,知識(shí)的更毅管理,復(fù)雜數(shù)據(jù)瘁懿處理等等“ 。下瑟對這些漓熬送 行較為詳細(xì)縫討論。 2 6 1 有效處理臣登和裔維的數(shù)據(jù) 包含上百萬條記錄和數(shù)千兆字節(jié)甚至幾兆兆字節(jié)的數(shù)據(jù)庫已經(jīng)司空見慣, 數(shù)據(jù)庫關(guān)系表所涉及的屬性或變量數(shù)也大到成百上千的數(shù)量。這罩中數(shù)據(jù)的巨星 期裹維挫使愿數(shù)據(jù)挖握對模式的搜索窒闥異鬻巨大,疑時(shí)還可能導(dǎo)致搜索如無 意義模式靜桃會(huì)增熬。傳統(tǒng)瓣技術(shù)邑經(jīng)難以遙瘸,始常燕蠡冬枧器學(xué)習(xí)方法一般 只能處璦不超_ 遭凡千個(gè)記錄戴鍘子酌數(shù)據(jù)集。為了解決這些潤題,需要鴦高教 的,特剮是線侄計(jì)算復(fù)雜度的( 近似) 算法、摘樣方法、大瓶模并行處理技術(shù)、 維數(shù)消減方法等技術(shù)。 2 62數(shù)據(jù)噤聲與缺值 在藏業(yè)數(shù)據(jù)庫中噪聲和缺健是靜譽(yù)見現(xiàn)象。如美犀人口磐查數(shù)握的錈誤 率就毫達(dá)2 。锘誤袋噪聲霹能寒鴦?dòng)跀?shù)據(jù)浸入蛉謖操午箏或現(xiàn)實(shí)中不可避免鮑 囂素( 女镕民意調(diào)查懿主觀性) 。數(shù)掇遺失有兩類情稅:一是菜蟄字羧上缺值, 另一釋整數(shù)據(jù)庫在設(shè)計(jì)階段就可能浚有考慮某些重要藩性或字段( 數(shù)據(jù)庫并不 是為數(shù)據(jù)挖掘而設(shè)計(jì)的,它的設(shè)計(jì)有自醴的考慮) ,而這些屬性對于數(shù)據(jù)挖掘 第2 章數(shù)據(jù)挖掘技術(shù) 進(jìn)行知識(shí)發(fā)現(xiàn)可能很重要。因些,需要研究出可行的方法來對這些噪聲數(shù)據(jù)和 缺值進(jìn)行有效處理。 2 6 3 交互性用戶界面( 數(shù)據(jù)挖掘可視化) 數(shù)據(jù)挖掘過程中操作者的適當(dāng)參與是必不可少的。一方面,數(shù)據(jù)挖掘系統(tǒng) 應(yīng)該為用戶提供表達(dá)其要求和挖掘策略的交互界面,深化數(shù)據(jù)挖掘過程,使得 用戶能從不同角度靈活看待多抽象層上的數(shù)據(jù)挖掘結(jié)果。另一方面,數(shù)據(jù)挖掘 系統(tǒng)要把生成的結(jié)果通過交互界面?zhèn)鬟f給用戶。因此,準(zhǔn)確而直觀地描述挖掘 的結(jié)果和友好而高效的用戶界面一直是這方面研究的重要課題。 2 6 4 數(shù)據(jù)的動(dòng)態(tài)變化和知識(shí)的更新維護(hù) 數(shù)據(jù)的動(dòng)態(tài)變化常常會(huì)使得以前發(fā)現(xiàn)的模式不再有效,特別是數(shù)據(jù)庫可能 增加、刪除或改變變量。發(fā)生這些情況時(shí)則要求設(shè)計(jì)數(shù)據(jù)挖掘系統(tǒng)的過程中必 須考慮知識(shí)的更新維護(hù),如怎樣解決知識(shí)沖突。另外數(shù)據(jù)的動(dòng)態(tài)性也提出了新 的數(shù)據(jù)挖掘問題:主動(dòng)數(shù)據(jù)庫挖掘研究。 26 5 應(yīng)用系統(tǒng)的集成 一個(gè)單獨(dú)的數(shù)據(jù)挖掘發(fā)現(xiàn)系統(tǒng)如果不和具體的應(yīng)用系統(tǒng)集成或結(jié)合,將毫 無意義。數(shù)據(jù)挖掘應(yīng)該和數(shù)據(jù)庫管理系統(tǒng)或m i s 、電子表單、實(shí)時(shí)傳感數(shù)據(jù)采 集,特別是決策支持系統(tǒng)集成在一起。 2 6 6 挖掘?qū)ο蟮亩鄻踊?數(shù)據(jù)庫發(fā)展的一個(gè)趨勢是各種類型數(shù)據(jù)的使用,特別是多媒體數(shù)據(jù)越來越 多,這要求相應(yīng)的數(shù)據(jù)挖掘系統(tǒng)不但有處理數(shù)值數(shù)據(jù)的功能,還應(yīng)能處理符號、 文本、聲音、圖形、圖像、視頻等類型數(shù)據(jù)。 以上的問題涉及數(shù)據(jù)挖掘的方方面面,它們都有待人們?nèi)ミM(jìn)行更深入的研 北京工業(yè)大學(xué)工學(xué)煩士學(xué)位論文 究工作,這將不斷的推動(dòng)數(shù)據(jù)挖掘技術(shù)深入發(fā)展和廣泛應(yīng)用,創(chuàng)造出更多的社 會(huì)和經(jīng)濟(jì)價(jià)值。 2 7 本章小結(jié) 本章論述了數(shù)據(jù)挖掘產(chǎn)生的歷史必然性,介紹了數(shù)據(jù)挖掘的概念,數(shù)據(jù)挖 掘的功能,數(shù)據(jù)挖掘一般要經(jīng)歷的步驟,數(shù)據(jù)挖掘技術(shù)研究的方向和存在的問 題等等。 第3 章關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法研究 第3 章關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法研究 關(guān)聯(lián)規(guī)則( a s s o c i a t i o nr u l e ) 的概念首先是由r a g r a w a l 等人于1 9 9 3 年在 6 中提出的,此后他們又在 7 8 中對關(guān)聯(lián)規(guī)則進(jìn)行了更深入的研究。 關(guān)聯(lián)規(guī)則挖掘用來發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。隨著大量 數(shù)據(jù)不停地收集和存儲(chǔ),許多業(yè)界人士對于從他們的數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則越 來越感興趣。從大量商業(yè)事務(wù)記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助制定商務(wù) 決策,如貨架布置、捆綁銷售等。 引發(fā)關(guān)聯(lián)規(guī)則挖掘的典型例子是購物籃分析。它通過發(fā)現(xiàn)顧客放入其購物 籃中不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣,這種關(guān)系的發(fā)現(xiàn)可以幫助零 售商制定營銷策略。例如,在設(shè)計(jì)商店布局時(shí),可以將經(jīng)常一塊購買的商品放 近一些,以刺激這些商品一起銷售;也可以將這些商品放在貨架的兩端,誘發(fā) 購買這些商品的顧客一路挑選其他商品。 如何從大量數(shù)據(jù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則? 什么樣的關(guān)聯(lián)規(guī)則最有趣? 下面重點(diǎn)討 論這些問題。 3 1 關(guān)聯(lián)規(guī)則挖掘的基本概念 31 1 關(guān)聯(lián)規(guī)則的含義 關(guān)聯(lián)規(guī)則是形如x = y 的表示式,其中x 和y 是項(xiàng)的集合。這種規(guī)則的 直觀含義是:包含x 的事物通常也包含y 8 1 。例如,在超級市場中“有2 的 客戶同時(shí)購買了蔬菜和水產(chǎn),而購買蔬菜的顧客中有6 0 的人同時(shí)也購買了 水產(chǎn)”。這里2 被稱為規(guī)則的支持度( s u p p o r t ) ,6 0 被稱為規(guī)則的置信 度( c o n f i d e n c e ) 。如果一個(gè)規(guī)則滿足最小支持度閾值( m i n s u p ) 和最小鷺信 度閾值( m i n c 。n f ) ,則被認(rèn)為是有趣的。最小支持度和最小置信度閾值一般由 用戶或領(lǐng)域?qū)<以O(shè)定 1 。 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 31 2 關(guān)聯(lián)規(guī)則相關(guān)概念 設(shè)i = i ,i 。,i 。) 是項(xiàng)的集合。設(shè)任務(wù)相關(guān)的數(shù)據(jù)d 是數(shù)據(jù)庫事務(wù) 的集合,其中每個(gè)事務(wù)t 是項(xiàng)的集合,使得tei 。每個(gè)事務(wù)有個(gè)標(biāo)識(shí)符, 稱作t i d 。設(shè)x 是一個(gè)項(xiàng)集,x c i ,x c t ,y c i ,且x n y = g ,如果規(guī)則x = v 在事務(wù)集合d 中成立,具有支持度s 、置信度c ,并滿足最小支持度閾值和最小置 信度閩值,則稱此規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則。其中: s u p p o r t ( x = y ) = p ( x u y ) c o n f i d e n c e ( x = y )= p ( xiy ) 含有k 個(gè)項(xiàng)的項(xiàng)集稱為k 一項(xiàng)集,項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),稱 為項(xiàng)集的頻率、支持計(jì)數(shù)或計(jì)數(shù)。如果項(xiàng)集的出現(xiàn)頻率大于或等于最小支持度 與d 中事務(wù)總數(shù)的乘積,即項(xiàng)集滿足最小支持度,則稱它為頻繁項(xiàng)集( f r e q u e n t i t e m s e t ) 。頻繁k 一項(xiàng)集的集合通常記作l k 。 關(guān)聯(lián)規(guī)則的挖掘分成兩步: ( 1 ) 找出所有頻繁項(xiàng)集,即找出所有滿足最小支持度的項(xiàng)集。 ( 2 ) 由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,也就是說要找出滿足最小支持度和最小 置信度的規(guī)則。 由于第二步相對較容易,因些目前的研究重點(diǎn)在第一步,即找出頻繁項(xiàng)集。 挖掘的總體性能也由第一步?jīng)Q定。 3 2 關(guān)聯(lián)規(guī)則挖掘算法a p ri o r a p r i o r i 算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。它使 用一種稱作逐層搜索的迭代方法,k 項(xiàng)集用于探索( ”1 ) 一項(xiàng)集。首先,找出頻 繁卜項(xiàng)集的集合,該集合記作l ,。l ;用于找頻繁2 項(xiàng)集的集合k ,而l :用于找l 。, 如此下去,直到不能找到頻繁k 一項(xiàng)集。找每個(gè)k 需要一次數(shù)據(jù)庫掃描。為提高 頻繁項(xiàng)集逐層產(chǎn)生的效率,a p r i o r i 性質(zhì)被用于壓縮搜索空間。 a p r i o r i 性質(zhì):頻繁項(xiàng)集的所有非空子集都是頻繁的。 證明:設(shè)項(xiàng)集r 是頻繁的,即p ( r ) m i n s u p 。項(xiàng)集r 的任一非空子 1 6 第3 章關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法研究 集p ,p c r 。對事務(wù)t ,如果r c t ,則p c r c t ,即包含項(xiàng)集r 的事務(wù)同時(shí) 也包含項(xiàng)集p 。因此,項(xiàng)集p 出現(xiàn)的頻率不會(huì)小于項(xiàng)集r 出現(xiàn)的頻率,即 p ( p ) p ( r ) 。又因?yàn)閜 ( r ) 2m i n s u p ,所以p ( p ) 2m i n s u p ,即項(xiàng)集p 是 頻繁的。 推論1若k 一項(xiàng)集的某個(gè)非空子集不是頻繁的,則該k 一項(xiàng)集也不是頻繁 的。 推論1 是a p r i o r i 性質(zhì)的逆否命題。推論1 說明了這樣一個(gè)事實(shí),如果一個(gè) 集合不能通過測試,則它的所有超集也不能通過相同的測試。a w i o r i 算法正 是利用這樣的事實(shí)來壓縮搜索空間的。 由l k f l 找l k ,要經(jīng)過兩個(gè)步驟:連接和剪枝。連接就是通過l k - 1 與自己連 接產(chǎn)生候選k 一項(xiàng)集的集合。該候選項(xiàng)集的集合記作c k 。剪枝就是對c k 中的各項(xiàng) 集出現(xiàn)次數(shù)計(jì)數(shù),將c k 中不滿足最小支持度的項(xiàng)集刪除掉,則所有滿足最小支 持度的項(xiàng)集構(gòu)成了l k 。如果根據(jù)連接的結(jié)果直接進(jìn)行數(shù)據(jù)庫掃描,計(jì)算量太大, 因?yàn)檫B接的結(jié)果集可能很大。而a p r i o r i 算法利用推論l 進(jìn)行修剪則去掉了很多 的無用計(jì)算,大大提高了掃描的效率。 a p r i o r i 算法偽代碼描述如下“: 算法:a p r i o r i 使用根據(jù)候選生成的逐層迭代找出頻繁項(xiàng)集。 輸入:事務(wù)數(shù)據(jù)庫d ,最小支持度閾值m i n s u p 。 輸出:d 中的頻繁項(xiàng)集l 。 方法: 1 )l 1 = f i n ( l f r e q u e n l l 一i t e m s e t s ( d ) ; 2 )f o r ( k 2 ;h i g ;k + + ) 3 )c k = a p r i o r i g e n ( k 1 ,m i r l s u p ) ; 4 ) f o re a c ht r a l l s a c t i o nt d s c a l ld a t a b a s ef o rc o l u l t s 5 )c t = s u b s e t ( c k ,t ) ;g e tt h es u b s e t so f t 也a ta r ec a n d i d a t e s 6 ) f o fe a c hc a n d i d a t e c c , 7 )c c o u n t + + ; 8 ) 9 )l k = c c k c c o u n t m i n _ s u p 1 0 ) p r o c e d u r e 印r j o n g e n ( l k 一1 :f k q u e n t ( k - 1 ) 一i t e m s e t s ;m i n s u p :m i n i m u ms u p p o n t 1 1 】e s h o l 小 1 ) f o re a c hi t e m s e t ,l k i 2 ) f o re a c h i t e m s e t 如l k l 3 )i f ( , 1 = 如 1 八( f , 2 = 2 ) 八 ( , k - 2 = 島 k 一2 ) 八( f , k 一1 2 屯 k 1 ) t 1 1 e nf 4 )c = ,j 一7 2 ;j o i ns t e p :g e n e r a t ec a l l d i d a t e s 5 )i f h a s i n f r e q u e n l s u b s e t ( c ,l k _ 1 ) t 1 1 e n 6 ) d e l e t ec ;p r 吼es t
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030中國建筑裝配行業(yè)發(fā)展分析及競爭格局及有效策略與實(shí)施路徑評估報(bào)告
- 2025至2030中國婦幼食品行業(yè)項(xiàng)目調(diào)研及市場前景預(yù)測評估報(bào)告
- 2025至2030中國塑料管材行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報(bào)告
- BIM在水利工程中的應(yīng)用探索
- 春節(jié)的溫暖幼兒的淡藍(lán)夢想
- 二年級數(shù)學(xué)有余數(shù)的除法(2位數(shù)除以1位數(shù))水平測試習(xí)題
- 蛋白質(zhì)+油脂+高一下學(xué)期化學(xué)人教版(2019)必修第二冊
- 《星系與宇宙的演化:天文學(xué)宇宙學(xué)教案》
- 《歷史小課堂:唐詩賞析與背誦教案》
- 初二作文要學(xué)會(huì)堅(jiān)強(qiáng)(11篇)
- 【MOOC】測量學(xué)-西北農(nóng)林科技大學(xué) 中國大學(xué)慕課MOOC答案
- 【MOOC】線性代數(shù)及其應(yīng)用-天津大學(xué) 中國大學(xué)慕課MOOC答案
- 酒店餐飲設(shè)備電路布線合同
- 12歲體適能課程設(shè)計(jì)
- 國開2024年秋《學(xué)前兒童藝術(shù)教育音樂》終結(jié)性考核答案
- 外貿(mào)英語函電教程 第二版 課件Unit 1 Establishing Business Relations;Unit 2 Inquiries and Offers
- 供應(yīng)柴油月結(jié)算合同范本
- 2024年中考語文試題分類匯編:字音字形(解析版全國)
- GB/T 30893-2024雨生紅球藻粉
- 2024年《風(fēng)力發(fā)電原理》基礎(chǔ)技能及理論知識(shí)考試題庫與答案
- 2024秋國家開放大學(xué)《外國文學(xué)》形考任務(wù)1-4答案
評論
0/150
提交評論