(計算機應用技術專業(yè)論文)關聯(lián)規(guī)則算法研究及在股市中的應用.pdf_第1頁
(計算機應用技術專業(yè)論文)關聯(lián)規(guī)則算法研究及在股市中的應用.pdf_第2頁
(計算機應用技術專業(yè)論文)關聯(lián)規(guī)則算法研究及在股市中的應用.pdf_第3頁
(計算機應用技術專業(yè)論文)關聯(lián)規(guī)則算法研究及在股市中的應用.pdf_第4頁
(計算機應用技術專業(yè)論文)關聯(lián)規(guī)則算法研究及在股市中的應用.pdf_第5頁
已閱讀5頁,還剩66頁未讀 繼續(xù)免費閱讀

(計算機應用技術專業(yè)論文)關聯(lián)規(guī)則算法研究及在股市中的應用.pdf.pdf 免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

西南交通大學碩士研究生學位論文第1 頁 摘要 數據挖掘是研究如 可從大量的數據中獲取潛在的有用信息和知識。而關聯(lián) 規(guī)則挖握是數據挖掘中最成熟、最主要、最活躍的研究內容。隨著證券市場的 不斷發(fā)展,在證券信息數據庫中積累了大量歷史交易數據,如何充分利用這些 歷史數據探尋證券市場自身的運行規(guī)律,成為人們關心的問題。特別是2 0 0 5 年 下半年,適逢股改大潮的來臨,中國股市重新振作,掀起了一波接一波的熱潮, 從中留下的數據又為數據挖掘提供了良好的挖掘對象,可以總結出大量有價值 的規(guī)律指導投資者操作。 在整個數據挖掘的研究中,算法的研究占有特別重要的地位。數據挖掘面 對的是大量數據集,算法的效率起到決定性的作用,因此,研究和改進現有的 算法,有著十分重要的意義。鑒于此,本文對關聯(lián)規(guī)則挖掘算法進行了研究。 首先對數據挖掘作了一般性介紹,包括數據挖掘的概念、模式、挖掘的主要問 題、數據挖掘系統(tǒng)的分類以及應用和發(fā)展趨勢。然后,對數據挖掘中重要的關 聯(lián)規(guī)則挖掘算法做了深入的研究,分析了關聯(lián)規(guī)則中經典的a p r i o r i 算法、 a p r i o r i t i d 算法和a 砸o r i h y b i r d 算法及其他學者對a p r i 商算法的改進算法,總 結了算法中存在的問題;接著,詳細介紹了本文內容的重點之一,種 a p 西面h y b i r d 算法的改進算法,并把它與a p 曲r h y 硫d 算法進行了詳細比較。 為了更好地挖掘股市信息,就必須結合股市的特點,特別是股票自身的運 作規(guī)律,股票的走勢包含了數以萬計人的思維和智慧,必須通過詳細和耐心的 觀察才能學之一二。經過長期學習、跟蹤股市及模擬演練,本文決定從宏觀和 微觀兩個方面來描述股票。宏觀上,把近數月的股票數據通過模糊時間序列匹 配的方法轉化為股票的長期參數;微觀上,把近數目的股票數據通過相關實戰(zhàn) 書籍經驗和模擬實戰(zhàn)經驗轉化為短期參數,從而形成一套完整的參數集,為挖 掘工作打下堅實的基礎。這是本文內容的重點之二。 最后在m i c r o s o f tv i s u a lc + + 6 o 環(huán)境下完成了對股票數據的處理、算法的 改進及挖掘工作。實驗驗證了改進的a p 豳r i h y b i r d 算法的效率在一定程度上優(yōu) 西南交通大學碩士研究生學位論文第1 l 頁 于a p r i d r i i y b m 算法;同時挖掘出了大量關聯(lián)規(guī)則,其中一些頗具指導意義。 關鍵詞關聯(lián)規(guī)則:a p d o r i h y b i r d 算法;股票;模糊時間序列 西南交通大學碩士研究生學位論文第l lf 頁 a b s t r a c t d a t am i 血ga i n l st 0g e tp r e v i o u s l yu n l m o w n 壯dp o t e n t i a u yu s e f u lk n o w l e d g e 丘d mal a r g ea m o u mo fd a t a a s s o c i a t i o nn l l em i l l i n gi st h em o s td e v e l o p i n 呂m a i n 孤dv i g o r o u sr e s e a r c hc o n t e ti nd a t am i 珂n g w i t ht l l ed e v e l o p m e n to ft h es t o c k m a r k e t ,l o t so fl l i s t o r ye x c h 觚g ed a t ah a v eb e e s t o r c di nd a t a b 勰e na t t r a m sm o r e 趴dm o r e 缸t c n t i o nt h a th o wt ou s et h e s eh i s t o r ye x c h 壯g cd a t at od i s c o v e rt h em l e s o ft h es c o c km a r k c t e s p e d a i l ya t 也el a t t e fh a l fo f2 0 0 6y e 缸,s t o c km a r k c tw 醛 h a p p e n e dt or e f 0 皿q i i n e s es t o c km a r k e tf e n e e sa l l ds u r g e sh i g l lt i d co mw a v e a f t e ra n o t h c r t h es t o c kd a t ao ft h i sp e r i o dt i m eb e c o m ew e ue x c a _ v a t i go b j e c tf o r d a t am i n 缸g am a s so fv a l u a b l em l e sw 丑1b ed i s c o v e r i e dt od i r e c ti n v c s t o f s e x p l o m t i o no fa l g o i i t h m sp l a y sa l li m p 0 n a n tr o l ei na l ld a t am j m n g r e s e a f c h d a t am i n :i i 培f a c e sl a r g ed a t a b a s e t h ee f :6 d e n c yo fa 1 9 0 r i t h m si st h em o s ti m p o r t a n t , s oi ti sv e r ys i 伊i f i c a n tt or e s c 疵ha n di m p r 舛et h ee x i s t 洫ga l g 嘣蚰豇s b a s e do n a b o v e ,t h i st h e s i sm a h l l ys t u d i e sm ea l g o r i t h m so fa s s o d a t i o nm l em i n i n g f i 墻t l y ,i t g e n e m l l yi n t r o d u c e sd a t am i i l i n 舀i d u d i n gt h ec o n c e p t sa n dt h ep a t t e m s ,m a i n m i i l i n gp r o b l e m s ,s y s t e mc i a s s 砸c a t i o n s ,a n d 也ea p p l i c a t i o na n dd e v e l o p m e n t t r c d 。 s e c 0 d l y ,t h j st h e s i sr c s e a r c h e st l l ea s s o c i a t i o nr u ka 1 9 0 r i t l l m t o t a l l y ,w h i c hi s i n l p o n a i l ti nd a t am i i n g n 蚰a l y s e st h cc l 鶴s i c a la l g o r i t h m st l l a t 盯ca 兩o r i , a p d o r d ,a p r i o r i h y b i r da l g o r i t h l n sa n dt i l ei m p r o v e da l g o r i t h l n so fa p r i o r i ,a n di t s u m m a r i z e se x i s t 蛔gp m b l 鋤si i l t l l e a l g o r i t h i n s t h e nt h j s t l l e s i sp r e s c n t sa n i m p m v e da p r i o r i h y b i r da 1 9 0 r i t h mi i id e 姐i l ,w h i c hi s o n eo ft h e k e yc o n t e n t s ,a l l d c o m p a r e si tw i t ht h ea p r i o r i h y b i r da l g o r i t l l r l l 1 no f d c rt 0d j s c o v e r yt h es t o c km 越k e ti n f o 加a t i o nw c l l ,w em u s tc o m b i l l es 妣k m a r k e tc h a r a c t e r i s t j c ,e s p e c i a l l yo p e r a t i o a ln l l e so fs t o c ki t s e l f - t h em o v e m e n to f s t o c ki n c l u d e st h i n h n ga i l dw i s d o mo ft e n so fm o u s a i l d so fp e o p l e w ew a n tt os t u d y i to n l yt h m u g l ld e t a i l e da n dp a t i e n to b s e r v a t i o n b yai o n gt i m es t u d y i n g 孤d 西南交通大學碩士研究生學位論文第l v 頁 t r a c k i n gs t o c km a 血e ia n ds i m u l a t e d0 p e r a t i o n ,t h i st h e s i sd e t e 肌i i l e st od e s c r i b e s t o c kf r o mm a c m s c 叩i c a ia n dm i c m c o s m i c 幽p c c t s o nt h em a c r o s c o p i c a la s p e 鴨 d a t ao fl a t e s tm o n t h si st r a n s f 0 瑚e dt oo b t a i l lt h el o n g - t e 皿p a r a m e t e r so ft h es t o c k t h m u 曲t l l ef l l z z y t i i n es e f i 器m a t c hm e t l l o d 0 nt h ei n j c r o c o s m i c 觴p e c t ,d a t ao f l a t e s td a y si st r a n s f o 皿e dt oo b t a i nt h es h o r t - t c r n lp a r a m e t e r s0 ft h es t o c kt h r o u g ht h e n e l a t i v eb o o k s 舡l dt h es j m u l a t e dc o m b a t t h e yf 0 衄as e to fi i l t e 訇a t e dp m m e t e r s s c t s ,a n db u j l dt h es o u df o u n d a t i o nf o rt h em i n i n gw o r k t h i si st h es e c o n dk e y c o n t e n to ft h i st l l e s i s 弛a l l yt h ed i s p o s a lo fs t o 矗d a t a ,m ej l p r 0 v e m e n to fa l g o r i t h ma n dm i i l i n g w e r ec o m p l e t c du n d e rv c + + 6 op i a c f 0 加n ee x p e r i e t ss h o wm a tt h ee 彤c i e n c y o ft h ei m p r o 、,e da p r i 0 塒y b 硼w 觴s u p 甜o rt oa p r i o d h y b 硼a l g o 枷吼t oac c n a i n e x t e n t a n dal o to fa s s o c i a t i o nm l e sw e r ee x t r a c t e d ,s o m eo ft h e mh a v ef i n e i n s 饑l d i o n a ls i g n j f i c 皿c e k e y w o r d s 舡s o c i a t i o nr l l l e ;a p r i o 棚 y b 硼舢g o r i t h i n ;s t o c k ;f t l z z yt i m e s e r i e s 西南交通大學碩士研究生學位論文第1 頁 第1 章緒論 1 1 課題的研究背景 近十幾年來,隨著數據庫技術的飛速發(fā)展以及人們獲取數據手段的多樣化, 人類所擁有的數據量急劇增加,據美國g r i e 研究中心統(tǒng)計,全國范圍內僅科研 機構每天存儲的新的信息量大約有1 t b ( t c r a b y t e s ) ! 大量的信息給人們帶來方便 的同時也帶來了很多問題,主要的問題就是信息過量,難以消化理解。傳統(tǒng)的數 據庫系統(tǒng)所能做到的只是對數據庫中的已有數據進行存取和簡單的操作,人們 通過這些數據所獲得的信息量僅僅是整個數據庫所包含的信息量的很少的一部 分。這樣,收集在大型數據庫中的數據就變成了“數據墳墓”。正像j o h nn a i s b e t t 的那旬名言:。w ea r ed r 啪i n gi ni n f o 衄a t i o n ,b u ts t a i n gf o rk n o w l e d g c ”( 人類正 被數據淹沒,卻饑渴于數據) 。這種狀況發(fā)生的根本原因是人們創(chuàng)建一個數據集 時往往把精力都集中在數據的存儲效率的問題上,而沒有去考慮數據最終是怎 樣使用和分析的。 “數據海洋”是一個巨大的寶庫,當其積累到一定程度時,必然會反映出 規(guī)律性的東西。如果數據僅僅表現為存儲,那么不經過任何分析和處理的原始 數據是沒有價值的。只有將這些數據轉化為有用的信息和知識,它們的價值才 能真正體現出來。因此,從大量的、復雜的、信息豐富的數據集中挖掘隱藏在 其中的有用的知識逐漸成為所有商業(yè)、科學、工程領域的迫切需要1 1 1 。知識發(fā) 現噼n o w l e d g cd i s c o v e r yj i ld a t a b a s e s ) 和數據挖掘p a t am i n i n g ) 的概念與技術就 在這樣的需求推動下應運而產生,并得到了迅速發(fā)展。 經過幾十年的研究和實踐,數據挖掘技術吸收了許多學科的研究成果,形 成了獨具特色的研究分支。勿容置疑,數據挖掘研究和應用具有很大的挑戰(zhàn)性。 目前,大多數學者認為數據挖掘處于廣泛研究和探索階段。一方面數據挖掘概 念已經被廣泛接受,而且相關的研究成果和產品得到了學者的認可,吸引了越 來越多的研究者:另一方面,目前的數據挖掘研究還存在許多有待研究和探索的 問題。 西南交通大學碩士研究生學位論文第2 頁 1 2 本文的主要研究內容及安排 隨著我國經濟體制改革和金融體制改革的深入,證券投資己成為社會生 活的一個重要部分,股票交易作為證券投資的一種,是現代經濟生活中最常見 的風險投資活動。投資股票離不開股票的分析與預測,早期發(fā)展的技術分析理 論是股票預測的最初代表,如道氏理論、平均線理論、江恩理論等,在此基礎 上發(fā)展了眾多的技術指標及分析方法,加上改進的指標,已經不計其數,面對 如此眾多的技術分析指標,一個投資者必然無所適從,因此研究能夠預測股市、 輔助投資者投資的方法,幫助投資者預測和分析股市,選擇股票進行投資,優(yōu) 化組合投資,降低投資風險,獲得最大收益是非常有意義的。 證券分析主要可以從基本面和技術面著手。投資專家往往也從這兩方面入 手進行分析,但他們的高明之處在于對股票走勢模式的識別,在他們的腦海中 敏銳的洞察力和豐富的先驗知識形成了一類基本模式,所以對后市的判斷會相 當準確。應用知識發(fā)現方法的目的是用計算機模擬人類思維、推理方式對證券 進行分類、預測,其關鍵就是模式獲取。 本文在介紹數據挖掘、關聯(lián)規(guī)則基本概念的基礎上,強調了挖掘對象 中國股市相關特征。并對關聯(lián)規(guī)則進行了歸納和總結,對關聯(lián)規(guī)則的典型挖掘 算法及其基本思想進行了詳細地歸納、分析和研究,對各算法之間的差別進行 了客觀地比較,并提出了新的改進方法。同時為了挖掘股市的實用規(guī)律,又特 別研究了股市,莊股的特點,對股票數據用模糊方法提取有意義的參數,為關 聯(lián)規(guī)則的挖掘提供了強有力的后盾。最后通過實驗來驗證挖掘結果及改進算法 的可行性。 本論文的主要內容共分為六個部分: 第一章緒論,介紹研究背景、內容及工作安排情況。 第二章。介紹數據挖掘和關聯(lián)規(guī)則挖掘相關概念與信息,同時介紹了本篇關 聯(lián)規(guī)則挖掘的對象中國股市的有關信息。 第三章先對a p r i 刪算法及性質進行了解釋,并詳細介紹了a p r i o r i 算法的 西南交通大學碩士研究生學位論文第3 頁 過程及a p r i o r i 算法存在的性能瓶頸問題,同時比較了幾種相關改進算法。在 a p r i o r i 的改進算法a p d o r i h y b i r d 算法上又提出新改進算法,并與做了比較。 第四章針對股市這個特殊的研究對象,為了更好地挖掘出有價值的東西, 用模糊化方法對股市信息提取出一些新參數,進而轉化成關聯(lián)規(guī)則挖掘需要的 參數,使關聯(lián)規(guī)則挖掘更具有實用價值。 第五章創(chuàng)建了實驗平臺,對股票數據進行實際挖掘,給出了結果,并對改 進的新算法與以前的算法重新做了比較。 結論對本論文進行總結,并給出了一些可以進行后續(xù)研究的建議。 西南交通大學碩士研究生學位論文第4 頁 、 第2 章數據挖掘、關聯(lián)規(guī)則及股市簡介 2 ,1 數據挖掘技術 計算機網絡與數據庫技術的發(fā)展和廣泛應用,使得信息在企業(yè)發(fā)展中的重 要作用越來越得到人們的認同。人們利用信息技術生產和搜集數據的能力也大 幅度提高,巨量的數據庫被用于商業(yè)管理、政府辦公、科學研究和工程開發(fā)等, 這一勢頭仍將持續(xù)發(fā)展下去。在這些數據背后隱藏著極為重要的商業(yè)知識,但 是這些商業(yè)知識是隱含的、事先未知的。于是,如何才能不被信息的汪洋大海 所淹沒,從中及時發(fā)現有用的知識,提高信息利用率就顯得尤為重要。在這樣 的背景下,新的數據處理技術數據挖掘( d a t a m i j n g ) 技術便應運而生了。 2 1 1 數據挖掘的概念、功能、步驟 2 1 1 1 數據挖掘的概念 k d d o 婦o w l e d g ed i s c o v e r yi nd a t a b a s e s ,數據庫中的知識發(fā)現) 一詞首次出 現是在1 9 8 9 年8 月在美國底特律召開的第1 1 屆國際人工智能聯(lián)合會議的專題 討論會上。隨后在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都舉行k d d 專題討論會,集中 討論數據統(tǒng)計、海量數據分析算法、知識表示、知識運用等問題。 與k d d 意義相近的一個術語是數據挖掘a t am i 血g ,簡稱d m ) 。數據挖 掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中識別有效的、 新穎的、潛在有用的以及最終可理解的模式的過程。模式可以看作是我們所說 的知識,它給出了數據的特性或數據之間的關系,是對數據包含的信息的更抽 象的描述。一般說來,k d d 意為從數據庫中獲取知識,它代表從低層次數據中 提取高層次知識的全過程,主要流行于人工智能和機器學習界。而數據挖掘是 指從數據中自動地抽取模型,主要用于統(tǒng)計界( 最早出現于統(tǒng)計文獻中) 、數據分 析、數據庫和管理信息系統(tǒng)界:在一般的定義中數據挖掘被看作是知識發(fā)現 過程中的一個核心部分【l 。 過程中的一個核心部分【l 刮。 西南交通大學碩士研究生學位論文第5 頁 2 1 1 2 數據挖掘的功能 利用數據挖掘技術可以海量數據中獲得決策所需的多種知識。在許多情況 下,用戶并不知道數據存在哪些有價值的信息知識,因此,對于一個數據挖掘 系統(tǒng)而言,它應該能夠同時搜索發(fā)現多種模式的知識,以滿足用戶的期望和實 際需要。此外,數據挖掘系統(tǒng)還應該能夠挖掘多種層次的模式知識。數據挖掘 系統(tǒng)還應允許用戶來指導挖掘搜索有價值的模式知識。 特別要指出的是,數據挖掘技術從一開始就是面向應用的。它不僅是面向 特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀 的統(tǒng)計分析、綜合和推理,以指導實際問題的求解,企圖發(fā)現事件間的相互關 聯(lián),甚至利用已有的數據對未來的活動進行預測。例如美國著名國家籃球隊n b a 的教練,利用某公司提供的數據挖掘技術,臨場決定替換隊員,一度在數據庫 界被傳為佳話。 數據挖掘的功能概括起來有以下幾個方面【3 - 5 】: 1 ) 預測( p r c d i c t i o n ) : 數據挖掘自動在大型數據庫中尋找預測性知識。若預測的變量是離散 的,這類問題稱為分類( c l 嬲s i 丘c a 廿o n ) ;如果預測的變量是連續(xù)的,這類問題 稱為回歸( r e g r c s s i o n ) 。一個典型的例子是市場預測問題。 2 ) 聚類( c l u s t e i i 薊 數據庫中的記錄可被劃分為一系列有意義的子集,即聚類。與預測模 型不同,聚類中沒有明顯的目標變量作為數據的屬性存在。聚類算法通過 監(jiān)測數據判斷“隱藏屬性”。 3 ) 關聯(lián)分析( 舡s o c i a t i o na n a l y s i s ) 數據關聯(lián)是數據庫中存在的一類重要的可被發(fā)現的知識。若兩個或多 個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。本領域最常見的技術是 利用關聯(lián)規(guī)則。關聯(lián)規(guī)則的計算依賴于識別在相關數據中頻繁出現的數據 集。頻繁出現的數據由在某事務中同時出現的數據組成。 西南交通大學碩士研究生學位論文第6 頁 4 ) 時間序列分析( t i m es e q u c n c ea 丑a l y s j s ) 時間序列數據庫內某個字段的值是隨著時間而不斷變化的,例如股票 價格每天的漲跌,科學實驗,瀏覽網頁的次序等。時間序列分析通過對時 間序列的搜索,發(fā)現重復發(fā)生概率較高的模式。 5 ) 偏差分析c v i a t i 衄a a i y s i s ) 用來發(fā)現與正常情況不同的異常和變化,并進一步分析這種變化是否 是有意的詐騙行為,還是正常的變化。如果是異常行為,則提示預防措施; 如果是正常的變化,那么就需要更新數據庫記錄。 6 ) 孤立點分析( o u t l i c ra n a l y s i s ) 數據庫中可能包含一些數據對象,它們與數據的一般行為或模型不一 致,這就是孤立點。大部分數據挖掘方法將孤立點視為噪聲或異常而丟棄。 而在一些應用中( 如信用卡欺騙檢測) ,罕見的事件可能比正常出現的那些更 有價值。 7 ) 概念描述( c o c c p cd e s 甜p t i o n ) 概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特 征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特 征,后者描述不同類對象之間的區(qū)別。 2 1 1 3 數據挖掘的過程 在傳統(tǒng)的決策支持系統(tǒng)中,知識庫中的規(guī)則是由專家或程序人員建立的是 由外部輸入的。而數據挖掘的任務是發(fā)現大量數據中尚未被發(fā)現的知識,是從 系統(tǒng)內部自動獲取知識的過程。對于那些決策者應明確了解的信息,可以用查 詢、聯(lián)機分析處理( o u 廿) 或是其它工具直接獲取。而另外一些隱藏在大量數據 中的關系、趨勢,即使是管理這些數據的專家也是沒有能力發(fā)現,那么這些信 息就可以讓數據挖掘來處理。 數據挖掘發(fā)現的知識通常可以表示為:概念( c o n c e p t ) ,規(guī)則( r u l e s ) ,規(guī)律 皿e g u l a t i o n ) ,模式( p a t t e r n s ) ,約束( c o n s t r a i n s ) ,可視化( v i s u a l i z a t i o ) 。 西南交通大學碩士研究生學位論文第7 頁 數據挖掘過程一般由、3 個主要的階段組成:數據準備、數據挖掘、結果表達 和解釋。知識的發(fā)現可以描述為這3 個階段的反復過程。 數據準備:這個階段又可以分成3 個子步驟:數據集成、數據選擇、數據預處 理:數據集成將多文件或多數據庫運行環(huán)境中的數據進行合并處理,解決語義模 糊性、數據處理中的遺漏和清洗臟數據等,數據選擇的目的是辨別出需要分析 的數據集合,縮小范圍,提高數據挖掘的質量。預處理是為了克服目前數據挖 掘工具的局限性。 數據挖掘:該階段首先根據對問題的定義明確挖掘的任務或目的,如分類、 聚類、關聯(lián)規(guī)則發(fā)現或序列模式發(fā)現等,之后要決定使用什么樣的算法。選擇 實現算法要考慮兩個因素:首先,不同的數據有不同的特點,因此,需要采用與 之相關的算法來挖掘;其次,要根據用戶或實際運行系統(tǒng)的要求來選擇。例如, 有的用戶可能希望獲取描述型的( d e s c r i p t i v e ) 、容易理解的知識( 采用規(guī)則表示的 挖掘方法要好于其他方法1 ,而有的用戶只是希望獲取預測準確度盡可能高的預 測型o r c d i d i v e ) 知識,并不在意獲取的知識是否易于理解。 結果表達和解釋:數據挖掘階段發(fā)現的模式,經過評估,可能存在冗余或 無關的模式,這時需要將其剔除。此外,還需要對結果進行可視化處理。在上 述過程中,對數據挖掘質量起決定性作用的是一個速度快、伸縮性好、結果容 易理解和使用并且符合用戶需求的算法。當然,數據挖掘的其他步驟也是非常 重要的,每一步都是下一步的基礎。數據挖掘是一個反復循環(huán)的過程,如果用 戶對結果不滿意,可以在任何時候退回到前一階段,如重新選取數據、采用新 的數據變換方法、設定新的參數值,甚至換一種挖掘算法。 2 1 2 數據挖掘的國內外現狀 國際上,數據挖掘己成為當前計算機科學界的一大熱點。數據挖掘應用十 分廣泛。目前熱點集中在科學、生物醫(yī)學、零售業(yè)、電信業(yè)、金融業(yè)、w e b 挖 掘、文本挖掘等諸多方面。在科學上,美國加州理工學院噴氣推進實驗室的 k a y y a d 研究開發(fā)了用于大援模天文測量數據分析的s c a t 系統(tǒng)。6 1 1 ,已經幫助 西南交通大學碩士研究生學位論文第8 頁 天文學家發(fā)現了1 6 顆新的極遙遠的類星體。在生物醫(yī)學上,用數據挖掘處理 d n a 數據,在癌癥治療、大規(guī)模序列模式和基因功能的發(fā)現等方面取得了眾多 突破。而在金融業(yè)的應用主要體現在數據倉庫和o l 廿服務、客戶信用評定與 貸款償還預測、目標客戶的分類和聚類、金融犯罪探測等方面,在零售業(yè)的應 用主要體現在銷售、產品和顧客的多維分析、促銷活動效果分析、顧客忠誠度 分析、購物籃設計等方面,在電信業(yè)的應用主要體現在電信數據的多維分析、 盜用模式分析和異常模式識別、序列關聯(lián)規(guī)則分析等方面,等等。數據挖掘所 取得的成效舉不勝舉。 隨著數據挖掘理論研究的逐步成熟,數據挖掘產品也應運而生。目前,世 界上比較有影響的典型數據挖掘產品有s a s 公司的e n t e r p r i s em i r ,m m 公司 的i n t e m g c n tm i n c r 、s g i ( s i l i c o ng f a p h i c sh c ) 公司的m i n e s e t 、,加拿大 s i i n o n f r 雒c r 大學的d b m i n e r 、s p s s 公司的a e m e n t i n e 、,s y b a s e 公司的 w 缸e h o u s es t l l d i o ,r l l l e q u c s tr e s e a r c h 公司的s e e s ,m 公司a l m a d e n 研究中心 的q u e s t ,還有v e 巧t o r y ,e x p l o a r ,幻l o w l e d g ed i s c o v e r yw o r l 【b e n r c h 等。 國內數據挖掘研究開始于9 0 年代中期,到9 0 年代中后期,初步形成了知 識發(fā)現和數據挖掘的的基本框架。研究重點從發(fā)現方法轉向系統(tǒng)應用,并且注 重多種發(fā)現策略和技術的集成,以及多種學科之間的相互滲透。與國外相比, 國內對d m k d 的研究稍晚,沒有形成整體力量【2 3 釧,進行的大多數研究項目是 由政府資助進行的。國內從事數據挖掘研究的人員主要在大學,也有部分在研 究所或公司,所涉及的研究領域很多,一般集中于學習算法的研究、數據挖掘 的實際應用以及有關數據挖掘理論方而的研究。其中,華中理工大學、復旦大 學、浙江大學、中國科技大學、中科院數學研究所、吉林大學等單位較好地開 展了對關聯(lián)規(guī)則開采算法的優(yōu)化和改造。南京大學的徐潔磐等人開發(fā)了一個數 據挖掘原型系統(tǒng)k n i g l l t 作為挖掘工具。我國的李德毅院士、旌伯樂教授等在數 據挖掘領域也取得了顯著的成果。目前,國內對非結構化數據包括文本數據、 圖形圖象數據、多媒體數據的知識發(fā)現和w e b 數據挖掘做了較深的研究。在時 西南交通大學碩士研究生學位論文第9 頁 序數據的挖掘及可視化數據挖掘方面也取得了一定進展。在應用方面也較為廣 泛。以在工業(yè)的應用寶鋼為例,它多年來堅持計算機化管理,積累了大量數據, 為解決配礦問題,寶鋼采用了數據挖掘系統(tǒng),應用s a s 全套的數據挖掘和數據 分析軟件產品,取得了較好的成果。 2 2 關聯(lián)規(guī)則挖掘 2 2 1 關聯(lián)規(guī)則挖掘的概念 關聯(lián)規(guī)則挖掘( 缸s o d a 虹0 nr u l em i n i n g ) 是數據挖掘研究中的一個重要分 支,關聯(lián)規(guī)則是數據挖掘的眾多知識類型中最為典型的一種。該問題是a 留a w a l 等在1 9 9 3 年在對市場購物藍問題( m a r k e tb a s k e ta n a l y s i s ) 進行分析后首次提出 的,用以發(fā)現商品銷售中的顧客購買模式。購物藍問題源于這樣一個普通的例 子:美國加州某個超級連鎖店對記錄著每天銷售信息和顧客基本情況的數據庫 中的數據進行分析,發(fā)現在下班后前來購買嬰兒尿布的顧客多數是男性,而且 往往也同時購買啤酒。于是這個連鎖店的經理當機立斷,重新布置貨架,把啤 酒類商品布置在嬰兒尿布貨架附近,并在二者之間放上土豆之類的佐酒小食品, 同時把男士們的日常生活用品也就近布置。這樣一來,上述幾種商品的銷量大 大增加了。 關聯(lián)規(guī)則挖掘可以發(fā)現交易數據庫中項目( i t e m s ) 或屬性( a t t i i b u t e s ) 之間的 有趣聯(lián)系,這些聯(lián)系是預先未知的,不能通過數據庫的邏輯操作( 如表的聯(lián)接) 或統(tǒng)計的方法得出。這說明它們不是基于數據自身的固有屬性( 如函數依賴關 系1 ,而是基于數據項目的同時出現的特征。關聯(lián)規(guī)則的特點是形式簡潔、易于 解釋和理解,并可以有效地捕捉數據間的重要關系。最為典型的例子是“在購 買面包的顧客中有8 0 也購買了黃油”。大型商場和超市的數據庫中保存了大 量的顧客的購買信息,從中發(fā)掘黃油面包這類有趣的關聯(lián)關系,可以指導 商家制定正確的銷售決策,又如通過交叉購物、賤賣分析、目錄設計、商品陳 列等,使他們在市場競爭中取得更大的主動權。其實,關聯(lián)規(guī)則的應用不僅僅 西南交通大學碩士研究生學位論文第10 頁 局限于市場菜籃分析,它有著廣泛的應用領域,如商業(yè)與金融、人口普查數據 分析、工程技術數據分析、醫(yī)療陋2 6 j 、財政陽、宏觀決策支持、電子商務、c r m 【勰j 、 網站設計【2 9 1 、互聯(lián)網【3 川等等。理論上講,關聯(lián)規(guī)則挖掘是指從一個大型的數據 集p a t as c t ) 中發(fā)現有趣的關聯(lián)( 缸s o d a t i 衄) 或相關( c o 玎c l a t i o n ) 關系,即從數據 集中識別出頻繁出現的屬性值集( s c t so fa l t r i b v a l u e ) ,也稱為頻繁項集 ( f r e q u e n tn 鋤s e t s ,簡稱頻繁集) ,然后再利用這些頻繁集創(chuàng)建描述關聯(lián)關系的 規(guī)則的過程。 2 2 2 關聯(lián)規(guī)則形式和分類 關聯(lián)規(guī)則的形式為x = y ,其中x 稱為規(guī)則的前項項集( a n t e c c d e n ti t c m s e t s , 簡稱前項) ,y 稱為后項項集( c o n s e q u e ti t c m s e t s ,簡稱后項) 。它說明數據庫中 的某一條記錄如果包含了x ,那么也傾向于包含y ?;蛘哒f,如果數據庫中的 某條記錄使x 中的屬性值為真,那么也傾向于使y 中的屬性值為真。下面用實 例進一步說明關聯(lián)規(guī)則。 例:c o n t a i l l s ( t ,“面包”)= c o n t 血s c r ,“黃油”) 【s u p p o r t = 2 ,n 丘d e n c e = 5 0 】 在這里,t 是表示事務記錄( t f a n s a c t i o nr e c o r d ) 的變量。該規(guī)則表明,如果事務 t 中包含“面包”,則它同時包含“黃油”的可能性為5 0 ,并且所有事務中 有2 包含了兩者。 關聯(lián)規(guī)則挖掘就是從事務數據庫中找出上述形式的規(guī)則。 根據不同的情況,關聯(lián)規(guī)則有多種分類方法: 1 根據規(guī)則中所處理的值的類型劃分 a 布爾關聯(lián)規(guī)則( b o o l e a i la s s o c i a t i o nm l e ) 布爾關聯(lián)規(guī)則處理的值都是離散的、種類化的,規(guī)則表達的是 項的存在與不存在。例如:面包= 黃油【s u p p o r t = 3 , n f i d e n t = 6 0 】 b 量化關聯(lián)規(guī)則( q u a n t i t a t i v ea s s o c i a t i o nm l e ) 西南交通大學碩士研究生學位論文 第”頁 關聯(lián)規(guī)則描述的是量化的項或屬性之間的關聯(lián)。規(guī)則中的項或 屬性的量化值被劃分為不同區(qū)間。例如: a g e ( x ,”2 5 。4 5 ) 八i n c o m e ( x ,”1 5 0 0 。6 0 0 0 ”) = b u y s ( x ,叮v ”) 其中,x 是代表顧客的變量,量化屬性a g c 和i n m e 已離散化a 2 根據規(guī)則中的數據維數劃分 a 單維關聯(lián)規(guī)則( s i n 酉e - d i m c n s i o n a l 髂s o d a t i o nn i l e ) 從事務數據庫中挖掘出的規(guī)貝u 通常只涉及一個維或一個屬性。 如:規(guī)則面包: 黃油可寫作b u y s ( x ,”面包”) = b u y s ( x ,”黃油”) 。該規(guī)則 中只有一個維b u y s 。 b 多維關聯(lián)規(guī)則( m l l l 稍j m c n s i o n a l 髂s o d a t i o nm l e ) 前面例子中,a g e ,i n c 0 e 和b u y s 是三個不同的維( 屬性) ,其相 應的規(guī)則就是多維關聯(lián)規(guī)則。多維關聯(lián)規(guī)則中可以多次出現同一個 維。 3 根據規(guī)則所涉及的抽象層劃分 a 單層關聯(lián)規(guī)則( s i n 垂e - l e v e la s s o d a t i o n l l e ) 單層關聯(lián)規(guī)則中,所有變量都沒有考慮現實數據具有多個不 同層次。 b 多層關聯(lián)規(guī)則( u l t i l e v e la s s o c i a t i o nm l c ) 由于在一些挖掘關聯(lián)規(guī)則的方法引入了概念分層,這樣就可以 在不同的抽象層得到關聯(lián)規(guī)則。例如,一個關聯(lián)規(guī)則集包含下面的 規(guī)則: a g e ( x ,”3 0 3 9 ”) = b u y s ( x ,”g o o d c o 皿【p u t e r ”) s u p p o r t = 2 , c o n f i d e n c e = 3 0 】 a g e ( x ,”3 0 。3 9 1 )= b u y s ( x , ”c o m p u t e r )【s u p p o n 2 1 , n 丘d e n c e = 6 0 】 其中,”咖p u t e r ”比”g o o d c o m p u t e ”具有更高的抽象層。那么,這個規(guī)則集 就是多層關聯(lián)規(guī)則集。對于事務數據庫,在其多個概念層的各項之間尋找有趣 西南交通大學碩士研究生學位論文第12 頁 的關聯(lián)規(guī)則比僅在原始層數據之間尋找更容易,并且在較高概念層發(fā)現的關聯(lián) 規(guī)則更真普遍意義。 2 2 3 關聯(lián)規(guī)則算法綜述及研究方向 由于挖掘算法在數據挖掘過程中起著至關重要的作用,因此自從a g r a w a l 等提出挖掘交易據庫中項集間的關聯(lián)規(guī)則問題以后,很多人對此進行了研究, 這些研究包括:關聯(lián)規(guī)則的挖掘理論的探索、原有算法的改進和新算法的設計、 并行關聯(lián)規(guī)則挖掘( p a n n e la s s o d a t i o r u l em i n i n g ) 以及量化關聯(lián)規(guī)則挖掘 ( q u 強t i t i v e a s s o d a t i r u l em i n i n g ) 等。 關聯(lián)規(guī)則數據挖掘首先由氣蓼a w a l ,i n l i e h s j ( i 和s w a m i 【6 】提出,著名的a p d o r i 算法由姆鋤a l 和s f i l c a m 【7 】提出。很多又在a p r i o r i 算法基礎上改進,用以提高 效率和伸縮性。如利用采樣( s a m p l i n 9 0 fd a t a b a s e ) 的方法【5 7 】【5 8 】對數據庫進行挖 掘,可大大減少對數據庫的掃描次數,提高計算效率,這樣做豹后果可能產生 遺漏的頻繁項,如何找回部分遺漏的頻繁項目集也是一個需要解決的問題,因 此,對隨機采樣的方法進行了進一步的討論,給出了利用二項分布侶i n o m i a l d i s t r i b u t i o n ) 和契爾諾夫邊界( c h e m o f fb o u n d s ) 【5 8 】處理采樣的方法來解決上述問 題。有人提出了一種無需生成候選集的頻繁集生成算法一頻繁模式增長 ( f p 洲1 1 ) 方法【5 9 1 ,它采用新穎的數據結構和分治策略,無需產生候選項集, 從而大大降低了搜索開銷,比a p r j 喇算法速度提高一個數量級。還有討論基于 垂直數據庫結構的關聯(lián)規(guī)則挖掘方法的文章例,這種方法不受數據庫的大小、 形狀、內容等限制,可以有效地發(fā)掘最大頻繁項集,對于挖掘低支持度和長模 式的關聯(lián)規(guī)則特別有效。類似的剪枝方法的算法變形由m a l l n i l a 、t o i v o n c n 和 v e r k 鋤o 【8 】研究。其他一些新的技術,如,散列技術即h a s h 技術被p a r k 、c h e n 和y u 【9 】研究,通過事務壓縮技術減少數據的訪問的方法被a g r a m a l 和s r i k a t 【1 0 】, h a i l 和f u 【l l j ,以及p a r k 、c h e n 和y u 研究,劃分技術被s a v 弱e r e 、o n l i e c i i l s 】( i 和n a v a 血e 【12 】提出,其主要思想是把數據庫分為幾個相互獨立的塊,再采取分而 治之的策略。還有基于臨時生成項集的動態(tài)項集技術被b r i g 、m o 柳a n i ,u l l i n a n 西南交通大學碩士研究生學位論文第1 3 頁 和t s u r 【m l 提出等。另外許多新的方法被提出以擴充關聯(lián)規(guī)則挖掘,包括a 鱸a m a l 和s r i 】( a n t 的序列模式挖掘【1 4 】,z a 】d 、k s h 和。西h a r a 的對p l 鋤f a i l u r c 、的序列模式 挖掘【1 5 1 ,g l l h a 、r 幽t o 西和s h i n l 的基于約束的序列模式挖掘i 垌, ma i l = n i l a 、 t o i v o n 和v c r k a m o 的e p i s o d e s 挖掘【切,k o p e r s l d 和h 吼的空間關聯(lián)規(guī)則挖掘 【1 羽,o z d e n 、r a m a s w 徹1 y 和s 丑b e r s c h a t z 的有環(huán)關聯(lián)規(guī)則挖掘【1 9 l ,s a v 髂e r c 、 0 m i e c i n s l d 和n a v a t h c 的否定關聯(lián)規(guī)則挖掘f 2 0 j ,l u 、h 壯和f c g 的事務間關聯(lián) 規(guī)則挖掘【2 i 】,r a m a s 啪m ”m a l l a j 壯和s i l b e f s c h a t z 的日歷購物籃分析,b a y a r d 的最大模式挖掘等等。 目前,關聯(lián)規(guī)則挖掘方面的研究己經取得了較大的進展,但對下列問題仍 有待于進一步研究,如挖掘算法高效性,挖掘對象的廣泛性,挖掘的可視化問 題,模式評估等。 2 3 中國股市簡要分析 2 3 1 中國股市簡介 自1 9 9 0 年滬深證交所成立,發(fā)展至今已趨于成熟。中國的各行各業(yè)均有上 市公司。目前交易品種有股票,國債,債券等。其中a 股市場有近1 7 0 0 只股票 可供中國絕大多數投資者投資。中國股票的總市值已達幾萬億。股市被譽為經 濟的晴雨表,可見其對中國經濟的重要性。適逢2 0 0 5 年下半年,中國股市又經 歷了重大改革非流通股轉變?yōu)榱魍ü杉磭泄蓽p持政策的推出,從而為中 國股市帶來了良好的發(fā)展契機。 專家認為,影響股票漲跌的主要因素是市場內部原因股票的供求情況, 外部因素只起輔助作用。那么供求情況又是怎么樣表現出來的呢? 誰為供,誰為 求呢? 市場將供方比喻成空方,將求方比喻成多方。多方占優(yōu)勢時,股票就上 漲;反之,就下跌。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論