




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、.M*海南大學數據挖掘論文目:股票令易日線數據校掘號:名:業(yè):2010060231000210信管指導老師:分數:目錄目錄21 .數據挖掘目的32 .相關基礎知識32.1 股票基礎知識32.2 數據挖掘基礎知識42.2.2數據挖掘的任務.53 .數據挖掘方案63.1 數據挖掘軟件簡介.63.2 股票數據選擇73.3 待驗證的股票規(guī)律74 .數據挖掘流84.1 數據挖掘流圖84.2 規(guī)律驗證94.2.2 規(guī)律2驗證104.2.3 規(guī)律三驗證124.3 主要節(jié)點說明145 .小結151 .數據挖掘目的數據挖掘的目的就是得出隱藏在數據中的有價值的信息,發(fā)現數據之間的內在聯系與規(guī)律。對于本次數據挖掘來
2、說,其目的就是學會用clementine對股票的歷史數據進行挖掘,通過數據的分析,找出存在股票歷史數據中的規(guī)律,或者驗證已存在的股票規(guī)律。同時也加深自己對股票知識的了解和對clementine軟件的應用能力。為人們決策提供指導性信息,為公司找出其中的客戶為公司帶來利潤的規(guī)律,如二八原則、啤酒與尿布的現象等。2 .相關基礎知識2.1 股票基礎知識2.1.1 股票是一種有價證券,是股份公司在籌集資本時向出資人公開或私下發(fā)行的、用以證明出資人的股本身份和權利,并根據持有人所持有的股份數享有權益和承擔義務的憑證。股票代表著其持有人(股東)對股份公司的所有權,每一股同類型股票所代表的公司所有權是相等的,
3、即“同股同權”。股票可以公開上市,也可以不上市。在股票市場上,股票也是投資和投機的對象。對股票的某些投機炒作行為,例如無貨沽空,可以造成金融市場的動蕩。2.1.2 開盤價開盤價又稱開市價,是指某種證券在證券交易所每個交易日開市后的第一筆買賣成交價格。世界上大多數證券交易所都采用成交額最大原則來確定開盤價。2.1.3 收盤價收盤價是指某種證券在證券交易所一天交易活動結束前最后一筆交易的成交價格。如當日沒有成交,則采用最近一次的成交價格作為收盤價,因為收盤價是當日行情的標準,又是下一個交易日開盤價的依據,可據以預測未來證券市場行情;所以投資者對行情分析時,一般采用收盤價作為計算依據。2.1.4 最
4、高價指某種證券在每個交易日從開始到收市的交易過程中所產生的最高價。2.1.5 最低價指某種證券在每個交易日從開始到收市的交易過程中所產生的最低價。2.1.6 成交量成交量是指一個時間單位內對某項交易成交的數量。一般情況下,成交量大且價格上漲的股票,趨勢向好。成交量持續(xù)低迷時,一般出現在熊市或股票整理階段,市場交投不活躍。成交量是判斷股票走勢的重要依據,對分析主力行為提供了重要的依據。2.1.7 K線K線圖這種圖表源處于日本德川幕府時代(16031867年),被當時日本米市的商人用來記錄米市的行情與價格波動,后因其細膩獨到的標畫方式而被引入到股市及期貨市場。通過K線圖,我們能夠把每日或某一周期的
5、市況現完全記錄下來,股價經過一段時間的盤檔后,在圖上即形成一種特殊區(qū)域或形態(tài),不同的形態(tài)顯示出不同意義。插入線、抱線和利好刺激線這三種K線組合是最常見的經典見底形態(tài)。2.1.8 日線任何一天的開盤價收盤價最高價最低價,劃出的一跟中間粗一些,兩端細一些的線,就是日線,日線是每天一根的K線.5PMA10PMA,20PMA分別代表5日、10日、20日均線。黃色的是5PMA即5日均線;紫色的是10PMA即10日均線;綠色的是20PMA即20日均線。2.2 數據挖掘基礎知識2.2.1 數據挖掘數據挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不
6、知道的、但又是潛在有用的信息和知識的過程。隨著信息技術的高速發(fā)展,人們積累的數據量急劇增長,動輒以TB計,如何從海量的數據中提取有用的知識成為當務之急。數據挖掘就是為順應這種需要應運而生發(fā)展起來的數據處理技術。是知識發(fā)現(KnowledgeDiscoveryinDatabase)的關鍵步驟。2.2.2 數據挖掘的任務(1) 關聯分析(associationanalysis)關聯規(guī)則挖掘是由RakeshApwal等人首先提出的。兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為關聯。數據關聯是數據庫中存在的一類重要的、可被發(fā)現的知識。關聯分為簡單關聯、時序關聯和因果關聯。關聯分析的目的是找出數據
7、庫中隱藏的關聯網。一般用支持度和可信度兩個閥值來度量關聯規(guī)則的相關性,還不斷引入興趣度、相關性等參數,使得所挖掘的規(guī)則更符合需求。(2)聚類分析(clustering)聚類是把數據按照相似性歸納成若干類別,同一類中的數據彼此相似,不同類中的數據相異。聚類分析可以建立宏觀的概念,發(fā)現數據的分布模式,以及可能的數據屬性之間的相互關系。(3)分類(classification)分類就是找出一個類別的概念描述,它代表了這類數據的整體信息,即該類的內涵描述,并用這種描述來構造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓練數據集通過一定的算法而求得分類規(guī)則。分類可被用于規(guī)則描述和預測。(4)預測(pre
8、dication)預測是利用歷史數據找出變化規(guī)律,建立模型,并由此模型對未來數據的種類及特征進行預測。預測關心的是精度和不確定性,通常用預測方差來度量。(5)時序模式(time-seriespattern)時序模式是指通過時間序列搜索出的重復發(fā)生概率較高的模式。與回歸一樣,它也是用己知的數據預測未來的值,但這些數據的區(qū)別是變量所處時間的不同。(6)偏差分析(deviation)在偏差中包括很多有用的知識,數據庫中的數據存在很多異常情況,發(fā)現數據庫中數據存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。2.2.3 數據挖掘方法(1)神經網絡方法神經網絡由于本身良好的
9、魯棒性、自組織自適應性、并行處理、分布存儲和高度容錯等特性,非常適合解決數據挖掘的問題。(2)遺傳算法遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它在數據挖掘中被加以應用。(3)決策樹方法決策樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數據處理。(4)統計分析方法在數據庫字段項之間存在兩種關系:函數關系(能用函數公式表示的確定性關系)和相關關系(不能用函數公式表示,但仍是相關確定性關系),對它們的分析可采用
10、統計學方法,即利用統計學原理對數據庫中的信息進行分析。(5)模糊集方法即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。(6)粗集方法粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優(yōu)點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易于操作。粗集處理的對象是類似二維關系表的信息表。(7)覆蓋正例排斥反例方法它是利用覆蓋所有正例、排斥所有反例的思想來尋找規(guī)則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則舍去,相反則保留。按此思想循環(huán)所有正例種子,將得到正例的規(guī)則(選擇子的合取式)3 .數據挖掘方案3.1 數
11、據挖掘軟件簡介本次的數據挖掘所運用的軟件是Clementine軟件。Clementine是SPSS的數據挖掘應用工具。這種工具可把直觀的用戶圖形界面與多種分析技術相結合。這些技術包括神經元網絡、關聯規(guī)則和規(guī)則歸納技術,這些分析能力由一個易于使用的可視化編程環(huán)境所提供。作為一個數據挖掘平臺,Clementine結合商業(yè)技術可以快速建立預測性模型,進而應用到商業(yè)活動中,幫助人們改進決策過程。強大的數據挖掘功能和顯著的投資回報率使得Clementine在業(yè)界久負盛譽。同那些僅僅著重于模型的外在表現而忽略了數據挖掘在整個業(yè)務流程中的應用價值的其它數據挖掘工具相比,Clementine其功能強大的數據挖
12、掘算法,使數據挖掘貫穿業(yè)務流程的始終,在縮短投資回報周期的同時極大提高了投資回報率。Clementinee所使用的圖形表現是在屏幕上拖動、按下和連接功能節(jié)點。節(jié)點的類型分為數據訪問節(jié)點、數據操縱節(jié)點、數據可視化節(jié)點、機器學習節(jié)點和模型分析節(jié)點。模型產生過程由從托盤中選擇正確的節(jié)點、把它們放到屏幕上和連接節(jié)點組成。Clementinee提供了豐富的數據訪問能力,其中包括對展開文件和關系數據庫(通過ODBC)勺訪問。Clementine具有通過把建模結果寫回一個與ODBCS容的DBMS而使它們保持一致的能力。Clementine可在WindowsNT的IntelPenhum系統運行。Clement
13、ine的數據可視化能力包括分布圖、線性圖和網絡分析。C1emetine是一個強大的產品。以公布的用戶基推測試來看,它在可伸縮性、預測準確率和處理的時間方面都表現得很好。總的來說,C1gneBtine對小規(guī)模和大規(guī)模的分析實現都很合適。3.2 股票數據選擇股票的選擇是隨機選擇的。用股票代碼/67=02(我學號的后兩位)計算可得所要研究的股票(此過程運用Excel表格的取余,然后用篩選即可選出符合條件的股票)。所以根據公式可計算出多支符合條件的股票,從中我選擇自己感興趣的股票深證萬科A(000002J口上證道博股份(600132)。同時用它們的日線作為參考,對股票的數據進行研究。3.3 待驗證的股
14、票規(guī)律3.3.1 股市的漲跌是呈現周期性變化的且漲幅呈正態(tài)分布?這種現象指的是在股市開盤后的一種周期性的現象,具體表現在股票價格上上的周期性漲落,當股市達到高潮后,一段時間后又將返回下跌,返回低潮。3.3.2 國家對房地產行業(yè)的宏觀調控政策對股市中房地產行業(yè)是否有影響?房價上漲對地產股有什么影響?指近10年來,國家為了控制房地產的價格在一個合理的范圍內,所出臺的一系列與房地產行業(yè)相關的政策,這條規(guī)律就是研究在政策出臺之后,股市中的房地產行業(yè)是否會受其影響而產生波動。3.3.3 不同類型的上市公司由于產業(yè)的不同企業(yè)發(fā)展的經歷差異其所表現出的股價漲幅波動也是否是有差異?4 .數據挖掘流4.1 數據
15、挖掘流圖分別做出萬科和道博股份的數據流圖如圖1、圖2所示:圖1萬科的數據流圖圖2道博股份的數據流圖圖3萬科道博股份合并后的數據流圖4.2 規(guī)律驗證4.2.1 規(guī)律一驗證對于規(guī)律一我們可以把兩支股票的直方圖都做出來進行比較驗證分析股票漲幅分布中存在的規(guī)律。國交仲Ulirtffl室畫圖4漲幅直方圖(萬科)圖支件-WI/Hffi3園區(qū)0E©曲昌M/QIr圖5漲幅直方圖(道博股份)由圖4圖5可以很清楚的看出兩支股票的漲幅直方圖都是滿足正態(tài)分布的由此我們可以判斷規(guī)律一是正確的。4.2.2 規(guī)律2驗證萬科是著名的大型房地產企業(yè)對于規(guī)律2我們可以應用萬科的散點圖來驗證0國法國1S10E情口00。0
16、圖6萬科漲幅日期散點圖G1交件nil生改城urn圖7萬科時間漲幅散點圖通過兩個散點圖都可以看出05年以前萬科的漲幅波動很小,一直很平穩(wěn),05年以后萬科的漲幅波動開始變的非常大時高時低??梢钥闯鰢曳康禺a政策的調整對地產企業(yè)的股票市場是有影響的。圖9萬科收盤散點圖從上圖的萬科收盤散點圖可以看出隨著房地產市場化的進行由于商品房價格的不斷上漲,萬科地產的收盤股價上漲明顯,近兩年由于國家抑制房價地產股的收盤價又開始稍有下降。4.2.3規(guī)律三驗證S3|固爐*11771«圖10萬科道博股份合并后的數據流圖圖11剔出波動大于10后的漲幅時間散點圖圖12收盤價時間散點圖武漢道博股份有限公司是1992
17、年10月30日經武漢市經濟體制改革委員會武體改199244號文批準,由海南省高科技開發(fā)總公司、三亞市河西城市信用社、海南宏盛實業(yè)有限公司等三家單位作為主要發(fā)起人,以定向募集方式設立的股份有限公司。萬科企業(yè)股份有限公司成立于1984年5月,是目前中國最大的專業(yè)住宅開發(fā)企業(yè),也是股市里的代表性地產藍籌股??偛吭O在廣東深圳,至2009年,已在20多個城市設立分公司。從兩個公司的介紹上我們不難看出兩個公司的差異,再看他們的漲幅散點圖和收盤價散點圖我們能發(fā)現05年之前萬科股價一直穩(wěn)定小幅上漲而道博股份則是整個不斷波動,05年后萬科進入大漲階段道博股份則依舊波動不斷。我們不難看出不同的上市企業(yè)由于其背景不
18、同股市的表現也是不一樣的。4.3 主要節(jié)點說明每只股票的數據挖掘流圖的基本思路是一致的,挖掘方法也基本一致,所以只需要對一只股票數據挖掘流圖進行節(jié)點分析即可。1、下圖是導入數據的節(jié)點,將TXT格式的股票數據處理后即可導入軟件000002.IXT2、下圖是到處節(jié)點,就是過濾掉沒有用的數據,對規(guī)律1而言,就是過濾掉成交量、成交額等對此次數據挖掘沒有用的數據,方便分析。過渡3、下圖分別為直方圖與多重菜點圖,用于顯示數據的規(guī)律。4、下圖的節(jié)點是對多個數據流進行合并合并5、下圖用于新添加字段的圖藤幅6、下圖用于選擇用于分析的數據選擇7、下圖用于生成表M裊8、散點圖形/多重散點圖m期v.收盤。07收盤。136VI5 .小結5.1 學習心得通過這次股票數據的數據挖掘實驗,使自己對于數據挖掘這門學科有了較為廣泛的了解。同時,也對實驗軟件Clementine的操作有了比較熟悉的掌握。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢業(yè)答辯-學前教育
- 組件封裝工藝流程
- 婚慶策劃居間協議模板
- 自助便利店創(chuàng)業(yè)計劃書
- 老年護理與老年人安全保護
- 實驗室翻新附加合同范本
- 端子壓接機安全操作規(guī)程
- 咖啡連鎖店裝修協議樣本
- 產品銷售合同范本
- 2024清河縣職業(yè)技術教育中心工作人員招聘考試及答案
- 2025年海南重點項目-300萬只蛋雞全產業(yè)鏈項目可行性研究報告
- 2025美國急性冠脈綜合征(ACS)患者管理指南解讀課件
- 統編歷史七年級下冊(2024版)第7課-隋唐時期的科技與文化【課件】f
- 2025年河南省高校畢業(yè)生“三支一扶”招募1100人高頻重點模擬試卷提升(共500題附帶答案詳解)
- 2025年國家林業(yè)局西北林業(yè)調查規(guī)劃設計院招聘4人歷年高頻重點模擬試卷提升(共500題附帶答案詳解)
- 橋梁檢測報告模板
- 現代護理管理新理念
- 2025年浪潮數字企業(yè)技術有限公司招聘筆試參考題庫含答案解析
- 《二維納米材料》課件
- 課時精講14-物質的聚集狀態(tài)與晶體的常識(學生版)
- 2025年江西省建材集團有限公司招聘筆試參考題庫含答案解析
評論
0/150
提交評論