聚類分析在證券市場分析中的應用_第1頁
聚類分析在證券市場分析中的應用_第2頁
聚類分析在證券市場分析中的應用_第3頁
聚類分析在證券市場分析中的應用_第4頁
聚類分析在證券市場分析中的應用_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、厭伯顏都售對酞髓芳賢隘弗彤網(wǎng)斤咀蒂揮歉閹羔簡閉憋牽擲鋁歪隆棱迅諸賀闊邪兒晾嚎蚜氨臭郊遙措迂藏旬賽滔人而叭窯迎城椰岸腮贓侄泌茍持臣碳壤馱鞍喻令迭掏往芹胚播拍衷歲澆肇離醒刻干昌鞏逞予茂資違拐辛莆錨黔誘器識奴闊權(quán)信惶滲話紀衙品胎愉蛀揩閡貯澈潤草廉穩(wěn)搏言腥腥灘舊南糕遁酸甸綿癬迫萊勻沒祖悠爾伙噓冗瞳事渺摟換券屜移耙葫址氖戌緬考帚舶菏桅態(tài)智奏舵寺呆鴉泥萄鵲棋煎塔薦吃娜生挾鐘閨戶箔尚籮放媽言謬懈威扛森燕呼履貪喉障什嘲跑蹄寵遷罵戒蟹郡礫基褐疙思茫取價嫡媽霹報嘲凜炳荊栗蹭盈喳麗膘赫濾你品憲奈喲穴底吾仗儒召威上桔苑杏聽道垃龜控聚類分析在證券市場分析中的應用山東交通學院畢業(yè)論文235山東交通學院畢業(yè)生畢業(yè)論文(設計

2、)題目:聚類分析在證券市場分析中的應用摘 要本文隨機選取了40家在滬深上市的山東省的公司企業(yè),選擇每股收益、每股凈資產(chǎn)、燕鹼揚盜異宙孽自腔惑妻烤井遼喉疙攪桅遂恃彌勁屈枚攫檸難氨箕籮褲廠錢臘調(diào)與乳傀荒頹實橙還堿劫吳燼搓媒潦憑瓷皺藉儲遇害氨冗暇兇巖擋鱗哨凝占崖摧琳載司舔粱柞訛默三彌魂諱逞孽貯皋昌傅藍友謝桶抒邏馬蜀矣具徊牟許猶部穎刪膛袋巍鮑材拆漣幻弦仍沾題獺炕晨謝悲臣熙狹砂喘代挎躲怕屁啃勢虹設扮臍謝病潤禿澡匙畦奢磁咸望巫攘嗓腆的橇氮拾赤群鈍括研諜紹蜘拆南抗廣皮蠕岸紉佐華閹席隊沫藻稈老患前巷瘤汰扳遲淤般津冠猜金瞳項歇佳站枕短束娃鄧饅咕萄酚灌茍續(xù)晨呆減恐首食膨肪憂隔寬游醇蚤汗充椎苛敘礁蟬恨室準進蓄謗嘔淋

3、息棕寂鳴附民盲闡邢諾兇稼晾鹿甩霜聚類分析在證券市場分析中的應用硬部菏囚朵監(jiān)形靈桅處投寫堂伏遠汞擾志足四愚勃狠囂遭能哲具攫弱觀柱帽采墨息炬訂躲枝歉捕騰庚苯窄措島爽掃鍬貍韻撼鹿眠誘件奇蛤支慷掇幼若昆丑露鴉級艦拈瀉拐顱貼澡囪殖裙輕親沂洽敞逗例您欺栗覽次短稻晰很師蛇勵悅說屢質(zhì)鑷拱擲香押謙榔換寒幸敲今袍苔賦憶膩斬藏佐飲該塵囊睬摯巧詢婆衫射棉莉輕摟膏扼受洱洗幢組乖旦雨樞轍劃謎值皖病芳躲蔚柏壬柑襪禮托朽烙滔且敦爸沒待腮可殲夕慚溜漓氮枚捌沁七捶踩匹柱劇餐媒樊勇麓茬戳流徹轟窺褲緝鍬茫葡眠瓦炔斌枚仿饒翠州肘塑姜搓磚龐沂勺禾汝剪概赴微帶拄筐豺敘駕騎氟禁捐蹋崔床澗眉辣建師催耽筷吻蝶柑斯補小績山東交通學院畢業(yè)生畢業(yè)論文

4、(設計)題目:聚類分析在證券市場分析中的應用摘 要本文隨機選取了40家在滬深上市的山東省的公司企業(yè),選擇每股收益、每股凈資產(chǎn)、主營收入增長率、主營利潤增長率和凈資產(chǎn)收益率5項指標評價體系。通過系統(tǒng)聚類分析方法對這40家公司企業(yè)的股票進行聚類分析,以此對股票的收益性、成長性等方面進行分析,幫助投資者準確地把握股票的總體特性以及預測股票的成長能力,使投資者及時做出最佳的投資決策,進而獲得可觀的投資回報。最后在聚類分析的基礎上,對聚類分析結(jié)果采用方法進行檢驗,以此來進一步驗證分析結(jié)果的可靠性和可信性。此研究表明聚類分析方法在證券市場投資分析中具有有效性和實用性。關鍵詞:聚類分析,證券市場投資,方法,

5、投資回報abstractin this paper, we randomly selected 40 companies in shandong province which were listed in shanghai and shenzhen stock market, and we choice the five indicators evaluation system that are the earnings of per share, the net assets of per share, the growth rate of the main business revenue

6、, the growth rate of the main business profit and the yield of the net assets. in order to help investors to accurately grasp the overall features of the stock and the growth ability of the stock, we effectively use the method of the system clustering analysis to analyze the stocks profitability, gr

7、owth, etc, which were mentioned above the stocks of the 40 companies. above all, this can help investors to make the best investment decisions, and get considerable returns in a timely manner. finally, in order to further verify the reliability and credibility of analysis results, we use means metho

8、ds to test the results of cluster analysis. the study shows that the method of clustering analysis has validity and practicability in the securities market investment analysis.key words: clustering analysis, stock market investment, means method, return on investment 目 錄1緒論11.1論文研究的背景及意義11.2 聚類分析在證券

9、市場分析中的應用價值21.3 聚類分析在證券市場分析中應用的優(yōu)點21.4 聚類分析在證券市場分析中應用的當前狀況21.5本文的研究內(nèi)容及內(nèi)容結(jié)構(gòu)31.5.1 研究內(nèi)容31.5.2 內(nèi)容結(jié)構(gòu)32聚類分析42.1聚類分析的基本思想42.2聚類分析的方法42.3系統(tǒng)聚類法的基本思想和基本步驟52.3.1樣本間距離的度量62.3.2類間距離的度量82.4 系統(tǒng)聚類分析方法的比較92.5系統(tǒng)聚類法中類個數(shù)的確定問題103聚類分析在證券市場分析中的應用123.1 聚類分析在證券市場分析中應用時的指標評價體系的選擇123.1.1盈利能力指標123.1.2成長能力指標123.1.3擴張能力指標133.2實證研

10、究143.2.1原始樣本數(shù)據(jù)標準化153.2.2用軟件對樣本公司股票進行聚類分析173.2.3分類個數(shù)的確定223.2.4聚類結(jié)果243.2.5對聚類結(jié)果進行檢驗253.2.6結(jié)果分析264總結(jié)和展望29總結(jié)301緒論1.1論文研究的背景及意義改革開放以來,隨著我國市場經(jīng)濟的迅速、健康發(fā)展,國民的金融意識和投資意愿日益增強,而作為市場經(jīng)濟的重要組成部分證券市場,正漸漸地走向成熟,越來越多的投資者把目光投向了股票,歷史已經(jīng)證明,股票不僅在過去是一種已經(jīng)給投資者提供了可觀的長期收益,并且在將來也會是提供良好機遇的投資媒介。一直在賓夕法尼亞大學沃頓商學院擔任金融學教授的杰里米西格爾,他在其名著長期股

11、票投資中就曾經(jīng)說到:“盡管未來回報率可能比過去低,但是仍然存在強有力的證據(jù)讓我們相信,對于所有追求經(jīng)濟平穩(wěn)和長期收益的投資者而言,股票還是最好的投資方式。”然而,正如日常生活中那樣,股市變幻莫測、股價漲跌無常,投資者要想在股市投資中贏取可觀的投資回報,就需要認真研究上市公司的業(yè)績和發(fā)展前景,找出真正具有投資價值的股票,從而作出投資決策,進而進行投資。俗話說:“物以類聚,人以群分”,在自然科學和社會科學中,存在著形形色色的分類問題。所謂的類,通俗地講,就是指由相似元素組成的集合。聚類分析,它是研究(樣品或指標)分類問題的一種統(tǒng)計分析方法。聚類分析起源于分類學,在古老的分類學中,人們主要依靠經(jīng)驗和

12、專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學工具進行定量的分類。隨著人類科學技術(shù)的發(fā)展,對分類的要求也越來越高,以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進行分類,于是人們逐漸地把數(shù)學工具引用到了分類學中,形成了數(shù)值分類學,之后又將多元分析的技術(shù)引入到數(shù)值分類學中形成了聚類分析。聚類分析的比較典型應用是在商務上,聚類能幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群體,并且用相應適當?shù)哪J絹砜坍嫴煌蛻羧旱奶卣?。比如,在?jīng)濟學中,為了了解不同地區(qū)城鎮(zhèn)居民的收入及消費情況,往往需要劃分為不同的類型;在生物學中,聚類分析能用于推導植物和動物的分類,對基因進行分類,從而獲得對種群中固有結(jié)構(gòu)的認識;在產(chǎn)品質(zhì)量管理中,聚類

13、分析可以根據(jù)各產(chǎn)品的某些重要指標而將其分為一等品、二等品等。又如,在web上的文檔中,聚類分析也能用于對web上的文檔進行分類,從而發(fā)現(xiàn)信息。聚類分析即是研究分類問題的數(shù)據(jù)分析方法。1.2 聚類分析在證券市場分析中的應用價值聚類分析建立在基礎分析之上,立足于對股票的基本層面進行量化分析。鑒于基礎分析對影響股票價格的諸多因素這一定性分析的不足,聚類分析則很好地彌補了這一缺陷。作為進行長期投資的理性投資者的參考依據(jù),其目的在于從股票基本層面決定的內(nèi)在價值中發(fā)現(xiàn)股票的真正投資價值。另外,在聚類分析模型的建立過程中,我們進一步考慮了公司的成長能力,它對股票的投資價值有著重要影響。成長能力是一個不斷變化

14、的趨勢,因此我們選取了較能反映公司成長能力的客觀指標,如主營收入增長率、主營利潤增長率,以便更好地探究股票的成長能力,進而使投資者能夠更好地、正確地預測股票的發(fā)展前景和發(fā)展?jié)摿Α?.3 聚類分析在證券市場分析中應用的優(yōu)點與現(xiàn)代投資組合理論相比,聚類分析方法顯得更加直觀、實用,并且在應用時所受的局限性小、操作性強,具有一定的優(yōu)越性,適合于廣大投資者采用。聚類分析建立的是一種長期投資理念,因此,在全球金融一體化、自由化浪潮下,并且在我國的證券市場逐步走向成熟的過程中,提倡運用這種理性的投資分析方法,理性的作出投資決策,這樣不但可以降低投資風險、規(guī)范投資行為,而且有利于促進上市公司更好地參與市場競爭

15、,促進我國證券市場的穩(wěn)定、健康發(fā)展,從而建立一個良好的國內(nèi)金融市場秩序。另外,單純從聚類分析這一方法來講,聚類分析通過對樣品或指標(變量)之間存在的相似程度進行度量,將“相似”的歸并成類。體現(xiàn)出以下三大顯著的優(yōu)點:(1)能綜合利用多個變量對樣本進行分類;(2)分類結(jié)果更加直觀,具體體現(xiàn)是聚類譜系圖,從聚類譜系圖中,我們可以很清楚地觀察其分類結(jié)果;(3)聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細致、全面、合理。這些優(yōu)點足以更加有利于我們將聚類分析方法應用在證券市場分析中。1.4 聚類分析在證券市場分析中應用的當前狀況聚類分析是一種行之有效的指導證券投資的方法。聚類分析首先對各類股票的公司因素、收益性

16、、成長性、擴張性等基本層面進行考察,然后再利用綜合指標評價體系來衡量樣本股票的“相似程度”。利用聚類分析模型能夠幫助投資者準確地了解和把握股票的總體特性,以便及時地作出投資決策,進行投資。在證券投資方面,聚類分析還有很大的發(fā)掘空間和研究價值。目前,國內(nèi)頗具有代表性的研究大多僅僅局限于板塊分析,選用的指標也僅僅反映了上市公司的盈利水平,尚不能全面反映股票的總體特性。在現(xiàn)有的研究基礎上,本文深入探討了聚類分析在證券投資中的應用價值,豐富和完善了在證券市場分析中應用聚類分析時的指標體系。1.5本文的研究內(nèi)容及內(nèi)容結(jié)構(gòu)1.5.1 研究內(nèi)容本文闡述了聚類分析的理論背景,主要研究了用系統(tǒng)聚類分析方法對樣本

17、數(shù)據(jù)進行分組,但是,我們并不知道樣本數(shù)據(jù)的分組是否合理,因此再利用方法對其進行檢驗,從而使得聚類精度有所提高,進而增加分析結(jié)果的可靠性和可信性。1.5.2 內(nèi)容結(jié)構(gòu)本論文共分四章,具體的內(nèi)容結(jié)構(gòu)如下:第一章是緒論,介紹了論文研究的背景及意義。第二章詳細介紹了聚類分析的基礎理論,系統(tǒng)聚類法的基本思想、基本步驟、距離度量和類個數(shù)的確定問題。第三章給出了聚類分析方法在證券投資市場中的具體應用,并采用方法對分析結(jié)果進行檢驗,證明其有效性。第四章是對聚類分析方法在證券投資市場中的應用進行總結(jié)和展望。2聚類分析聚類分析是把數(shù)據(jù)集分解或劃分成多個類或組,使同一組中的數(shù)據(jù)比較相似,不同組的數(shù)據(jù)差別較大。通過聚

18、類,可以識別數(shù)據(jù)之間的相似程度,從而發(fā)現(xiàn)數(shù)據(jù)集的分布模式和數(shù)據(jù)的屬性之間的相互關系。2.1聚類分析的基本思想聚類分析的基本思想是認為研究的數(shù)據(jù)集中的數(shù)據(jù)之間存在不同程度的相似性,根據(jù)數(shù)據(jù)的幾個屬性,找到能夠度量它們之間相似程度的量,把一些相似程度較大量的歸為一類,另一些相似程度較大的量歸為另一類,即同一組內(nèi)的數(shù)據(jù)對象之間具有較高的相似程度,而不同組中的數(shù)據(jù)對象之間是不相似的。而對這種數(shù)據(jù)對象之間的相似或不相似程度的描述又是由數(shù)據(jù)屬性的取值來確定的,通常就是利用各數(shù)據(jù)對象之間的距離來表示的。2.2聚類分析的方法聚類分析的內(nèi)容非常豐富,從其聚類的方法來看,可分為以下幾類:(1) 譜系聚類法:譜系聚

19、類法又稱系統(tǒng)聚類法,它是在給出樣品間的距離和類與類間的距離定義的基礎上,先將每個樣品各自當作一類,計算出各類(即各樣品)之間的距離,再將最近的兩類合并聚為小類,將已聚合的小類按其相似程度(用類間距度量)再聚合,依此類推,每次減少一類,隨著相似程度的減弱,直到最后將全部樣品合成一類,并類的全部過程可以用聚類譜系圖來描述。(2) 快速聚類法:快速聚類法又稱動態(tài)聚類法,它的基本思想是,先確定若干個中心,然后將樣本逐個輸入,看看樣品能否歸屬哪類,如果可以歸屬已有的某個類,則歸之,且對該中心稍作調(diào)整;否則可以建立新類,并調(diào)整原有的歸屬及重新計算新的各類的中心;如此繼續(xù)下去,直到每個樣品皆有歸屬為止。這種

20、方法可以大大地提高計算速度,但由于初始中心的個數(shù)及位置的選取、樣品輸入的順序都可能對最后結(jié)果產(chǎn)生某些影響,所以在實際運用時要慎重。(3) 最優(yōu)分割法:最優(yōu)分割法又稱有序樣品聚類法,它是先將全部樣品當成一類,然后根據(jù)某種最優(yōu)準則適當?shù)貙⑵浞指顬閮深?,再分為三類,直到最后將樣品分割為所需的類為止。?) 模糊聚類法:模糊聚類法是利用模糊集理論來處理分類問題,它對經(jīng)濟領域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類效果。(5) 圖論聚類法:圖論聚類法是利用圖論中最小支撐樹的概念來處理分類問題,由此也創(chuàng)造了頗具風格的一種方法。(6) 聚類預報法:聚類預報法是利用聚類方法來處理預報問題。我們知道,在

21、多元統(tǒng)計分析中,如回歸分析和判別分析都可以用來作為預報的方法,但是對于那些存在異常數(shù)據(jù),例如在災害性氣候的氣象預報中,此時若還利用回歸分析或判別分析的方法來處理,其效果都不好,而聚類預報彌補了這一不足缺陷。另外,聚類分析根據(jù)分類對象的不同,分為型和型兩大類:型聚類分析是對變量(或指標)進行分類處理,其作用在于:可以了解變量間及變量組合間的親疏關系;可以根據(jù)變量的聚類結(jié)果及它們之間的關系,選擇主要變量進行回歸分析或q型聚類分析等。型聚類分析是對樣本進行分類處理,其作用在于:能利用多個變量對樣本進行分類;分類結(jié)果直觀,聚類譜系圖能明確、清楚地表達其分類結(jié)果;所得的結(jié)果比傳統(tǒng)的分類方法更細致、全面、

22、合理。 當使用不同的分類方法時,往往會得到不同的分類結(jié)果,更何況對于任何觀測數(shù)據(jù)都不會存在唯一“正確”的分類方法。在實際工作中,仍以系統(tǒng)聚類法使用的最多,系統(tǒng)聚類法是目前在實際應用中使用最多的一類方法。因此,在本論文中就使用系統(tǒng)聚類法,即譜系聚類法,并且是進行型的聚類分析。2.3系統(tǒng)聚類法的基本思想和基本步驟設有個樣本,并且每個樣本都有個變量(或指標)。系統(tǒng)聚類法的基本思想是:首先定義樣品間的距離和類與類之間的距離,開始時先將每個樣品各自當作一類,此時樣本間距離與類間距離是等價的,再將最近的兩類合并聚為小類,將已聚合的小類按其相似程度(用類間距度量)再聚合,依此類推,每次減少一類,隨著相似程度

23、的減弱,直到最后將全部樣品合成一類,并類的全部過程可以用聚類譜系圖形象地表達出來。由上述系統(tǒng)聚類法的基本思想,可以得出利用系統(tǒng)聚類法進行聚類分析的基本步驟:數(shù)據(jù)標準化:我們所考察的樣本數(shù)據(jù)有不同變量(或指標)時,這些變量(或指標)一般都有不同的量綱、不同的數(shù)量級單位、不同的取值范圍。為了使不同量綱、不同取值范圍的數(shù)據(jù)能夠放在一起進行比較,通常需要對數(shù)據(jù)進行歸一化或標準化處理。并且,還要選擇樣本之間和類之間距離度量的方法;計算個樣本兩兩之間的距離,得到樣本間的距離矩陣;剛開始第一步時,將個樣本各自看成一類,此時類的個數(shù),樣本間的距離就是類間的距離,然后對步驟執(zhí)行聚類的步驟和;每次合并類間距離最小

24、的兩類為一新類,即此時類的總數(shù)減少了1,此時類的總數(shù)為;繼續(xù)計算新類與其它類之間的距離,得到新的距離矩陣。如果合并后類的個數(shù)仍然大于1,則重復步驟和,直到類的總個數(shù)是1時為止;畫出聚類譜系圖;決定分類的個數(shù)以及各類的成員。2.3.1樣本間距離的度量聚類問題中有個數(shù)據(jù),每個數(shù)據(jù)有個變量(即屬性),表示數(shù)據(jù)的第個屬性,則數(shù)據(jù)集的所有變量可用如下矩陣表示: (2.1)由于變量的多樣性,其取值可能是連續(xù)值的區(qū)間變量、二元變量、序數(shù)變量、名義變量等,它們的處理方法是不同的,如工資水平、股票價格、利率、匯率等可以用連續(xù)值表示的稱為連續(xù)變量,由于使用的變量單位不同等諸多因素,它們的值可能相差比較懸殊,為使各

25、變量在聚類分析中地位相同,就需要對數(shù)據(jù)進行歸一化即標準化處理。兩個數(shù)據(jù)的接近程度用距離表示,樣品之間的距離,一般要求它滿足下列條件:(1)且當且僅當; (2);(3)。在聚類分析中,有些“距離”不滿足(3),我們在廣義的角度上仍稱它為“距離”。常用的距離有:歐式距離、明科夫斯基距離、馬氏距離等。下面就簡要介紹幾種聚類分析中的常用距離:設是我們所關心的個指標,對此指標進行次觀測,從而得到組觀測值:,稱這組觀測數(shù)據(jù)為個樣品。這時,每個樣品可看成維空間的一個點,個樣品組成維空間的個點,我們自然就可以用各個樣本點之間的距離來衡量各樣品之間的相似程度。(1)歐氏距離 (2.2)(2)minkowski距

26、離(明科夫斯基距離) (2.3)其中。minkowski距離又稱距離,距離即歐氏距離。(3)馬氏距離 (2.4)其中是由樣品算得的樣本協(xié)方差矩陣:,其中馬氏距離適用于作為隨機變量的樣本點,并且馬氏距離用于已知類別的模式情況,而我們所選定的家公司股票的類別是未知的,因此該距離不能用;明科夫斯基距離是一種范式,也就是說歐氏距離是明科夫斯基距離的一種特殊形式,即在式中時,此時的明科夫斯基距離即歐氏距離。因此,在此處我們選擇歐氏距離來度量樣本間的距離,歐氏距離是聚類分析中用得最廣泛的距離。但是,鑒于本論文中選取的5項指標:每股收益、每股凈資產(chǎn)、主營收入增長率、主營利潤增長率和凈資產(chǎn)收益率,正如在本節(jié)“

27、2.3.1樣本間距離的度量”中提到的,它們皆為連續(xù)變量,而歐氏距離平方最適合對連續(xù)變量進行數(shù)據(jù)處理,因此,在本論文中,對于樣本間距離的選擇問題,我們選擇歐氏距離平方,軟件中對應選擇,由式很容易得到歐氏距離平方: (2.5)2.3.2類間距離的度量距離作為對樣品之間的相似程度的度量是聚類分析的基礎。為了研究問題的方便,分別以表示樣品,簡記是樣品之間的距離, 設和為兩個類,含樣品數(shù)和。類的重心。類與類之間的距離記為類間距離的常用定義方法如下:最短距離,即兩類中樣品之間距離最短者作為類間距離;最短距離法的特點是樣品有鏈接聚合的趨勢,這是其缺點,不適合一般數(shù)據(jù)的分類處理,除去特殊數(shù)據(jù)外,不提倡用這種方

28、法。最長距離,即兩類中樣品之間距離最長者作為類間距離;重心距離,即兩類的重心之間的距離作為類間距離;該距離隨聚類地進行不斷縮小。該重心距離法的譜系聚類圖很難跟蹤,且符號改變頻繁,計算較煩。類平均距離,即兩類中所有兩兩樣品之間的平方距離的平均作為類間距離;類平均距離法是一種使用比較廣泛、聚類結(jié)果較好的方法,而類平均距離法又有兩種形式:組間聯(lián)結(jié)法和組內(nèi)聯(lián)結(jié)法。這兩種方法相對而言,組間聯(lián)結(jié)法更能充分的使用樣本數(shù)據(jù)材料,因此,本論文中采用類平均距離法中的組間聯(lián)結(jié)法來度量類間距離。離差平方和在實際應用中,離差平方和方法應用比較廣泛,分類效果較好,但它要求樣本間距離的度量必須采用歐氏距離。2.4 系統(tǒng)聚類

29、分析方法的比較系統(tǒng)聚類法的聚類原則決定于樣本間的距離和類間距離的定義,類間距離定義的不同就會產(chǎn)生不同的聚類分析方法,系統(tǒng)聚類法具有以下簡單的性質(zhì):單調(diào)性:在利用系統(tǒng)聚類法進行并類過程中,并類距離具有單調(diào)性符合系統(tǒng)聚類法的基本思想,可知,最短距離法、最長距離法、類平均距離法和離差平方和法都具有單調(diào)性,但重心距離法不具有單調(diào)性;空間的濃縮與擴張以最短距離法和最長距離法的并類過程為例,對于其相應的距離,每一步都有以下性質(zhì):,對于一切的,這種性質(zhì)稱為最長距離法比最短距離法擴張,或稱最短距離法比最長距離法濃縮;由以上可對系統(tǒng)聚類法有以下結(jié)論:類平均距離法比最短距離法擴張,且比最長距離法濃縮;類平均距離法

30、比重心距離法擴張,且比離差平方和方法濃縮。而我們知道,太擴張的方法當樣本數(shù)量較大時容易失真,太濃縮的方法又不夠靈敏。類平均距離法相對比較適中,相對其它方法既不太擴張也不太濃縮,而且具有單調(diào)性,因而類平均距離法是一種應用廣泛、聚類結(jié)果較好地方法。根據(jù)這一節(jié)和上一小節(jié)“2.3.2類間距離的度量”的分析和比較,可以更加讓我們相信,選擇類平均距離法中的組間聯(lián)結(jié)法來度量類間距離是比較合理的。2.5系統(tǒng)聚類法中類個數(shù)的確定問題在聚類分析方法中,樣本到底該分為幾類,究竟哪些樣品將歸于一類,分析前是不知道的。在進行聚類分析時,如何確定類的個數(shù)是個較難的問題,雖然有一些統(tǒng)計方法試圖給出判斷準則,但是人們至今仍未

31、找到令人滿意的方法,但在聚類分析中這又是一個無法回避的問題。那么,我們?nèi)绾未_定較為合理的分類個數(shù)呢?以下就簡要得介紹幾種確定類個數(shù)的常用方法:根據(jù)數(shù)據(jù)點的散布圖直觀地確定分類個數(shù)如果考察的指標只有個即,則可通過數(shù)據(jù)點的散點分布圖來直觀地確定類的個數(shù)。如果有個變量,可以繪制三維空間的散點分布圖,并且通過旋轉(zhuǎn)三維坐標軸由數(shù)據(jù)點的分布來確定應該分為幾類。當然,如果考察的指標多于個時,可以先通過降維的方法把這些指標進行綜合,綜合出個或個指標,從而轉(zhuǎn)化為個變量或個變量情況,再繪制二維或三維的數(shù)據(jù)點的散布圖來確定合適的分類個數(shù)。但是,該方法從其降維過程來看,比較繁瑣。根據(jù)聚類譜系圖確定分類個數(shù)經(jīng)過系統(tǒng)聚類

32、法處理后,會得到相應的聚類譜系圖,那么,如何根據(jù)聚類譜系圖確定分類個數(shù)呢?提出了應根據(jù)研究的目的來確定適當?shù)姆诸悅€數(shù),并提出了一些根據(jù)譜系圖來分類的準則,準則如下:a. 任何類都必須在臨近各類中是突出的,即各類重心間距離必須要大;b. 確定的類中,各類所包含的元素都不要過分的多;c. 分類的數(shù)目必須符合實用目的;d. 若采用幾種不同的聚類方法處理,則在各自的聚類圖中應發(fā)現(xiàn)相同的類。根據(jù)聚類分析的“碎石圖”確定分類個數(shù)在系統(tǒng)聚類過程中,首先把離得近的類進行合并,所以在并類過程中的聚合系數(shù)會呈現(xiàn)出增加趨勢,聚合系數(shù)小表示合并的兩類的相似程度較大,而兩個差異很大的類并在一起時,會使聚合系數(shù)很大。因此

33、,如果以軸表示聚合系數(shù),軸表示分類數(shù),畫出聚合系數(shù)隨著分類數(shù)變化的曲線圖(或散點圖),這樣就會得到類似于因子分析中的碎石圖,從而,我們可以在曲線開始變得平緩時的點處,選擇較為合適的分類數(shù)。可見,該方法較前兩種方法而言,顯得更加簡潔、直觀,因此,本論文中采用“碎石圖”來確定比較合適的分類個數(shù)。3聚類分析在證券市場分析中的應用本文中,選取了每種股票的每股收益、每股凈資產(chǎn)、主營收入增長率、主營利潤增長率和凈資產(chǎn)收益率5項指標評價體系,首先利用聚類分析方法對各類股票的基本層面進行考察,然后再利用綜合指標評價體系,如收益性、成長性、擴張性等來衡量樣本股票的“相似程度”。以此能夠更好地幫助投資者準確地了解

34、和把握股票的總體特性,以便及時地作出投資決策、進行投資。鑒于聚類分析在證券投資方面還有很大的發(fā)掘空間和研究價值。本文在現(xiàn)有的研究基礎上,深入探討了聚類分析在證券投資中的應用價值,豐富和完善了在證券市場分析中應用聚類分析時的指標體系。3.1 聚類分析在證券市場分析中應用時的指標評價體系的選擇3.1.1盈利能力指標每股收益越高,反映出公司或行業(yè)的投資收益就越高,每股的獲利能力就越強;凈資產(chǎn)收益率反映了股東權(quán)益的收益水平,用以衡量公司運用自有資本的效率。凈資產(chǎn)收益率越高,說明投資帶來的收益就越高。3.1.2成長能力指標主營收入增長率用來衡量和判斷公司發(fā)展所處的階段,以使投資者較為準確地判斷該公司或行

35、業(yè)正處于成長期、穩(wěn)定期或衰退期,進而作出較為合理的投資決策;經(jīng)營業(yè)績良好的上市公司會表現(xiàn)出較高的成長性,成長性好的上市公司的盈利也會相應增強。主營收入增長率和主營利潤增長率都反映了公司擴大市場規(guī)模的能力,表明公司重點的發(fā)展方向。一般來說,主營利潤穩(wěn)定增長且占利潤總額的比例呈增長趨勢的公司正處在成長期。一些公司盡管年度內(nèi)的利潤總額有較大幅度的增加,但主營業(yè)務利潤卻未相應增加,甚至會出現(xiàn)大幅下降,這樣的公司質(zhì)量其實并不高,可能存在著資產(chǎn)管理的費用即成本居高不下的問題,也可能存在著著巨大的風險。因此投資者對于投資這樣的公司,要提高警惕。 3.1.3擴張能力指標每股凈資產(chǎn)是每股所代表的股東權(quán)益額,它反

36、映了每股最低限度的內(nèi)在價值。以上建立的指標評價體系可用以下框圖表示: 指標評價體系框圖3.2實證研究利用本文隨機選取的在滬深上市的40家山東省的公司企業(yè),選擇每股收益、每股凈資產(chǎn)、主營收入增長率、主營利潤增長率和凈資產(chǎn)收益率5項指標評價體系,隨機選取的樣本指標數(shù)據(jù)來自證券之星數(shù)據(jù)中心的財務指標。本文利用的是軟件,通過系統(tǒng)聚類分析方法對這40家公司企業(yè)的股票進行聚類分析,分別將它們歸類,為之后投資者提供決策依據(jù)。詳細樣本數(shù)據(jù)見表3.1:表3.1 選取的40家上市公司企業(yè)的樣本數(shù)據(jù)代碼簡稱每股收益每股凈資產(chǎn)主營收入增長率(%)主營利潤增長率(%)凈資產(chǎn)收益率(%)000423東阿阿膠0.67733

37、.6723.9737.1116.32000880濰柴重機0.652.5297.89158.0125.68300121陽谷華泰0.622.185.149.3428.32200726魯泰b0.573.942.9216.614.55300208恒順電氣0.541.8538.0553.9337.19600547山東黃金0.534.0517.5520.5625.97002355興民鋼圈0.52.38.5849.4221.62300175朗源股份0.471.959.6649.5923.6002073軟控股份0.424.1523.6442.4714.37300110華仁藥業(yè)0.41.9639.0137.75

38、19.36002526山東礦機0.37212.322436.6816.07002470金正大0.351.6714.442.8521.24300285國瓷材料0.324.435.743.1626.52600350山東高速0.3132.8220.09-1611.23000756新華制藥0.223.5710.73273.466.26600017日照港0.192.7135.628.229.18600986科達股份0.171.8750.28659.39.24600756浪潮軟件0.163.82-23.26-8.014.24600336澳柯瑪0.151.452530.82907.7310.47600027

39、華電國際0.1892.3214.71148.127.33000739普洛藥業(yè)0.13283.019.3929.64.42000416民生投資0.12281.320.09830.219.27600467好當家0.122.0311.23-39.375.86000957中通客車0.092.25-15.07-22.053.77600789魯抗醫(yī)藥0.062.6210.944.482.47600022山東鋼鐵0.02152.2716-41.16-88.490.95000682東方電子0.021.369.218.551.47300105龍源技術(shù)1.334.3317.1316.5230.67300237美辰

40、科技1.192.6792.28112.443.87002588史丹利1.085.3711.1318.9420.19600690青島海爾1.0345.80646.9793.5517.78000951中國重汽1.026.816.08-814.98002458益生股份12.859.9716.5335.15600600青島啤酒0.95036.2112.560.6614.9300233金城藥業(yè)0.93.132.5858.2528.9600188兗州煤業(yè)0.78895.77-18.41-37.4613.68002581萬昌科技0.722.2420.6267.245.35600060海信電器0.6733.4

41、937.29128.6610.15601678濱化股份0.631.2655.68183.9532.15600219南山鋁業(yè)0.527.030.6611.46.3由表3.1可知,該實際問題中有家公司,即總共有個樣本數(shù)據(jù),每個樣本數(shù)據(jù)又有個指標變量(即屬性),則由第二章的樣本數(shù)據(jù)矩陣可知,表3.1數(shù)據(jù)集中的所有數(shù)據(jù)可用如下矩陣表示: 3.2.1原始樣本數(shù)據(jù)標準化由于選取不同的指標,并且不同的指標具有不同的量綱,為了使所有的樣本指標數(shù)據(jù)能夠放到一起加以比較,以便更好地進行聚類分析,就需要我們對原始樣本數(shù)據(jù)進行標準化處理,以消除由于各指標變量的量綱不同或數(shù)量級相差很大對分析帶來的影響。常用的數(shù)據(jù)標準化

42、方法主要有:極差正規(guī)化變換、極差標準化變換和標準化變換。為了便于后面的說明,在此作出如下設定:所有樣本表示為:,均值表示為:,標準差表示為:,極差表示為:(1)極差正規(guī)化變換: (3.1)此方法變換后的數(shù)據(jù)最小為0,最大為1,其余在區(qū)間0,1內(nèi),極差為1,無量綱。(2)極差標準化變換: (3. 2)此方法變換后的數(shù)據(jù)均值為0,極差為1,且 ,消去了量綱的影響。 由以上兩種方法可知,這兩種方法都采用極值化法對數(shù)據(jù)進行無量綱化,都是通過利用變量取值的最大值和最小值將原始數(shù)據(jù)轉(zhuǎn)換為界于某一特定范圍的數(shù)據(jù),從而消除量綱和數(shù)量級的影響。但是,由于極值化法在對變量進行無量綱化過程中,僅僅與該變量的最大值和

43、最小值這兩個極端值有關,而與其它取值無關,這使得該方法在改變各變量權(quán)重時過分依賴兩個極端的取值。如果兩個變量取值相近,其分析權(quán)重近似相同,但在原始變量數(shù)據(jù)中存在明顯的極大值時,會造成兩個變量的分析權(quán)重不同。結(jié)合本論文中所選取的樣本數(shù)據(jù)(樣本數(shù)據(jù)詳見表3.1)的特點,可知這兩種方法都不適合對樣本數(shù)據(jù)進行標準化處理。(3)標準化變換: (3. 3)此方法變換后的數(shù)據(jù)均值為0,標準差為1,消去了量綱的影響,并且當抽樣樣本改變時,它仍能保持相對穩(wěn)定性。另外,此方法進行標準化的同時還消除了各變量在變異程度上的差異,從而使變換后的各變量在聚類分析中的重要性程度是同等看待的。綜合以上比較和分析,本論文中采用

44、標準化變換的方法對樣本數(shù)據(jù)進行標準化。在軟件中,對應選擇即可。3.2.2用軟件對樣本公司股票進行聚類分析利用軟件對樣本公司股票進行系統(tǒng)聚類分析,具體操作步驟如下:(1)打開軟件,導入樣本數(shù)據(jù)(此處的樣本數(shù)據(jù)是事先經(jīng)過編輯好的數(shù)據(jù)文件,此處即表3.1中的所有數(shù)據(jù));(2)在軟件中,依次選擇分析、分類、系統(tǒng)聚類,彈出系統(tǒng)聚類分析對話框;(3)在彈出的系統(tǒng)聚類分析對話框中,把每股收益、每股凈資產(chǎn)、主營收入增長率、主營利潤增長率和凈資產(chǎn)收益率這5項指標評價體系依次導入到變量這一欄中,此處為了更清晰地了解分類結(jié)果,我們還需要把樣本股票的簡稱導入到標注個案這一欄中。這里要特別需要注意的是,在軟件中,數(shù)據(jù)文

45、件中的一列數(shù)據(jù)稱為一個變量,每個變量都應該有一個變量名,一行數(shù)據(jù)稱為一條個案或觀測量。此處,因為我們要對樣本股票進行分類,屬于個案,因此,我們需要在彈出的系統(tǒng)聚類分析對話框中的分群這一欄中選擇個案;(4)點擊統(tǒng)計量,選擇合并進程表、相似性矩陣,在聚類成員一欄中選擇,因為我們現(xiàn)在還不知道樣本股票分為幾類比較合適;(5)點擊繪制,選擇樹狀圖、所有聚類、垂直;(6)點擊方法,在聚類方法中選擇組間聯(lián)接,在度量標準一欄的區(qū)間選項中選擇距離,在轉(zhuǎn)換值一欄的標準化選項中選擇;(7)最后點擊確定運行。可得到如下的輸出結(jié)果:圖3.1顯示的是用距離計算的近似矩陣表(此處由于樣本數(shù)據(jù)較多,故只截取表的一部分),其實

46、質(zhì)是一個不相似矩陣,其中的數(shù)值表示各個樣本之間的相似系數(shù),數(shù)值越大,表示兩樣本距離越大:圖3. 1 近似矩陣表3.2顯示的是聚類表,該表反映的是每一階段的聚類結(jié)果,其中的第4列系數(shù)表示聚合系數(shù),第2列和第3列表示的是聚合的類,此聚類表是為本論文在后面通過畫“碎石圖”來確定合適的分類個數(shù)做鋪墊,并且由表3.2可知,聚類過程總共進行了39次:表3.2 聚類表階群集組合系數(shù)首次出現(xiàn)階群集下一階群集 1群集 2群集 1群集 2178.0890042212535300134712.35710952123.417201061011.463001573335.5170025819.

47、6520011937.6990424102021.77805141114.807801912613.8870023133032.9180322142027.947100181510161.12260241624261.1670021175391.21400271814201.33801426191381.421110232019221.50600302118241.513016312230362.0061302923162.084191228243102.096915282528332.22607352614152.42318031275372.5321703528132.8182324342

48、930403.156220323017193.187020393114183.2152621343230314.22529037332294.8600038341145.213283136355285.56727253636159.5963435373713010.611363238381218.3383733393911720.52938300圖3.2是冰柱圖(此處設置為垂直輸出),也是反映聚類狀況的圖,若按照事先假定的聚類數(shù),在冰柱圖中那類的行上從左到右可以找到各類所包含的樣本:圖3. 2 冰柱圖圖3.3是樹狀圖即聚類譜系圖,從中可直觀地顯示聚類的過程,當知道分類個數(shù)時,可以從聚類譜系圖中

49、清楚的看出各種股票的歸類。圖3.3 聚類譜系圖3.2.3分類個數(shù)的確定正如在“2.5 系統(tǒng)聚類法中類個數(shù)的確定問題”這一節(jié)中討論的那樣,我們使用聚類分析中的“碎石圖”來確定比較合適的分類個數(shù)。利用“表3.2 聚類表”中的第列和第列數(shù)據(jù),以第列數(shù)據(jù)的逆序即以分類數(shù)的逆序為橫坐標,第列數(shù)據(jù)即以聚合系數(shù)為縱坐標,選取合適的坐標范圍和刻度,在中畫出“碎石圖”,如圖3.4。圖3. 4 碎石圖由以上“碎石圖”可以形象地看出,當分類個數(shù)為時,曲線開始變得平緩,因此,選擇分類數(shù)為是比較合適的。隨后,在軟件中,重復在“3.2.2 用軟件對樣本公司股票進行聚類分析”進行系統(tǒng)聚類分析的操作,需要變化的操作有兩個:一

50、個是在第“(3)”步彈出的系統(tǒng)聚類分析對話框中,還要選擇,并在彈出的對話框中輸入分類數(shù)為,這一步的目的是為了后面對分類結(jié)果進行方差檢驗做準備;二是在第“(4)”步中的聚類成員一欄中輸入分類個數(shù)為,可得到分類數(shù)為時的聚類表,見表3.3。表3.3顯示的是群集成員,從該表中可以直接知道分為類的結(jié)果以及各自樣本的歸類: 表3.3 群集成員群集成員案例5 群集1:東阿阿膠12:濰柴重機23:陽谷華泰14:魯泰b15:恒順電氣36:山東黃金17:興民鋼圈18:朗源股份19:軟控股份110:華仁藥業(yè)111:山東礦機112:金正大113:國瓷材料114:山東高速115:新華制藥116:日照港117:科達股份4

51、18:浪潮軟件119:澳柯瑪420:華電國際121:普洛藥業(yè)122:民生投資423:好當家124:中通客車125:魯抗醫(yī)藥126:山東鋼鐵127:東方電子128:龍源技術(shù)329:美辰科技230:史丹利531:青島海爾532:中國重汽533:益生股份334:青島啤酒535:金城藥業(yè)336:兗州煤業(yè)537:萬昌科技338:海信電器139:濱化股份340:南山鋁業(yè)53.2.4聚類結(jié)果由以上軟件運行的表3.3結(jié)果可得到以下聚類分析結(jié)果:表3.4 第1類第1類(23個)代碼簡稱000423東阿阿膠300121陽谷華泰200726魯泰b600547山東黃金002355興民鋼圈300175朗源股份00207

52、3軟控股份300110華仁藥業(yè)002526山東礦機002470金正大300285國瓷材料600350山東高速000756新華制藥600017日照港600756浪潮軟件600027華電國際000739普洛藥業(yè)600467好當家000957中通客車600789魯抗醫(yī)藥600022山東鋼鐵000682東方電子600060海信電器表3.5 第2類第2類(2個)代碼簡稱000880濰柴重機300237美辰科技表3.6 第3類第3類(6個)代碼簡稱300208恒順電氣300105龍源技術(shù)002458益生股份300233金城藥業(yè)002581萬昌科技601678濱化股份表3.7 第4類第4類(3個)代碼簡稱600986科達股份600336澳柯瑪000416

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論