《數(shù)據(jù)挖掘與數(shù)據(jù)分析（財(cái)會）》聚類分析及應(yīng)用

上傳人：熊*** IP屬地：山東上傳時(shí)間：2023-10-01 格式：PPTX 頁數(shù)：40 大小：1.80MB 積分：30 舉報(bào) 版權(quán)申訴

《數(shù)據(jù)挖掘與數(shù)據(jù)分析（財(cái)會）》聚類分析及應(yīng)用_第2頁

《數(shù)據(jù)挖掘與數(shù)據(jù)分析（財(cái)會）》聚類分析及應(yīng)用_第3頁

《數(shù)據(jù)挖掘與數(shù)據(jù)分析（財(cái)會）》聚類分析及應(yīng)用_第4頁

《數(shù)據(jù)挖掘與數(shù)據(jù)分析（財(cái)會）》聚類分析及應(yīng)用_第5頁

已閱讀5頁，還剩35頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

聚類分析及應(yīng)用CONTENTS目錄6.1聚類概念6.2聚類方法6.3聚類應(yīng)用016.1聚類概念聚類分析(ClusterAnalysis)簡稱聚類（clustering），是把一個數(shù)據(jù)對象劃分子集的過程。每個子集是一個簇，使得同一簇內(nèi)的對象具有盡可能高的同質(zhì)性(homogeneity)，而與其他簇中的對象之間則應(yīng)具有盡可能高的異質(zhì)性(heterogeneity)。由聚類分析產(chǎn)生的簇的集合稱作一個聚類。6.1聚類概念聚類分析處理的數(shù)據(jù)對象集是無類別標(biāo)記的，算法需要對原始數(shù)據(jù)的特征進(jìn)行探索，進(jìn)而挖掘出一些數(shù)據(jù)對象之間的共性特點(diǎn)。6.1聚類概念與分類不同，聚類分析是在沒有給定劃分類別的情況下，根據(jù)數(shù)據(jù)相似度進(jìn)行樣本分組的一種方法。與分類模型需要使用有類標(biāo)記樣本構(gòu)成的訓(xùn)練數(shù)據(jù)不同，聚類模型可以建立在無類標(biāo)記的數(shù)據(jù)上，是一種非監(jiān)督的學(xué)習(xí)算法。6.1聚類概念（1）數(shù)據(jù)準(zhǔn)備：包括對數(shù)據(jù)特征進(jìn)行標(biāo)準(zhǔn)化、屬性降維、噪音處理；（2）特征選擇：從最初的特征集中選擇最有代表性的特征或特征組合，并將其存儲于向量中；（3）特征提取：通過對所選擇的特征進(jìn)行轉(zhuǎn)換進(jìn)而形成新的特征；（4）聚類：選擇適合特征類型的某種距離函數(shù)進(jìn)行接近度或相似度的測量，而后根據(jù)距離進(jìn)行聚類或分組；（5）結(jié)果評估：對聚類結(jié)果進(jìn)行評估，評估主要有3種：外部有效性評估、內(nèi)部有效性評估和相關(guān)性測試評估。聚類通常包括如下階段：026.2聚類方法聚類是將研究對象分為相對同質(zhì)的群組或簇技術(shù)，現(xiàn)有研究和文獻(xiàn)中有大量關(guān)于聚類的算法和技術(shù)。聚類的主要基礎(chǔ)算法，包括如下幾類：劃分方法（partitioningmethod）、層次方法（hierarchicalmethod）、基于密度方法（density-basedmethod）和基于網(wǎng)格方法（grid-basedmethod）。6.2聚類方法6.2.1劃分方法聚類分析中最簡單、最基本的方法是劃分。給定一個具有n個對象的數(shù)據(jù)集，劃分方法（PartitionMethods）構(gòu)建數(shù)據(jù)的k個分區(qū)，其中每個分區(qū)代表一個簇，并且k≤n。也就是說，劃分方法把數(shù)據(jù)劃分為K個組，使得每個組至少包含一個對象，且每個對象只能屬于一個組。目前常用的劃分方法有如下兩種：K-means算法與K-medoids算法。6.2.1劃分方法K-means算法是典型的基于距離的非層次聚類算法，在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K，采用距離作為相似性的評價(jià)指標(biāo)，即認(rèn)為兩個對象的距離越近，其相似度就越大。K-means聚類算法中，一般需要度量樣本之間的距離、樣本與簇之間的距離以及簇與簇之間的距離。度量樣本之間的相似性最常用的是歐幾里得距離、曼哈頓距離和閔可夫斯距離；樣本與簇之間的距離可以用樣本到簇中心的距離；簇與簇之間的距離可以用簇中心的距離。6.2.1劃分方法K-means算法：給定一個數(shù)據(jù)集和需要劃分的簇的數(shù)目k后，該算法根據(jù)某個距離函數(shù)反復(fù)把數(shù)據(jù)劃分到k個簇中，直至收斂，算法步驟如下：算法：K-means輸入：包含n個對象的數(shù)據(jù)庫，簇的數(shù)目k輸出：k個簇，使平方誤差最小步驟：（1）任選k個對象作為初始的簇中心；（2） repeat（3）根據(jù)與每個中心的距離，將每一對象賦給“最近”的簇（4）重新計(jì)算每個簇的平均值（5） Until不再發(fā)生變化6.2.1劃分方法算法首先在數(shù)據(jù)集中隨機(jī)抽取的k個對象，每個對象代表一個簇的初始均值或簇中心，然后計(jì)算每個數(shù)據(jù)點(diǎn)到每個簇中心的距離，并把每個數(shù)據(jù)點(diǎn)分配到離它最近的簇中心；一旦所有的數(shù)據(jù)點(diǎn)都被分配完成，每個聚類的簇中心按照本聚類的現(xiàn)有數(shù)據(jù)點(diǎn)重新計(jì)算；該過程不斷重復(fù)，直至收斂，即滿足某個終止條件為止，最常見的終止條件是誤差平方和局部最小。6.2.1劃分方法

6.2.1劃分方法K-medoids算法：又叫K中心點(diǎn)算法，K-Medoids算法是用簇中最靠近中心點(diǎn)的一個真實(shí)數(shù)據(jù)對象來代表該簇，而K-means算法是用計(jì)算出來的簇中對象的平均值來代表該簇，算法步驟如下：算法：K-medoids輸入：包含n個數(shù)據(jù)對象的集合，簇的數(shù)目k輸出：k個簇步驟：（1）任意選取k個初始中心點(diǎn)(medoids)；（2）repeat（3）按照與medoids最近的原則，將剩余點(diǎn)分配到當(dāng)前最佳的medoids所代表的類或簇中（4）在每一類或簇中，計(jì)算每個樣本點(diǎn)與其他點(diǎn)的距離之和，選取距離之和最小的點(diǎn)作為新的medoids（5）Until重復(fù)(3)(4)的過程，直到所有的中心點(diǎn)（medoids）不再發(fā)生變化，或已達(dá)到設(shè)定的最大迭代次數(shù)

6.2.1劃分方法新聞文本聚類首先，新聞文本聚類可以發(fā)現(xiàn)與某文檔相似的一批文檔，幫助知識工作者發(fā)現(xiàn)相關(guān)知識；其次，文檔聚類可以將一類文檔聚類成若干個類，提供一種組織文檔集合的方法；再次，文檔聚類還可以生成分類器以對文檔進(jìn)行分類。聚類分析以相似性為基礎(chǔ)，在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。6.2.2層次方法層次聚類是一種很直觀的算法，通俗理解就是要一層一層地進(jìn)行聚類，可以從下而上地把小的簇合并聚集，也可以從上而下地將大的簇進(jìn)行分裂，即包括凝聚型和分裂型層次聚類算法（agglomerative和divisive）。（1）凝聚層次聚類：又叫自底向上方法，其策略是首先將每個對象作為一個簇，然后合并相鄰近的簇為越來越大的簇，直到所有的對象都在一個簇中，或者某個終結(jié)條件被達(dá)到要求。（2）分裂層次聚類：又叫自頂向下方法，其策略與凝聚的層次聚類有些不一樣，它首先將所有對象放在一個簇中，然后慢慢地細(xì)分為越來越小的簇，直到每個對象自行形成一簇，或者直達(dá)滿足其他的一個終結(jié)條件，例如滿足了某個期望的簇?cái)?shù)目，又或者兩個最近的簇之間的距離達(dá)到了某一個閾值。6.2.2層次方法凝聚型層次聚類步驟（1）將每個對象看作一個類，計(jì)算兩兩之間的最小距離；（2）repeat（3）將距離最小的兩個類合并成一個新類（4）重新計(jì)算新類與所有類之間的距離（5）Until重復(fù)(3)(4)的過程，重復(fù)(2)、(3)，直到所有類最后合并成一類

6.2.2層次方法凝聚型層次聚類6.2.2層次方法如何判斷兩個簇(cluster)之間的距離呢？1.最小距離，單鏈接SingleLinkage兩個簇的最近樣本決定。2.最大距離，全鏈接CompleteLinkage兩個簇的最遠(yuǎn)樣本決定。3.平均距離，均鏈接AverageLinkage兩個簇所有樣本共同決定。方法1和2都容易受極端值的影響，而方法3計(jì)算量比較大。6.2.3密度方法層次聚類算法和劃分式聚類算只能發(fā)現(xiàn)凸形的聚類簇，為了彌補(bǔ)這一缺陷，發(fā)現(xiàn)各種任意形狀的聚類簇，開發(fā)出基于密度的聚類算法（Density-BasedMethods）。這類算法認(rèn)為，在整個樣本空間點(diǎn)中，各目標(biāo)類簇是由一群的稠密樣本點(diǎn)組成的，而這些稠密樣本點(diǎn)被低密度區(qū)域（噪聲）分割，而算法的目的就是要過濾低密度區(qū)域，發(fā)現(xiàn)稠密樣本點(diǎn)。6.2.3密度方法算法原理：只要鄰近區(qū)域里的密度（對象的數(shù)量）超過了某個閾值，就繼續(xù)聚類。也即，給定某個簇中的每個數(shù)據(jù)點(diǎn)（數(shù)據(jù)對象），在一定范圍內(nèi)必須包含一定數(shù)量的其他對象。該算法從數(shù)據(jù)對象的分布密度出發(fā)，把密度足夠大的區(qū)域連接在一起，因此可以發(fā)現(xiàn)任意形狀的類?；诿芏鹊姆椒ㄖ腥N代表性的算法包括：DBSCANOPTICSDENCLUE6.2.4網(wǎng)格方法STING（StatisticalInformationGrid）算法針對空間數(shù)據(jù)挖掘的算法，采用多分辨率的方式進(jìn)行聚類，聚類的質(zhì)量取決于最底層的粒度。WaveCluster是一個多分辨率的聚類方法，通過小波變換來轉(zhuǎn)換原始的特征空間。其主要思想是，首先量化特征空間，把數(shù)據(jù)映射到一個多維網(wǎng)格中，然后對網(wǎng)格單元進(jìn)行小波變換，通過搜索連通分支得到聚類?；诰W(wǎng)格的聚類（grid-basedclustering）將對象空間量化為有限數(shù)目的單元，形成網(wǎng)格結(jié)構(gòu)，每個單元中存儲對象的統(tǒng)計(jì)參數(shù)，然后在這個量化空間（網(wǎng)格結(jié)構(gòu)）上進(jìn)行所有的聚類操作?；诰W(wǎng)格方法的典型算法有STING算法、WaveCluster算法：6.2.5聚類評估聚類評估就是對在數(shù)據(jù)集上進(jìn)行聚類的可行性和聚類結(jié)果的質(zhì)量的評價(jià)，主要包括如下任務(wù)：估計(jì)聚類趨勢。確定數(shù)據(jù)集的簇?cái)?shù)。評估聚類分析結(jié)果的質(zhì)量。036.3聚類應(yīng)用6.3聚類應(yīng)用背景：長期以來，中國的軟件業(yè)的核心技術(shù)依賴國際巨頭，隨著國際環(huán)境的變化，越來越多的企業(yè)基于供應(yīng)鏈安全的需求，開始使用國產(chǎn)軟件，由此帶來了國產(chǎn)軟件行業(yè)的快速發(fā)展。隨著我國經(jīng)濟(jì)社會發(fā)展到新的階段，軟件對經(jīng)濟(jì)高質(zhì)量發(fā)展、推動數(shù)字經(jīng)濟(jì)發(fā)展、促進(jìn)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級日益發(fā)揮重要作用，因此對我國軟件行業(yè)上市公司的績效進(jìn)行評價(jià)十分必要。6.3.1財(cái)務(wù)質(zhì)量分析將按照上市公司軟件財(cái)務(wù)實(shí)際運(yùn)行過程，從四個方面對企業(yè)財(cái)務(wù)質(zhì)量進(jìn)行分析，具體如下圖所示：企業(yè)財(cái)務(wù)質(zhì)量評價(jià)1.償債能力2.營運(yùn)能力3.盈利能力4.成長能力圖4-5企業(yè)財(cái)務(wù)質(zhì)量評價(jià)框架6.3.2數(shù)據(jù)處理1.數(shù)據(jù)選取根據(jù)樣本數(shù)據(jù)的可操作性、全面性、可比性、客觀性原則，本文選取了A股上市公司中軟件和信息技術(shù)服務(wù)業(yè)的15家公司作為研究對象，基于成長能力、營運(yùn)能力、償債能力和盈利能力四個方面，共選取17個反映企業(yè)財(cái)務(wù)綜合狀況的指標(biāo)進(jìn)行分析。6.3.2數(shù)據(jù)處理1.數(shù)據(jù)選取根據(jù)樣本數(shù)據(jù)的可操作性、全面性、可比性、客觀性原則，本文選取了A股上市公司中軟件和信息技術(shù)服務(wù)業(yè)的15家公司作為研究對象，基于成長能力、營運(yùn)能力、償債能力和盈利能力四個方面，共選取17個反映企業(yè)財(cái)務(wù)綜合狀況的指標(biāo)進(jìn)行分析。6.3.2數(shù)據(jù)處理2.數(shù)據(jù)預(yù)處理針對本研究所選的數(shù)據(jù)特點(diǎn)，主要處理空缺值。對于空缺值，使用數(shù)據(jù)屬性的均值填充的方法，將同屬性數(shù)據(jù)的平均值填補(bǔ)空缺值。6.3.2數(shù)據(jù)處理3.數(shù)據(jù)轉(zhuǎn)換

6.3.3聚類分析對已經(jīng)標(biāo)準(zhǔn)化的數(shù)據(jù)，我們采用K-Means聚類算法，對所有指標(biāo)，設(shè)定聚類個數(shù)K為2，最大迭代次數(shù)為100次，分類輸出結(jié)果如下圖所示

：6.3.3聚類分析上述分析所用Python聚類核心代碼如下：fornuminrange(2,9):#迭代2到9之間的數(shù)字

#調(diào)用KMeans方法,聚類數(shù)為num個，fit()之后開始聚類kmeans=KMeans(n_clusters=num).fit(all_points)pred=kmeans.fit_predict(all_points)#計(jì)算calinski_harabasz_score值

print(num,",",metrics.calinski_harabasz_score(all_points,pred))

print("cluster".join(str(i)foriinkmeans.labels_))

forjlcenginrange(2,9):#調(diào)用AgglomerativeClustering層次聚類方法,聚類數(shù)為jlceng個clst=cluster.AgglomerativeClustering(jlceng)pred1=clst.fit_predict(all_points)#計(jì)算calinski_harabasz_score值

print(jlceng,",",metrics.calinski_harabasz_score(all_points,pred1))print(",".join(str(i)foriinclst.labels_))6.3.3聚類分析在進(jìn)行聚類時(shí)，我們用Python的calinski_harabaz_score方法評價(jià)聚類效果的好壞，該指標(biāo)表示類間距除以類內(nèi)距，因此這個值越大越好。我們采用計(jì)算不同聚類個數(shù)k值下的calinski_harabaz_score統(tǒng)計(jì)值來確定最優(yōu)的K，如下圖，我們可以明顯的看到選擇K=2是最合理的，所以在接下來的聚類中我們選擇K=2聚為兩類。6.3.3聚類分析

簇1簇2樣本個數(shù)312占比（%）2080公司樣本交大思諾，頂點(diǎn)軟件，博睿數(shù)據(jù)

海量數(shù)據(jù)，信雅達(dá)，超圖軟件，科大訊飛，博彥科技，信雅達(dá)，海量數(shù)據(jù)，漢得信息，超圖軟件，博彥科技，中科軟，拓爾思，東軟集團(tuán)，格爾軟件，寶信軟件，浪潮軟件聚類結(jié)果如下：6.3.3聚類分析聚類均值結(jié)果如下：

指標(biāo)

聚類-1（均值）聚類-2（均值）成長能力主營業(yè)務(wù)收入增長率(%)

11.714.6凈利潤增長率(%)

12.65.1凈資產(chǎn)增長率(%)

18.313.7總資產(chǎn)增長率(%)

16.812.4營運(yùn)能力應(yīng)收賬款周轉(zhuǎn)率(次)

6.53.9總資產(chǎn)周轉(zhuǎn)率(次)

0.40.7流動資產(chǎn)周轉(zhuǎn)率(次)

0.60.9股東權(quán)益周轉(zhuǎn)率(次)

0.61.0償債能力流動比率(%)

5.92.2資產(chǎn)負(fù)債率(%)

15.635.6負(fù)債與所有者權(quán)益比率(%)

18.661.06.3.3聚類分析聚類均值結(jié)果如下：盈利能力總資產(chǎn)利潤率(%)

17.85.0主營業(yè)務(wù)利潤率(%)

75.139.2銷售凈利率(%)

36.48.4凈資產(chǎn)收益率

21.18.2每股收益(元)

1.60.4每股資本公積金(元)

2.11.66.3.3聚類分析聚類-1包括3個樣本，占比，交大思諾，頂點(diǎn)軟件，博睿數(shù)據(jù)。聚類-2包括12個樣本，信雅達(dá)，海量數(shù)據(jù)，漢得信息，超圖軟件，博彥科技，中科軟，拓爾思，東軟集團(tuán)格爾軟件，寶信軟件，浪潮軟件，科大訊飛。從上表顯示的聚類指標(biāo)均值來看，在成長能力方面，如凈利潤增長率(%)、凈資產(chǎn)增長率、總資產(chǎn)增長率等方面，聚類-1比聚類-2好，聚類-1凈利潤增長率均值在12.6%明顯高于聚類-2的均值5.1%，聚類-1的凈資產(chǎn)增長率和總資產(chǎn)增長率也比聚類-2分別高近4.6和4.4個百分點(diǎn)；在營運(yùn)能力方面，聚類-1和聚類-2基本接近；在盈利能力，如總資產(chǎn)利潤率，主營業(yè)務(wù)利潤率，銷售凈利率，凈資產(chǎn)收益率、每股收益，聚類-1比聚類-2好。在償債能力方面，聚類-2負(fù)債與所有者權(quán)益比率(61%)比聚類-1（18.6）明顯高，聚類-2資產(chǎn)負(fù)債率35.6%也比聚類-1的資產(chǎn)負(fù)債率15.6%高20個百分點(diǎn)，說明聚類-2在負(fù)債方面的風(fēng)險(xiǎn)要明顯高于聚類-1，企業(yè)平均的償債能力比聚類-1低。因此，綜合看，聚類－１代表企業(yè)的財(cái)務(wù)質(zhì)量能力較好，聚類－２代表企業(yè)的財(cái)務(wù)質(zhì)量“一般”。6.3.3聚類分析我們繼續(xù)對指標(biāo)進(jìn)行細(xì)分聚類有如下發(fā)現(xiàn)：（1）基于成

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《數(shù)據(jù)挖掘與數(shù)據(jù)分析（財(cái)會）》聚類分析及應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

《數(shù)據(jù)挖掘與數(shù)據(jù)分析（財(cái)會）》聚類分析及應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔