《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》課件 第6、7章 聚類分析及應(yīng)用、回歸分析及應(yīng)用_第1頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》課件 第6、7章 聚類分析及應(yīng)用、回歸分析及應(yīng)用_第2頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》課件 第6、7章 聚類分析及應(yīng)用、回歸分析及應(yīng)用_第3頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》課件 第6、7章 聚類分析及應(yīng)用、回歸分析及應(yīng)用_第4頁
《數(shù)據(jù)挖掘與數(shù)據(jù)分析(財(cái)會(huì))》課件 第6、7章 聚類分析及應(yīng)用、回歸分析及應(yīng)用_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第6章聚類分析及應(yīng)用CONTENTS目錄6.1聚類概念6.2聚類方法6.3聚類應(yīng)用016.1聚類概念聚類分析(ClusterAnalysis)簡(jiǎn)稱聚類(clustering),是把一個(gè)數(shù)據(jù)對(duì)象劃分子集的過程。每個(gè)子集是一個(gè)簇,使得同一簇內(nèi)的對(duì)象具有盡可能高的同質(zhì)性(homogeneity),而與其他簇中的對(duì)象之間則應(yīng)具有盡可能高的異質(zhì)性(heterogeneity)。由聚類分析產(chǎn)生的簇的集合稱作一個(gè)聚類。6.1聚類概念聚類分析處理的數(shù)據(jù)對(duì)象集是無類別標(biāo)記的,算法需要對(duì)原始數(shù)據(jù)的特征進(jìn)行探索,進(jìn)而挖掘出一些數(shù)據(jù)對(duì)象之間的共性特點(diǎn)。6.1聚類概念與分類不同,聚類分析是在沒有給定劃分類別的情況下,根據(jù)數(shù)據(jù)相似度進(jìn)行樣本分組的一種方法。與分類模型需要使用有類標(biāo)記樣本構(gòu)成的訓(xùn)練數(shù)據(jù)不同,聚類模型可以建立在無類標(biāo)記的數(shù)據(jù)上,是一種非監(jiān)督的學(xué)習(xí)算法。6.1聚類概念(1)數(shù)據(jù)準(zhǔn)備:包括對(duì)數(shù)據(jù)特征進(jìn)行標(biāo)準(zhǔn)化、屬性降維、噪音處理;(2)特征選擇:從最初的特征集中選擇最有代表性的特征或特征組合,并將其存儲(chǔ)于向量中;(3)特征提?。和ㄟ^對(duì)所選擇的特征進(jìn)行轉(zhuǎn)換進(jìn)而形成新的特征;(4)聚類:選擇適合特征類型的某種距離函數(shù)進(jìn)行接近度或相似度的測(cè)量,而后根據(jù)距離進(jìn)行聚類或分組;(5)結(jié)果評(píng)估:對(duì)聚類結(jié)果進(jìn)行評(píng)估,評(píng)估主要有3種:外部有效性評(píng)估、內(nèi)部有效性評(píng)估和相關(guān)性測(cè)試評(píng)估。聚類通常包括如下階段:026.2聚類方法聚類是將研究對(duì)象分為相對(duì)同質(zhì)的群組或簇技術(shù),現(xiàn)有研究和文獻(xiàn)中有大量關(guān)于聚類的算法和技術(shù)。聚類的主要基礎(chǔ)算法,包括如下幾類:劃分方法(partitioningmethod)、層次方法(hierarchicalmethod)、基于密度方法(density-basedmethod)和基于網(wǎng)格方法(grid-basedmethod)。6.2聚類方法6.2.1劃分方法聚類分析中最簡(jiǎn)單、最基本的方法是劃分。給定一個(gè)具有n個(gè)對(duì)象的數(shù)據(jù)集,劃分方法(PartitionMethods)構(gòu)建數(shù)據(jù)的k個(gè)分區(qū),其中每個(gè)分區(qū)代表一個(gè)簇,并且k≤n。也就是說,劃分方法把數(shù)據(jù)劃分為K個(gè)組,使得每個(gè)組至少包含一個(gè)對(duì)象,且每個(gè)對(duì)象只能屬于一個(gè)組。目前常用的劃分方法有如下兩種:K-means算法與K-medoids算法。6.2.1劃分方法K-means算法是典型的基于距離的非層次聚類算法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。K-means聚類算法中,一般需要度量樣本之間的距離、樣本與簇之間的距離以及簇與簇之間的距離。度量樣本之間的相似性最常用的是歐幾里得距離、曼哈頓距離和閔可夫斯距離;樣本與簇之間的距離可以用樣本到簇中心的距離;簇與簇之間的距離可以用簇中心的距離。6.2.1劃分方法K-means算法:給定一個(gè)數(shù)據(jù)集和需要?jiǎng)澐值拇氐臄?shù)目k后,該算法根據(jù)某個(gè)距離函數(shù)反復(fù)把數(shù)據(jù)劃分到k個(gè)簇中,直至收斂,算法步驟如下:算法:K-means輸入:包含n個(gè)對(duì)象的數(shù)據(jù)庫,簇的數(shù)目k輸出:k個(gè)簇,使平方誤差最小步驟:(1) 任選k個(gè)對(duì)象作為初始的簇中心;(2) repeat(3) 根據(jù)與每個(gè)中心的距離,將每一對(duì)象賦給“最近”的簇(4) 重新計(jì)算每個(gè)簇的平均值(5) Until不再發(fā)生變化6.2.1劃分方法算法首先在數(shù)據(jù)集中隨機(jī)抽取的k個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的初始均值或簇中心,然后計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到每個(gè)簇中心的距離,并把每個(gè)數(shù)據(jù)點(diǎn)分配到離它最近的簇中心;一旦所有的數(shù)據(jù)點(diǎn)都被分配完成,每個(gè)聚類的簇中心按照本聚類的現(xiàn)有數(shù)據(jù)點(diǎn)重新計(jì)算;該過程不斷重復(fù),直至收斂,即滿足某個(gè)終止條件為止,最常見的終止條件是誤差平方和局部最小。6.2.1劃分方法

6.2.1劃分方法K-medoids算法:又叫K中心點(diǎn)算法,K-Medoids算法是用簇中最靠近中心點(diǎn)的一個(gè)真實(shí)數(shù)據(jù)對(duì)象來代表該簇,而K-means算法是用計(jì)算出來的簇中對(duì)象的平均值來代表該簇,算法步驟如下:算法:K-medoids輸入:包含n個(gè)數(shù)據(jù)對(duì)象的集合,簇的數(shù)目k輸出:k個(gè)簇步驟:(1)任意選取k個(gè)初始中心點(diǎn)(medoids);(2)repeat(3)按照與medoids最近的原則,將剩余點(diǎn)分配到當(dāng)前最佳的medoids所代表的類或簇中(4)在每一類或簇中,計(jì)算每個(gè)樣本點(diǎn)與其他點(diǎn)的距離之和,選取距離之和最小的點(diǎn)作為新的medoids(5)Until重復(fù)(3)(4)的過程,直到所有的中心點(diǎn)(medoids)不再發(fā)生變化,或已達(dá)到設(shè)定的最大迭代次數(shù)

6.2.1劃分方法新聞文本聚類首先,新聞文本聚類可以發(fā)現(xiàn)與某文檔相似的一批文檔,幫助知識(shí)工作者發(fā)現(xiàn)相關(guān)知識(shí);其次,文檔聚類可以將一類文檔聚類成若干個(gè)類,提供一種組織文檔集合的方法;再次,文檔聚類還可以生成分類器以對(duì)文檔進(jìn)行分類。聚類分析以相似性為基礎(chǔ),在一個(gè)聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。6.2.2層次方法層次聚類是一種很直觀的算法,通俗理解就是要一層一層地進(jìn)行聚類,可以從下而上地把小的簇合并聚集,也可以從上而下地將大的簇進(jìn)行分裂,即包括凝聚型和分裂型層次聚類算法(agglomerative和divisive)。(1)凝聚層次聚類:又叫自底向上方法,其策略是首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并相鄰近的簇為越來越大的簇,直到所有的對(duì)象都在一個(gè)簇中,或者某個(gè)終結(jié)條件被達(dá)到要求。(2)分裂層次聚類:又叫自頂向下方法,其策略與凝聚的層次聚類有些不一樣,它首先將所有對(duì)象放在一個(gè)簇中,然后慢慢地細(xì)分為越來越小的簇,直到每個(gè)對(duì)象自行形成一簇,或者直達(dá)滿足其他的一個(gè)終結(jié)條件,例如滿足了某個(gè)期望的簇?cái)?shù)目,又或者兩個(gè)最近的簇之間的距離達(dá)到了某一個(gè)閾值。6.2.2層次方法凝聚型層次聚類步驟(1)將每個(gè)對(duì)象看作一個(gè)類,計(jì)算兩兩之間的最小距離;(2)repeat(3)將距離最小的兩個(gè)類合并成一個(gè)新類(4)重新計(jì)算新類與所有類之間的距離(5)Until重復(fù)(3)(4)的過程,重復(fù)(2)、(3),直到所有類最后合并成一類

6.2.2層次方法凝聚型層次聚類6.2.2層次方法如何判斷兩個(gè)簇(cluster)之間的距離呢?1.最小距離,單鏈接SingleLinkage兩個(gè)簇的最近樣本決定。2.最大距離,全鏈接CompleteLinkage兩個(gè)簇的最遠(yuǎn)樣本決定。3.平均距離,均鏈接AverageLinkage兩個(gè)簇所有樣本共同決定。方法1和2都容易受極端值的影響,而方法3計(jì)算量比較大。6.2.3密度方法層次聚類算法和劃分式聚類算只能發(fā)現(xiàn)凸形的聚類簇,為了彌補(bǔ)這一缺陷,發(fā)現(xiàn)各種任意形狀的聚類簇,開發(fā)出基于密度的聚類算法(Density-BasedMethods)。這類算法認(rèn)為,在整個(gè)樣本空間點(diǎn)中,各目標(biāo)類簇是由一群的稠密樣本點(diǎn)組成的,而這些稠密樣本點(diǎn)被低密度區(qū)域(噪聲)分割,而算法的目的就是要過濾低密度區(qū)域,發(fā)現(xiàn)稠密樣本點(diǎn)。6.2.3密度方法算法原理:只要鄰近區(qū)域里的密度(對(duì)象的數(shù)量)超過了某個(gè)閾值,就繼續(xù)聚類。也即,給定某個(gè)簇中的每個(gè)數(shù)據(jù)點(diǎn)(數(shù)據(jù)對(duì)象),在一定范圍內(nèi)必須包含一定數(shù)量的其他對(duì)象。該算法從數(shù)據(jù)對(duì)象的分布密度出發(fā),把密度足夠大的區(qū)域連接在一起,因此可以發(fā)現(xiàn)任意形狀的類?;诿芏鹊姆椒ㄖ腥N代表性的算法包括:DBSCANOPTICSDENCLUE6.2.4網(wǎng)格方法STING(StatisticalInformationGrid)算法針對(duì)空間數(shù)據(jù)挖掘的算法,采用多分辨率的方式進(jìn)行聚類,聚類的質(zhì)量取決于最底層的粒度。WaveCluster是一個(gè)多分辨率的聚類方法,通過小波變換來轉(zhuǎn)換原始的特征空間。其主要思想是,首先量化特征空間,把數(shù)據(jù)映射到一個(gè)多維網(wǎng)格中,然后對(duì)網(wǎng)格單元進(jìn)行小波變換,通過搜索連通分支得到聚類?;诰W(wǎng)格的聚類(grid-basedclustering)將對(duì)象空間量化為有限數(shù)目的單元,形成網(wǎng)格結(jié)構(gòu),每個(gè)單元中存儲(chǔ)對(duì)象的統(tǒng)計(jì)參數(shù),然后在這個(gè)量化空間(網(wǎng)格結(jié)構(gòu))上進(jìn)行所有的聚類操作?;诰W(wǎng)格方法的典型算法有STING算法、WaveCluster算法:6.2.5聚類評(píng)估聚類評(píng)估就是對(duì)在數(shù)據(jù)集上進(jìn)行聚類的可行性和聚類結(jié)果的質(zhì)量的評(píng)價(jià),主要包括如下任務(wù):估計(jì)聚類趨勢(shì)。確定數(shù)據(jù)集的簇?cái)?shù)。評(píng)估聚類分析結(jié)果的質(zhì)量。036.3聚類應(yīng)用6.3聚類應(yīng)用背景:長期以來,中國的軟件業(yè)的核心技術(shù)依賴國際巨頭,隨著國際環(huán)境的變化,越來越多的企業(yè)基于供應(yīng)鏈安全的需求,開始使用國產(chǎn)軟件,由此帶來了國產(chǎn)軟件行業(yè)的快速發(fā)展。隨著我國經(jīng)濟(jì)社會(huì)發(fā)展到新的階段,軟件對(duì)經(jīng)濟(jì)高質(zhì)量發(fā)展、推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展、促進(jìn)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)日益發(fā)揮重要作用,因此對(duì)我國軟件行業(yè)上市公司的績(jī)效進(jìn)行評(píng)價(jià)十分必要。6.3.1財(cái)務(wù)質(zhì)量分析將按照上市公司軟件財(cái)務(wù)實(shí)際運(yùn)行過程,從四個(gè)方面對(duì)企業(yè)財(cái)務(wù)質(zhì)量進(jìn)行分析,具體如下圖所示:企業(yè)財(cái)務(wù)質(zhì)量評(píng)價(jià)1.償債能力2.營運(yùn)能力3.盈利能力4.成長能力圖4-5企業(yè)財(cái)務(wù)質(zhì)量評(píng)價(jià)框架6.3.2數(shù)據(jù)處理1.數(shù)據(jù)選取根據(jù)樣本數(shù)據(jù)的可操作性、全面性、可比性、客觀性原則,本文選取了A股上市公司中軟件和信息技術(shù)服務(wù)業(yè)的15家公司作為研究對(duì)象,基于成長能力、營運(yùn)能力、償債能力和盈利能力四個(gè)方面,共選取17個(gè)反映企業(yè)財(cái)務(wù)綜合狀況的指標(biāo)進(jìn)行分析。6.3.2數(shù)據(jù)處理1.數(shù)據(jù)選取根據(jù)樣本數(shù)據(jù)的可操作性、全面性、可比性、客觀性原則,本文選取了A股上市公司中軟件和信息技術(shù)服務(wù)業(yè)的15家公司作為研究對(duì)象,基于成長能力、營運(yùn)能力、償債能力和盈利能力四個(gè)方面,共選取17個(gè)反映企業(yè)財(cái)務(wù)綜合狀況的指標(biāo)進(jìn)行分析。6.3.2數(shù)據(jù)處理2.數(shù)據(jù)預(yù)處理針對(duì)本研究所選的數(shù)據(jù)特點(diǎn),主要處理空缺值。對(duì)于空缺值,使用數(shù)據(jù)屬性的均值填充的方法,將同屬性數(shù)據(jù)的平均值填補(bǔ)空缺值。6.3.2數(shù)據(jù)處理3.數(shù)據(jù)轉(zhuǎn)換

6.3.3聚類分析對(duì)已經(jīng)標(biāo)準(zhǔn)化的數(shù)據(jù),我們采用K-Means聚類算法,對(duì)所有指標(biāo),設(shè)定聚類個(gè)數(shù)K為2,最大迭代次數(shù)為100次,分類輸出結(jié)果如下圖所示

:6.3.3聚類分析上述分析所用Python聚類核心代碼如下:fornuminrange(2,9):#迭代2到9之間的數(shù)字

#調(diào)用KMeans方法,聚類數(shù)為num個(gè),fit()之后開始聚類kmeans=KMeans(n_clusters=num).fit(all_points)pred=kmeans.fit_predict(all_points)#計(jì)算calinski_harabasz_score值

print(num,",",metrics.calinski_harabasz_score(all_points,pred))

print("cluster".join(str(i)foriinkmeans.labels_))

forjlcenginrange(2,9):#調(diào)用AgglomerativeClustering層次聚類方法,聚類數(shù)為jlceng個(gè)clst=cluster.AgglomerativeClustering(jlceng)pred1=clst.fit_predict(all_points)#計(jì)算calinski_harabasz_score值

print(jlceng,",",metrics.calinski_harabasz_score(all_points,pred1))print(",".join(str(i)foriinclst.labels_))6.3.3聚類分析在進(jìn)行聚類時(shí),我們用Python的calinski_harabaz_score方法評(píng)價(jià)聚類效果的好壞,該指標(biāo)表示類間距除以類內(nèi)距,因此這個(gè)值越大越好。我們采用計(jì)算不同聚類個(gè)數(shù)k值下的calinski_harabaz_score統(tǒng)計(jì)值來確定最優(yōu)的K,如下圖,我們可以明顯的看到選擇K=2是最合理的,所以在接下來的聚類中我們選擇K=2聚為兩類。6.3.3聚類分析

簇1簇2樣本個(gè)數(shù)312占比(%)2080公司樣本交大思諾,頂點(diǎn)軟件,博睿數(shù)據(jù)

海量數(shù)據(jù),信雅達(dá),超圖軟件,科大訊飛,博彥科技,信雅達(dá),海量數(shù)據(jù),漢得信息,超圖軟件,博彥科技,中科軟,拓爾思,東軟集團(tuán),格爾軟件,寶信軟件,浪潮軟件聚類結(jié)果如下:6.3.3聚類分析聚類均值結(jié)果如下:

指標(biāo)

聚類-1(均值)聚類-2(均值)成長能力主營業(yè)務(wù)收入增長率(%)

11.714.6凈利潤增長率(%)

12.65.1凈資產(chǎn)增長率(%)

18.313.7總資產(chǎn)增長率(%)

16.812.4營運(yùn)能力應(yīng)收賬款周轉(zhuǎn)率(次)

6.53.9總資產(chǎn)周轉(zhuǎn)率(次)

0.40.7流動(dòng)資產(chǎn)周轉(zhuǎn)率(次)

0.60.9股東權(quán)益周轉(zhuǎn)率(次)

0.61.0償債能力流動(dòng)比率(%)

5.92.2資產(chǎn)負(fù)債率(%)

15.635.6負(fù)債與所有者權(quán)益比率(%)

18.661.06.3.3聚類分析聚類均值結(jié)果如下:盈利能力總資產(chǎn)利潤率(%)

17.85.0主營業(yè)務(wù)利潤率(%)

75.139.2銷售凈利率(%)

36.48.4凈資產(chǎn)收益率

21.18.2每股收益(元)

1.60.4每股資本公積金(元)

2.11.66.3.3聚類分析聚類-1包括3個(gè)樣本,占比,交大思諾,頂點(diǎn)軟件,博睿數(shù)據(jù)。聚類-2包括12個(gè)樣本,信雅達(dá),海量數(shù)據(jù),漢得信息,超圖軟件,博彥科技,中科軟,拓爾思,東軟集團(tuán)格爾軟件,寶信軟件,浪潮軟件,科大訊飛。從上表顯示的聚類指標(biāo)均值來看,在成長能力方面,如凈利潤增長率(%)、凈資產(chǎn)增長率、總資產(chǎn)增長率等方面,聚類-1比聚類-2好,聚類-1凈利潤增長率均值在12.6%明顯高于聚類-2的均值5.1%,聚類-1的凈資產(chǎn)增長率和總資產(chǎn)增長率也比聚類-2分別高近4.6和4.4個(gè)百分點(diǎn);在營運(yùn)能力方面,聚類-1和聚類-2基本接近;在盈利能力,如總資產(chǎn)利潤率,主營業(yè)務(wù)利潤率,銷售凈利率,凈資產(chǎn)收益率、每股收益,聚類-1比聚類-2好。在償債能力方面,聚類-2負(fù)債與所有者權(quán)益比率(61%)比聚類-1(18.6)明顯高,聚類-2資產(chǎn)負(fù)債率35.6%也比聚類-1的資產(chǎn)負(fù)債率15.6%高20個(gè)百分點(diǎn),說明聚類-2在負(fù)債方面的風(fēng)險(xiǎn)要明顯高于聚類-1,企業(yè)平均的償債能力比聚類-1低。因此,綜合看,聚類-1代表企業(yè)的財(cái)務(wù)質(zhì)量能力較好,聚類-2代表企業(yè)的財(cái)務(wù)質(zhì)量“一般”。6.3.3聚類分析我們繼續(xù)對(duì)指標(biāo)進(jìn)行細(xì)分聚類有如下發(fā)現(xiàn):(1)基于成長能力指標(biāo)進(jìn)行聚類,從聚類的結(jié)果看,當(dāng)K等于2時(shí),calinski_harabaz_score值為7.17最大,聚類1包括信雅達(dá)、海量數(shù)據(jù)、漢得信息、浪潮軟件、東軟集團(tuán)、頂點(diǎn)軟件;聚類2包括超圖軟件、博彥科技、中科軟、拓爾思、交大思諾、格爾軟件、博睿數(shù)據(jù)、寶信軟件、科大訊飛;(2)基于營運(yùn)能力指標(biāo)進(jìn)行聚類,從聚類的結(jié)果看,當(dāng)K等于3時(shí),calinski_harabaz_score值為8.4最大,聚類1包括信雅達(dá)、頂點(diǎn)軟件;聚類2包括博彥科技、中科軟;聚類3包括超圖軟件、拓爾思、交大思諾、格爾軟件、博睿數(shù)據(jù)、寶信軟件、科大訊飛;6.3.3聚類分析我們繼續(xù)對(duì)指標(biāo)進(jìn)行細(xì)分聚類有如下發(fā)現(xiàn):(3)基于償債能力指標(biāo)進(jìn)行聚類從聚類的結(jié)果看,當(dāng)K等于3時(shí),calinski_harabaz_score值為34最大,聚類1包括海量數(shù)據(jù)、中科軟;聚類2包括博睿數(shù)據(jù)、頂點(diǎn)軟件、交大思諾;聚類3包括漢得信息、超圖軟件、博彥科技、拓爾思、東軟集團(tuán)、格爾軟件、寶信軟件、浪潮軟件、科大訊飛;(4)基于盈利能力指標(biāo)進(jìn)行聚類從聚類的結(jié)果看,當(dāng)K等于2時(shí),calinski_harabaz_score值為14.9最大,聚類1包括交大思諾、頂點(diǎn)軟件、博睿數(shù)據(jù);聚類2包括信雅達(dá)、海量數(shù)據(jù)、漢得信息、超圖軟件、博彥科技、中科軟、拓爾思、東軟集團(tuán)、格爾軟件、寶信軟件、浪潮軟件、科大訊飛;在聚類2中,超圖軟件,科大訊飛,博彥科技,中科軟,拓爾思,寶信軟件等公司基本都是業(yè)內(nèi)盈利能力強(qiáng),長期經(jīng)營并有一定核心技術(shù)競(jìng)爭(zhēng)力的企業(yè),如超圖、科大訊飛、拓爾思都有科研高校背景,產(chǎn)學(xué)研研發(fā)基礎(chǔ)比較強(qiáng)。感謝觀看第7章回歸分析及應(yīng)用CONTENTS目錄7.1回歸7.2線性回歸7.3多項(xiàng)式回歸7.4多元線性回歸7.5邏輯回歸017.1回歸什么是回歸回歸最早是由英國生物統(tǒng)計(jì)學(xué)家高爾頓和他的學(xué)生皮爾遜在研究父母和子女的身高遺傳特性時(shí)提出的用一個(gè)或多個(gè)自變量來預(yù)測(cè)因變量的數(shù)學(xué)方法預(yù)測(cè)的變量叫作因變量,比如產(chǎn)品質(zhì)量;選取用來解釋因變址變化的變量叫作自變量,比如用戶滿意度?;貧w的目的就是建立一個(gè)回歸方程來預(yù)測(cè)目標(biāo)值,整個(gè)回歸的求解過程就是求這個(gè)回歸方程的回歸系數(shù)回歸最簡(jiǎn)單的定義就是:給出一個(gè)點(diǎn)集,構(gòu)造一個(gè)函數(shù)來擬合這個(gè)點(diǎn)集,并且盡可能地讓該點(diǎn)集與擬合函數(shù)間的誤差最小7.1回歸回歸舉例7.1回歸年份/年成本/元利潤/元年份/年成本/元利潤/元20054008020135581992006450892014590203200748692201561024720085001022016640250200951012120176802592010525160201875028920115401802019900356201254918920201200?現(xiàn)建立模型,x表示企業(yè)成本,y表示企業(yè)利潤,f表示將輸人變量映射到輸出變量y的函數(shù)。f(x)=kx+b 7.1回歸現(xiàn)建立模型,x表示企業(yè)成本,y表示企業(yè)利潤,f表示將輸人變量映射到輸出變量y的函數(shù)。f(x)=kx+b 7.1回歸027.2線性回歸線性回歸是數(shù)據(jù)挖掘中的基礎(chǔ)算法之一,其核心思想是求解一組因變量和自變之間的方程,得到回歸函數(shù),同時(shí)誤差項(xiàng)通常使用最小二乘法進(jìn)行計(jì)算在本書用的SKlearn機(jī)器學(xué)習(xí)庫中將調(diào)用Linear_model子類的LinearRegression類進(jìn)行線性回歸模型計(jì)算7.2線性回歸某企業(yè)2005-2019年的成本和利潤數(shù)據(jù)集如表所示,利用線性回歸模型模擬該企業(yè)成本與利潤的線性關(guān)系,并利用模型預(yù)測(cè)2020年成本為1200元的利潤值7.2線性回歸預(yù)測(cè)2020年企業(yè)成本為1200元時(shí)利潤為575.1元,得到的線性回歸函數(shù)為y=0.624x-173.7,預(yù)測(cè)結(jié)果評(píng)分為0.9118037.3多項(xiàng)式回歸

7.3多項(xiàng)式回歸某企業(yè)2005-2019年的成本和利潤數(shù)據(jù)集如表所示,利用多項(xiàng)式回歸模擬成本與利潤的關(guān)系,預(yù)測(cè)2020年利潤,并與線性回歸結(jié)果進(jìn)行對(duì)比7.3多項(xiàng)式回歸一元線性回歸的R2值為0.9118,多項(xiàng)式回歸的R2值為0.9407,多項(xiàng)式回歸的擬合效果更好047.4多元線性回歸

7.4多元線性回歸某銷售公司為了查找某產(chǎn)品的銷售額與電視廣告投入、收音機(jī)廣告投入、報(bào)紙廣告投入之間的關(guān)系,提供了過往歷史數(shù)據(jù)請(qǐng)求進(jìn)行分析7.4多元線性回歸TVradionewspapersales230.137.869.222.144.539.345.110.417.245.969.39.3151.541.358.518.5180.810.858.412.9對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì),以及尋找缺失值(缺失值對(duì)模型的影響較大,如發(fā)現(xiàn)缺失值應(yīng)替換或刪除),且利用箱型圖來從可視化方面來查看數(shù)據(jù)集7.4多元線性回歸TV特征和銷量是有比較強(qiáng)的線性關(guān)系的,而Radio和Sales線性關(guān)系弱一些,Newspaper和Sales線性關(guān)系更弱7.4多元線性回歸多元線性回歸模型的函數(shù)為:y=2.90+0.0449*TV+0.185*Radio+0.008*Newspaper7.4多元線性回歸在TV廣告上每多投入1個(gè)單位,對(duì)應(yīng)銷量將增加0.0449個(gè)單位;在Radio廣告上每多投入1個(gè)單位,對(duì)應(yīng)銷量將增加0.187個(gè)單位057.5邏輯回歸線性回歸或多項(xiàng)式回歸模型通常是處理因變量為連續(xù)變量的問題,如果因變量是定性變量,則線性回歸模型就不再適用,此時(shí)需采用邏輯回歸模型來解決。邏輯回歸(LogisticRegression)用于處理因變量為分類變量的回歸問題,常見的是二分類或二項(xiàng)分布問題,也可以處理多分類問題。

7.5邏輯回歸1.Logistic函數(shù)7.5邏輯回歸Logistic回歸模型中的因變量只有0和1(如“是”和“否”、“發(fā)生”和“不發(fā)生”)兩種取值。假設(shè)在p個(gè)獨(dú)立變量x_1,x_2,?,x_p的作用下,記y取1的概率是p=P(y=1|X),取0的概率是1-p,取1和取0的概率之比為p/(1-p),成為時(shí)間的優(yōu)勢(shì)比(odds),odds取自然對(duì)數(shù)即Logistic變換Logit(p)=ln?(p/(1-p))。令Logit(p)=ln?(p/(1-p))=z,則p=1/(1+e^(-z))即為Logistic函數(shù),概率p與自變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論