




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于最長(zhǎng)尺度的全國(guó)惡性腫瘤適期聚類方法研究
近20年來(lái),中國(guó)腫瘤死亡率有上升趨勢(shì),農(nóng)村地區(qū)腫瘤上升速度明顯超過城市。但因腫瘤發(fā)病率和死亡率低,潛伏期長(zhǎng),是一個(gè)漸近的過程,加上惡性腫瘤又是一類多因素、多效應(yīng)、多階段、多基因致病的疾病,從而使腫瘤的防治工作有很大的困難。因此,國(guó)家很有必要系統(tǒng)地研究和掌握惡性腫瘤在人群中的發(fā)生、發(fā)展以及死亡情況和分布規(guī)律,為制定全國(guó)腫瘤防治規(guī)劃提供信息。本研究通過對(duì)全國(guó)9種常見惡性腫瘤的地區(qū)聚類,探討建立一個(gè)系統(tǒng)、連續(xù)的惡性腫瘤檢測(cè)、監(jiān)督和評(píng)價(jià)體系,以便于對(duì)各種腫瘤進(jìn)行有效的檢測(cè)和防治工作。1數(shù)據(jù)和方法1.1全國(guó)行政編碼制度本研究資料來(lái)源于1973~1975年全國(guó)人口死亡原因回顧調(diào)查,分析資料按20世紀(jì)90年代全國(guó)行政編碼進(jìn)行了部分調(diào)整,共2237個(gè)市、縣。研究對(duì)象是在15類惡性腫瘤中位于前9位的惡性腫瘤死亡率,即胃癌、食管癌、肝癌、肺癌、宮頸癌、白血病、鼻咽癌、腸癌、乳腺癌,它們占全部惡性腫瘤總調(diào)整死亡率構(gòu)成的89.3%,是我國(guó)最多見、危害人民生命健康最嚴(yán)重的惡性腫瘤。1.2條件系統(tǒng)聚類分析方法條件系統(tǒng)聚類分析(conditionalhierarchicalclustering)是基于系統(tǒng)聚類的思想,在聚類過程中按類(樣品)與類(樣品)相聚的條件進(jìn)行聚類,不滿足條件者不得相聚。條件系統(tǒng)聚類分析方法實(shí)質(zhì)與系統(tǒng)聚類法相似,只是在聚類過程中增加了條件的約束,不同的約束條件是各種研究目的的直接體現(xiàn),通過約束可以聚成更符合實(shí)際要求的類。如何把約束條件加入到聚類過程中去呢?關(guān)鍵在于構(gòu)造條件矩陣,樣品中滿足聚類條件者,記為1,否則記為0。不同的聚類要求導(dǎo)致不同的約束條件,不同的約束條件構(gòu)造了不同的條件矩陣。1.2.1維有序樣品問題本文采用二維有序樣品的條件系統(tǒng)聚類分析方法根據(jù)9種腫瘤的調(diào)整死亡率對(duì)全國(guó)30個(gè)省、市或自治區(qū)(以下簡(jiǎn)稱為省)進(jìn)行分類,這是一個(gè)二維有序樣品的問題。二維有序樣品的約束條件是地區(qū)相鄰性,只有相鄰接的地區(qū)才能聚為一類,相隔的兩樣品開始不能聚類,但隨著聚類過程的繼續(xù),區(qū)域范圍的擴(kuò)大,原來(lái)相隔的地區(qū)聚類后也可以相鄰接。因此可以直接根據(jù)全國(guó)30個(gè)省的地區(qū)毗鄰圖構(gòu)造條件矩陣如下,樣品間距離選擇歐氏距離,得到距離矩陣。然后把條件矩陣和距離矩陣結(jié)合,把距離矩陣中滿足條件的省采用系統(tǒng)聚類法繼續(xù)分析,直至所有省都聚為一類為止。1.2.2聚類分析系數(shù)和聚類計(jì)算一帶一路條a本文針對(duì)全國(guó)9種主要惡性腫瘤的地區(qū)分類并建立監(jiān)測(cè)點(diǎn)這一特殊要求,擬定判斷準(zhǔn)則。準(zhǔn)則a:一種較好的聚類方法,可以使類內(nèi)差異較小,而類間差異較大。準(zhǔn)則b:在聚類結(jié)果中,各類包含的元素既不過分多,也不過分少(每一類至少有兩個(gè)省)。準(zhǔn)則c:聚類結(jié)果應(yīng)該滿足實(shí)際要求和符合實(shí)際需要。根據(jù)準(zhǔn)則a提出一個(gè)判斷函數(shù)SS內(nèi)/SS總,其中SS總是所有樣品的離差平方和;SS內(nèi)是各類內(nèi)離差平方和之和。隨分類數(shù)的增加,SS內(nèi)/SS總越來(lái)越小,當(dāng)全部樣品各自成一類時(shí),比值等于0,當(dāng)全部樣品聚在一類時(shí),比值=1。2ss內(nèi)/ss總的變化本文就采用這組準(zhǔn)則對(duì)最短距離法、最長(zhǎng)距離法、類平均法、離差平方和法、重心法和中間距離法這6種類間距離定義方法進(jìn)行選擇。綜合考慮準(zhǔn)則b和c,在滿足b和c的條件下,尋找SS內(nèi)/SS總較小的聚類方法和聚類結(jié)果。2.16種方法的SS內(nèi)/SS總首先,用每一種方法對(duì)資料進(jìn)行聚類,記錄每種方法分成兩類、3類……30類的分類結(jié)果。由于數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化,而且指標(biāo)間的相關(guān)性較小,因此可以用九個(gè)指標(biāo)的均數(shù)來(lái)計(jì)算SS內(nèi)/SS總。根據(jù)聚類分析的基本思想,SS內(nèi)/SS總越小,說明這種聚類結(jié)果的類內(nèi)同質(zhì)性越好。所有樣品聚為一類時(shí),比值均等于1,隨著分類個(gè)數(shù)的增加,比值逐漸減小,所有樣品各自成一類時(shí),比值等于0。為直觀起見,分別以每種方法的SS內(nèi)/SS總為縱軸,以類別數(shù)為橫軸,作線圖。從2~15類時(shí),各法的SS內(nèi)/SS總差距較大,故類別數(shù)取1~15作圖如下。由圖2可見,在分成9類之前,最短距離法的SS內(nèi)/SS總下降最慢,從分成兩類到分成八類,SS內(nèi)/SS總一直平穩(wěn)下降,且它的SS內(nèi)/SS總也是最大的,不能滿足準(zhǔn)則a。在分成兩類時(shí),最短距離法就把上海單獨(dú)列為一類,也不能滿足準(zhǔn)則b和c,因此首先被排除。最長(zhǎng)距離法和中間距離法,由于開始時(shí)的SS內(nèi)/SS總比值相同,所畫圖形一樣。最長(zhǎng)距離法在分成3類時(shí),SS內(nèi)/SS總有較明顯的下降,到分成3類時(shí),下降到較低位置,分成7類時(shí),各類內(nèi)的樣品數(shù)比較均勻,分成8類時(shí),最長(zhǎng)距離法把上海單獨(dú)列為一類,見圖2、圖3。中間距離法從分成兩類到分成5類時(shí),SS內(nèi)/SS總一直較平穩(wěn),分成6類時(shí),SS內(nèi)/SS總有顯著的降低,以后就較平緩。但分成5類時(shí),就出現(xiàn)單個(gè)樣品的類,見圖4。離差平方和法一開始下降較快,到分成5類時(shí),SS內(nèi)/SS總已降至較低水平,以后一直平緩下降;但分成5類時(shí),第3類有15個(gè)地區(qū),分成6類時(shí),仍有一類有9個(gè)樣品,在分成7類時(shí),單獨(dú)把上海分為一類,不能滿足聚類準(zhǔn)則b和c,見圖5。類平均法和重心法一開始也是因?yàn)镾S內(nèi)/SS總相同,故圖形一致。類平均法從分成4類開始,SS內(nèi)/SS總下降較快。重心法則從分成五類時(shí),SS內(nèi)/SS總有所下降,但一直較慢。這兩種方法在分成兩類時(shí),就把上海單獨(dú)列出,不能滿足準(zhǔn)則b和c,見圖6、7。本文的聚類目的是為了得到分成5到9類的聚類結(jié)果。按照準(zhǔn)則a,類平均法和中間距離法在分成9類時(shí),SS內(nèi)/SS總均較低,但考察從聚類譜系圖中可見,這兩種方法分成九類時(shí),均有兩類中只有一個(gè)地區(qū)。究其SS內(nèi)/SS總最小的原因,是因?yàn)橹虚g距離法和類平均法在計(jì)算類內(nèi)離均差平方和時(shí),去除了一個(gè)元素的SS內(nèi),從而使得整個(gè)SS內(nèi)較小,因此它們不能滿足準(zhǔn)則b和c??傊?最長(zhǎng)距離法分成7類時(shí)的地區(qū)分布較均勻,因此根據(jù)擬定的聚類準(zhǔn)則a和b應(yīng)該選擇最長(zhǎng)距離法的聚類結(jié)果,但其中有一類中有6個(gè)省,從內(nèi)蒙一直延伸到湖南,不能滿足準(zhǔn)則c故把這一類單獨(dú)列出,采用最長(zhǎng)距離法分為兩類:第1類:湖南、江西第2類:湖北、內(nèi)蒙、陜西、山西2.2聚類結(jié)果及各類特征的描述把8類結(jié)果按照惡性腫瘤總死亡率由小到大進(jìn)行排列如下:(括號(hào)內(nèi)是每一地區(qū)的9種腫瘤死亡率之和)第1類:云南(22.96)、貴州(23.06)、四川(44.16)、西藏(62.05)第2類:海南(34.14)、廣西(35.49)、廣東(43.06)第3類:湖南(43.07)、江西(45.25)第4類:黑龍江(50.41)、遼寧(57.58)、吉林(61.78)第5類:湖北(55.13)、內(nèi)蒙(63.89)、陜西(66.61)、山西(75.87)第6類:北京(44.79)、天津(47.35)、山東(52.17)、河北(64.92)、安徽(66.10)、河南(77.58)第7類:甘肅(62.91)、新疆(71.90)、青海(81.30)、寧夏(85.66)第8類:福建(72.00)、浙江(73.51)、上海(79.06)、江蘇(95.20)雖然可以從上述各類中看出8個(gè)區(qū)域的惡性腫瘤死亡率由低到高的趨勢(shì)。但惡性腫瘤的發(fā)生、發(fā)展是多因素綜合的結(jié)果,在不同區(qū)域里,不同惡性腫瘤的死亡率也有所不同。第1類是云、貴、川、藏,各種腫瘤的死亡率均較低,其中以肺癌、肝癌、和白血病的死亡率更低些;第2類是廣東、廣西及海南,是鼻咽癌的高發(fā)地區(qū),而食管癌、腸癌及宮頸癌的死亡率則較低;第3類是江西和湖南,以胃癌和食管癌死亡率較低,第4類是東北三省,以肺癌和乳腺癌的死亡率為高,而食管癌的死亡率則較低;第5類是湖北、內(nèi)蒙、山西和陜西,以宮頸癌的死亡率較高,肝癌的死亡率則相對(duì)低一些;第6類是北京、天津、山東、安徽、河北、河南,以食管癌的死亡率較高,而鼻咽癌和肝癌相對(duì)低一些;第7類是甘肅、寧夏、青海、新疆,是胃癌的高發(fā)區(qū),乳腺癌死亡率較低;第8類是沿海的上海、福建、浙江、江蘇,各種腫瘤的死亡率均較高,其中又以肝癌、白血病和腸癌更高些。2.3聚類地圖用SAS/GRAPH軟件把最長(zhǎng)距離法分成7類時(shí)的聚類結(jié)果作成聚類地圖,以清楚直觀地觀察結(jié)果,見圖8。4.4監(jiān)測(cè)點(diǎn)的設(shè)定按照研究目的,在獲得合適的聚類結(jié)果后,應(yīng)該在每個(gè)類內(nèi)設(shè)置一個(gè)監(jiān)測(cè)點(diǎn)。從物理的觀點(diǎn)來(lái)看,一個(gè)類用它的重心作代表比較合適,因此首先列出這7類的重心向量(9種腫瘤死亡率的均向量),并計(jì)算每個(gè)省和均向量之間的歐氏距離,選擇距離最近的省、市或自治區(qū)為監(jiān)測(cè)點(diǎn):2.3重心向量監(jiān)測(cè)點(diǎn)的選擇見表1。3討論5.1標(biāo)準(zhǔn)化聚類分析的必要性在實(shí)際問題中,不同的變量一般其量綱不同。為了使不同量綱的變量也能放在一起比較,通常需要對(duì)數(shù)據(jù)作標(biāo)準(zhǔn)化。通過標(biāo)準(zhǔn)化,可以使樣品間的關(guān)系獨(dú)立于變量量綱的影響,可以根據(jù)研究需要突出某一個(gè)或某些變量,或者降低某些數(shù)量級(jí)特大的變量的影響。如果不作標(biāo)準(zhǔn)化,聚類結(jié)果就會(huì)趨向于數(shù)值較大的指標(biāo),特別是以歐氏距離作為聚類統(tǒng)計(jì)量時(shí)。因此,在進(jìn)行多指標(biāo)的聚類分析時(shí),必須對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化。對(duì)單個(gè)指標(biāo)的聚類,是否標(biāo)準(zhǔn)化并不影響聚類的結(jié)果。5.2正態(tài)化變換分級(jí)法在一般的多元統(tǒng)計(jì)分析中,要求資料的正態(tài)性,故需對(duì)偏態(tài)資料作正態(tài)化變換。對(duì)發(fā)病率/死亡率的資料,陸守曾曾用變換x=(sin?1p√)1/ax=(sin-1p)1/a,可使資料達(dá)到正態(tài)化。其目的一方面使原始數(shù)據(jù)間的差異減小,從而限制大數(shù)的影響,資料更趨穩(wěn)定,另一方面是可以用正態(tài)分布下的離均法進(jìn)行分級(jí)。正態(tài)化變換是非線性的,它可以削弱大數(shù)值的影響,提升小數(shù)值的作用,或反之。但是,本研究是根據(jù)9種主要惡性腫瘤死亡率,把全國(guó)分成幾個(gè)大區(qū)域,以達(dá)到對(duì)惡性腫瘤的經(jīng)濟(jì)、有效的長(zhǎng)期監(jiān)測(cè)和管理的目的。監(jiān)測(cè)結(jié)果既要反映總平均水平,又要反映各種腫瘤的地區(qū)聚集性。在不同區(qū)域中,各種惡性腫瘤進(jìn)行監(jiān)測(cè)的側(cè)重點(diǎn)又有所不同,因此,根據(jù)本資料研究目的,沒有進(jìn)行正態(tài)化變換,而直接用原始數(shù)據(jù)進(jìn)行分析,以便客觀真實(shí)地反映全國(guó)各地區(qū)主要惡性腫瘤的發(fā)病/死亡情況。5.3聚類的ss穩(wěn)定性按照擬定的準(zhǔn)則a,一個(gè)效果較好的聚類結(jié)果,應(yīng)該使類內(nèi)差異較小,而類間差異較大。對(duì)于一組數(shù)據(jù),總的變異是一定的,類內(nèi)差異小則必然類間差異大。因此設(shè)定了一個(gè)判斷函數(shù)(SS內(nèi)/SS總)。每次聚類時(shí),只要求出分成各類時(shí)的SS內(nèi)即可。SS內(nèi)的計(jì)算理論上應(yīng)根據(jù)多元離差矩陣進(jìn)行。對(duì)本例而言,對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化之后,就可以用這個(gè)指標(biāo)和聚類結(jié)果進(jìn)行方差分析,求出每次聚類后的類內(nèi)離差平方和。這種方法比把幾個(gè)指標(biāo)都放在一起進(jìn)行考慮協(xié)方差的多因素方差分析要簡(jiǎn)單得多。因指標(biāo)間相關(guān)程度均較低,基于多元離差矩陣計(jì)算所得結(jié)果與現(xiàn)有方法所得結(jié)果基本一致,現(xiàn)有方法計(jì)算過程非常簡(jiǎn)單,故建議用現(xiàn)有方法計(jì)算SS內(nèi)。5.4聚類分析準(zhǔn)則類型的選擇本文利用9種主要惡性腫瘤的死亡率對(duì)全國(guó)30個(gè)省進(jìn)行聚類分析,其目的是希望得到一個(gè)分類合理、均勻的聚類結(jié)果,從總體上反映出我國(guó)主要惡性腫瘤的發(fā)病/死亡情況的層次性,并體現(xiàn)出不同類型的腫瘤地區(qū)分布的差異性。針對(duì)該研究目的,我們選擇二維有序樣品的條件系統(tǒng)聚類法。這種方法由于加入了條件約束,使得聚類結(jié)果與一般的系統(tǒng)聚類法的聚類結(jié)果明顯不同。它把地區(qū)分為幾個(gè)大區(qū)域,對(duì)局部特殊點(diǎn)也有較好的鑒別。正因?yàn)槿绱?使得條件系統(tǒng)聚類法和一般的系統(tǒng)聚類法比較起來(lái),較易出現(xiàn)單個(gè)樣品的類。這對(duì)于希望發(fā)現(xiàn)某一區(qū)域中的特殊地區(qū)非常有利;但是,對(duì)于想得到分類個(gè)數(shù)比較均勻的聚類結(jié)果而言,卻是相背離的。因此,制定了一組判斷準(zhǔn)則,希望通過選擇適當(dāng)?shù)念愰g距離定義方法來(lái)彌補(bǔ)這一缺陷。準(zhǔn)則a是從聚類分析的實(shí)質(zhì)出發(fā),認(rèn)為一種較好的聚類方法,應(yīng)該使類間差異盡可能大,類內(nèi)差異盡可能小。按照這個(gè)準(zhǔn)則選擇的聚類結(jié)果應(yīng)該是較好的。但是,一個(gè)有多個(gè)單個(gè)樣品的類的聚類結(jié)果,類內(nèi)差異必然很小。因此僅用準(zhǔn)則a,還不能得出滿足要求的聚類結(jié)果。因此,又加入了準(zhǔn)則b和準(zhǔn)則c,準(zhǔn)則b是針對(duì)二維有序樣品的條件系統(tǒng)聚類法的缺陷而設(shè)置的,它要求每一類至少有兩個(gè)樣品。準(zhǔn)則c也是根據(jù)研究目的所設(shè),它要求聚類結(jié)果應(yīng)該滿足實(shí)際需要。把這三個(gè)準(zhǔn)則結(jié)合起來(lái),就可以判斷不同聚類方法的聚類結(jié)果了。雖然在聚類過程中加入了條件的約束,但是幾種系統(tǒng)聚類法的聚類性質(zhì)并未發(fā)生
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 勞動(dòng)合同簡(jiǎn)易
- 路燈買賣合同協(xié)議書
- 教育培訓(xùn)機(jī)構(gòu)場(chǎng)地租賃合同
- 地下室出租協(xié)議書
- 施工工程承包合同
- 企業(yè)運(yùn)輸合同個(gè)人運(yùn)輸合同
- 經(jīng)銷商銷售合同協(xié)議
- 鐵路貨物的運(yùn)輸合同
- 出口商品買賣合同
- 裝修水電承包合同協(xié)議書
- 2024-2025學(xué)年第二學(xué)期開學(xué)典禮-開學(xué)典禮校長(zhǎng)致辭
- 生物(A版)-安徽省合肥一中(省十聯(lián)考)2024-2025學(xué)年度高二年級(jí)上學(xué)期期末測(cè)試試題和答案
- 蘇教版四年級(jí)數(shù)學(xué)下冊(cè)第三單元第二課時(shí)《常見的數(shù)量關(guān)系》課件
- 2025年中考物理總復(fù)習(xí)《壓強(qiáng)》專項(xiàng)測(cè)試卷含答案
- 《智能傳感器技術(shù)》課件
- SaaS服務(wù)具體應(yīng)用合同范本2024版版
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期1月期末 政治試題(含答案)
- 2025-2030年中國(guó)旅居康養(yǎng)行業(yè)全國(guó)市場(chǎng)開拓戰(zhàn)略制定與實(shí)施研究報(bào)告
- 知識(shí)產(chǎn)權(quán)培訓(xùn)內(nèi)容課件
- 食品檢驗(yàn)員聘用合同樣本
- 2025年幼兒園年度工作總結(jié)及工作計(jì)劃
評(píng)論
0/150
提交評(píng)論