版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第6章政務(wù)信息資源分類6.1政務(wù)信息資源分類概述6.1.1分類簡(jiǎn)述類,是具有共同屬性或特征的事物、對(duì)象或概念的集合;分類,是按對(duì)象的特征屬性進(jìn)行區(qū)分,將具有某種共同屬性或特征的分類對(duì)象劃分在一起、或彼此區(qū)別的過程?!洞笥倏迫珪氛J(rèn)為分類的關(guān)鍵是:人類在認(rèn)識(shí)和理解世界的過程中需要解決3個(gè)問題:(1)區(qū)分對(duì)象及其屬性;(2)區(qū)分整體對(duì)象及其組成部分;(3)不同對(duì)象類的形成及區(qū)分。解決這3個(gè)命題的過程就是分類過程,其實(shí)現(xiàn)就是人類對(duì)上述3方面實(shí)踐與認(rèn)知的積累。6.1.2政務(wù)信息資源分類依據(jù)GB/T25647《電子政務(wù)術(shù)語(yǔ)》的定義,政務(wù)信息資源分類是“為了有序管理和開發(fā)利用政務(wù)信息資源,把具有某種共同屬性或特征的政務(wù)信息歸并在一起,通過其類別的屬性或特征來對(duì)政務(wù)信息進(jìn)行的歸類。”通過分類將實(shí)現(xiàn)政務(wù)信息資源的有序采集、科學(xué)管理、共享使用與交換增值等。從形態(tài)上,政務(wù)信息資源分類也是文件檔案、資料、公文、作業(yè)與服務(wù)對(duì)象等的資源組織與處理的過程,它涉及文獻(xiàn)著錄、主題標(biāo)引、特征描述、內(nèi)容編目、賦予標(biāo)識(shí)代碼等作業(yè),成果是生成相應(yīng)的政務(wù)資源目錄。6.2政務(wù)信息資源的分類原理6.2.1信息資源的基本分類原理信息資源的分類,主要考慮其分類體系架構(gòu)、分類對(duì)象描述、分類節(jié)點(diǎn)間的關(guān)聯(lián)等,由此產(chǎn)生相應(yīng)的分類原理與方法,如線分類、面分類、混合分類、復(fù)雜分類與多重分類等。線分類法線分類又稱層次分類、樹型分類或體系分類。它將分類對(duì)象按選定的若干屬性或特征,從上而下逐次分為若干層級(jí),各層級(jí)又分為若干類目。同一分支的同層級(jí)類目之間構(gòu)成并列關(guān)系,不同層級(jí)類目之間構(gòu)成隸屬關(guān)系。面分類法選定對(duì)象的若干屬性或特征,將分類對(duì)象按每一屬性或特征集劃分成一組獨(dú)立的類目,每一類目構(gòu)成一個(gè)“面”,再按一定順序?qū)⒏鱾€(gè)“面”平行排列。使用時(shí)根據(jù)需要將有關(guān)“面”中的相應(yīng)類目按“面”的指定排列順序組配在一起,形成一個(gè)新的復(fù)合類目的分類方法。如服裝可按“性別”、“年齡”、“款式”、“布料”、“顏色”等分類,各組之間可按任何有實(shí)際意義的概念進(jìn)行組合。混合分類是線分類與面分類結(jié)合的分類方式?,F(xiàn)實(shí)世界中,許多事物或概念間既具有層次性特征,又顯示出多面并列的屬性關(guān)系。如信息系統(tǒng)中,樹型分類目錄下掛接數(shù)據(jù)表的現(xiàn)象比比皆是,就是這種混合結(jié)構(gòu)的具體體現(xiàn)。許多應(yīng)用系統(tǒng)中,人們往往采用線分類為主導(dǎo)分類,以顯示資源的體系化組織的層級(jí)脈絡(luò);又對(duì)其末端條目采用一系列特征面來描述,面越多,對(duì)象描述就越豐富與細(xì)致。復(fù)雜分類面分類中“對(duì)象-屬性”為二維關(guān)系,可用表格描述;線分類中“層級(jí)-對(duì)象”也可用表格描述;二者混合后的“層級(jí)-對(duì)象-屬性”關(guān)系,也能用關(guān)系型數(shù)據(jù)數(shù)據(jù)庫(kù)來定義。但現(xiàn)實(shí)中有許多對(duì)象間呈現(xiàn)復(fù)雜的網(wǎng)狀關(guān)聯(lián),一些不同來源的信息資源在融合時(shí)也呈現(xiàn)多維的樹-網(wǎng)復(fù)合型關(guān)聯(lián),節(jié)點(diǎn)間層級(jí)關(guān)系不清,上下位屬彼此糾纏,不能用簡(jiǎn)單的關(guān)系規(guī)則與剛性路徑來定義。多重分類對(duì)象可按不同的屬性、特征、應(yīng)用等劃分不同的分類體系。同一對(duì)象可能在一個(gè)系統(tǒng)中被多重分類,如“太陽(yáng)能”可能出現(xiàn)在能源類中,又可能在環(huán)保類下,還可能在高新技術(shù)類中。同一對(duì)象在不同系統(tǒng)中會(huì)有不同分類與代碼標(biāo)識(shí)。上述幾種分類模式構(gòu)成了政務(wù)信息資源分類的多種性和復(fù)雜性,它是客觀世界多重性和復(fù)雜性在信息領(lǐng)域的反映。在政務(wù)資源領(lǐng)域中,線分類法能反映某個(gè)領(lǐng)域的知識(shí)輪廓、層級(jí)架構(gòu)與總體容量,各節(jié)點(diǎn)概念在分類體系中有穩(wěn)定的位置和次序,適于作資源架構(gòu)的總體描述。面分類適于對(duì)末端條目的屬性進(jìn)行描述,描述面越多,對(duì)象特征呈現(xiàn)就越詳細(xì)。而在多系統(tǒng)融合、跨領(lǐng)域交互的綜合系統(tǒng)中,信息資源分類就可能呈現(xiàn)網(wǎng)狀嵌套的復(fù)雜結(jié)構(gòu)。6.2.2政務(wù)信息資源的分類原則電子政務(wù)具有跨部門、跨區(qū)域、跨行業(yè)等特點(diǎn),其信息資源分類應(yīng)遵循如下原則。科學(xué)性系統(tǒng)性兼容性規(guī)范性可擴(kuò)展性實(shí)用性6.3政務(wù)信息分類系統(tǒng)6.3.1政務(wù)信息分類技術(shù)架構(gòu)
政務(wù)系統(tǒng)中,信息資源分類是相對(duì)獨(dú)立的子系統(tǒng),其技術(shù)架構(gòu)與功能如圖6-1所示。圖6-1從內(nèi)容、特征與外表外表特征等角度提供了政務(wù)信息資源的4重分類,“資源形態(tài)分類”從外表特征或載體來區(qū)分其形式,是唯一與內(nèi)容無關(guān)的分類;而主題分類、行業(yè)分類和服務(wù)分類均與內(nèi)容相關(guān)。其中,主題分類是基礎(chǔ),它從對(duì)象最客觀、穩(wěn)定、與應(yīng)用無關(guān)的本質(zhì)屬性出發(fā)對(duì)資源進(jìn)行分類,當(dāng)其他分類不便或不詳時(shí),當(dāng)以主題分類為依據(jù)。圖6-1也表明了它對(duì)行業(yè)分類與服務(wù)分類的支持。行業(yè)分類是從行業(yè)角度對(duì)資源的分類,此分類便于行業(yè)應(yīng)用,但對(duì)跨行業(yè)、多領(lǐng)域的場(chǎng)合就顯不足;服務(wù)分類是對(duì)政府公共服務(wù)的劃分,便于公眾檢索,但顯得較為粗放。電子政務(wù)系統(tǒng)可根據(jù)上述4種分類,對(duì)信息資源進(jìn)行采集、注冊(cè)與歸納,產(chǎn)生相應(yīng)的分類元數(shù)據(jù)項(xiàng)。使用時(shí),機(jī)構(gòu)可根據(jù)所需服務(wù)對(duì)信息資源進(jìn)行識(shí)別、導(dǎo)航和定位;也可根據(jù)提供服務(wù)的職能部門的所屬行業(yè)或領(lǐng)域,或根據(jù)其資源主題內(nèi)容等,對(duì)政務(wù)信息資源進(jìn)行識(shí)別、導(dǎo)航與定位等。6.3.2四種政務(wù)資源分類和編碼結(jié)構(gòu)
國(guó)家標(biāo)準(zhǔn)GB/T21063.4-2007《政務(wù)信息資源分類》給出了主題分類、行業(yè)分類、服務(wù)分類與形態(tài)分類等4種應(yīng)用分類法。6.3.2.1主題分類法主題分類是政務(wù)資源的基礎(chǔ)性分類,GB/T21063.4-2007《政務(wù)信息資源分類》規(guī)定了政務(wù)信息資源目錄體系中政務(wù)信息資源的分類原則和方法,明確以及主題分類為基礎(chǔ),用于各機(jī)構(gòu)在建立政務(wù)信息資源目錄時(shí)提供分類依據(jù)。該標(biāo)準(zhǔn)將政務(wù)信息資源的主題分為21個(gè)一級(jí)類和133個(gè)二、三級(jí)類。表6-1為該標(biāo)準(zhǔn)中政務(wù)資源的主題分類示例。表6-1采用線性分類法,3級(jí)4位編碼,第1級(jí)用2位數(shù)字,2級(jí)和3級(jí)類目各用1位大寫羅馬字符(A-Z中除I、O)表示,結(jié)構(gòu)如圖6-2所示。6.3.2.2行業(yè)分類法政務(wù)信息資源的行業(yè)分類是在參照GB/T4754《國(guó)民經(jīng)濟(jì)行業(yè)分類與代碼》的基礎(chǔ)上,作了部分增減形成的。GB/T21063.4-2007中的行業(yè)分類示例如表6-2所示。
其編碼方法采用3層4位的線分類結(jié)構(gòu),如圖6-3所示。一級(jí)類由1位大寫羅馬字符(A-Z中除I、O)表示,代表國(guó)民經(jīng)濟(jì)“產(chǎn)業(yè)門類”;二級(jí)類由2位數(shù)字代表“行業(yè)分類”;三級(jí)類目由1位數(shù)字組成,代表行業(yè)“細(xì)目”。6.3.2.3服務(wù)分類法
此分類描述政府公共服務(wù),用于:(一)指導(dǎo)構(gòu)建服務(wù)型政府;(二)體現(xiàn)政府的經(jīng)濟(jì)調(diào)節(jié)、市場(chǎng)監(jiān)管、社會(huì)管理、公共服務(wù)等職能;(三)利于機(jī)構(gòu)間跨部門、跨行業(yè)、跨地區(qū)的信息共享。服務(wù)分類是近年面向公眾需求發(fā)展起來的分類體系,在美國(guó)獲得成功。它以構(gòu)建面向公眾的政府服務(wù)為宗旨,打破機(jī)構(gòu)間的界限,以公眾服務(wù)為軸心,涉及各相關(guān)機(jī)構(gòu)時(shí),均從其履行的職能出發(fā),無縫地組織民提供的服務(wù),使社會(huì)公眾感覺其是面向“一個(gè)政府”。為此,美國(guó)推出了聯(lián)邦電子政務(wù)體系架構(gòu)(FederalEnterpriseArchitecture),描述服務(wù)的業(yè)務(wù)模型,運(yùn)用業(yè)務(wù)分解和分類描述方法,確定政府不同職能的邊界和范圍,界定、定義各類業(yè)務(wù),以形成統(tǒng)一的、滿足電子政務(wù)總體要求的政務(wù)信息資源分類體系。政府服務(wù)邏輯上可分為目標(biāo)、方式、方式支持環(huán)境、資源等4方面,按公眾服務(wù)屬性就相應(yīng)體現(xiàn)為公眾服務(wù)、服務(wù)方式、服務(wù)方式支持環(huán)境、服務(wù)資源等4領(lǐng)域。表6-3為GB/T21063.4-2007中的政府服務(wù)分類與代碼示例。編碼結(jié)構(gòu)采用線分類表示信息間的層次關(guān)系,采用無含義代碼。第1層用1位數(shù)字代碼,表示4種服務(wù)性質(zhì)之一;第2、3層各采用2位數(shù)字代碼,分別表示業(yè)務(wù)類、服務(wù)細(xì)目等分類。代碼結(jié)構(gòu)如圖6-4示意。6.3.2.4資源形態(tài)分類法此分類按政務(wù)信息資源的不同形態(tài)進(jìn)行。表6-4為GB/T21063.4-2007的政務(wù)資源的形態(tài)分類示例,此分類只反映資源的外在形態(tài)與記載形式,與內(nèi)容無關(guān),主要用于對(duì)不同形態(tài)的政務(wù)資源進(jìn)行管理。其代碼結(jié)構(gòu)采用3層5位的線分類,具體如圖6-5所示。建立政務(wù)信息資源目錄體系時(shí),應(yīng)首先采用主題分類、再根據(jù)應(yīng)用情況同時(shí)選擇其他3種分類,且這些分類均應(yīng)與主題分類建立映射,既保證系統(tǒng)的完備性、可管理性,又能為用戶提供多種檢索途徑。其中,資源形態(tài)分類與內(nèi)容無關(guān),不需建立內(nèi)容映射。但任何信息都必須以一定的形態(tài)表現(xiàn),故描述具體政務(wù)資源時(shí),應(yīng)引用表6-4來說明其資源形態(tài)。6.3.3面向資源共享的政務(wù)信息分類體系面向多機(jī)構(gòu)、跨系統(tǒng)信息資源共享的分類體系,是深化政務(wù)資源服務(wù)的基礎(chǔ)。由于共享資源的內(nèi)容與屬性不同,就使分類具有了多樣性與復(fù)合性,可按資源屬性、層級(jí)屬性、共享屬性和涉密屬性等進(jìn)行4面分類。6.3.3.1資源屬性分類
資源屬性按基礎(chǔ)類、主題類、開放類與需求類劃分如下。(1)基礎(chǔ)信息資源目錄(2)主題信息資源目錄(3)部門信息資源目錄(4)信息資源開放目錄(5)信息資源需求目錄6.3.3.2層級(jí)屬性分類
從國(guó)家級(jí)開始逐級(jí)向下的分層分類,具體如下。(1)國(guó)家政務(wù)信息資源目錄(2)國(guó)家部委政務(wù)信息資源目錄(3)省級(jí)政務(wù)信息資源目錄(4)部門政務(wù)信息資源目錄6.3.3.3共享屬性分類
政務(wù)信息資源類型分為無條件共享、有條件共享、不予共享等3種。6.3.3.4涉密屬性分類政務(wù)信息資源目錄按涉密屬性,分為涉密和非涉密政務(wù)信息資源目錄。涉密政務(wù)信息資源目錄和非涉密政務(wù)信息資源目錄的梳理、編制、管理、應(yīng)用等,應(yīng)分別依托國(guó)家數(shù)據(jù)共享交換平臺(tái)(政務(wù)內(nèi)網(wǎng))、國(guó)家數(shù)據(jù)共享交換平臺(tái)(政務(wù)外網(wǎng))開展。涉密政務(wù)信息資源目錄和非涉密政務(wù)信息資源目錄,均有相應(yīng)的資源屬性分類、元數(shù)據(jù)、目錄代碼等要求,應(yīng)予分別編制。6.4共享政務(wù)信息資源分類體系為確保各地各級(jí)各領(lǐng)域的電子政務(wù)系統(tǒng)能資源共享與交換,必須構(gòu)建統(tǒng)一的政府信息資源分類體系。6.4.1共享政務(wù)信息資源分類體系架構(gòu)1)分類結(jié)構(gòu)圖6-7體系架構(gòu)是從全國(guó)出發(fā),宏觀統(tǒng)一了政務(wù)資源的分類與編碼結(jié)構(gòu),實(shí)現(xiàn)對(duì)共享的支持,又允許各類機(jī)構(gòu)按需在其基礎(chǔ)上擴(kuò)展或剪裁,將其私有分類體系與之映射。編碼結(jié)構(gòu)圖6-7對(duì)應(yīng)的編碼體系如與圖6-8所示。從中可看出,共享政務(wù)信息分類體系只對(duì)“類”、“項(xiàng)”、“目”3級(jí)分類給出的定長(zhǎng)碼位,也就限定了各級(jí)的對(duì)象容量,第4級(jí)“細(xì)目”采用不定長(zhǎng)結(jié)構(gòu),具有無限容量。編碼體系在宏觀、中觀與微觀層面分類與代碼的統(tǒng)一,支持此3層以上的資源共享與交換,同時(shí)對(duì)細(xì)目放開,允許各機(jī)構(gòu)或應(yīng)用自行對(duì)細(xì)目對(duì)象分類與編碼,從而使整個(gè)體系具有較大的靈活性與實(shí)用性。圖6-8中分隔符“/”以后是不定長(zhǎng)碼段,可標(biāo)識(shí)細(xì)目下無限量的具體信息資源。6.4.2分類層級(jí)與結(jié)構(gòu)6.4.2.1“類”與“項(xiàng)”圖6-7的根節(jié)點(diǎn)“政務(wù)信息資源目錄”下,一級(jí)設(shè)有基礎(chǔ)、主題和部門3個(gè)“類”,具體內(nèi)容在二級(jí)“項(xiàng)”下初步展開如下。1)基礎(chǔ)信息資源類是為構(gòu)建政務(wù)應(yīng)用提供基礎(chǔ)信息的資源層。主要包括:人口基礎(chǔ)信息、法人單位基礎(chǔ)信息、其他組織基礎(chǔ)信息、自然資源和空間地理基礎(chǔ)信息、宏觀經(jīng)濟(jì)數(shù)據(jù)基礎(chǔ)信息、法律法規(guī)基礎(chǔ)信息、文化基礎(chǔ)信息、金融基礎(chǔ)信息、信用基礎(chǔ)信息、統(tǒng)計(jì)基礎(chǔ)信息、科技基礎(chǔ)信息、電子證照基礎(chǔ)信息,等等。2)主題信息資源類主題分類將政務(wù)服務(wù)從頂層分為全民健康保障、全民住房保障、全民社會(huì)保障、藥品安全監(jiān)管、食品安全監(jiān)管、安全生產(chǎn)監(jiān)督、市場(chǎng)價(jià)格監(jiān)管、金融監(jiān)管、能源安全保障、信用體系建設(shè)、生態(tài)環(huán)境保護(hù)、應(yīng)急維穩(wěn)保障、行政執(zhí)法監(jiān)督、民主法治建設(shè)、執(zhí)政能力建設(shè)、投資審批等主題。主題分類按政務(wù)活動(dòng)與對(duì)象的本質(zhì)屬性分類,不是按機(jī)構(gòu)設(shè)置分類。因?yàn)檎畵Q屆時(shí)可能對(duì)政府部門設(shè)置進(jìn)行調(diào)整,故機(jī)構(gòu)分類的穩(wěn)定性較;其次,同一業(yè)務(wù)會(huì)有多個(gè)機(jī)構(gòu)行使相關(guān)職能,如食品藥品衛(wèi)生與安全監(jiān)管,就涉及工商、質(zhì)監(jiān)、衛(wèi)生防疫、海關(guān)等一系列部門,將其劃歸任一部門都不妥當(dāng),只有按主題職能進(jìn)行分類,各相關(guān)機(jī)構(gòu)與之建立映射。部門信息資源類部門信息資源對(duì)從中央到地方的各級(jí)職能機(jī)構(gòu)進(jìn)行分類,用于識(shí)別政務(wù)資源中各類信息“源”和“宿”,以及中間各參與單位等。由于不同政府機(jī)構(gòu)行使不同的行政職能,所以這一分類就具有行業(yè)分類特征,如金融管理、稅務(wù)管理、財(cái)政管理、醫(yī)療衛(wèi)生管理、經(jīng)濟(jì)貿(mào)易、公共安全、國(guó)民教育、社會(huì)保障、國(guó)家安全、外交、國(guó)防等等。6.4.2.2“目”、“細(xì)目”與后段碼“項(xiàng)”以下分類為“目”,如圖6-6中“法人單位信息資源庫(kù)”項(xiàng)下就分為“行政”、“事業(yè)”、“企業(yè)”等法人單位之“目”。對(duì)其再進(jìn)一步的劃分就用“細(xì)目”,如行政類法人單位信息資源下的內(nèi)部管理,就有公文管理、人事管理、辦公管理、財(cái)務(wù)管理、土地管理、項(xiàng)目管理、房屋管理、資產(chǎn)管理、采購(gòu)管理、車輛管理等?!凹?xì)目”是對(duì)“目”的擴(kuò)展,其不定長(zhǎng)代碼中允許使用者視需求可再分類或不分類。如公文管理對(duì)象為:決定、通知、報(bào)告、請(qǐng)示、批復(fù)、意見、函、會(huì)議紀(jì)要等9種主要形式;行政公文有:命令、公告、通知、方案議案4種;常務(wù)行政公文有:決議、指示、公報(bào)、條例、規(guī)定等5種。這些分類只能在細(xì)目中按行業(yè)標(biāo)準(zhǔn)或規(guī)范再度分類,納入體系中。細(xì)目后為圖6-8中分隔符后的后段碼,因細(xì)目代碼不定長(zhǎng),故后段碼可視為細(xì)目?jī)?nèi)的一種邏輯劃分。后段碼中也可進(jìn)一步分類,或直接采用流水號(hào),對(duì)對(duì)象作順序編碼,如機(jī)關(guān)公文就可按上述各種文件成文順序編排發(fā)布。6.4.3主題分類GB/T21063.4-2007《政務(wù)信息資源目錄體系第4部分:政務(wù)信息資源分類》要求以主題分類為主體,其他形式的分類均要與主題分類建立映射,故主題分類為基礎(chǔ)分類。6.4.3.1GB/T21063.4的主題分類GB/T21063.4-2007《政務(wù)信息資源目錄體系第4部分:政務(wù)信息資源分類》給出了電子政務(wù)主題分類,表7-5是其中“經(jīng)濟(jì)管理”的部分主題內(nèi)容示例。代碼名稱描述說明………………ZB經(jīng)濟(jì)管理關(guān)于經(jīng)濟(jì)的管理、規(guī)劃、發(fā)展概況ZBA00經(jīng)濟(jì)管理綜合類ZBB00經(jīng)濟(jì)發(fā)展計(jì)劃關(guān)于經(jīng)濟(jì)的宏觀發(fā)展規(guī)劃ZBC00經(jīng)濟(jì)管理關(guān)于經(jīng)濟(jì)的宏觀管理現(xiàn)狀ZBD00經(jīng)濟(jì)體制改革關(guān)于經(jīng)濟(jì)體制改革的管理和規(guī)劃、發(fā)展情況ZBE00經(jīng)貿(mào)管理關(guān)于經(jīng)濟(jì)貿(mào)易的宏觀管理和發(fā)展調(diào)查報(bào)告、統(tǒng)計(jì)資料ZBF00統(tǒng)計(jì)關(guān)于統(tǒng)計(jì)工作的管理和發(fā)展情況ZBG00物價(jià)關(guān)于物價(jià)的管理和調(diào)查報(bào)告、統(tǒng)計(jì)資料,以及物價(jià)體系規(guī)劃ZBH00工商關(guān)于市場(chǎng)監(jiān)督管理和維護(hù)公平競(jìng)爭(zhēng)的市場(chǎng)秩序………………1)代碼結(jié)構(gòu)第一列類目代碼的編制規(guī)則從右至左含義如下:(1)分類類別用1位大寫羅馬字符表示,“Z”代表主題分類,其它分類還有行業(yè)分類(H)、部門分類(B)、服務(wù)分類(F)和資源形態(tài)(X)分類等,以不同字母表示。(2)一級(jí)類用1位大寫羅馬字符表示,如“A”代表“綜合政務(wù)”、“B”代表“經(jīng)濟(jì)管理”等。本級(jí)代碼采用除字符“I、O”以外的字母,代碼容量為24。(3)二級(jí)類用1位大寫羅馬字符及2位阿拉伯字符表示,如表中“ZBD00”代表“主題分類、經(jīng)濟(jì)管理一級(jí)類、經(jīng)濟(jì)體制改革二級(jí)類”。2)主題目錄代碼對(duì)應(yīng)的主題名稱與描述,是定義某個(gè)政務(wù)信息資源特征的一組信息。這些主題詞既代表了政務(wù)領(lǐng)域的公共資源核心元數(shù)據(jù),又是系統(tǒng)交換時(shí)的核心元數(shù)據(jù),通過它們間的對(duì)照可實(shí)現(xiàn)其類目下的資源交換。本表只給出“名稱”和“描述說明”,而規(guī)范的元數(shù)據(jù)描述應(yīng)包括:對(duì)象定義、英文名稱、數(shù)據(jù)類型、值域、短名、注解等。顯然,本標(biāo)準(zhǔn)僅提供最簡(jiǎn)單、必要元數(shù)據(jù)描述框架,給各類應(yīng)用系統(tǒng)的開發(fā)留下擴(kuò)展空間。6.4.3.2GB/T21063.4-2007的主題擴(kuò)展分類顯然,表6-5的主題分類過于粗放,與面向事務(wù)的應(yīng)用需求還有頗大距離,故實(shí)用中還要進(jìn)行拓展。拓展既包括對(duì)原標(biāo)準(zhǔn)的類目進(jìn)行擴(kuò)充與細(xì)化,也包括對(duì)元數(shù)據(jù)描述字段的擴(kuò)充。拓展的依據(jù),仍應(yīng)采用國(guó)際與國(guó)家相關(guān)的標(biāo)準(zhǔn),以及如聯(lián)合國(guó)、世界銀行等權(quán)威機(jī)構(gòu)實(shí)際使用的目錄體系及架構(gòu)模型、一些國(guó)際知名的專業(yè)機(jī)構(gòu)的成熟的分類體系等,這些分類目錄已成為事實(shí)上的工業(yè)標(biāo)準(zhǔn)。1)“經(jīng)濟(jì)管理”類目擴(kuò)展架構(gòu)模型如表6-6,GB/T21063.4-2007對(duì)“經(jīng)濟(jì)管理”的描述是“關(guān)于經(jīng)濟(jì)的管理、規(guī)劃、發(fā)展概況”,這是個(gè)龐大而籠統(tǒng)的定義,實(shí)用中應(yīng)進(jìn)行擴(kuò)展。此處參照世界銀行知識(shí)管理系統(tǒng)中“宏觀經(jīng)濟(jì)與經(jīng)濟(jì)管理”子系統(tǒng)進(jìn)行擴(kuò)充。主題擴(kuò)展要先建立擴(kuò)展分類模型,“經(jīng)濟(jì)管理”的擴(kuò)展模型如圖6-9所示。2)類目擴(kuò)展原則無論此處的初級(jí)擴(kuò)展,還是后續(xù)的多級(jí)拓展,都應(yīng)遵循以下原則。系統(tǒng)性科學(xué)性完整性規(guī)范性實(shí)用性可擴(kuò)展性3)拓展類目與編碼依據(jù)圖6-9模型,采用GB/T21063.4-2007體系結(jié)構(gòu),參照引進(jìn)世界銀行體系對(duì)“經(jīng)濟(jì)管理”分類拓展的結(jié)果如表6-6所示。代碼二級(jí)類目名稱(中文)二級(jí)類目名稱(英文)描述和說明ZBC01市場(chǎng)與商貿(mào)Markets&Commerce600ZBC02消費(fèi)Consumption280ZBC03經(jīng)濟(jì)理論與研究EconomicTheory&Research650ZBC04財(cái)政與貨幣政策Fiscal&MonetaryPolicy1302ZBC05政治經(jīng)濟(jì)PoliticalEconomy39ZBC06經(jīng)濟(jì)狀況EconomicConditions311ZBC07經(jīng)濟(jì)體系EconomicSystems180ZBC08收入Income140ZBC09區(qū)域經(jīng)濟(jì)SubnationalRegionalEconomics98ZBC10稅收與補(bǔ)貼Taxation&Subsidies534ZBC11投資Investments1376ZBC12日用商品Commodities134ZBC13經(jīng)濟(jì)行業(yè)調(diào)整EconomicSectorAdjustment83ZBC14信貸調(diào)控AdjustmentLending747ZBC15援助效力AidEffectiveness392ZBC16投資、儲(chǔ)蓄與增長(zhǎng)EconomicGrowth,Investment&Savings95ZBC17國(guó)家戰(zhàn)略與實(shí)施CountryStrategy&Performance355ZBC18…………各類下級(jí)詞目數(shù)表6-6中代碼按順序規(guī)則從“ZBC00”起直接延續(xù)。在與用戶系統(tǒng)資源對(duì)接時(shí),可通過代碼對(duì)照表建立映射。第4列“描述和說明”中的數(shù)字代表該類目下目前已擴(kuò)展的3級(jí)詞條數(shù),可看出,世界銀行運(yùn)行的“經(jīng)濟(jì)管理”是一個(gè)龐大而縝密的分類目錄體系。4)類目的二級(jí)拓展與編目對(duì)專業(yè)應(yīng)用,表6-6的分類仍嫌粗放。電子政務(wù)對(duì)經(jīng)濟(jì)監(jiān)測(cè)和管理朝科學(xué)化、精細(xì)化發(fā)展,分類管理也越來越精細(xì),往往需要再度拓展。以表6-6中“ZBC06經(jīng)濟(jì)狀況”為例,其3級(jí)類目收錄了311個(gè)詞目,部分拓展實(shí)例如表6-7所示。代碼三級(jí)類目名稱(中文)三級(jí)類目名稱(英文)ZBC06001經(jīng)濟(jì)狀況EconomicconditionsZBC06002邊際收入MarginalrevenueZBC06003財(cái)富WealthZBC06004財(cái)富分配WealthdistributionZBC06005財(cái)政鴻溝FiscalgapZBC06006財(cái)政壓力FiscalpressuresZBC06007成長(zhǎng)率GrowthrateZBC06008城市經(jīng)濟(jì)功能EconomicfunctionsofcitiesZBC06009遲滯StagnationZBC06010遲滯經(jīng)濟(jì)學(xué)StagnationeconomicsZBC06011出口引導(dǎo)經(jīng)濟(jì)增長(zhǎng)ExportleadeconomicgrowthZBC06012地下經(jīng)濟(jì)UndergroundeconomiesZBC06015發(fā)展障礙ObstaclestodevelopmentZBC06016發(fā)展中國(guó)家DevelopingcountriesZBC06017發(fā)展中地區(qū)DevelopingareasZBC06020國(guó)際經(jīng)濟(jì)InternationaleconomyZBC06194住屋開支HousingexpendituresZBC06195…………表6-7中“代碼”的前3位仍按GB/T21063.4-2007結(jié)構(gòu)編制,低位可采用定長(zhǎng)或不定長(zhǎng)位碼向右拓展,原則是保證其中的前5位代碼不被“脹破”?!癦BC06經(jīng)濟(jì)狀況”有300多詞目,故增加3位碼就可。以上只是示例性的分類擴(kuò)展,在下一道工序的資源編目中,還需要增加一批數(shù)據(jù)項(xiàng)如詞條定義、內(nèi)容描述、位屬標(biāo)識(shí)、名詞來源、版本與日期等說明性與管理性字段。6.4.4其他主題政務(wù)分類標(biāo)準(zhǔn)1)聯(lián)合國(guó)系列標(biāo)準(zhǔn)針對(duì)GB/T21063.4-2007,還有一些權(quán)威機(jī)構(gòu)的主題分類標(biāo)準(zhǔn)可參照采用,如聯(lián)合國(guó)統(tǒng)計(jì)分類署(UNSD)制定的,在各國(guó)政務(wù)系統(tǒng)中廣泛采用的一套綜合性管理、統(tǒng)計(jì)與信息交換UNSD標(biāo)準(zhǔn)。這套標(biāo)準(zhǔn)有COFOG、COICOP、COPNI和COPP共4件,既可用于政府機(jī)構(gòu)之間、政府對(duì)公眾、政府對(duì)企業(yè)與社會(huì)機(jī)構(gòu)之間的業(yè)務(wù)往來,又在分類結(jié)構(gòu)和編碼上一致,彼此兼容的成熟分類標(biāo)準(zhǔn)。聯(lián)合國(guó)制定UBSD分類標(biāo)準(zhǔn)的初衷,是對(duì)聯(lián)合國(guó)系統(tǒng)內(nèi)部及與各國(guó)往來的業(yè)務(wù)進(jìn)行管理和統(tǒng)計(jì)分析。冷戰(zhàn)結(jié)束后,促進(jìn)經(jīng)濟(jì)、發(fā)展貿(mào)易、推進(jìn)產(chǎn)業(yè)和招商引資等已成各國(guó)政務(wù)的主題,這套以經(jīng)濟(jì)、行政、社會(huì)管理、文化促進(jìn)、環(huán)境保護(hù)、人類和自然遺產(chǎn)保護(hù)、教育援助等為主導(dǎo)內(nèi)容的分類系統(tǒng)就非常適于作為各國(guó)政府的電子政務(wù)資源分類架構(gòu)。這4套標(biāo)準(zhǔn)分別是:(1)政府職能分類體系(ClassificationoftheFunctionsofGovernment,COFOG)。(2)個(gè)體消費(fèi)目的分類體系(ClassificationofIndividualConsumptionAccordingtoPurpose,COICOP)。(3)非營(yíng)利機(jī)構(gòu)家庭服務(wù)項(xiàng)目分類體系(ClassificationofthePurposesofNon-ProfitInstitutionsServingHouseholds,COPNI)。(4)生產(chǎn)經(jīng)營(yíng)開支項(xiàng)分類體系(ClassificationoftheOutlaysofProducersAccordingtoPurpose,COPP)。這4套分類體系不僅能實(shí)現(xiàn)電子政務(wù)系統(tǒng)的一致與兼容,還解決了其與電子商務(wù)系統(tǒng)的兼容問題,也解決了政府的公共行政、公共管理與公共服務(wù)信息資源的共享問題。此套系統(tǒng)與聯(lián)合國(guó)的其他信息分類體系兼容,所以能保證其建立的政務(wù)系統(tǒng)具有實(shí)用性和穩(wěn)定性。2)聯(lián)合國(guó)《政府職能分類(COFOG)》標(biāo)準(zhǔn)聯(lián)合國(guó)的《政府職能分類(COFOG)》體系,是在考慮各國(guó)政府最普遍、最一般的行政職能基礎(chǔ)上,制訂出的適用性最廣的政府職能標(biāo)準(zhǔn)。(1)標(biāo)準(zhǔn)結(jié)構(gòu)COFOG目錄體系采用分層代碼結(jié)構(gòu),3層如下。層級(jí)1——主題類(2位數(shù))。層級(jí)2——分組類(3位數(shù))。層級(jí)3——細(xì)目類(4位數(shù))。由于層級(jí)上可再分且總代碼不定長(zhǎng),就使其結(jié)構(gòu)上能無限擴(kuò)展,直至滿足中最基層、最細(xì)致的業(yè)務(wù)項(xiàng)描述。所以,這4套標(biāo)準(zhǔn)的擴(kuò)展空間無限、故能支持的資源內(nèi)容也無限。(2)分類本體結(jié)構(gòu)
聯(lián)合國(guó)在綜合各國(guó)政府的基本職能基礎(chǔ)上,本著分類實(shí)用與寬窄適度的原則,將政府的最一般職能分為10個(gè)大類,分別為“公共服務(wù),國(guó)防,公共事務(wù)與安全,經(jīng)濟(jì),環(huán)境保護(hù),醫(yī)療保健,娛樂、文化和宗教,教育和社會(huì)保護(hù)”。這10大類為政府職能的一級(jí)目錄,再設(shè)立2級(jí)、3級(jí)目錄等。1級(jí)目錄下有2級(jí)分類,示例如下:01——公共服務(wù)。01.1——行政與立法機(jī)構(gòu),財(cái)政和金融,外交。01.2——外國(guó)經(jīng)濟(jì)幫助。01.3——一般公共服務(wù)。01.4——基礎(chǔ)研究。01.5——綜合公共服務(wù)研發(fā)。
……
以上是1、2級(jí)類目示例,往下為3級(jí)類目,示例為:01.1.1——行政和立法機(jī)構(gòu)(CS)。01.1.2——財(cái)政與金融(CS)。01.1.3——外交(CS)?!?/p>
COFOG分類體系的特點(diǎn),是其采用了一般編碼系統(tǒng)中較少使用的后綴碼,來區(qū)分同一描述對(duì)象所在的不同場(chǎng)合。例如:“06.2社區(qū)發(fā)展”和“06.2.0社區(qū)發(fā)展(CS)”,以及“10.4家庭和兒童”和“10.4.0家庭和兒童(IS)”,就有不加第3位代碼“0”描述對(duì)象名稱后加后綴碼(CS)與(IS)等3種形態(tài)。區(qū)別是:不加“0”與后綴碼者為一般意義的描述對(duì)象,通常表示類;加后綴碼(CS)表示“集體服務(wù)”項(xiàng)目,(IS)表示“個(gè)體服務(wù)”項(xiàng)目,由此可識(shí)別同一對(duì)象在G2G、G2P、G2B與G2C的應(yīng)用場(chǎng)景。6.5信息資源的自動(dòng)分類6.5.1信息資源自動(dòng)分類概述大數(shù)據(jù)環(huán)境下,電子政務(wù)領(lǐng)域知識(shí)龐大、結(jié)構(gòu)復(fù)雜,傳統(tǒng)分類方式在內(nèi)容范圍、動(dòng)態(tài)服務(wù)的靈活性和方便性等方面,已不能滿足政務(wù)應(yīng)用創(chuàng)新和所涉領(lǐng)域迅速擴(kuò)展的需求。且實(shí)際上,按圖6-8結(jié)構(gòu)的基本分類編碼已近30位,擴(kuò)展編碼更可能多至50余位,已接近人工識(shí)別與分類編目的極限,將給政務(wù)資源應(yīng)用帶來日益增加的困難。以下為傳統(tǒng)分類方式在信息爆炸時(shí)代面臨的挑戰(zhàn)。1)分類體系的限制傳統(tǒng)分類強(qiáng)調(diào)分類體系的穩(wěn)定性和類目的單一性,而實(shí)際使用中要面臨全社會(huì)中新現(xiàn)象、新知識(shí)、新表述的不斷出現(xiàn),導(dǎo)致分類的多元性和動(dòng)態(tài)性。如:傳統(tǒng)分類中,對(duì)象基本以一種分類歸屬為主,且不允許經(jīng)常性類目變動(dòng)。但在快速發(fā)展的社會(huì)及其變革中,同一概念分屬多個(gè)政務(wù)類目已是常見情況。如“艾滋病”按科學(xué)分類屬于傳染病學(xué)科,而在公共行政領(lǐng)域,它同時(shí)從屬于衛(wèi)生防疫、公共安全、社會(huì)教育、倫理道德、貧困扶持、民政安置、公益宣傳、科普教育等領(lǐng)域,單一分類顯然不能滿足政務(wù)應(yīng)用之需。2)對(duì)象顆粒度傳統(tǒng)分類對(duì)象的“顆粒度”較粗,而政務(wù)應(yīng)用涉及的對(duì)象顆粒度越來越細(xì)。如傳統(tǒng)分類對(duì)象可能是一冊(cè)圖書,一份文件或一段視頻;知識(shí)管理對(duì)象則要求細(xì)化到文章中的各種概念、主題詞、數(shù)字、與視頻段對(duì)應(yīng)幀的一句解說語(yǔ)、一個(gè)關(guān)鍵詞等。3)分類方法傳統(tǒng)分類采用矩陣法,而知識(shí)描述采用矢量法。如一份文件、圖書館資料等多以線分類、面分類法等二維表格來描述其外在特征;但文獻(xiàn)內(nèi)容中的數(shù)據(jù)、概念、主題等的描述可形成一組特征矢量,再將所有資源的概念組成矢量集,將一批文獻(xiàn)看作多維資源空間中的概念集,映射到不同資源類中,實(shí)現(xiàn)對(duì)知識(shí)的多角度關(guān)聯(lián)與展示,大數(shù)據(jù)統(tǒng)計(jì)與動(dòng)態(tài)分析等。4)分類體系適應(yīng)性傳統(tǒng)分類體系結(jié)構(gòu)是剛性的,一旦制訂就難隨意增刪減改,更不能隨意改變其層級(jí)架構(gòu)。信息爆炸導(dǎo)致一些綱目下的內(nèi)容急劇膨脹另一些則不斷萎縮;社會(huì)急劇變革,對(duì)剛性分類體系架構(gòu)形成沖擊;各種新知識(shí)新業(yè)態(tài)的產(chǎn)生與突破,一再打破既定的政務(wù)知識(shí)結(jié)構(gòu),產(chǎn)生各種新概念、新知識(shí)領(lǐng)域與關(guān)系空間,以及對(duì)原來概念的重新理解。反映到分類體系上,就會(huì)產(chǎn)生新類目、新層級(jí)、新體系等。6.5.2自動(dòng)分類技術(shù)的需求背景信息爆炸也導(dǎo)致了信息的雜亂與冗余,少量有用信息稀釋在大量雜亂、重復(fù)與低質(zhì)頁(yè)面中。人們對(duì)具有實(shí)用價(jià)值、能提升資源檢索與呈現(xiàn)效率的自動(dòng)分類技術(shù)產(chǎn)生了強(qiáng)烈的需求。同時(shí),非結(jié)構(gòu)化信息的爆炸性增長(zhǎng)帶來巨大挑戰(zhàn),傳統(tǒng)分類需要耗費(fèi)大量人力從事元數(shù)據(jù)標(biāo)記、創(chuàng)建分類、定義詞組與概念,以及按分類原則劃歸等工作,但已難以應(yīng)對(duì)這些問題。自動(dòng)分類是指系統(tǒng)按特定算法對(duì)信息資源進(jìn)行自動(dòng)采集、整理與歸類的技術(shù),它將關(guān)鍵詞搜索、知識(shí)管理與目錄組織等技術(shù)結(jié)合,提高用戶在海量資源環(huán)境下對(duì)所需信息的高速搜集與呈現(xiàn),根據(jù)不同用戶的使用習(xí)慣進(jìn)行個(gè)性化搜索與組織。自動(dòng)分類源于“網(wǎng)絡(luò)蜘蛛”一類信息資源探測(cè)器,它能自動(dòng)監(jiān)測(cè)其跟蹤的信息源中的內(nèi)容變化,進(jìn)行動(dòng)態(tài)采集與分類,代表了網(wǎng)絡(luò)時(shí)代應(yīng)對(duì)海量資源的信息組織與呈現(xiàn)技術(shù)變革。6.5.3自動(dòng)分類算法簡(jiǎn)介6.5.3.1自動(dòng)分類的處理流程自動(dòng)分類的處理流程如圖6-10所示。
圖中左上側(cè)為待定義類別名稱C1、C2、C3…Cn,取S1、S2、S3…Sn為分類訓(xùn)練樣本,計(jì)算機(jī)通過對(duì)分類資源的內(nèi)容特征進(jìn)行處理、與樣本資源作比對(duì)與學(xué)習(xí),產(chǎn)生分類特征序列,將對(duì)應(yīng)資源通過特定算法在分類器中進(jìn)行自動(dòng)劃分并呈現(xiàn)結(jié)果。6.5.3.2自動(dòng)分類的幾種算法
算法是自動(dòng)分類的核心,常用的有KNN法、SVM法、VSM法、貝葉斯法等,簡(jiǎn)介如下。KNN法(K-NearestNeighbor)
(1)KNN算法簡(jiǎn)述
即K最近鄰法,思路簡(jiǎn)單直觀:如一個(gè)樣本在特征空間中的k個(gè)最相似樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于此類別,并具有此類別樣本的特性。KNN算法中,所選擇的鄰居都是已正確分類的對(duì)象,故分類決策就只與少量的相鄰樣本有關(guān),即其只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。圖6-11表示圖中心點(diǎn)將被決定歸于何類,是三角形還是四邊形?如K=3,由于三角形占比為2/3,中心點(diǎn)就將被賦予三角形類;如K=5,由于四方形比例為3/5,因此它將被賦予四方形類。2)KNN的算法流程KNN的算法流程如下:準(zhǔn)備數(shù)據(jù),對(duì)其預(yù)處理。選用合適的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)訓(xùn)練數(shù)據(jù)和測(cè)試元組。設(shè)定參數(shù),如k。維護(hù)一個(gè)大小為k的距離由大到小的優(yōu)先級(jí)隊(duì)列,存儲(chǔ)最近鄰的訓(xùn)練元組。隨機(jī)從訓(xùn)練元組中選取k個(gè)元組作為初始的最近鄰元組,分別計(jì)算測(cè)試元組到這k個(gè)元組的距離,將訓(xùn)練元組標(biāo)號(hào)和距離存入優(yōu)先級(jí)隊(duì)列。遍歷訓(xùn)練元組集,計(jì)算當(dāng)前訓(xùn)練元組與測(cè)試元組的距離。將所得距離L與優(yōu)先級(jí)隊(duì)列中的最大距離Lmax比較,若L>=Lmax,則舍棄該元組,遍歷下一個(gè)元組。若L<Lmax,刪除優(yōu)先級(jí)隊(duì)列中最大距離的元組,將當(dāng)前訓(xùn)練元組存入優(yōu)先級(jí)隊(duì)列。遍歷完畢,計(jì)算優(yōu)先級(jí)隊(duì)列中k個(gè)元組的多數(shù)類,并將其作為測(cè)試元組的類別。測(cè)試元組集測(cè)試完畢后計(jì)算誤差率,繼續(xù)設(shè)定不同的k值重新進(jìn)行訓(xùn)練,最后取誤差率最小的k值。(3)KNN法的優(yōu)缺點(diǎn)優(yōu)點(diǎn):該法簡(jiǎn)單,易理解,易實(shí)現(xiàn),無需估計(jì)參數(shù),無需訓(xùn)練;適于對(duì)稀有事件分類;適于多分類問題(multi-model,對(duì)象具有多個(gè)類別標(biāo)簽),KNN比SVM(支持向量機(jī)法)的表現(xiàn)要好。KNN法主要靠周圍有限的鄰近樣本,而非靠判別類域的方法來確定所屬類別的,故對(duì)類域的交叉或重疊較多的待分樣本集,以及樣本容量較大的類域,該方法較為適合。KNN法不僅用于分類,還可用于回歸。通過找出一個(gè)樣本的k個(gè)最近鄰居,將其屬性的平均值賦予該樣本,就可得到其屬性。更好的方法是將不同距離的鄰居對(duì)該樣本產(chǎn)生的影響給予不同的權(quán)重值,通過調(diào)節(jié)不同特征的影響力來使分類更精確適用。缺點(diǎn):當(dāng)樣本不平衡時(shí),如一個(gè)類的樣本容量大而其他類樣本容量小時(shí),就可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí),該樣本的K個(gè)鄰居中大容量類的樣本占多數(shù),而只計(jì)算“最近的”鄰居樣本就會(huì)產(chǎn)生偏差甚至錯(cuò)誤。
另一不足之處是計(jì)算量較大,因?yàn)閷?duì)每一個(gè)待分類的文本都要計(jì)算它到全體已知樣本的距離,才能求得它的K個(gè)最近鄰點(diǎn)。同時(shí),它的可理解性差,無法給出像決策樹那樣的規(guī)則。(4)改進(jìn)方向
主要從分類效率和分類效果兩方面入手。分類效率:先對(duì)樣本屬性作約簡(jiǎn)處理,刪除對(duì)分類結(jié)果影響小的屬性,快速得出待分類樣本的類別。該算法適于對(duì)樣本容量大的類域的自動(dòng)分類,而樣本容量小的類域則比較容易產(chǎn)生誤分。分類效果:采用權(quán)值法(和該樣本距離小的鄰居權(quán)值大)來改進(jìn),可針對(duì)分類做可調(diào)整權(quán)重的k最近鄰居法WAkNN(weightedadjustedk-nearestneighbor),以促進(jìn)分類效果;另一改進(jìn)途徑是提出由不同分類對(duì)象的本身數(shù)量的差異,依照訓(xùn)練集合中各種分類的文件數(shù)量,選取不同數(shù)目的最近鄰居,來參與分類。
(5)適用方向KNN法較適用于以下應(yīng)用場(chǎng)合有:(一)模式識(shí)別,特別是光學(xué)字符識(shí)別(OCR);(二)統(tǒng)計(jì)分類;(三)計(jì)算機(jī)視覺;(四)基于內(nèi)容的圖像檢索應(yīng)用,如人臉識(shí)別;(五)導(dǎo)航系統(tǒng);(六)網(wǎng)絡(luò)營(yíng)銷;(七)DNA測(cè)序;(八)拼寫檢查,推薦正確拼寫;(九)剽竊檢查,等等,使其能在政務(wù)信息資源特征描述與分類領(lǐng)域獲得廣泛應(yīng)用。2)SVM法(SupportVectorMachine)(1)SVM法簡(jiǎn)述SVM即支持向量機(jī)法,是一種有監(jiān)督的學(xué)習(xí)模型,用于模式識(shí)別、自動(dòng)分類以及回歸分析,是一種常見判別方法。其思路可簡(jiǎn)單地以圖6-12表示。圖6-12左側(cè)劃分兩種不同形狀對(duì)象的線不是直線,可視為距離兩類點(diǎn)都有相同距離的許多條直線組成的圖形。支持向量就是離這些分類最近的點(diǎn),通過與對(duì)象特征的逐個(gè)劃分形成分類空間。如果是高維的點(diǎn),SVM的分界線就是平面或超平面。通過非線性映射p,把樣本空間映射到一個(gè)高維乃至無窮維的對(duì)象特征空間中,如圖6-12右側(cè)所示。使得在原來樣本空間中非線性可分問題,轉(zhuǎn)化為在特征空間中的線性可分問題。簡(jiǎn)言之,就是升維和線性化處理。升維把樣本向高維空間映射,在對(duì)象分類、回歸等領(lǐng)域,它將低維樣本空間無法線性處理的樣本集,在高維特征空間中通過一個(gè)線性超平面實(shí)現(xiàn)線性劃分。該方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論上的機(jī)器學(xué)習(xí)法。通過學(xué)習(xí)算法,SVM可自動(dòng)尋找出那些對(duì)分類有較好區(qū)分能力的支持向量,由此構(gòu)造的分類器可以最大化類與類之間的間隔,因而有較好的適應(yīng)能力和較高的分類準(zhǔn)確率。該法對(duì)小樣本的自動(dòng)分類有較好的結(jié)果。(2)SVM的主要思想
它針對(duì)線性可分情況進(jìn)行分析,對(duì)線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,使高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論,在特征空間中構(gòu)建最優(yōu)超平面,使學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望以某個(gè)概率滿足一定上界。(3)SVM的適用領(lǐng)域SVM主要適用于:(一)文本分類(SVM有助于文本和超文本分類,因其程序可顯著減少對(duì)標(biāo)準(zhǔn)感應(yīng)和轉(zhuǎn)換設(shè)置中標(biāo)記的訓(xùn)練實(shí)例的需求);(二)圖像分類(實(shí)驗(yàn)表明,支持向量機(jī)的搜索精度要比傳統(tǒng)的查詢優(yōu)化方案高。圖像分割系統(tǒng)也如此,包括使用特定的修改版SVM的系統(tǒng));(三)手寫字符識(shí)別;(四)生物識(shí)別(SVM法用于對(duì)高達(dá)90%正確分類的化合物進(jìn)行蛋白質(zhì)分類。一些專用的解釋SVM模型為識(shí)別模型使用特征預(yù)測(cè),在生物科學(xué)中有特殊意義)。(4)SVM的優(yōu)缺點(diǎn)優(yōu)點(diǎn):應(yīng)用范圍較廣且理論較成熟。缺點(diǎn):需要對(duì)輸入數(shù)據(jù)進(jìn)行全面標(biāo)注,SVM只適用于兩類任務(wù)。因此,必須應(yīng)用將多類任務(wù)減少到幾個(gè)二進(jìn)制問題的算法,對(duì)于多類問題分類的效果不好。同時(shí),其求解模型的參數(shù)難以解釋。
(5)改進(jìn)方向
主要向多類SVM分類發(fā)展,旨在通過使用支持向量機(jī)為實(shí)例分配標(biāo)簽,其中標(biāo)簽從有限的幾個(gè)元素集中描述,將單個(gè)多類問題減少為多個(gè)二進(jìn)制分類問題。3)VSM法(VectorSpaceModel)(1)VSM向量空間模型法簡(jiǎn)介
基本思想是將文檔內(nèi)容表示為加權(quán)特征向量,即把文本內(nèi)容的處理簡(jiǎn)化為詞匯向量空間中的向量運(yùn)算,通過分詞、去除虛詞、抽取、計(jì)算詞頻與加權(quán)等處理,建立文本在語(yǔ)義空間中的向量模型,如圖6-13。再通過計(jì)算各文檔間內(nèi)容相似度的方法來確定待分樣本的類別。當(dāng)文檔被表示為空間向量模型時(shí),其間的相似度就可借助特征向量間的特征集來表示,故VSM法更適合于專業(yè)文獻(xiàn)的分類。(2)VSM法的特點(diǎn)
此法通過先建立文檔的內(nèi)容空間,再用相似度分析比較其內(nèi)容表達(dá)的相似度,直觀易懂。比較是通過計(jì)算向量間的相似性來度量文檔間的相似性,最常用的相似性度量是余弦距離。根據(jù)余弦定理,如三角形的三條邊為a,b和c,對(duì)應(yīng)的三個(gè)角為A,B和C,則角A的余弦為:cosA=(c2+b2-c2)/2bc如將三角形的兩邊bc看為兩個(gè)向量,則上式可表為:分母表示兩向量b和c的長(zhǎng)度,分子表示兩向量的積。VSM法的實(shí)例:如文檔X和文檔Y對(duì)應(yīng)向量分別是x1、x2、…、x64000和y1、y2、…、y64000,那么它們間夾角的余弦為:在文本相似度計(jì)算中,向量中的維度x1、x2、…xn是詞項(xiàng)的權(quán)重,就是詞項(xiàng)特征tf-idf值。
文本相似度計(jì)算的處理流程是:對(duì)所有文檔進(jìn)行分詞。分詞的同時(shí)計(jì)算各詞的tf值。所有文檔分詞完畢后果計(jì)算idf值。生成每篇文檔對(duì)應(yīng)的n維向量(n是切分出的詞數(shù),向量的項(xiàng)是各詞的tf-idf值)。
對(duì)文章的向量?jī)善獌善卮胗嘞叶ɡ砉接?jì)算,得到的值就是它們間的相似度。(3)選擇余弦定理的特點(diǎn)
余弦計(jì)算為介于0到1的數(shù),如向量一致就是1,正交就是0;符合相似度百分比的特性;余弦為零表示分類詞向量垂直于文檔向量,即兩者內(nèi)容無重合,該文檔不應(yīng)歸入此類目。
詞組向量空間模型是一個(gè)應(yīng)用于信息過濾,信息擷取,索引以及評(píng)估相關(guān)性的代數(shù)模型。通過此模型,文本數(shù)據(jù)就轉(zhuǎn)換成了計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù)。檔中的語(yǔ)料被視為索引詞(關(guān)鍵詞)形成的多元向量空間,索引詞的集合通常為文件中至少出現(xiàn)過一次的詞組。搜尋時(shí),輸入的檢索詞也被轉(zhuǎn)換成類似于文件的向量,這個(gè)模型假設(shè),文件和搜尋詞的相關(guān)程度,可以經(jīng)由比較每個(gè)文件(向量)和檢索詞(向量)的夾角偏差程度而得知。4)貝葉斯法(1)貝葉斯分類法簡(jiǎn)述
貝葉斯分類是一種利用概率統(tǒng)計(jì)進(jìn)行自動(dòng)分類的算法,貝葉斯分類器是在具有模式的完整統(tǒng)計(jì)知識(shí)條件下,按貝葉斯決策理論設(shè)計(jì)的一種最優(yōu)分類器。所謂分類器,是對(duì)每一個(gè)輸入模式賦予一個(gè)類別名稱的邏輯實(shí)體或硬件,貝葉斯分類器是各種分類器中分類錯(cuò)誤概率最小或在預(yù)定代價(jià)的情況下平均風(fēng)險(xiǎn)最小的分類器,其設(shè)計(jì)法是一種統(tǒng)計(jì)分類方法。把代表樣本的特征向量x分到c個(gè)類別(ω1,ω2,...,ωc)中,某一類的最基本方法是計(jì)算在x的條件下,該模式屬于各類的概率,用符號(hào)P(ω1|x),P(ω2|x),...,P(ωc|x)表示。比較這些條件概率,最大數(shù)值所對(duì)應(yīng)的類別ωi就是該模式所屬的類。例如表示某個(gè)待查細(xì)胞的特征向量x屬于正常細(xì)胞類的概率是0.2,屬于癌變細(xì)胞類的概率是0.8,就把它歸類為癌變細(xì)胞。這一定義的條件概率也稱為后驗(yàn)概率,在特征向量為一維的情況下,一般有圖6-14中的變化關(guān)系。當(dāng)x=x*時(shí),P(ω1|x)=P(ω2|x),對(duì)于x>x*的區(qū)域,由于P(ω2|x)>P(ω1|x),因此x屬ω2類,對(duì)于x<x*的區(qū)域,由于P(ω1|x)>P(ω2|x),x屬ω1類,x*就相當(dāng)于區(qū)域的分界點(diǎn)。圖中陰影面積反映了這種方法的錯(cuò)誤分類概率,對(duì)于以任何其他的x值作為區(qū)域分界點(diǎn)的分類方法都對(duì)應(yīng)一個(gè)更大的陰影面積,因此貝葉斯分類器是一種最小錯(cuò)誤概率的分類器。(2)算法原理
一般情況下,不能直接得到后驗(yàn)概率而是要通過貝葉斯公式進(jìn)行計(jì)算。式中P(x│ωi)為在模式屬于ωi類的條件下出現(xiàn)x的概率密度,稱為x的類條件概率密度;P(ωi)為在所識(shí)別問題中出現(xiàn)ωi類的概率,又稱先驗(yàn)概率;P(x)是特征向量x的概率密度。分類器在比較后驗(yàn)概率時(shí),對(duì)于確定的輸入x,P(x)是常數(shù),因此在實(shí)際應(yīng)用中,通常不是直接用后驗(yàn)概率作為分類器的判決函數(shù)gi(x),而采用下面兩種形式:對(duì)所有的c個(gè)類計(jì)算gi(x)(i=1,2,...,c)與gi(x)中最大值相對(duì)應(yīng)的類別就是x的所屬類。(3)樸素貝葉斯算法
樸素貝葉斯(Na?veBayes)分類算法在許多情況下可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美,能運(yùn)用規(guī)范大型數(shù)據(jù)庫(kù),方法簡(jiǎn)單、分類準(zhǔn)確率高、速度快。設(shè)每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量來描述n個(gè)屬性的值,即:X={x1,x2,…,xn},假定有m個(gè)類,分別用C1,C2,…,Cm表示。給定一個(gè)未知的數(shù)據(jù)樣本X(即沒有類標(biāo)號(hào)),若樸素貝葉斯分類法將未知的樣本X分配給類Ci,則一定是P(Ci|X)>P(Cj|X)1≤j≤m,j≠i根據(jù)貝葉斯定理,由于P(X)對(duì)于所有類為常數(shù),最大化后驗(yàn)概率P(Ci|X)可轉(zhuǎn)化為最大化先驗(yàn)概率P(X|Ci)P(Ci)。如果訓(xùn)練數(shù)據(jù)集有許多屬性和元組,計(jì)算P(X|Ci)的開銷可能非常大,為此,通常假設(shè)各屬性的取值互相獨(dú)立,這樣:先驗(yàn)概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以從訓(xùn)練數(shù)據(jù)集求得。根據(jù)此方法,對(duì)一個(gè)未知類別的樣本X,可以先分別計(jì)算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度年福建省高校教師資格證之高等教育心理學(xué)題庫(kù)綜合試卷B卷附答案
- 2024年圖書館管理服務(wù)項(xiàng)目資金申請(qǐng)報(bào)告代可行性研究報(bào)告
- 五年級(jí)數(shù)學(xué)(小數(shù)乘除法)計(jì)算題專項(xiàng)練習(xí)及答案
- 文化自信背景下民族傳統(tǒng)體育文化的傳承與發(fā)展
- 魯教版高三上學(xué)期期末地理試題及解答參考
- 2024年定制出口業(yè)務(wù)銷售協(xié)議模板
- 保安公司門衛(wèi)服務(wù)承攬協(xié)議范本
- 2024高品質(zhì)彩鋼房建設(shè)協(xié)議書
- 2024批次高品質(zhì)片石購(gòu)買協(xié)議
- 2024年健身機(jī)構(gòu)業(yè)務(wù)合作伙伴協(xié)議
- 2023-2024學(xué)年北京海淀區(qū)首都師大附中初二(上)期中道法試題及答案
- (正式版)HGT 6313-2024 化工園區(qū)智慧化評(píng)價(jià)導(dǎo)則
- 二級(jí)公立醫(yī)院績(jī)效考核三級(jí)手術(shù)目錄(2020版)
- 新蘇教版六年級(jí)上冊(cè)《科學(xué)》全一冊(cè)全部課件(含19課時(shí))
- 親子閱讀ppt課件
- 愛心媽媽結(jié)對(duì)幫扶記錄表
- 農(nóng)貿(mào)市場(chǎng)建設(shè)項(xiàng)目裝飾工程施工方案
- 八年級(jí)語(yǔ)文上冊(cè)期中文言文默寫(含答案)
- MATLAB語(yǔ)言課程論文 基于MATLAB的電磁場(chǎng)數(shù)值圖像分析
- 暗挖隧道帷幕注漿專項(xiàng)方案[優(yōu)秀工程方案]
- 淺談城市燃?xì)夤芫W(wǎng)安全運(yùn)行存在問題及處理對(duì)策
評(píng)論
0/150
提交評(píng)論