




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、粗糙集理論與方法讀書筆記智能信息處理是當(dāng)前信息科學(xué)理論和應(yīng)用研究中的一個(gè)熱點(diǎn)領(lǐng)域。由于計(jì)算機(jī)科學(xué)與技術(shù)的發(fā)展,特別是計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展,每日每時(shí)為人們提供了大量的信息,信息量的不斷增長,對(duì)信息分析工具的要求也越來越高,人們希望自動(dòng)地從數(shù)據(jù)中獲取其潛在的知識(shí)。特別是近20年間,知識(shí)發(fā)現(xiàn)(規(guī)則提取、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí))受到人工智能學(xué)界的廣泛重視,知識(shí)發(fā)現(xiàn)的各種不同方法應(yīng)運(yùn)而生。1 粗糙集概述粗糙集(Rough Set,有時(shí)也稱Rough集、粗集)理論是Pawlak教授于1982年提出的一種能夠定量分析處理不精確、不一致、不完整信息與知識(shí)的數(shù)學(xué)工具粗糙集理論最初的原型來源于比較簡單的信息模型,它的基本
2、思想是通過關(guān)系數(shù)據(jù)庫分類歸納形成概念和規(guī)則,通過等價(jià)關(guān)系的分類以及分類對(duì)于目標(biāo)的近似實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)。由于粗糙集理論思想新穎、方法獨(dú)特,粗糙集理論已成為一種重要的智能信息處理技術(shù),該理論已經(jīng)在機(jī)器學(xué)習(xí)與知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘、決策支持與分析等方面得到廣泛應(yīng)用。目前,有三個(gè)有關(guān)粗糙集的系列國際會(huì)議,即:RSCTC、RSFDGrC和RSKT。中國學(xué)者在這方面也取得了很大的成果,從2001年開始每年召開中國粗糙集與軟計(jì)算學(xué)術(shù)會(huì)議;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列國際學(xué)術(shù)會(huì)議在中國召開。粗糙集理論與應(yīng)用的核
3、心基礎(chǔ)是從近似空間導(dǎo)出的一對(duì)近似算子,即上近似算子和下近似算子(又稱上、下近似集)。經(jīng)典Pawlak模型中的不分明關(guān)系是一種等價(jià)關(guān)系,要求很高,限制了粗糙集模型的應(yīng)用。因此,如何推廣定義近似算子成為了粗糙集理論研究的一個(gè)重點(diǎn)。目前,常見的關(guān)于推廣粗糙集理論的研究方法有兩種,即:構(gòu)造化方法和公理化方法。構(gòu)造化方法是以論域上的二元關(guān)系、劃分、覆蓋、鄰域系統(tǒng)、布爾子代數(shù)等作為基本要素,進(jìn)而定義粗糙近似算子,從而導(dǎo)出粗糙集代數(shù)系統(tǒng)。公理化方法的基本要素是一對(duì)滿足某些公理的一元集合算子,近似算子的某些公理能保證有一些特殊類型的二元關(guān)系的存在;反過來, 由二元關(guān)系通過構(gòu)造性方法導(dǎo)出的近似算子一定滿足某些公
4、理。事實(shí)上,有兩種形式來描述粗糙集,一個(gè)是從集合的觀點(diǎn)來進(jìn)行,一個(gè)是從算子的觀點(diǎn)來進(jìn)行。那么,從不同觀點(diǎn)采用不同的研究方法就得到粗糙集的各種擴(kuò)展模型。擴(kuò)展模型的研究以及基于其上的應(yīng)用研究已經(jīng)成為新的研究熱點(diǎn)。粗糙集理論與其他處理不確定和不精確問題理論的最顯著的區(qū)別是它無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息, 所以對(duì)問題的不確定性的描述或處理可以說是比較客觀的, 由于這個(gè)理論未能包含處理不精確或不確定原始數(shù)據(jù)的機(jī)制, 所以這個(gè)理論與概率論, 模糊數(shù)學(xué)和證據(jù)理論等其他處理不確定或不精確問題的理論有很強(qiáng)的互補(bǔ)性。因此,研究粗糙集理論和其他理論的關(guān)系也是粗糙集理論研究的重點(diǎn)之一。如果我們將研
5、究對(duì)象看成是現(xiàn)象,那么我們可以將這些現(xiàn)象分類?,F(xiàn)象被分為確定現(xiàn)象與不確定現(xiàn)象。不確定現(xiàn)象有分為隨機(jī)現(xiàn)象,模糊現(xiàn)象和信息不全的粗糙現(xiàn)象。如下所示:相對(duì)于前兩種現(xiàn)象的處理,粗糙現(xiàn)象是基于不完全的信息或知識(shí)去處理不分明的現(xiàn)象,因此需要基于觀測或者測量到的部分信息對(duì)數(shù)據(jù)進(jìn)行分類,這就需要與概率統(tǒng)計(jì)和模糊數(shù)學(xué)不同的處理手段,這就是粗糙集理論。直觀地講,粗糙集是基于一系列既不知道多了還是少了,也不知道有用還是沒用的不確定、不完整乃至于部分信息相互矛盾的數(shù)據(jù)或者描述來對(duì)數(shù)據(jù)進(jìn)行分析、推測未知信息。下面我們對(duì)粗糙集的基本特征、以及數(shù)學(xué)符號(hào)進(jìn)行簡述。2粗糙集的特點(diǎn)粗糙集的特點(diǎn)是利用不精確、不確定、部分真實(shí)的信息
6、來得到易于處理、魯棒性強(qiáng)、成本低廉的決策方案。因此更適合于解決某些現(xiàn)實(shí)系統(tǒng),比如,中醫(yī)診斷,統(tǒng)計(jì)報(bào)表的綜合處理等。粗糙集的另一個(gè)重要特點(diǎn)就是它只依賴于數(shù)據(jù)本身,不需要樣本之外的先驗(yàn)知識(shí)或者附加信息,因此挑選出來的決策屬性可以避免主觀性,有英雄不問出身的意味。用粗糙集來處理的數(shù)據(jù)類型包括確定性的、非確定性的、不精確的、不完整的、多變量的、數(shù)值的、非數(shù)值的。粗糙集使用上、下近似來刻畫不確定性,使得邊界有了清晰的數(shù)學(xué)意義并且降低了算法設(shè)計(jì)的隨意性。粗糙集理論與其他處理不確定和不精確問題理論的最顯著的區(qū)別是它無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息, 所以對(duì)問題的不確定性的描述或處理可以說是比
7、較客觀的, 由于這個(gè)理論未能包含處理不精確或不確定原始數(shù)據(jù)的機(jī)制, 所以這個(gè)理論與概率論, 模糊數(shù)學(xué)和證據(jù)理論等其他處理不確定或不精確問題的理論有很強(qiáng)的互補(bǔ)性。因此,研究粗糙集理論和其他理論的關(guān)系也是粗糙集理論研究的重點(diǎn)之一?;诖植诩碚摰膽?yīng)用研究主要集中在屬性約簡、規(guī)則獲取、基于粗糙集的計(jì)算智能算法研究等方面。由于屬性約簡是一個(gè)NP-Hard問題,許多學(xué)者進(jìn)行了系統(tǒng)的研究?;诖植诩募s簡理論發(fā)展為數(shù)據(jù)挖掘提供了許多有效的新方法。比如,針對(duì)不同的信息系統(tǒng)(協(xié)調(diào)的和不協(xié)調(diào)的、完備的和不完備的),結(jié)合信息論、概念格、群體智能算法技術(shù)等都有了相應(yīng)的研究成果?;诖植诩碚摰膽?yīng)用也涌現(xiàn)在各行各業(yè)。
8、許多學(xué)者將粗糙集理論應(yīng)用到了工業(yè)控制、醫(yī)學(xué)衛(wèi)生及生物科學(xué)、交通運(yùn)輸、農(nóng)業(yè)科學(xué)、環(huán)境科學(xué)與環(huán)境保護(hù)管理、安全科學(xué)、社會(huì)科學(xué)、航空、航天和軍事等領(lǐng)域。2粗糙集的基本概念從經(jīng)典的角度來看,每個(gè)概念都包含其內(nèi)涵和外延。為了給出概念內(nèi)涵和外延的具體描述,我們考慮一個(gè)簡單的知識(shí)表達(dá)系統(tǒng),即信息表。信息表就是一組對(duì)象的集合,對(duì)象通過一組屬性來描述。2.1定義粗糙集要涉及論域(這與模糊系統(tǒng)相似),還要涉及屬性集合(這被認(rèn)為是知識(shí),或者知識(shí)庫)。當(dāng)然,也要有屬性值域,以及從到的信息函數(shù)。因此,一個(gè)信息系統(tǒng)可以表示為一個(gè)四元組。在不混淆的情況下,簡記為,也稱為知識(shí)庫。等價(jià)關(guān)系(通常用來代替分類)是不可或缺的概念,
9、根據(jù)等價(jià)關(guān)系可以劃論域中樣本為等價(jià)類。而每個(gè)等價(jià)類被稱為同一個(gè)對(duì)象。但是,等價(jià)關(guān)系又是建立在不可分辨概念之上的,為了便于描述這里的等價(jià)關(guān)系,我們首先介紹不可分辨性。設(shè)為一個(gè)非空子集,如果,均有成立,那么,我們稱關(guān)于屬性子集不可分辨。不可分辨關(guān)系,簡記為,是一種等價(jià)關(guān)系(易驗(yàn)證它滿足等價(jià)關(guān)系的數(shù)學(xué)公理),于是可以將論域中的元素分成若干等價(jià)類,每一個(gè)等價(jià)類稱為知識(shí)庫的知識(shí)顆粒。全體等價(jià)類組成的集合記為,稱之為基本集合。若集合X可以表示成某些基本集的并時(shí),則稱X是B精確集,否則稱為B粗糙集。粗糙集中的“粗糙” 主要體現(xiàn)在邊界域的存在,而邊界又是由下、上近似來刻畫的。對(duì)于任意,關(guān)于現(xiàn)有知識(shí)的下、上近似
10、分別定義為:,。的確定域,是指論域中那些在現(xiàn)有知識(shí)之下能夠確定地歸入集合的元素的集合。反之,被稱為否定域。邊界域是某種意義上論域的不確定域,即在現(xiàn)有知識(shí)之下中那些既不能肯定在中,又不能肯定歸入中的元素的集合,記為。樣本子集X的不確定性程度可以用粗糙度來刻畫,粗糙度的定義為:式中表示集合的基數(shù)(集合中元素的個(gè)數(shù))。顯然,如果,則稱集合X關(guān)于R是確定的;如果,則稱集合X關(guān)于R是粗糙的,可認(rèn)為是在等價(jià)關(guān)系R下逼近集合X的精度。為了使得上述概念具體化,下面我們舉一個(gè)例子說明如何理解和計(jì)算以上相應(yīng)的概念和對(duì)應(yīng)量。例. 針對(duì)一下醫(yī)學(xué)信息表我們來理解前面所提到的概念。表1 某醫(yī)療信息表屬性對(duì)象條件屬性C決策
11、屬性D頭疼r1肌肉疼r2體溫r3流感是是正常否是是高是是是很高是否是正常否否否高否否是很高是依據(jù)此表,如果取屬性子集,。 那么我們下面給出的上近似集、下近似集、確定域、邊界域、粗糙度。解:計(jì)算論域U的所有R基本集:令 確定樣本子集與基本集的關(guān)系計(jì)算、:計(jì)算近似精確度:與粗糙度類似,在給出了兩個(gè)知識(shí)集(特征屬性)的相對(duì)肯定域的概念之后,我們也可以一個(gè)量來刻畫兩個(gè)知識(shí)集的依賴度。設(shè)為一個(gè)知識(shí)庫,為兩個(gè)知識(shí)集。令,稱為知識(shí)依賴于知識(shí)的依賴度。特別,當(dāng)時(shí)稱為完全依賴;時(shí),部分依賴;時(shí),完全獨(dú)立于知識(shí)。2.2近似空間語言的所有可定義集正好構(gòu)造成一個(gè)代數(shù),即: 。序?qū)ΨQ為一個(gè)Pawlak近似空間,簡稱近似
12、空間。所以,也可以將語言的所有可定義集記為。 通過,可以構(gòu)造一個(gè)代數(shù),即,它包含空集和等價(jià)關(guān)系構(gòu)成的等價(jià)類及其并,并且在交、并和補(bǔ)運(yùn)算上是封閉的。那么,Pawlak近似空間也唯一確定了一個(gè)拓?fù)淇臻g。2.3上下近似針對(duì)不可定義集,顯然不可能構(gòu)造一個(gè)公式來精確描述,只能通過上下界逼近的方式來刻畫,這就是粗糙集理論中的上下近似算子。定義2 設(shè)是信息表上的等價(jià)關(guān)系,上下近似算子(下文我們采用縮寫形式)定義為:上近似是包含的最小可定義集,下近似是包含在中的最大可定義集。根據(jù)定義2,可定義集顯然有相同的上下近似。剛才我們在可定義的基礎(chǔ)上構(gòu)造了一對(duì)近似算子。也就是說,只有當(dāng)對(duì)象不可定義時(shí),才會(huì)用上下近似的方
13、法來描述??紤]子集,論域空間將被分成三個(gè)區(qū)域:(1) 集合的正域: (2) 集合的負(fù)域: (3) 集合的邊界域: 。如果是空集,則稱集合關(guān)于關(guān)系是清晰的(crisp);反之,如果不是空集,則稱集合為關(guān)于關(guān)系粗糙的 (rough)。3. 理論研究方法經(jīng)典粗糙集理論的基本思想是基于等價(jià)關(guān)系的?;c近似的數(shù)據(jù)分析方法。粗糙集理論與應(yīng)用的核心基礎(chǔ)是從近似空間導(dǎo)出的一對(duì)近似算子,即上近似算子和下近似算子(又稱上、下近似集)。目前,主要有兩種研究方法來定義近似算子:構(gòu)造化方法和公理化方法。構(gòu)造化方法的主要思路就是通過直接使用二元關(guān)系的概念來定義粗糙集的近似算子,從而導(dǎo)出粗糙集代數(shù)系統(tǒng)。構(gòu)造化方法所研究的問
14、題往往來源于實(shí)際,所建立的模型有很強(qiáng)的應(yīng)用價(jià)值,其主要缺點(diǎn)是不易深刻體現(xiàn)近似算子的公理(代數(shù))性質(zhì)。所以,也有許多學(xué)者從公理化的角度來研究粗糙集。公理化方法也稱為代數(shù)方法,有時(shí)也稱為算子方法,這種方法不像構(gòu)造化方法中是以二元關(guān)系為基本要素的,它的基本要素是一對(duì)滿足某些公理的一元近似算子,即粗糙代數(shù)系統(tǒng)中近似算子和是事先給定的。然后再去找二元關(guān)系使得由該二元關(guān)系及其生成的近似空間按構(gòu)造性方法導(dǎo)出的近似算子恰好就是給定的由公理化方法定義的集合算子。近似算子的某些特殊公理能保證有一些特殊類型的二元關(guān)系存在,使這些關(guān)系能夠通過構(gòu)造方法產(chǎn)生給定的算子;反之,由二元關(guān)系通過構(gòu)造方法導(dǎo)出的近似算子一定滿足某
15、些公理,使這些公理通過代數(shù)方法產(chǎn)生給定的二元關(guān)系。目前,關(guān)于粗糙集理論的公理化研究,已經(jīng)取得了進(jìn)一步的成果。關(guān)于公理化的研究主要從公理組的極小化及獨(dú)立性兩方面展開研究工作。近年來,許多學(xué)者也展開了關(guān)于模糊粗糙近似算子、粗糙模糊近似算子、直覺模糊粗糙近似算子的構(gòu)造性定義及其公理集的研究;其中,關(guān)于公理集的最小化問題、獨(dú)立性問題還有待進(jìn)一步的研究。4 粗糙集模型擴(kuò)展4.1 上下近似的擴(kuò)展定義如果二元關(guān)系R 是等價(jià)關(guān)系 x R , 在近似空間(U ,R)上就得到Paw lak 的基于元素的定義 ;如果R 是等價(jià)關(guān)系 x R , 在近似空間(U , (U/R)上則有基于粒的定義 37;如果二元關(guān)系R
16、是子集(子系統(tǒng)), 在近似空間(U , (U/R)上則有基于子系統(tǒng)的定義?;谠?element based)的定義:apr(X =x x U , x R X =x x U , y U xRy , y X ,apr(X )=x x U , x R X=x x U , y U xRy y X ?;诹?g ranule based)的定義:apr(X)= x R x R (U/R), x R X ,apr(X)= x R x R (U/R), x R X。基于子系統(tǒng)(subsy stem based)的定義:apr(X)=Y Y (U/R), X Y ,apr(X)=Y Y (U/R), Y
17、X。上述3 種定義分別從元素、粒和子系統(tǒng)的角度對(duì)等價(jià)關(guān)系進(jìn)行了闡述.這3 種等價(jià)的定義給出了粗糙集理論中上下近似的不同表達(dá)方式。在基于元素的定義中, 如果一個(gè)元素x 的所有等價(jià)元素(也就是它的等價(jià)類)都在集合X 中, 則x在X 的下近似apr(X )中;如果至少有一個(gè)x 的等價(jià)元素在X 中, 則這個(gè)元素x 在X 的上近似apr(X)中.在基于粒的定義中, 所有包含于X 的等價(jià)類的并組成下近似apr(X), 所有和X 交集不為空的等價(jià)類的并組成上近似apr(X).在基于子系統(tǒng)的定義中,下近似apr(X )就是包含于X 的在子系統(tǒng)(U/R)中的那些最大可定義集, 上近似apr(X)就是那些包含X
18、的在子系統(tǒng)(U/R)中的最小可定義集.有了上下近似的定義, 就很容易得到粗糙集理論中的其它概念的定義, 比如邊界域、正域、負(fù)域等.這3 種定義為結(jié)合其它理論擴(kuò)展粗糙集模型建立起了聯(lián)系.4.2基于元素的擴(kuò)展模型設(shè)R U ×U 是論域上的一個(gè)任意二元關(guān)系,則其定義了一個(gè)擴(kuò)展的近似空間apr =(U , R).從集合的觀點(diǎn)來看, 利用非等價(jià)關(guān)系顯然可以擴(kuò)展3.1 節(jié)中基于元素的粗糙集定義.例如, 將元素x 所在的等價(jià)類 x R 看成是x 的一個(gè)鄰域, 從而得到基于鄰域的粗糙集模型 38 .鄰域關(guān)系Rs(x)只要求滿足自反性, 不要求一定滿足對(duì)稱性或者傳遞性.那么在基于元素的定義中, 將等價(jià)
19、類 x R 用非等價(jià)關(guān)系R s(x)代替, 就得到基于非等價(jià)關(guān)系R s(x)的粗糙集模型:apr(X)=x x U , Rs(x) X ,apr(X)=x x U , Rs(x) X.經(jīng)典粗糙集模型是鄰域模型中Rs(x)為等價(jià)關(guān)系時(shí)的特例.同理, 讀者也可以定義其它的非等價(jià)關(guān)系來擴(kuò)展粗糙集理論.比如, 為了處理不完備信息系統(tǒng), 已有的多種擴(kuò)展模型:容差關(guān)系、相似關(guān)系、量化容差關(guān)系、限制容差關(guān)系和特征關(guān)系等等都是利用各種非等價(jià)關(guān)系來擴(kuò)展基于元素的粗糙集定義而得到的.從算子的觀點(diǎn)來看, 粗糙集模型中的近似算子可以和模態(tài)邏輯中的必然性算子和可能性算子相聯(lián)系起來.在模態(tài)邏輯的公理化系統(tǒng)中, 如果必然性
20、算子用下近似算子L 來代替, 可能性算子用上近似算子H來代替, 非聯(lián)結(jié)符用集合補(bǔ)運(yùn)算代替, 合取聯(lián)結(jié)符 用集合交運(yùn)算 代替, 析取聯(lián)結(jié)符 用集合并運(yùn)算 代替, 蘊(yùn)涵用集合包含 代替, 那么得到的公理化系統(tǒng)就是一個(gè)粗集代數(shù)系統(tǒng).比如, 已經(jīng)有文獻(xiàn)基于模態(tài)邏輯提出分級(jí)模態(tài)粗糙集模型和概率模態(tài)粗糙集模型等。關(guān)于模態(tài)邏輯的研究成果已經(jīng)很多, 如果將模態(tài)邏輯中的研究方法與研究成果移植到粗糙集理論研究中來, 或者結(jié)合粗糙集理論來研究模態(tài)邏輯都將是新的研究方向。4.3基于粒的擴(kuò)展模型基于粒的粗糙集定義是從等價(jià)類(劃分)的角度出發(fā)來討論的.在基于Paw lak 經(jīng)典粗糙集的粒計(jì)算模型中, 劃分就是一個(gè)基本粒.
21、顯然, 如果擴(kuò)展劃分的概念, 就可以得到基于粒的擴(kuò)展粗糙集模型;同時(shí), 這也為粒計(jì)算的模型研究指明了新的研究方向.Zakow ski 在文獻(xiàn)中將劃分?jǐn)U展到了覆蓋.設(shè)C 是論域U 上的子集族, 如果C 中的所有子集都不空, 且 C =U , 則稱C 是U 的覆蓋.那么在基于粒的定義中, 用C 的子集代替 x R , 覆蓋C 代替(U/R), 就得到一對(duì)覆蓋上下近似算子:apr X =Y Y C ,Y X ;apr X =Y Y C ,Y X.另一方面, 基于這些擴(kuò)展模型的應(yīng)用研究也得到了發(fā)展, 比如覆蓋粗糙集擴(kuò)展模型應(yīng)用于詞計(jì)算、社會(huì)科學(xué)、軟件水印與軟件混淆、泛邏輯中等相關(guān)的成果已經(jīng)開始出現(xiàn).目
22、前, 基于粒的粗糙集理論擴(kuò)展主要結(jié)合了覆蓋和形式概念分析理論, 如何結(jié)合其它粒計(jì)算工具擴(kuò)展粗糙集理論將是未來的研究方向之一。4.4基于子系統(tǒng)的擴(kuò)展模型在標(biāo)準(zhǔn)的基于子系統(tǒng)的粗糙集模型中, 定義上下近似用到的是相同的子系統(tǒng).如果要擴(kuò)展基于子系統(tǒng)的定義, 我們需要兩個(gè)子系統(tǒng), 一個(gè)用于定義上近似, 一個(gè)用于定義下近似。同理, 也可以結(jié)合拓?fù)?、閉系統(tǒng)、布爾代數(shù)、格、偏序等來擴(kuò)展粗糙集理論;或者, 從其它理論出發(fā)來探討他們同粗糙集理論的關(guān)系.設(shè)計(jì)合適的子系統(tǒng)是研究的關(guān)鍵。4.5 雙論域模型在經(jīng)典Paw lak 粗糙集模型中考慮的論域通常只有一個(gè)U , 我們也可以從論域上來推廣粗糙集理論.第一次將粗糙集模
23、型推廣到了兩個(gè)不同但相關(guān)聯(lián)的論域上.設(shè)U ,V 是兩個(gè)論域, 元素u U 和v V 是相容的, 記為u U .不失一般性, 假定針對(duì)每個(gè)u U , 都有一個(gè)v V 存在, 使得他們是相關(guān)聯(lián)的, 反之亦然.那么U , V 之間的相容關(guān)系就可以用一個(gè)多值映射:U 2V 來定義, 即(u)=v V u v .為了擴(kuò)展粗糙集模型,定義了如下一對(duì)上下近似:apr (X)=u U (u) X ;apr (X)=u U (u) X.上述定義是節(jié)基于元素定義的模型推廣, 這時(shí)的二元關(guān)系就變成為兩個(gè)論域笛卡爾乘積的一個(gè)子集.進(jìn)一步研究推廣了基于雙論域的粗糙集模型, 并將其應(yīng)用于不確定性推理中,結(jié)合模糊集將該理論
24、推廣到多個(gè)論域, 其特是論域U 中的模糊集X 的上下近似是由另一個(gè)論域V中的元素來表達(dá)的.如何結(jié)合其它理論從多論域的角度來研究粗糙集理論還有待進(jìn)一步的工作。4.6 概率模型根據(jù)是否使用了統(tǒng)計(jì)信息, 粗糙集模型擴(kuò)展大致可以分為兩類:一類是經(jīng)典的代數(shù)粗糙集模型, 另一類是概率型的粗糙集模型.前述各種模型都是基于代數(shù)粗糙集模型的擴(kuò)展.概率型的粗糙集模型在粗糙隸屬度函數(shù)的基礎(chǔ)上來討論.對(duì)于任意X U , 粗糙隸屬度函數(shù)定義為X (x)= X x R x R .提出了決策粗糙集理論, 得到了X 的上下近似定義:apr, (X)=POS , (X ) BND , (X)=x x U ,P(X r(x)&g
25、t;,apr, (X)=POS , (X )=x x U ,P(X r(x).進(jìn)一步分析會(huì)發(fā)現(xiàn)許多概率型粗糙集模型可以由決策粗糙集導(dǎo)出, 它們均可以視為決策粗糙集的特例.比如, 當(dāng)=1 , =0 時(shí), 概率函數(shù)取P(X r(x)= X r(x)r(x) ,那么apr1 , 0(X)和apr1 , 0(X)將表示為apr1 , 0(X)=x x U , r(x) X ,apr1 , 0(X)=x x U , r(x) X .顯然, 如果r(x)是等價(jià)關(guān)系, 這個(gè)模型就是經(jīng)典Paw lak 粗糙集模型.指出經(jīng)典代數(shù)粗糙集模型的約簡理論不再適用于概率型粗糙集模型, 由此提出了決策粗糙集約簡所需保持不
26、變的若干特征, 并系統(tǒng)闡述了決策粗糙集約簡理論.決策粗糙集理論在網(wǎng)絡(luò)支持系統(tǒng)、屬性選擇和信息過濾中得到了應(yīng)用。更多的基于概率的模型得到發(fā)展, 比如:0.5-概率粗糙集模型、可變精度粗糙集模型(VPRS)、參數(shù)化粗糙集模型和貝葉斯粗糙集模型等.目前, 概率型粗糙集的有關(guān)研究主要有3 個(gè)重點(diǎn):(1)概率型上下近似集和正、負(fù)、邊界區(qū)域特征;(2)概率型規(guī)則的語義解釋;(3)概率型粗糙集屬性約簡理論5 粗糙集和知識(shí)空間粗糙集理論和知識(shí)空間理論都是研究知識(shí)結(jié)構(gòu)的理論;但他們用于解決不同的實(shí)際問題.粗糙集主要研究如何對(duì)數(shù)據(jù)進(jìn)行分析及知識(shí)發(fā)現(xiàn);而知識(shí)空間著重對(duì)問題集進(jìn)行分析, 從而對(duì)個(gè)體知識(shí)狀態(tài)進(jìn)行評(píng)估.如
27、何將知識(shí)空間和粗糙集理論結(jié)合正在成為一個(gè)新的研究方向.粗糙集理論和知識(shí)空間都在一個(gè)有限的論域集以及一些論域集的子集上進(jìn)行討論, 可記為(U , ),其中 2U .在粗糙集中,U 中的元素稱為對(duì)象, 中的元素稱為可定義集;對(duì)不可定義集, 我們必須通過一對(duì)可定義集合分別從上下逼近來表示.在知識(shí)空間中,U 是一組問題集, 而中的元素K 稱為個(gè)體的知識(shí)狀態(tài), 稱為知識(shí)結(jié)構(gòu).某個(gè)個(gè)體的知識(shí)狀態(tài)K 由問題間的依賴關(guān)系或者不同個(gè)體掌握不同的問題集決定.利用surmise 關(guān)系P (關(guān)系P 滿足傳遞性和自反性), 知識(shí)結(jié)構(gòu)可以定義為=K ( q , qQ, qPq, q K) q K.此定義中, 知識(shí)結(jié)構(gòu)既包
28、含空集 也包含問題集U , 并且在集合交運(yùn)算和集合并運(yùn)算下封閉.由此, 定義了一個(gè)近似空間apr =(U , ).那么, 在近似空間(U , )上, 針對(duì)問題子集X U,基于子系統(tǒng)的上下近似定義的基礎(chǔ)上有以下擴(kuò)展定義:apr(X)=K X K,apr(X)=K K X .在這個(gè)定義形式中, 知識(shí)結(jié)構(gòu)在補(bǔ)運(yùn)算中不封閉, 也就是說, 擴(kuò)展模型不滿足經(jīng)典粗糙集理論中的對(duì)偶性質(zhì)。雖然粗糙集和知識(shí)空間研究對(duì)象不同, 但從粒計(jì)算的角度來看, 它們都可看成由一些基本粒通過不同的方式構(gòu)造粒結(jié)構(gòu)的過程。6 粗糙集和粒計(jì)算粒計(jì)算是一門飛速發(fā)展的新學(xué)科.它融合了粗糙集、模糊集及人工智能等多種理論的研究成果.詞計(jì)算模
29、型、粗糙集模型和商空間模型是3 個(gè)主要的粒計(jì)算(G ranular Compuing , GrC)模型.粗糙集理論已經(jīng)成為研究粒計(jì)算的重要工具.基于粗糙集模型的粒計(jì)算, 它的粒是一個(gè)劃分,是一個(gè)特別的粒計(jì)算結(jié)構(gòu).基本知粒度的構(gòu)造和知識(shí)表示方法的拓廣, 實(shí)質(zhì)是將粗糙的商擴(kuò)展成一個(gè)拓?fù)淇臻g, 以此保證運(yùn)算的封閉性, 即用(U/R)代替U/R , 它是布爾代數(shù)(2U , , , )的一個(gè)子代數(shù), 則(U , (U/R)構(gòu)成一個(gè)拓?fù)淇臻g.近些年, 基于粗糙集理論來研究粒計(jì)算的工作尤為突出. Rough Me reo logy 方法和神經(jīng)網(wǎng)絡(luò)技術(shù), 基于知識(shí)?;枷? 提出了一個(gè)Roug h 神經(jīng)計(jì)算(
30、RNC)模型, 將粗糙集的知基(劃分塊)和神經(jīng)網(wǎng)絡(luò)相結(jié)合, 形成一種高效的神經(jīng)計(jì)算方法.關(guān)于RNC 模型的主要研究線索.利用粗糙集粒計(jì)算模型來學(xué)習(xí)分類規(guī)則, 用粒網(wǎng)格來表示學(xué)習(xí)所得的分類知識(shí), 提出了粒之間關(guān)聯(lián)性的度量公式, 通過搜索粒來歸納分類規(guī)則, 給出了構(gòu)造粒網(wǎng)格的算法.在研究Rough推理的基礎(chǔ)上,對(duì)粒邏輯進(jìn)行了探討,合粗糙集鄰域系統(tǒng)對(duì)粒計(jì)算進(jìn)行了詳細(xì)的研究, 為數(shù)據(jù)挖掘提供了新的方法和視角.兩個(gè)覆蓋生成相同覆蓋廣義粗集的判別條件、覆蓋粒計(jì)算模型的不確定性度量、基于集合論覆蓋原理的粒計(jì)算模型等也得到了研究.以容差關(guān)系為基礎(chǔ), 提出了不完備信息系統(tǒng)的粒計(jì)算方法, 使用屬性值上的容差關(guān)系給
31、出不完備信息系統(tǒng)的粒表示、粒運(yùn)算規(guī)則和粒分解算法, 同時(shí)結(jié)合粗糙集中的屬性約簡問題, 提出了不完備信息系統(tǒng)在粒表示下屬性必要性的判定。結(jié)合粗糙集理論的粒計(jì)算方法已經(jīng)在機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、規(guī)則提取、智能數(shù)據(jù)處理和粒邏輯等方面取得了一定的應(yīng)用。7基于粗糙集的應(yīng)用研究7.1 知識(shí)獲取知識(shí)獲取是發(fā)現(xiàn)存在于數(shù)據(jù)庫中有效的、新穎的、具有潛在效用的乃至最終可理解的模式的非平凡過程.粗糙集理論可支持知識(shí)獲取的多個(gè)步驟, 如數(shù)據(jù)預(yù)處理、屬性約簡、規(guī)則生成、數(shù)據(jù)依賴關(guān)系獲取等.傳統(tǒng)的基于粗糙集理論的數(shù)據(jù)預(yù)處理過程通常包括決策表補(bǔ)齊和決策表離散化.關(guān)于這方面的研究工作已經(jīng)取得一些成果。屬性約簡就是保持信息
32、系統(tǒng)分類能力不變的情況下, 約去不必要的屬性.屬性約簡在某些應(yīng)用領(lǐng)域, 又叫數(shù)據(jù)約簡、特征提取、知識(shí)約簡等.如何求屬性約簡是約簡理論研究的一個(gè)重要方面.基于粗糙集的知識(shí)約簡理論發(fā)展為數(shù)據(jù)挖掘提供了許多有效的新方法.針對(duì)協(xié)調(diào)決策表, 現(xiàn)已提出了求屬性約簡的許多算法, 如數(shù)據(jù)分析法、基于信息熵的屬性約簡算法、動(dòng)態(tài)約簡算法、增量式算法、可辨識(shí)矩陣算法等.隨著粗糙集理論研究的不斷深入, 許多學(xué)者進(jìn)一步在等價(jià)關(guān)系下, 討論了不協(xié)調(diào)決策表的多種約簡, 如廣義決策約簡、可能性約簡、動(dòng)態(tài)約簡、分布約簡、最大分布約簡、 約簡、熵約簡及近似熵約簡等.從信息論的角度進(jìn)一步研究了屬性約簡問題;并且修正了以前學(xué)術(shù)界認(rèn)為
33、基于代數(shù)觀和基于信息觀的粗糙集理論是等價(jià)的觀點(diǎn), 得到了一系列有益的結(jié)論;進(jìn)一步提出了針對(duì)協(xié)調(diào)決策表和不協(xié)調(diào)決策表的核屬性的不同計(jì)算方法。同時(shí), 討論的信息系統(tǒng)的形式也越來越多, 如連續(xù)值信息系統(tǒng)、區(qū)間值信息系統(tǒng)、模糊值信息系統(tǒng)、集值信息系統(tǒng)等, 并且相應(yīng)系統(tǒng)的約簡理論也得到了發(fā)展。另一方面, 隨著概念格、偏序集等理論與粗糙集理論的結(jié)合, 基于概念格的約簡方法、廣義協(xié)調(diào)決策形式背景知識(shí)約簡方法、偏序關(guān)系下的決策形式背景規(guī)則提取與屬性約簡、對(duì)象概念格的屬性約簡方法、基于用戶偏好的屬性約簡、屬性序下的快速約簡算法、權(quán)值約簡、基于群體智能算法的屬性方法等新方法也大量涌現(xiàn).比如, 文獻(xiàn)結(jié)合高斯消去法通
34、過矩陣運(yùn)算直接得到屬性約簡, 為屬性約簡研究提供了新思路.文獻(xiàn)對(duì)各種約簡研究方法作了總結(jié):從算法結(jié)構(gòu)的層次來說, 常見的約簡策略有3 種:刪除法、增加法、加刪法;而各個(gè)約簡方法的不同體現(xiàn)在各自的啟發(fā)式策略的不同上。7.2知識(shí)的不確定性度量隨著粗糙集理論的研究深入, 一種新的不確定性粗糙性正逐漸被人們認(rèn)識(shí)和接受.至今, 人們已經(jīng)研究分析了3 種不同的不確定性:隨機(jī)性, 即隨機(jī)現(xiàn)象的不確定;模糊性, 即模糊概念的不確定性;粗糙性, 即信息系統(tǒng)中知識(shí)和概念的不確定性.處理知識(shí)的不確定性的方法往往用香農(nóng)(Shannon)信息熵來刻畫, 知識(shí)的粗糙性與信息熵的關(guān)系比較密切, 知識(shí)的粗糙性實(shí)質(zhì)上是其所含信
35、息多少的更深層次的刻畫.不少學(xué)者結(jié)合信息論做了研究工作:運(yùn)用Shannon 熵對(duì)粗糙集理論中的規(guī)則進(jìn)行度量、基于信息熵的知識(shí)約簡算法、度量粗糙集和粗糙分類的模糊性、不完備系統(tǒng)中的熵度量等.信息熵和知識(shí)粒度從兩個(gè)不同的角度研究了信息系統(tǒng)的不確定性度量.信息系統(tǒng)的信息熵越大, 系統(tǒng)的不確定性越大;而信息系統(tǒng)的知識(shí)粒度越大, 系統(tǒng)的不確定性越大.所以, 結(jié)合粒計(jì)算來研究不確定性度量正在成為新的研究熱點(diǎn)。尋求適的度量來刻畫知識(shí)的不確定性是粗糙集理論研究的一個(gè)重要方向.在粗糙集理論與其它處理模糊性或不確定性方法的理論研究中, 主要集中在它與概率統(tǒng)計(jì)、模糊數(shù)學(xué)、D-S 證據(jù)理論和信息論等的相互滲透與補(bǔ)充.7.3 面向領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘簡而言之, 數(shù)據(jù)挖掘的目的就是從數(shù)據(jù)中挖掘出知識(shí).在機(jī)器學(xué)習(xí)的許多方法中, 我們往往依賴于一些先驗(yàn)知識(shí), 比如:貝葉斯概率方法依賴于先驗(yàn)概率;模糊集理論依賴于成員隸屬度函數(shù);多專家決策系統(tǒng)依賴于專家的權(quán)值屬性.毫無疑問地, 依靠這些先驗(yàn)知識(shí)的幫助我們成功地解決了許多問題
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025沈陽商鋪?zhàn)赓U合同樣本
- 2025新版工程咨詢合同
- 商業(yè)檔案管理培訓(xùn)
- 推動(dòng)數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展的策略與路徑
- 天然林保護(hù)修復(fù)行動(dòng)方案
- 探索創(chuàng)新路徑推動(dòng)研究生培養(yǎng)新模式的實(shí)踐與策略
- 水廠建設(shè)項(xiàng)目未來發(fā)展?jié)摿Ψ治鰣?bào)告
- 全球化趨勢下的跨境電商商業(yè)計(jì)劃書
- 聚醚醚酮行業(yè)發(fā)展趨勢與市場前景洞察
- 光電類專業(yè)復(fù)合型創(chuàng)新人才培養(yǎng)策略與實(shí)踐探索
- 企業(yè)中層管理培訓(xùn)課件
- 貴州省2025年4月高三年級(jí)適應(yīng)性考試英語試卷(含答案)
- 山東省濟(jì)南市2025年3月高三模擬考試英語試題及答案
- 高中地理人文素養(yǎng)評(píng)估試題及答案
- 2025年鶴壁汽車工程職業(yè)學(xué)院單招職業(yè)技能考試題庫匯編
- 學(xué)校食堂管理工作資料匯編
- 《基于Retinex算法的圖像去霧的MATLAB仿真研究》8800字(論文)
- 瀝青路面施工中的質(zhì)量控制與驗(yàn)收標(biāo)準(zhǔn)(2025年版)
- 美妝護(hù)膚知識(shí)培訓(xùn)課件
- 2024年腎內(nèi)科工作總結(jié)
- 名師小課堂同步精練英語三年級(jí)下冊(配粵教滬外教版)課件 期末綜合素養(yǎng)測試卷
評(píng)論
0/150
提交評(píng)論