版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
KDD過程并未有效的利用領(lǐng)域知識(shí),所謂領(lǐng)域知識(shí)是數(shù)據(jù)庫(kù)中沒有明確的信息。計(jì)算機(jī)中它表現(xiàn)的結(jié)構(gòu)主要有比較簡(jiǎn)單的樹型結(jié)構(gòu),以及更為接近現(xiàn)實(shí)本系統(tǒng)用VC++6.0,設(shè)計(jì)系統(tǒng)界面,采用SQLServer2000做數(shù)據(jù)庫(kù),實(shí)現(xiàn)了基于SQLServer2000的使用。Recentyears,thetechniqueofdatabasehasbeencomingtomaturity.Andthescaleofdatabaseismoreandmoreswee.Peoplehavenofullabilitytoyzedatainthesedatabases.Meanwhileitisneededtodiscoverusefulinformationfromthem.Inthiscase,KDD(shortforknowledgediscoveryindatabases)hasbeendeveloped.Inthefieldofengineering,asthemainprocessofKDD,DM(shortfordatamining)isthenontrivialextractionofimplicit,previouslyunknown,andpotentiallyusefulinformationfromdata.Atthesametime,itcandopeoutthetrendofthedevelopmentofdata.Unfortunay,atpresentknowledgehasn’tbeenusedeffectivelywhenpeopledoKDD.Soknowledgeisimplicitindatabases.ButitcanmaketheprocessofKDDclear,andlusefulinformationfromtrashy.Incomputer,itcanbestoredasthestructureoftreewhichissimple,andtheotherapproachisstoreitasgraphwhichismorecomplexbutmuchnearertofact.ThispaperismainlytostudythealgorithmofAOIinwhichknowledgeexistedisusedtogeneralizetheoriginaldataindatabases.Duringitwewilldiscoveraserialofrules,suchascharacteristicrule,classificationrule,discriminantrule,tyruleandsoon.Duringthedesign,VC++6.0wasusedasthedeveloenvironmentwiththeprogramlanguageofC++todesignthesysteminterface.Astothedatabasemanagement,SQLServer2000wasadoptedtomanagedataandrelationsamongthem.Intheprogram,itisrealizedthatAOIalgorithmbasedonknowledgeoftree.Theprogramistodiscoversomeimplicitandusefulrulesfromoriginaldata.ItmakesmelearnmoreconceptsaboutAOIsuchasdatageneralization,attributeremoval,attributegeneralization,knowledge,thresholdcontroletc.ItalsomakesmebemorefamiliarwiththeusageofVC++6.0and:datamining,knowledge,concepthierarchy,datageneralization, 摘要領(lǐng)域知識(shí)在數(shù)據(jù)挖掘中的應(yīng)用及實(shí) 前言第一章緒論本課題的研究背景及意義知識(shí)發(fā)現(xiàn)過程知識(shí)發(fā)現(xiàn)過程數(shù)據(jù)挖掘數(shù)據(jù)挖掘常用技術(shù)數(shù)據(jù)挖掘?qū)嶋H應(yīng)用數(shù)據(jù)挖掘的發(fā)展與現(xiàn)狀領(lǐng)域知識(shí)的定義開發(fā)工具及環(huán)境簡(jiǎn)介VisualC++6.0 本文的組織結(jié) 第二章領(lǐng)域知識(shí)的基本理 數(shù)據(jù)歸納法介 數(shù)據(jù)立方體 面向?qū)傩詺w納法面向?qū)傩詺w法概念面向?qū)傩詺w納的一般過程基于領(lǐng)域知識(shí)的面向?qū)傩詺w納 AOIAOI基于多屬性概化圖AOI算法All_Gen算法介 AOI思想方法講解及其實(shí)現(xiàn)構(gòu)想屬性刪除(attributeremoval)屬性概化(attributegeneralization)閾值控制閾值控制系統(tǒng)實(shí)現(xiàn)構(gòu) 第三章系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)說 程序的總體目 程序模塊流程圖系統(tǒng)模塊劃分?jǐn)?shù)據(jù)處理模 屬性刪除屬性概化元組合并領(lǐng)域知識(shí)添加數(shù)據(jù)輸出模 數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)庫(kù)設(shè) 第四章系統(tǒng)使用方法簡(jiǎn)介使用方法說明相關(guān)第五章系統(tǒng)運(yùn)試結(jié)果系統(tǒng)測(cè)試原理及方法簡(jiǎn)介數(shù)據(jù)來源數(shù)據(jù)處理及運(yùn)行結(jié)果第六章課題研究結(jié)論及工作展望工作總結(jié)工作展望謝辭主要參考文獻(xiàn)附錄主要源代碼20世紀(jì)60年代以來,隨著數(shù)據(jù)庫(kù)技術(shù)和的成熟及其應(yīng)用的普及,人類積累需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息。數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabasesKDD)是近年來隨著數(shù)據(jù)庫(kù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一個(gè)新興的研究領(lǐng)域,是以數(shù)據(jù)挖掘任務(wù)為的發(fā)現(xiàn)新信息的認(rèn)知過程。它主要是利用機(jī)器值的知識(shí)、規(guī)則或次的信息就能從數(shù)據(jù)庫(kù)的相關(guān)數(shù)據(jù)集合中抽取出來,并從不同在現(xiàn)有領(lǐng)域知識(shí)的應(yīng)用中,Han首先提出了面向?qū)傩缘膶哟翁嵘龁栴}即面向?qū)傩詺w納法(Attribute-OrientedInductionAOI),它是以領(lǐng)域知識(shí)為背景對(duì)原始數(shù)據(jù)的屬性樹和圖兩種不同的領(lǐng)域知識(shí)。AOI的關(guān)鍵技術(shù)和重要特征就是利用概念層次(即領(lǐng)域示的領(lǐng)域知識(shí)對(duì)關(guān)系數(shù)據(jù)庫(kù)中的屬性值進(jìn)行概化操作,或者提升為更次的概念,關(guān)知識(shí),以及開發(fā)工具的相關(guān)介紹,最后介紹本次設(shè)計(jì)的組織結(jié)構(gòu)和各章節(jié)的安知識(shí)發(fā)現(xiàn)(KDD)thenontrivialprocessofidentifyingvalid,data,[14]從大量數(shù)據(jù)中提取出有效的、新穎的、有潛在作用的、可信的、并能最終理解的1.1KDD1.1表示。知識(shí)發(fā)現(xiàn)過程數(shù)據(jù)挖1.1可以看到,數(shù)據(jù)挖掘(DM)KDDKDD(patterns要類型、傳統(tǒng)導(dǎo)向系統(tǒng)、傳統(tǒng)統(tǒng)計(jì)分析、神經(jīng)元網(wǎng)絡(luò)(NN)技術(shù)、決策樹、進(jìn)programmingreasoningalgorithmsDM中的數(shù)據(jù)是指數(shù)據(jù)庫(kù)中表格形式中的記錄和條目,這種data結(jié)構(gòu)型數(shù)據(jù)將是存貯方面占支配地位的數(shù)據(jù)形式。到1998年初,在internet上的信息網(wǎng)頁(yè)數(shù),已超過5億。隨著internet的擴(kuò)展和大量文本的出現(xiàn),將標(biāo)志這巨大而有效地檢索到關(guān)心的信息,這將是一個(gè)非常引人入勝的研究領(lǐng)域。目前,基于這類數(shù)據(jù)中的有用的信息,尚需要更次的技術(shù)支持,人工智能領(lǐng)域有關(guān)知識(shí)表示還可能要涉及到語言學(xué)心理學(xué)等領(lǐng)域。最近已出現(xiàn)針對(duì)文本的DM工具的報(bào)導(dǎo)。如IBM公司的texminer,netquestion,wedcawler和megaputer公司的textyst等。方面、在客戶關(guān)系管理方面、在零售業(yè)/市場(chǎng)方面:、在過程控制/質(zhì)量監(jiān)督保證方面、在通訊部門、化學(xué)/制藥行業(yè)、軍事方面。隨著KDD在學(xué)術(shù)界和工業(yè)界的影響越來越大,國(guó)際KDD于1995年把專題討論會(huì)更名為國(guó)際會(huì)議,在蒙特利爾市召開了第一屆KDD會(huì)議,以展,如近年來注重對(duì)Bayes()方法以及Boosting方法的研究和提高;傳統(tǒng)的KDD中的應(yīng)用;KDD與數(shù)據(jù)庫(kù)的緊密結(jié)合。在應(yīng)用方面包括:KDD用戶主要集中在大型銀行、公司、電信公司和銷售業(yè)。國(guó)外很多計(jì)算機(jī)公司非常重視數(shù)據(jù)挖掘的開發(fā)應(yīng)用,IBM和微軟都成立了相應(yīng)的進(jìn)行這方面的工作,此外,一些公司的相關(guān)軟件也開始在國(guó)內(nèi)銷售,如tinum、BO以及IBM。國(guó)內(nèi)從事數(shù)據(jù)挖掘研究的人員主要在大學(xué),也有部分在或公司。所涉及的研究方面的研究目前進(jìn)行的大多數(shù)研究項(xiàng)目是由資助進(jìn)行的如國(guó)家自然科學(xué)基金、863計(jì)劃、"九五"計(jì)劃等,但還沒有關(guān)于國(guó)內(nèi)數(shù)據(jù)挖掘產(chǎn)品的。和深入。盡管如此,數(shù)據(jù)挖掘技術(shù)仍然著許多問題和:如數(shù)據(jù)挖掘方法的效網(wǎng)絡(luò)與分布式環(huán)境下的數(shù)據(jù)挖掘等;另外,近年來多數(shù)據(jù)庫(kù)發(fā)展很快,面向多媒“additionalknowledgeareoftenusedtoguideandconstrainthesearchforinterestingknowledge.Werefertothisformofinformationasknowledgeorbackgroundknowledge.”[2,4]即在知識(shí)發(fā)現(xiàn)系統(tǒng)中,把加入的那些有關(guān)引導(dǎo)和限制搜索感知“Wedefineknowledgetomeaninformationabouttheimportanttopicsorconceptsinaparticularandhowtheyrelatetoeachother.”[7]即將領(lǐng)域知識(shí)定義為一個(gè)?!皁rbackgroundknowledgecanbedefinedasanyinformationthatisnotexplicitlypresentedinthedatabase.”[5,6]即領(lǐng)域知識(shí)被定義為在數(shù)據(jù)庫(kù)中沒有明確表達(dá)的信息這一節(jié)簡(jiǎn)要介紹本次畢業(yè)設(shè)計(jì)過程中所用的開發(fā)工具:VisualC++6.0和SQLVisualC++6.0是微軟公司推出的可視化開發(fā)環(huán)境,是計(jì)算機(jī)界公認(rèn)的優(yōu)秀的應(yīng)用程序開發(fā)工具之一,它不僅提供了控制臺(tái)應(yīng)用程序用來學(xué)習(xí)和掌握C++的內(nèi)容,而且提供“可視的資源編輯器與MFC類以及應(yīng)用程序向?qū)Р榭焖俑咝У拈_發(fā)出Windows應(yīng)用程序提供了極大的方便。MFC是微軟基于Windows平臺(tái)下的C++類庫(kù)集,是在Windows操作系統(tǒng)中編程的一個(gè)應(yīng)用程序框架,它極大的方便了開發(fā)出C++的集成開發(fā)環(huán)境DeveloperStudio提供了大量的實(shí)用工具以支持可視化編程特性, ponentGallery等,DeveloperStudio采用標(biāo)準(zhǔn)的多窗口Windows用戶界面,并增加了一些新特性,使得開發(fā)環(huán)境更易于使用,用戶很容易學(xué)會(huì)它的使用方法。事實(shí)上,還可以利用VisualC++6.0進(jìn)行Internet、數(shù)據(jù)庫(kù)及多方面程序的開發(fā)。本次課程設(shè)計(jì)主要用它作為系統(tǒng)的開發(fā)環(huán)境,使用了MFC編程技術(shù)來簡(jiǎn)化系統(tǒng)介面的設(shè)計(jì)。SQLIBMSanJoseSQL由這里開發(fā)出來最初它們被稱為結(jié)構(gòu)化查詢語言StructuredQueryLanguage并常常簡(jiǎn)稱為sequelIBMDB2RDBMS型數(shù)據(jù)庫(kù)管理系統(tǒng)而開發(fā)的您在今天仍可以買到在不同平臺(tái)下運(yùn)行的該系統(tǒng)事實(shí)上是SQL造就了RDBMS它是一種非過程語言與第三代過程語言如C和COBOL產(chǎn)生于同一時(shí)代.。SQLServer2000是公司推出的SQLServer數(shù)據(jù)庫(kù)管理系統(tǒng)的版本該版本繼承了SQLServer7.0便可伸縮性好與相關(guān)軟件集成程度高等優(yōu)點(diǎn)可從運(yùn)行Windows98的膝上型電腦到運(yùn)行Windows2000的大型多處理器的服務(wù)器等多種平臺(tái)使用,SQLServer2000是用來建立和管理數(shù)據(jù)庫(kù)的引擎。SQLServer2000不僅可以實(shí)現(xiàn)個(gè)人數(shù)據(jù)庫(kù)的管理,更適合于企業(yè)級(jí)的數(shù)據(jù)庫(kù)應(yīng)用。SQLServer2000為數(shù)據(jù)庫(kù)管理員提供的就是該數(shù)據(jù)庫(kù)作為的數(shù)據(jù)庫(kù)管理工具。法介紹,系統(tǒng)運(yùn)試結(jié)果以及課題總結(jié)等六章組成。識(shí)發(fā)現(xiàn)過程,知識(shí)發(fā)現(xiàn)-數(shù)據(jù)挖掘,數(shù)據(jù)挖掘中常用技術(shù),數(shù)據(jù)挖掘?qū)嶋H應(yīng)用。AOI算法,因此著重介紹了面向?qū)傩詺w納法的相關(guān)概念以及其算法。相關(guān)概念包括數(shù)據(jù)概化,屬性刪除,第五章以一個(gè)典型的大學(xué)數(shù)據(jù)學(xué)生為數(shù)據(jù)來源,通過系統(tǒng)對(duì)該數(shù)據(jù)的分析及運(yùn)行AOI算法AOI常把概念層次的不同層組織成一種概念拓?fù)浣Y(jié)構(gòu)。這種概念拓?fù)浣Y(jié)構(gòu)根據(jù)“一般-至-念層次中最高度特化的概念,在概念層次樹中它表現(xiàn)為葉子結(jié)點(diǎn)。圖2.1和圖2.2是{freshman,sophomore,junior,senior}{M.S.,M.A.,Ph.D.}2.12.1為一個(gè)典型的大學(xué)數(shù)據(jù)庫(kù)的概念層次表示。其中,ABBA 圖2.2樹型概念層 freshmansophomorejunior M.A.M.S.一般而言數(shù)據(jù)庫(kù)里存放的數(shù)據(jù)通常都是在原始概念等級(jí)的細(xì)部信息在層次概念中表現(xiàn)為葉子結(jié)點(diǎn),例如,在一個(gè)銷售數(shù)據(jù)庫(kù)中會(huì)有產(chǎn)品名稱、品牌、類別、供貨商、產(chǎn)地及價(jià)格等等若能把其歸納至較一般化的層級(jí)即層次概念中的非葉子結(jié)點(diǎn)。比如若圣誕節(jié)的熱門商品的一般化特征找出來這對(duì)銷售及行銷經(jīng)理人將會(huì)有很大的幫助要達(dá)成這個(gè)任務(wù)就需要用到數(shù)據(jù)挖掘里的一個(gè)重要功能——數(shù)據(jù)歸納數(shù)據(jù)歸納主要有兩種方法(1)數(shù)據(jù)立方體(taubepproh)(2)面向?qū)傩詺w納法(ttribut-ientdIndution pproh)。數(shù)據(jù)立方體有許多其它的名稱,例如:多重維度數(shù)據(jù)庫(kù)(MultidimensionalDatabases)、具體化景觀(MaterializedViews)、分析處理(OLAP,On-LineyticalProcessing)?;坝^在一個(gè)多重維度數(shù)據(jù)庫(kù)(數(shù)據(jù)方塊),可供決策支持、知識(shí)發(fā)現(xiàn)及其它應(yīng)用S維
upRS維(
S維( R維(圖2.3數(shù)據(jù)立方 N維度歸納,0維度資料方塊是一個(gè)點(diǎn);122.3圖所示。面向?qū)傩詺w納法是一種以歸納為基礎(chǔ)的數(shù)據(jù)分析技術(shù),其技術(shù)在于數(shù)據(jù)歸納方法,對(duì)于關(guān)系數(shù)據(jù)集合(RelationalDataset)中的每一個(gè)屬性,檢查其分布,判斷應(yīng)歸納到那的概念層次(ConceptHierarchy)不止只有一種分類法的時(shí)候,又提出多屬性歸納圖(ulti-ttributenrlitionrph)在結(jié)構(gòu)上概念層次通常表現(xiàn)為樹或圖的形式這里只對(duì)樹型進(jìn)行討論,在其中所有結(jié)點(diǎn)稱作概念。它們有不用的分類,一個(gè)概念層次有“一般-至-特殊”(nrl-to-Spific)的順序性,最一般化的概念(概念樹的根結(jié)點(diǎn)),是以“”(概念樹的葉子結(jié)點(diǎn))術(shù)包括屬性刪除(Attribute-Removal、屬性概化也叫概念樹爬升(Concept-TreeClimbing、屬性閾值控制(Attribute-ThresholdControl)等。層次的概念,則該屬性值就以其更級(jí)的值來取代。屬性概化后,若產(chǎn)生相同的元組,則將相同的元組合并為一組一般化元組,并將相同元組個(gè)數(shù)的vote值累加后ANY“AOIAOI輸入:(i)DB;(ii)DMQuery;(iii)a_list(包含屬性ai);(iv)屬性ai上的概念分層或概化操作符的集合gen(ai);(v)每個(gè)屬性ai的概化閾值輸出:主概化關(guān)系P。//工作關(guān)系W//掃描W,收集每個(gè)屬性ai的不同值。(注意:如果W很大,可以通過W的樣刪除則計(jì)算它的最小期望層次Li,并確定映射對(duì)(v,v’)其中v是W中ai的步同值,而v’是其在層Li上的概化值。通過用其在映射中對(duì)應(yīng)的發(fā)v’替換W中的每個(gè)值v,累計(jì)計(jì)數(shù)并計(jì)算所有的值,導(dǎo)出主概化關(guān)系P。PP中,則簡(jiǎn)單地增加它地計(jì)算值并響應(yīng)地處理其他值;否則,將它插入P。mP存放對(duì)應(yīng)的計(jì)數(shù)和其他值(如果有的話)。概化元組的插入通對(duì)應(yīng)的數(shù)組元素上的度量進(jìn)行。AOI算法All_Gennn2.3n算法,建立了該sniiiki1是in(rtion,1,,∽),其中rlatio(關(guān)系)是概1nS。nnn個(gè)Gsm個(gè)屬性的n(n),(nim1|i|),iGi的結(jié)點(diǎn)的數(shù)目。procedurefork=1to|Di|doifk>1gen_relationGeneralize(relation,gen_ifi<mOutput(gen_relation,圖 多屬性概化算AOI通過任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù),進(jìn)行面向?qū)傩詺w納,或者通過屬性刪除,或者通過屬性概化進(jìn)行。通過合并相等的廣義元組,并累計(jì)它們的計(jì)數(shù)屬性刪除(attribute屬性概化(attributeclimbing(取值范圍一般為2到8對(duì)概化關(guān)系閾值控制,數(shù)據(jù)挖掘也可以預(yù)先設(shè)定(1030AB本章最后簡(jiǎn)單對(duì)比下本文中提到的兩種算法,前面提到的AOI是針對(duì)樹型領(lǐng)域知識(shí)All_Gen算法它是針對(duì)多屬性概化圖的面向?qū)傩詺w納法,AOI一致,但它在概化過程中必須涉及路徑選擇問題,而不可避免的要涉及度衡量的問題?;跇湫皖I(lǐng)域知識(shí)的AOI算法,實(shí)現(xiàn)起來比較納法的發(fā)展方向,但系統(tǒng)實(shí)現(xiàn)起來也比較。I個(gè)元給增加一個(gè)vote22序流程圖,模塊劃分及實(shí)現(xiàn)過程中不同模塊解決方案,及數(shù)據(jù)的。本次設(shè)計(jì)是在Windows環(huán)境下采用公司的VisualC++6.0實(shí)現(xiàn)程序界面以程序模塊流程VC環(huán)境下采用3.1數(shù)據(jù)塊數(shù)據(jù)塊初始導(dǎo)入結(jié)果屬性數(shù)據(jù)程序開程序開vote選擇操作對(duì)第對(duì)第i刪除用概念層次表中它的后繼錄轉(zhuǎn)化成規(guī)則輸出將替換后的一維數(shù)組回寫到表格中,統(tǒng)計(jì)其中相同元組數(shù)目錄轉(zhuǎn)化成規(guī)則輸出將替換后的一維數(shù)組回寫到表格中,統(tǒng)計(jì)其中相同元組數(shù)目3.1OBDC數(shù)據(jù)庫(kù)連接技術(shù),連接ADOCDataGrid控件來完成原始數(shù)據(jù)的顯示。AOI算法的主體部分,具體包括如下分模塊:數(shù)據(jù)預(yù)處理、屬性刪除、屬性概化、個(gè)元組添加一個(gè)記錄元組數(shù)目的vote值初始值為1,在后續(xù)的操作中vote的值會(huì)隨相本模塊是面向?qū)傩詺w納法的部分,真正體現(xiàn)沿概念樹爬升這個(gè)過程。它是反復(fù)用控制屬性閾值,具體實(shí)現(xiàn)上把經(jīng)過屬性刪除的數(shù)據(jù)各屬性分別到一維字符串?dāng)?shù)組vote中作為一條記錄。經(jīng)過這步數(shù)據(jù)表中已經(jīng)沒有相同元組,并統(tǒng)計(jì)出元組個(gè)數(shù),來說不一定有好的領(lǐng)域知識(shí),所以系統(tǒng)使用者可以通過對(duì)數(shù)據(jù)庫(kù)的學(xué)習(xí)自己提取出相關(guān)的領(lǐng)域知識(shí),然后以表格的形式到數(shù)據(jù)庫(kù)中,以備數(shù)據(jù)概化使用。數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)在計(jì)算機(jī)中的形式,采用適當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)可以節(jié)省內(nèi)存空間,還AOI時(shí)候,涉及到廣義元組,故采用字符串?dāng)?shù)組作為主要的結(jié)構(gòu)。接收進(jìn)來以及即將輸出的數(shù)據(jù)表均在二維字符串?dāng)?shù)組中。中間運(yùn)算所需要的還有一維字符串?dāng)?shù)組,如:概化過程每個(gè)屬性值的和字符串,字符串主要是用于對(duì)數(shù)據(jù)庫(kù)的各項(xiàng)操作,對(duì)于所完成的系統(tǒng),設(shè)計(jì)數(shù)據(jù)庫(kù)只涉及到兩個(gè)原始數(shù)據(jù)表,一個(gè)是用于要進(jìn)行概化數(shù)據(jù)的數(shù)據(jù)表,另一個(gè)是概化的依據(jù)領(lǐng)域知識(shí)的。當(dāng)然在程序運(yùn)行過程中為了 用方法說明以及系統(tǒng)在使用過程中的相關(guān)。4.14.1閾值確定菜單是針對(duì)屬性刪除的控制屬性閾值以確定那些屬性在下一步操作過程中作。4.24.2SOLserver2000下進(jìn)行直接操作,4.3便合并元組時(shí)使用,對(duì)于各個(gè)屬性是否要保留提供了屬性閾值然后可以選擇輸入不同的屬性進(jìn)行判斷,屬性判斷會(huì)“已有概化字段表”以判斷各個(gè)屬性是否可以4.4graduate”和“undergraduate4.7是領(lǐng)域知識(shí)添加模塊,主要提供顯示已有領(lǐng)域知識(shí),也可以由用戶往數(shù)據(jù)庫(kù)中“Major相關(guān)在系統(tǒng)運(yùn)行過程中,用戶可以各個(gè)過程,而沒有必要按照AOI算法的各個(gè)步SOLserver2000第五章系統(tǒng)運(yùn)試結(jié)本章使用一組數(shù)據(jù)對(duì)系統(tǒng)進(jìn)試,驗(yàn)證算法。主要內(nèi)容有測(cè)試方法的簡(jiǎn)單介紹,數(shù)在軟件工程領(lǐng)域,測(cè)試主要分為兩種:黑盒和白盒兩種兩種方法VisualC++6.0,SQLServer2000數(shù)據(jù)庫(kù);數(shù)據(jù)來源于參考文獻(xiàn)CaiY.,CerconeN.,JAttribute-orientedinductioninrelationaldatabases.In:Piatetsky-Shapiro,FrawleyW.J.eds.KnowledgeDiscoveryinDatabases.MenloPark,California:AAAIPress/TheMITPress,1991,213-228.。本次測(cè)試主要是先在SQLServer2000下建立數(shù)據(jù)庫(kù),輸入大學(xué)學(xué)5.1圖5.2概念層次圖5.1和5.2是本次測(cè)試的數(shù)據(jù)來源,5.1是典型的大學(xué)數(shù)據(jù)庫(kù),5.2是成表格的5.25.3vote1,同時(shí)選擇數(shù)據(jù)操作集graduate。2graduate由于其經(jīng)過初始化和屬性刪除可以進(jìn)行下一步操。5.545.55.5所5.6從圖5.5和圖5.6可以看出對(duì)于任意一個(gè)他的major是iene并且irth_是nda,則他的GA一定為xllnt5.6還顯示了一條量化規(guī)則,對(duì)于任意一個(gè)它有50%的可能是major為ienc,irth_e為nd,并且GA為xllnt,另外的50%可能是這樣的情況,major為ienc,irth_e為forign,并且A為good。5undergraduate進(jìn)行面向?qū)傩詺w納,提取出特征規(guī)則和量化規(guī)則。此外,graduate得出的結(jié)果作為目標(biāo)類,undergraduate得出的結(jié)果作為對(duì)比類,提5.7所示。5.7目標(biāo)類graduate和對(duì)比類從圖5.7的兩個(gè)表中,可以得到量化和區(qū)別規(guī)則,如圖5.8,即對(duì)于一個(gè)學(xué)生如果他主修science,出生在Canada,而且GPA是excellent,則他有60%的可能性是graduate,如果一個(gè)學(xué)生他主修science,出生在foreignGPA是good,則他一定是graduate,以上兩條規(guī)則是目標(biāo)類graduate和對(duì)比類undergraduate比較出來的量化規(guī)則,因此叫做5.8Visual++6.0SQLServer2000,C++編程語言和SQLVC中關(guān)于數(shù)據(jù)庫(kù)的使用方法,一步驗(yàn)證。利用面向?qū)傩詺w納法還可以提取的規(guī)則,如數(shù)據(jù)演化規(guī)律性、區(qū)別規(guī)入、在計(jì)算機(jī)中如何、概化過程中如何對(duì)多個(gè)概念進(jìn)行取舍而且不得不考慮AOI希望能用自己的所學(xué)為IT的發(fā)展盡我綿薄的力量!歷時(shí)兩個(gè)月的畢業(yè)設(shè)計(jì)終于告以段落,在結(jié)稿之際對(duì)我的指導(dǎo)老師老師致以衷心的感謝!貫穿整個(gè)畢業(yè)設(shè)計(jì)和寫作過程中,她給予我熱心、細(xì)心、耐心的指導(dǎo)。她積極、樂觀的生活態(tài)度,嚴(yán)謹(jǐn)、務(wù)實(shí)的治學(xué)作風(fēng)深深的了我。讓我最了解到要做什么以及怎么去做給我指明了方向在設(shè)計(jì)過程中我遇到了不少的, H.J.Hamiltin,R.J.Hamilton.andN.Cercone.Attribute-orientedinductionusinggeneralizationgraphs[C].InproceedingsoftheEighthIEEEInternationalConferenceonToolswithArtificialInligence(ICTAI'96),pages.246-253,Toulouse,France,NovemberJiaweiHan,Micheline,Kamber.DataMining-conceptsandtechniques,HighEducationPress.MorganKaufmanPublishers,2001.CaiY.,CerconeN.,HanJ.Attribute-orientedinductioninrelationaldatabases.In:Piatetsky-Shapiro,FrawleyW.J.eds.KnowledgeDiscoveryinDatabases[C].MenloPark,California:AAAIPress/TheMITPress.1991,213-228.W.J.Frawley,G.Piatetsky-Shapiro,C.J.Matheus,KnowledgeDiscoveryinDatabase:AnOverview.In:G.Piatetsky-Shapiro,W.J.Frawley,eds.KnowledgeDiscoveryinDatabases.MenloPark,California:AAAIPress/TheMITPress,1991,pp.1-27.O.,M.MehdiOwrang,Grupe,FritzH.UsingKnowledgetoGuideDatabaseO.,M.MehdiOwrang.OptimizationofKnowledgeDiscoveryProcessUsingKnowledge.In ligentInformationSystems,1997.IIS'97.Proceedings,8-10Dec.1997,pp.428-主編和,編著《VisualC++實(shí)用電子工業(yè),2001。珊等編著《C++程序設(shè)計(jì)》機(jī)械工業(yè)周玉龍劉璟著《高級(jí)語言C++程序設(shè)計(jì)編程范例與精解高等教育2003KonradKing著杜等譯《SQL編程實(shí)用大全(美中國(guó)水利水電20031編著《SQLServer2000OLAP解決方案-數(shù)據(jù)倉(cāng)庫(kù)與ysisServices》清華大學(xué),2001。 AlexAnderJ.Ryba著《數(shù)據(jù)結(jié)構(gòu)與程序設(shè)計(jì)高等教育JiaweiHan,MichelineKamber著等譯《數(shù)據(jù)挖掘概念與技術(shù)(加)機(jī)械工業(yè),2004。,,,王國(guó)仁.一種面向數(shù)據(jù)挖掘預(yù)處理過程的領(lǐng)域知識(shí)的分類及表示.小型微型計(jì)算機(jī)系統(tǒng).20035月,pp.863-868.void{int intm;intn=0;intk=1;intkk=1;intm;CStringArraystrTemp;CStringArraystrTemp1;CStringArraystrMajor;CStringArraystrBirth_P;CStringtest;CStringCStringCDatabase
CStringCRecordsetselect_student(&db);CRecordsetrs(&db);//=========================GAPrs.Open(CRecordset::dynaset,_T("select*fromselect_student"));shortc=rs.GetODBCFieldCount();{CStringsql08("altertable select_studentdropcolumnGPA1");}CStringsql09("altertableselect_studentaddGPA1varchar(30)");CStringsql10("update select_studentsetGPA1='poor'whereGPA<=1.99");CStringsql11("update select_studentsetGPA1='average'whereGPA>1.99andCStringsql12("update select_studentsetGPA1='good'whereGPA>2.99andCStringsql13("update select_studentsetGPA1='excellent'whereGPA >3.49");AfxMessageBox("2--8之間的數(shù)//{AfxMessage
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年溫室大棚施工與智能化溫室設(shè)施維護(hù)保養(yǎng)合同3篇
- 二零二五版朝陽(yáng)區(qū)校園保安服務(wù)與校園食品安全合同3篇
- 2025年度高端健身器材租賃服務(wù)合同3篇
- 2025年度消防報(bào)警系統(tǒng)安裝及調(diào)試服務(wù)合同范本6篇
- 2025年度新型環(huán)保材料銷售代理合作協(xié)議4篇
- 二零二五年度抹灰工程施工安全防護(hù)合同4篇
- 工程保證金合同(2篇)
- 土工施工方案
- 2025年度新能源汽車電池殼體模具研發(fā)制造合同4篇
- 2025年上海市閔行區(qū)中考數(shù)學(xué)一模試卷
- 2025中國(guó)人民保險(xiǎn)集團(tuán)校園招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- 重癥患者家屬溝通管理制度
- 法規(guī)解讀丨2024新版《突發(fā)事件應(yīng)對(duì)法》及其應(yīng)用案例
- 銷售提成對(duì)賭協(xié)議書范本 3篇
- 勞務(wù)派遣招標(biāo)文件范本
- 信息安全意識(shí)培訓(xùn)課件
- Python試題庫(kù)(附參考答案)
- 碳排放管理員 (碳排放核查員) 理論知識(shí)考核要素細(xì)目表三級(jí)
- 小學(xué)二年級(jí)數(shù)學(xué)口算練習(xí)題1000道
- 納布啡在產(chǎn)科及分娩鎮(zhèn)痛的應(yīng)用
評(píng)論
0/150
提交評(píng)論