數(shù)據(jù)挖掘方法論SEMMA_第1頁(yè)
數(shù)據(jù)挖掘方法論SEMMA_第2頁(yè)
數(shù)據(jù)挖掘方法論SEMMA_第3頁(yè)
數(shù)據(jù)挖掘方法論SEMMA_第4頁(yè)
數(shù)據(jù)挖掘方法論SEMMA_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、sAsa據(jù)挖掘方法論SEMMA(2009-07-2021:15:48)Sample-數(shù)據(jù)取樣Explore-數(shù)據(jù)特征探索、分析和予處理Modify一問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇Model一模型的研發(fā)、知識(shí)的發(fā)現(xiàn)Assess一模型和知識(shí)的綜合解釋和評(píng)價(jià)Sample數(shù)據(jù)取樣當(dāng)進(jìn)行數(shù)據(jù)挖掘時(shí),首先要從企業(yè)大量數(shù)據(jù)中取出一個(gè)與你要探索問題相關(guān)的樣板數(shù)據(jù)子集,而不是動(dòng)用全部企業(yè)數(shù)據(jù)。這就象在對(duì)開采出來(lái)礦石首先要進(jìn)行選礦一樣。通過(guò)數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,而且能通過(guò)數(shù)據(jù)的篩選,使你想要它反映的規(guī)律性更加凸現(xiàn)出來(lái)。通過(guò)數(shù)據(jù)取樣,要把好數(shù)據(jù)的質(zhì)量關(guān)。在任何時(shí)候都不要忽視數(shù)據(jù)的質(zhì)量,

2、即使你是從一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行數(shù)據(jù)取樣,也不要忘記檢查其質(zhì)量如何。因?yàn)橥ㄟ^(guò)數(shù)據(jù)挖掘是要探索企業(yè)運(yùn)作的規(guī)律性的,原始數(shù)據(jù)有誤,還談什么從中探索規(guī)律性。若你真的從中還探索出來(lái)了什么“規(guī)律性”,再依此去指導(dǎo)工作,則很可能是在進(jìn)行誤導(dǎo)。若你是從正在運(yùn)行著的系統(tǒng)中進(jìn)行數(shù)據(jù)取樣,則更要注意數(shù)據(jù)的完整性和有效性。再次提醒你在任何時(shí)候都不要忽視數(shù)據(jù)的質(zhì)量,慎之又慎!從巨大的企業(yè)數(shù)據(jù)母體中取出哪些數(shù)據(jù)作為樣本數(shù)據(jù)呢?這要依你所要達(dá)到的目標(biāo)來(lái)區(qū)分采用不同的辦法:如果你是要進(jìn)行過(guò)程的觀察、控制,這時(shí)你可進(jìn)行隨機(jī)取樣,然后根據(jù)樣本數(shù)據(jù)對(duì)企業(yè)或其中某個(gè)過(guò)程的狀況作出估計(jì)。SAS不僅支持這一取樣過(guò)程,而且可對(duì)所取出的樣本數(shù)

3、據(jù)進(jìn)行各種例行的檢驗(yàn)。若你想通過(guò)數(shù)據(jù)挖掘得出企業(yè)或其某個(gè)過(guò)程的全面規(guī)律性時(shí),必須獲得在足夠廣泛范圍變化的數(shù)據(jù),以使其有代表性。你還應(yīng)當(dāng)從實(shí)驗(yàn)設(shè)計(jì)的要求來(lái)考察所取樣數(shù)據(jù)的代表性。唯此,才能通過(guò)此后的分析研究得出反映本質(zhì)規(guī)律性的結(jié)果。利用它支持你進(jìn)行決策才是真正有效的,并能使企業(yè)進(jìn)一步獲得技術(shù)、經(jīng)濟(jì)效益。Explore數(shù)據(jù)特征探索、分析和予處理前面所敘述的數(shù)據(jù)取樣,多少是帶著人們對(duì)如何達(dá)到數(shù)據(jù)挖掘目的的先驗(yàn)的認(rèn)識(shí)進(jìn)行操作的。當(dāng)我們拿到了一個(gè)樣本數(shù)據(jù)集后,它是否達(dá)到我們?cè)瓉?lái)設(shè)想的要求;其中有沒有什么明顯的規(guī)律和趨勢(shì);有沒有出現(xiàn)你所從未設(shè)想過(guò)的數(shù)據(jù)狀態(tài);因素之間有什么相關(guān)性;它們可區(qū)分成怎樣一些類別,

4、這都是要首先探索的內(nèi)容。進(jìn)行數(shù)據(jù)特征的探索、分析,最好是能進(jìn)行可視化的操作。SAS有:SAS/INSIGHT和SAS/SPECTRAVIEW兩個(gè)產(chǎn)品給你提供了可視化數(shù)據(jù)操作的最強(qiáng)有力的工具、方法和圖形。它們不僅能做各種不同類型統(tǒng)計(jì)分析顯示,而且可做多維、動(dòng)態(tài)、甚至旋轉(zhuǎn)的顯示。這里的數(shù)據(jù)探索,就是我們通常所進(jìn)行的深入調(diào)查的過(guò)程。你最終要達(dá)到的目的可能是要搞清多因素相互影響的,十分復(fù)雜的關(guān)系。但是,這種復(fù)雜的關(guān)系不可能一下子建立起來(lái)。一開始,可以先觀察眾多因素之間的相關(guān)性;再按其相關(guān)的程度,以了解它們之間相互作用的情況。這些探索、分析,并沒有一成不變操作規(guī)律性;相反,是要有耐心的反復(fù)的試探,仔細(xì)的

5、觀察。在此過(guò)程中,你原來(lái)的專業(yè)技術(shù)知識(shí)是非常有用的,它會(huì)幫助你進(jìn)行有效的觀察。但是,你也要注意,不要讓你的專業(yè)知識(shí)束縛了你對(duì)數(shù)據(jù)特征觀察的敏銳性。可能實(shí)際存在著你的先驗(yàn)知識(shí)認(rèn)為不存在的關(guān)系。假如你的數(shù)據(jù)是真實(shí)可靠的話,那末你絕對(duì)不要輕易地否定數(shù)據(jù)呈現(xiàn)給你的新關(guān)系。很可能這里就是發(fā)現(xiàn)的新知識(shí)!有了它,也許會(huì)導(dǎo)引你在此后的分析中,得出比你原有的認(rèn)識(shí)更加符合實(shí)際的規(guī)律性知識(shí)。假如在你的操作中出現(xiàn)了這種情況,應(yīng)當(dāng)說(shuō),你的數(shù)據(jù)挖掘已挖到了有效的礦脈。在這里要提醒你的是要有耐心,做幾種分析,就發(fā)現(xiàn)重大成果是不大可能的。所幸的是SAS向你提供了強(qiáng)有力的工具,它可跟隨你的思維,可視化、快速的作出反應(yīng)。免除了數(shù)

6、學(xué)的復(fù)雜運(yùn)算過(guò)程和編制結(jié)果展現(xiàn)程序的煩惱和對(duì)你思維的干擾。這就使你數(shù)據(jù)分析過(guò)程集聚于你業(yè)務(wù)領(lǐng)域的問題,并使你的思維保持了一個(gè)集中的較高級(jí)的活動(dòng)狀態(tài),從而加速了你的思維過(guò)程,提高了你的思維能力。Modify問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇通過(guò)上述兩個(gè)步驟的操作,你對(duì)數(shù)據(jù)的狀態(tài)和趨勢(shì)可能有了進(jìn)一步的了解。對(duì)你原來(lái)要解決的問題可能會(huì)有了進(jìn)一步的明確;這時(shí)要盡可能對(duì)問題解決的要求能進(jìn)一步的量化。問題越明確,越能進(jìn)一步量化,問題就向它的解決更前進(jìn)了一步。這是十分重要的。因?yàn)樵瓉?lái)的問題很可能是諸如質(zhì)量不好、生產(chǎn)率低等模糊的問題,沒有問題的進(jìn)一步明確,你簡(jiǎn)直就無(wú)法進(jìn)行有效的數(shù)據(jù)挖掘操作。在問題進(jìn)一步明確化的基

7、礎(chǔ)上,你就可以按照問題的具體要求來(lái)審視你的數(shù)據(jù)集了,看它是否適應(yīng)你的問題的需要。Gartnergroup在評(píng)論當(dāng)前一些數(shù)據(jù)挖掘產(chǎn)品時(shí)特別強(qiáng)調(diào)指出:在數(shù)據(jù)挖掘的各個(gè)階段中,數(shù)據(jù)挖掘的產(chǎn)品都要使所使用的數(shù)據(jù)和所將建立模型處于十分易于調(diào)整、修改和變動(dòng)的狀態(tài),這才能保證數(shù)據(jù)挖掘有效的進(jìn)行。針對(duì)問題的需要可能要對(duì)數(shù)據(jù)進(jìn)行增刪;也可能按照你對(duì)整個(gè)數(shù)據(jù)挖掘過(guò)程的新認(rèn)識(shí),要組合或者生成一些新的變量,以體現(xiàn)對(duì)狀態(tài)的有效的描述。SAS對(duì)數(shù)據(jù)強(qiáng)有力的存取、管理和操作的能力保證了對(duì)數(shù)據(jù)的調(diào)整、修改和變動(dòng)的可能性。若使用了SAS的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品技術(shù)時(shí)就更進(jìn)一步保證了有效、方便的進(jìn)行這些操作。在問題進(jìn)一步明確;數(shù)據(jù)結(jié)構(gòu)和內(nèi)

8、容進(jìn)一步調(diào)整的基礎(chǔ)上,下一步數(shù)據(jù)挖掘應(yīng)采用的技術(shù)手段就更加清晰、明確了。Model模型的研發(fā)、知識(shí)的發(fā)現(xiàn)這一步是數(shù)據(jù)挖掘工作的核心環(huán)節(jié)。雖然數(shù)據(jù)挖掘模型化工作涉及了非常廣闊的技術(shù)領(lǐng)域,但對(duì)SAS研究所來(lái)說(shuō)并不是一件新鮮事。自從SAS問世以來(lái),就一直是統(tǒng)計(jì)模型市場(chǎng)領(lǐng)域的領(lǐng)頭羊,而且年年提供新產(chǎn)品,并以這些產(chǎn)品體現(xiàn)業(yè)界技術(shù)的最新發(fā)展。按照SAS提出的SEMMA方法論走到這一步時(shí),你對(duì)應(yīng)采用的技術(shù)已有了較明確的方向;你的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容也有了充分的適應(yīng)性。SAS在這時(shí)也向你提供了充分的可選擇的技術(shù)手段:回歸分析方法等廣泛的數(shù)理統(tǒng)計(jì)方法;關(guān)聯(lián)分析方法;分類及聚類分析方法;人工神經(jīng)元網(wǎng)絡(luò);決策樹,等。在你

9、的數(shù)據(jù)挖掘中使用哪一種方法,用SAS軟件包中什么方法來(lái)實(shí)現(xiàn),這主要取決于你的數(shù)據(jù)集的特征和你要實(shí)現(xiàn)的目標(biāo)。實(shí)際上這種選擇也不一定是唯一的。好在SAS軟件運(yùn)行效率十分高,你不妨多試幾種方法,從實(shí)踐中選出最適合于你的方法。Assess一模型和知識(shí)的綜合解釋和評(píng)價(jià)從上述過(guò)程中將會(huì)得出一系列的分析結(jié)果、模式或模型。同一個(gè)數(shù)據(jù)源可以利用多種數(shù)據(jù)分析方法和模型進(jìn)行分析,ASSESS的目的之一就是從這些模型中自動(dòng)找出一個(gè)最好的模型出來(lái),另外就是要對(duì)模型進(jìn)行針對(duì)業(yè)務(wù)的解釋和應(yīng)用。若能從模型中得出一個(gè)直接的結(jié)論當(dāng)然很好。但更多的時(shí)候會(huì)得出對(duì)目標(biāo)問題多側(cè)面的描述。這時(shí)就要能很好的綜合它們的影響規(guī)律性提供合理的決策

10、支持信息。所謂合理,實(shí)際上往往是要你在所付出的代價(jià)和達(dá)到預(yù)期目標(biāo)的可靠性的平衡上作出選擇。假如在你的數(shù)據(jù)挖掘過(guò)程中,就預(yù)見到最后要進(jìn)行這樣的選擇的話,那末你最好把這些平衡的指標(biāo)盡可能的量化,以利你綜合抉擇。你提供的決策支持信息適用性如何,這顯然是十分重要的問題。除了在數(shù)據(jù)處理過(guò)程中SAS軟件提供給你的許多檢驗(yàn)參數(shù)外,評(píng)價(jià)的辦法之一是直接使用你原來(lái)建立模型的樣板數(shù)據(jù)來(lái)進(jìn)行檢驗(yàn)。假如這一關(guān)就通不過(guò)的話,那末你的決策支持信息的價(jià)值就不太大了。一般來(lái)說(shuō),在這一步應(yīng)得到較好的評(píng)價(jià)。這說(shuō)明你確實(shí)從這批數(shù)據(jù)樣本中挖掘出了符合實(shí)際的規(guī)律性。另一種辦法是另外找一批數(shù)據(jù),已知這些數(shù)據(jù)是反映客觀實(shí)際的規(guī)律性的。這次

11、的檢驗(yàn)效果可能會(huì)比前一種差。差多少是要注意的。若是差到你所不能容忍程度,那就要考慮第一次構(gòu)建的樣本數(shù)據(jù)是否具有充分的代表性;或是模型本身不夠完善。這時(shí)候可能要對(duì)前面的工作進(jìn)行反思了。若這一步也得到了肯定的結(jié)果時(shí),那你的數(shù)據(jù)挖掘應(yīng)得到很好的評(píng)價(jià)了。SASEnterpriseMinerSEMMATheacronymSEMMA-sample,explore,modify,model,assess-referstothecoreprocessofconductingdatamining.Beginningwithastatisticallyrepresentativesampleofyourdata,

12、SEMMAmakesiteasytoapplyexploratorystatisticalandvisualisationtechniques,selectandtransformthemostsignificantpredictivevariables,modelthevariablestopredictoutcomes,andconfirmamodel'saccuracy.BeforeexaminingeachstageofSEMMA,acommonmisunderstandingistorefertoSEMMAasadataminingmethodology.SEMMAisnot

13、adataminingmethodologybutratheralogicalorganisationofthefunctionaltoolsetofSASEnterpriseMinerforcarryingoutthecoretasksofdatamining.EnterpriseMinercanbeusedaspartofanyiterativedataminingmethodologyadoptedbytheclient.Naturallystepssuchasformulatingawelldefinedbusinessorresearchproblemandassemblingqua

14、lityrepresentativedatasourcesarecriticaltotheoverallsuccessofanydataminingproject.SEMMAisfocusedonthemodeldevelopmentaspectsofdatamining:Sample(optional)yourdatabyextractingaportionofalargedatasetbigenoughtocontainthesignificantinformation,yetsmallenoughtomanipulatequickly.Foroptimalcostandperforman

15、ce,SASInstituteadvocatesasamplingstrategy,whichappliesareliable,statisticallyrepresentativesampleoflargefulldetaildatasources.Miningarepresentativesampleinsteadofthewholevolumereducestheprocessingtimerequiredtogetcrucialbusinessinformation.Ifgeneralpatternsappearinthedataasawhole,thesewillbetraceabl

16、einarepresentativesample.Ifanicheissotinythatit'snotrepresentedinasampleandyetsoimportantthatitinfluencesthebigpicture,itcanbediscoveredusingsummarymethods.WealsoadvocatecreatingpartitioneddatasetswiththeDataPartitionnode:Training-usedformodelfitting.Validation-usedforassessmentandtopreventoverf

17、itting.Test-usedtoobtainanhonestassessmentofhowwellamodelgeneralizes.Exploreyourdatabysearchingforunanticipatedtrendsandanomaliesinordertogainunderstandingandideas.Explorationhelpsrefinethediscoveryprocess.Ifvisualexplorationdoesn'trevealcleartrends,youcanexplorethedatathroughstatisticaltechniqu

18、esincludingfactoranalysis,correspondenceanalysis,andclustering.Forexample,indataminingforadirectmailcampaign,clusteringmightrevealgroupsofcustomerswithdistinctorderingpatterns.Knowingthesepatternscreatesopportunitiesforpersonalizedmailingsorpromotions.Modifyyourdatabycreating,selecting,andtransformi

19、ngthevariablestofocusthemodelselectionprocess.Basedonyourdiscoveriesintheexplorationphase,youmayneedtomanipulateyourdatatoincludeinformationsuchasthegroupingofcustomersandsignificantsubgroups,ortointroducenewvariables.Youmayalsoneedtolookforoutliersandreducethenumberofvariables,tonarrowthemdowntothe

20、mostsignificantones.Youmayalsoneedtomodifydatawhenthe"mined"datachange.Becausedataminingisadynamic,iterativeprocess,youcanupdatedataminingmethodsormodelswhennewinformationisavailable.Modelyourdatabyallowingthesoftwaretosearchautomaticallyforacombinationofdatathatreliablypredictsadesiredout

21、come.Modelingtechniquesindataminingincludeneuralnetworks,tree-basedmodels,logisticmodels,andotherstatisticalmodels-suchastimeseriesanalysis,memory-basedreasoning,andprincipalcomponents.Eachtypeofmodelhasparticularstrengths,andisappropriatewithinspecificdataminingsituationsdependingonthedata.Forexamp

22、le,neuralnetworksareverygoodatfittinghighlycomplexnonlinearrelationships.Assessyourdatabyuatingtheusefulnessandreliabilityofthefindingsfromthedataminingprocessandestimatehowwellitperforms.Acommonmeansofassessingamodelistoapplyittoaportionofdatasetasideduringthesamplingstage.Ifthemodelisvalid,itshoul

23、dworkforthisreservedsampleaswellasforthesampleusedtoconstructthemodel.Similarly,youcantestthemodelagainstknowndata.Forexample,ifyouknowwhichcustomersinafilehadhighretentionratesandyourmodelpredictsretention,youcanchecktoseewhetherthemodelselectsthesecustomersaccurately.Inaddition,practicalapplicationsofthemodel,suchaspartialmailingsinadirectmailcampaign,helpproveitsvalidity.ByassessingtheresultsgainedfromeachstageoftheSEM

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論