數(shù)據(jù)挖掘-sas使用_第1頁(yè)
數(shù)據(jù)挖掘-sas使用_第2頁(yè)
數(shù)據(jù)挖掘-sas使用_第3頁(yè)
數(shù)據(jù)挖掘-sas使用_第4頁(yè)
數(shù)據(jù)挖掘-sas使用_第5頁(yè)
已閱讀5頁(yè),還剩64頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

System)基礎(chǔ)與數(shù)據(jù)預(yù)處星期SAS數(shù)據(jù)處理與分SAS系統(tǒng)概SAS中進(jìn)行數(shù)據(jù)探查和預(yù)處SASEM操作流程、節(jié)星期一、SAS系統(tǒng)概SAS軟件及其模SAS啟動(dòng)與界SAS文件類SAS基本概星期SAS軟 》500強(qiáng)企業(yè),約90%在使 》100強(qiáng)企業(yè),約98%在使IfyouhaveaSAScertification,youwillneverloseyourjob星期SAS應(yīng)用領(lǐng) CustomerSegmentationCreditRiskManagementBalancedScorecardFraud CustomerRetentionCrossSelling星期版編制,1976年成立SAS軟件正式推出版本:6.04、6.12、8.2、9.13、9.2、9.3星期SAS軟件模行業(yè)的子系統(tǒng)組成一個(gè)可伸縮的系統(tǒng)。主要模塊 基本數(shù)據(jù)處 繪 數(shù)理統(tǒng)計(jì)分 數(shù)據(jù)挖 經(jīng)濟(jì)計(jì)量學(xué)和時(shí)間序列分 交互式矩陣程序設(shè)計(jì)語(yǔ) 運(yùn)籌 質(zhì)量控 外部數(shù)據(jù)庫(kù)接 yst,Assist:通過(guò)圖形用戶界面使用星期編寫程

SAS操作方需要熟悉SAS語(yǔ)言,但使用靈活高效Insight互式數(shù)據(jù)探EM數(shù)據(jù)挖掘星期SAS啟動(dòng)與界口 日志

窗口星期

SAS文件類SAS數(shù)據(jù)文件SAS程序文件SAS記錄文件星期SAS基本概邏輯數(shù)據(jù)變表達(dá)程數(shù)據(jù)步和過(guò)程星期SAS邏輯 分類:臨時(shí)庫(kù) 庫(kù))、sasuser( 用戶可以定義自己的邏輯星期邏輯庫(kù)定Libname例如:libnamedata‘d:\data\’;libnamed 星期數(shù)據(jù)數(shù)據(jù)集同的邏輯庫(kù)中。數(shù)據(jù)集文件類型為.sas7bdat數(shù)據(jù)集 :[邏輯庫(kù)].數(shù)據(jù)集Optionsuser=邏輯庫(kù)名星期變變量的類型字符 數(shù)值變量的測(cè)量水平字符數(shù)值型.表示變量的其它屬性名稱、長(zhǎng)度、輸入輸出格式星期變 最多個(gè)字符長(zhǎng),第一個(gè)字符必須是字母或者下劃線,不能有空格。 星期練 將邏輯庫(kù)test設(shè)為缺省邏輯庫(kù)開(kāi)slstest改 關(guān)閉數(shù)據(jù)星期表達(dá)常量、變量、函數(shù)、操作運(yùn)算符組成的有意義的式運(yùn)算符:~=或<>(ne)=>=(ge)、<=(le)、>(gt)、<(lt) 連接符函數(shù)舉例Lag(變量名):返回上一個(gè)觀測(cè)值的該變量的值f(變量名):返回當(dāng)前觀測(cè)值該變量的值減去上一個(gè)觀測(cè)值中該變量的值。SUBSTR(字符型變量,初始位置,長(zhǎng)度):取子串Year變量取日期的年份date():當(dāng)前日期Trim():取消字符串末尾空 數(shù)值轉(zhuǎn)換為字符星期SAS程SAS句,一般情況下均包括,通常情況下SASSAS程序的某些選項(xiàng)、變量或程序運(yùn)行的環(huán)境。星期SAS程序規(guī)1.它通常由 2它總是以分號(hào)“;”星期全程語(yǔ)TitleLibnamename‘路徑footnoteoptionsnonumbernoda Optionsuser=邏輯庫(kù)名 設(shè)置當(dāng)前邏輯星期注注行注釋塊注釋/* 星期數(shù)據(jù)data語(yǔ)句有兩個(gè)重要的功能命名將要?jiǎng)?chuàng)建的SAS數(shù)據(jù)集 星期

lengthZ$25;INFORMATX$8.;INFORMATYx='WANG';y=Z=trim(x)||'-'||Y;利用數(shù)據(jù)步輸入數(shù)Optionsuser=datastudent(label='學(xué)生數(shù)據(jù)集inputsnoname$sex$mathlabel avgs='平均成績(jī)男王思男男4女5;女

星期過(guò)程PROC過(guò)程名DATA=輸入數(shù)據(jù)集[選項(xiàng)過(guò)程語(yǔ)句/[選項(xiàng)過(guò)程語(yǔ)句/[選項(xiàng)星期PRINT與排序例如:Procsortdata=student;bydescendingavgs;輸出ProcprintwherevarnamemathBysummath

星期控制語(yǔ)If條件then語(yǔ)句;else語(yǔ)句DO變量=初值to終值by步長(zhǎng);DOwhile條件);或DOuntil(條件);星期宏功自動(dòng)宏變值如如如如 如如用戶自定義宏變定義 宏變量名=值使用:&宏變量注意:如果字符串中有宏變 ,則字符串必 引號(hào)星期宏功宏%MACRO宏名字(參數(shù)宏變量) 調(diào)用%宏名字(參數(shù)值)星期

SAS語(yǔ)宏變控制語(yǔ)句 %DO %DO 宏函數(shù)據(jù)處理與探數(shù)據(jù)集的建立與導(dǎo)數(shù)據(jù)探數(shù)據(jù)預(yù)處數(shù)據(jù)合數(shù)數(shù)據(jù)變換與缺失值處數(shù)據(jù)增加與刪除、更星期SAS數(shù)據(jù)集的建直接輸入方e.g.datainput /*在以前的版本下為(數(shù)據(jù)行;外部文件導(dǎo)入方文本文件與EXCELL文連接到關(guān)系數(shù)據(jù)庫(kù)或libnameoraliboracleuser=teacherpassword=teacherpath=orclLibnameeexcel星期數(shù)據(jù)導(dǎo)File菜程 Datatest;infile'd:\reg_case.txt'inputnoYX1X2X3X4X5練習(xí)改變r(jià)eg_case.txt中數(shù)據(jù)的分隔符為“,”、tab鍵,行導(dǎo)入練試編寫宏實(shí)現(xiàn)通用數(shù)據(jù)導(dǎo)入功星期數(shù)據(jù)導(dǎo)將其他格式(EXCEL,ACCESS,sqlserver)的數(shù)據(jù)導(dǎo)入到PROCIMPORTOUT=DATAFILE= DBMS=EXCEL星期

數(shù)據(jù)導(dǎo)入練libnamed 星期數(shù)據(jù)集的導(dǎo)將SAS系統(tǒng)的數(shù)據(jù)集轉(zhuǎn)換成將其他格菜單方式:文件的導(dǎo)出數(shù)程序PROCEXPORTDATA=consumeOUTFILE=‘D:\D DBMS=EXCELREPLACE;星期數(shù)據(jù)導(dǎo)出PROCEXPORTDATA=consumeOUTFILE=“d:\data\testexp.txt"DBMS=TABREPLACE;星期

數(shù)據(jù)探PROCSORTdata=name; [descending]varname;procprint星期procmeansdata=data.student;procmeansnrangesumvarmeannmissmedian;varmathchinese;星期統(tǒng)計(jì)量部分關(guān)鍵字及其含n星期統(tǒng)計(jì)量部分關(guān)鍵字及其含星期數(shù)據(jù)探proctabulatedata=student;classsex;varmathchinese;tablesex,mathchinese;星期數(shù)據(jù)合縱向合并(union)或數(shù)據(jù) 準(zhǔn)備工作:導(dǎo)入customer.xls文件的三個(gè)電子表形成三個(gè)與電子表名的數(shù)據(jù)集 setcustomer1橫向合并 mergecustomerby要求:先對(duì)要合并的數(shù)據(jù)集按相同的變量排序星期數(shù)據(jù)合如果customer1與customer2的變量不完全相同,需要 setcustomer1(keep=保留變量名列表customer2(keep=保留變量名列表); setcustomer1(drop=去除變量名列表)customer2(drop=去除變量名列表);星期數(shù)據(jù)合如果需要在結(jié)果中只包含部分觀測(cè) setcustomer1(where=(條件))customer2where=(條件));星期數(shù)Dataerr;setprocsqlViewtable窗口的 setifmemo=‘err'thenmemo='test';procsql或viewtable星期填充特定值 set

缺失ifmemo=''thendatatest1;settest;ifx2=.thenx2=90;Ifx3=.Thenx3=90;填充均值參見(jiàn)程星期

datatest;inputx1-x3;12233.;數(shù)據(jù)變datasetdata.student;Dropavg;procstandarddata=newout=new1mean=0std=1;varmathchinese;星期數(shù)據(jù)增新增|直接使用表達(dá)式生成新變量,例如上頁(yè)中的Drop變量名;或者 setdata.student;wheresex=“男”;或 setifsex=“女”thenProc星期批量更新數(shù)據(jù)例/*客戶歷史交易數(shù)據(jù)總額datainputuser_idtrans_amt101;/*客戶當(dāng)天交易數(shù)據(jù)datainputuser_idday_amt102501026010330110;星期Update批量更新數(shù)datanew(keep=user_idupdatemaster_trans(in=a)day_trans(in=b); /*copythesetfirst*/byuser_id;ifa+b>1then ifa=0thenelse星期data

modify批量更新數(shù)setmaster_trans;datamodifytransbyif_iorc_=0then /*變量標(biāo)識(shí)是否匹配,為0標(biāo)識(shí)匹配else /*上述操作不匹配時(shí)會(huì)置該變量為1,需要重置星期利用SQL過(guò)程實(shí)現(xiàn)數(shù)據(jù)預(yù)處PROCCREATETABLEALTERTABLE…ADD|DROP|MODIFY…;UPDATE…SET…;INSERTINTODELETEFROM…WHERE…;SELECT…;Run(或星期SQL例proccreatetabletem(namechar(30)label" sexnumlabel" =datalengthname$30sex;星期procinsertintotem(name,sex)values('zhangsan',0)values('wangwu',1);procupdatetemsetsex=1;星期ProcValuefsex0='女'1男procselectnameformat=$30.,sexformat=fsex.fromtemprocsql;createtabletem1asselectnameformat=$30.format=fsex.fromtem;星期三、SASEM操作流啟動(dòng)創(chuàng)建項(xiàng)建立數(shù)據(jù)流程星期SASEM數(shù)據(jù)挖掘方法--星期Sample──數(shù)據(jù)取數(shù)據(jù)的角色、測(cè)量水?dāng)?shù)據(jù)取樣的方數(shù)據(jù)分訓(xùn)練數(shù)據(jù)集是用于初步模型擬測(cè)試數(shù)據(jù)集用于評(píng)估模型對(duì)新數(shù)據(jù)的適用效果星期Explore──數(shù)據(jù)特征探索、分析和預(yù)處SAS/INSIGHT和SAS/SPECTRAVIEW兩同類型統(tǒng)計(jì)分析顯示,而且可做、動(dòng)星期Modify──問(wèn)題明確化、數(shù)據(jù)調(diào)整和技術(shù)缺失值的處變量轉(zhuǎn)變量的選星期關(guān)聯(lián)規(guī)決策樹(shù)分神經(jīng)網(wǎng)回歸分時(shí)間序列分星期Assess──模型和知識(shí)的綜合解釋和評(píng)和模型進(jìn)行分析,ASSESS的目的之一就應(yīng)用。星期SAS數(shù)據(jù)挖掘主要節(jié)點(diǎn)和功數(shù)據(jù)輸入節(jié)點(diǎn)從數(shù)據(jù)源讀入數(shù)據(jù)并定義變量屬性以便于隨后用于EnteseMiner進(jìn)行數(shù)據(jù)處理采樣節(jié)點(diǎn):選擇采取隨機(jī)抽樣,分層隨機(jī)抽樣,樣本聚類等方使用數(shù)據(jù)分割節(jié)點(diǎn),您可以將原始數(shù)據(jù)分割為訓(xùn)練、測(cè)試和驗(yàn)DistributionExplorer節(jié)點(diǎn)是一個(gè)可視化工具,可快速輕松地用直方圖來(lái)探索大量數(shù)星期SAS數(shù)據(jù)挖掘節(jié)點(diǎn)和功SAS/INSIGHT軟件是一個(gè)交互式工具,可用于探索和分析數(shù)Association節(jié)點(diǎn)可用于查明數(shù) 各變量之間的關(guān)聯(lián)關(guān)系變量選擇(VariableSelection)的節(jié)點(diǎn),這個(gè)節(jié)點(diǎn)的功能是能讓用戶對(duì)所設(shè)分析(Linksis)研究復(fù)雜系統(tǒng)效果之間的關(guān)系,用以發(fā)現(xiàn)一些有效的模式來(lái)得出一些有益的結(jié)論。例如可以應(yīng)用在如下一些領(lǐng)域,分析檢測(cè)、網(wǎng)絡(luò)利用數(shù)據(jù)集屬性(DataSetAttributes)節(jié)點(diǎn),用戶可以修改數(shù) 月4日星 SAS數(shù)據(jù)挖掘節(jié)點(diǎn)和功變量的變換(sf)節(jié)點(diǎn),用戶可以用它來(lái)改變的變量,例如,可以對(duì)變量開(kāi)平方或取自然對(duì)數(shù)值、與目標(biāo)變量的關(guān)聯(lián)最大化、將某變量正態(tài)化。置換(Replacement)節(jié)點(diǎn)可以讓用戶對(duì)有缺失數(shù)據(jù)的記錄用其他值來(lái)替代聚類分析(Clustering)節(jié)點(diǎn)的作用是將輸入數(shù)據(jù)集拆分成幾個(gè)部分,相似的數(shù)據(jù)會(huì)被歸納為同一類,差別較大的觀察之則被時(shí)間序(TimeSeries)列節(jié)點(diǎn),這個(gè)節(jié)點(diǎn)能讓用戶分析例如客戶的消費(fèi)回歸(Regression)節(jié)點(diǎn),用戶使月oistic回歸模型對(duì)數(shù)據(jù)進(jìn)行分析SAS數(shù)據(jù)挖掘節(jié)點(diǎn)和功決策樹(shù)分析節(jié)使用神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)的節(jié)點(diǎn)證多層的前反饋神經(jīng)網(wǎng)整合(Ense

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論