版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、建立得分模型Itellin2005年12月7日分類樹過程最實用的特征和最有力的功能之一就是有從所建模型中提取數(shù)據(jù)到 其他數(shù)據(jù)文件中參與預測的能力。例如,基于包含人口統(tǒng)計信息和車輛購買價格 信息的數(shù)據(jù)文件,我們能夠建立一個模型,用于預測有相似人口統(tǒng)計特征的人中 有多少人可能購買新車 然后將這個模型用于有人口統(tǒng)計信息但沒有車輛購 買信息的數(shù)據(jù)文件。例如,我們將要使用的數(shù)據(jù)文件tree car.sav.一、建立模型從菜單中選擇:AnalyzeClassifyTree.選擇 Price of primary vehicle 作為因變量。選擇所有剩余變量作為自變量。(過程會自動排除對最終模型沒有顯著性貢
2、獻的變量。)選擇所有剩余變量作為自變量。(過程會自動排除對最終模型沒有顯著性貢獻的變量。)在生成方法下來列表框中選擇CRT (分類和回歸樹。適用于二元變量分類)。點擊 Output。點擊Rules頁。選擇(打勾)Generate classification rules.Syntax欄中選擇 SPSS。Type 欄中選擇 Assign values to cases.在Export rules to a file中打勾并輸入文件名和路徑。注意:文件名和路徑必須寫下來,因為不久你會用到這個文件。如果不包括路徑, 你就不會知道文件保存在什么地方??梢允褂脼g覽按鈕尋找(有效的)路徑。二、評估模型在應(yīng)
3、用模型到其他數(shù)據(jù)文件之前,你可能想證實使用原始數(shù)據(jù)建立的模型合理 嗎。(1)模型匯總模型匯總表顯示只有三個自變量對最終模型有顯著性的貢獻:income, age, 和education。如果你想在其它數(shù)據(jù)中使用這個模型,知道這些非常重要。因為 這個模型中使用的自變量必須出現(xiàn)在其它數(shù)據(jù)文件中。SpecificationsGrowing MethodDependent VariableIndependent VariablesValidationMaximum Tree DepthMinimum Cases in ParentNodeMinimum Cases in Child NodeCRTPr
4、ice of primary vehicleAge in years , Gender , Income category in thousands , Level of education , Marital statusNONE10050Resultsllndependent Variables |lncludHIncome category in thousands , Age in years , Level of educationNumber offlooesNumber of Terminal NodesDepth2915匯總表也顯示樹模型自身可能比較復雜因為它有29個節(jié)點15個
5、端點。如果模 型可信這根本就無所謂,使用實際的模型比簡單的模型更加容易解釋或描述。當 然,從實際考慮,你可能不希望模型里有太多的自變量。本例中,這不是問題因 為只有三個自變量包含在最終模型中。Specifications Growing MethodDependent Variable Independent VariablesValidationMaximum Tree Depth Minimum Cases in Parent NodeMinimum Cases in Child NodeResultsIndependent VariablesCRTPrice of primary veh
6、icleAge in years , Gender , Income category in thousands , Level of education , Marital statusNONE10050Income category in thousands , Age in years , Level oducartionI Number of NodesNumber df Terininal Nuci鴕LepinF(2)樹形圖樹形圖有許多節(jié)點以致立刻在目測的范圍內(nèi)看到節(jié)點信息全貌很困難。使用 tree map可以解決這個問題。在Viewer窗口雙擊樹,打開樹編輯器。從樹編輯器菜單中選擇
7、:ViewTree Map tree map顯示完整的樹,在窗口四邊拖動可以改變窗口的大小,圖形按照 窗口的大小自動顯示完整的圖形。. tree map中紅色區(qū)域是當前顯示的樹。可以使用tree map瀏覽樹和選擇節(jié)點。對連續(xù)因變量,每個節(jié)點顯示因變量的均值和標準差。根節(jié)點顯示購車價格的總 平均值約為29.9 (千美元),標準差為21.6.節(jié)點1表示收入小于75 (千美元)的購買者,購車價格平均只有18.7。File View Rules Options Help85% jJ85% jJArial二|10 dBP室,口卜Price of primarii- i.iehicle1Noide 01
8、:Mean29.861 I1 Std. Dev.21.576 :h3110:冬1LILI.LI :L P瀏 it*d胡.誦1 :Income cstegon/ in thousandslmpruiiemerit=347.883-=:=:I50 -=:=:I50 - $74MeanStd. Dev.nPredicted118.6638.114228673.518.663LINode 2IMean60.928Std. Dev.16.163n824華26 .5I P配ictedED衛(wèi)巽|:= :I5ij - $74lmpnovement=32.340用lmpnovement=32.340用/ in
9、yearslmprovement=5.411與此相反,在節(jié)點2,收入大于75的購買者,購車均價為60.9。進一步研究顯示年齡和教育與購車價格有相關(guān)性,但是目前我們主要關(guān)心模型的 實際應(yīng)用而不是它的成分的細節(jié)檢查。(3)風險估計到目前為止提供不出什么結(jié)果證明模型如何好。模型性能的一個指示因子是風險 估計。對連續(xù)因變量而言,風險估計是節(jié)點內(nèi)方差的度量,單獨看它不能告訴你 多少信息。方差小表示模型較好,但是方差大小是相對觀念,例如,如果價格是 按照個位而不是千位計算,風險估計將相差上千倍。要提供對連續(xù)因變量風險估計有意義的解釋還需要做一點工作:總方差等于節(jié)點內(nèi)(誤差)方差加上節(jié)點間(已解釋)方差。節(jié)
10、點內(nèi)方差是風險估計值:68.485.總方差是沒有考慮自變量前因變量的方差,它在根節(jié)點上。在根節(jié)點的標準方差顯示是21.576;所以總方差是這個值的平方465.524. 未解釋的方差是 68.485/465.524 = 0.147。由模型解釋的方差是1 0.147 = 0.853,或85.3%,它表示這是個相當不 錯的模型。(類似的解釋是分類因變量的總正確分類率)。三、應(yīng)用模型到其它數(shù)據(jù)集已經(jīng)確定模型相當不錯,現(xiàn)在可以應(yīng)用模型到包含年齡,收入和教育變量的其它 數(shù)據(jù)文件中,并產(chǎn)生一個新變量,它表示消費者購車的預測價格。這種處理手法就是常常提到的得分模型。在生成模型時,我們定義了指定個案保存在文本文
11、件值的“規(guī)則”一用SPSS 命令句法形式?,F(xiàn)在我們在那個文件中使用命令產(chǎn)生另一個數(shù)據(jù)文件的得分。SPSS安裝文件夾sample_files下打開數(shù)據(jù)文件 tree_score_car.sav。接下來從SPSS菜單中選擇:FileNewSyntax在命令句法窗口中鍵入:INSERT FILE= c:tempcar_scores.sps.如果使用不同的文件名或路徑,可以做適當?shù)母淖儭S袃蓚€新變量增加到數(shù)據(jù)文件中:nod_001包含按照模型預測的端點數(shù)。pre_001包含購車價格的預測值。因為我們需要些規(guī)則為端點指定值,可能的預測值數(shù)就是與端點相同的數(shù)。例如, 預測節(jié)點數(shù)為10的個案都有相同的購車價
12、格預測值30.56。這同原始模型中端 點10的均值不太一致。雖然你將模型用在因變量值未知的數(shù)據(jù)文件中,在這個例子中,我們使用實際包 含哪些信息的數(shù)據(jù)文件以便你能比較模型預測值和實際值。從菜單中選擇:AnalyzeCorrelateBivariate.File Edit View Data Transform1 Graphs 旦 tilitiEW Window HelpReportsDescriptive StatisticsCustom TablesCompare MeansGeneral Linear Model卜Correlate 1Bivariate.Partial.Distances.
13、RegressionLoglinearClassifyData ReductionScaleNonparametric TestsTime SeriesSurvivalMultiple ResponseMissing Value Analysis.選擇 Price of primary vehicle 和 pre_001。點擊 OK 運行該過程。相關(guān)系數(shù)0.92表示在實際購車價與預測購車價間存在很高的正相關(guān),它也表示 模型擬和良好。Price of primary vehiclepre_001Price of primary vehicle Pearson Correlation1.919*Sig. (2-tailed).000N32903290pre_001Pearson Correl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 雙方自愿離婚協(xié)議書七篇
- 二人合伙協(xié)議書2025
- 自發(fā)性多汗癥病因介紹
- 廣東省佛山市南海區(qū)、三水區(qū)2023-2024學年九年級上學期期末數(shù)學試題
- 《電機技術(shù)應(yīng)用》課件 3.3.3 直流電機的制動
- (立項備案方案)壓制封頭項目立項申請報告
- (2024)歡樂世界旅游開發(fā)項目可行性研究報告申請備案編制(一)
- 2023年天津市高考語文模擬試卷
- 江蘇省鹽城市建湖縣漢開書院學校2023-2024學年七年級上學期第二次月考道德與法治試題(原卷版)-A4
- 2023年乙烯冷箱產(chǎn)品項目融資計劃書
- 2024滬粵版八年級上冊物理期末復習全冊知識點考點提綱
- 人教版2024-2025學年第一學期八年級物理期末綜合復習練習卷(含答案)
- 基礎(chǔ)模塊2 Unit8 Green Earth單元測試-2025年中職高考英語一輪復習講練測(高教版2023修訂版·全國用)
- 科學認識天氣智慧樹知到期末考試答案2024年
- (高清版)DZT 0261-2014 滑坡崩塌泥石流災害調(diào)查規(guī)范(1:50000)
- 考試瘋云(校園小品)
- 宜家家居 客戶關(guān)系管理分析示例ppt課件
- 國際象棋啟蒙教育PPT課件
- 基坑工程專項施工方案
- 財務(wù)評價輔助報表和基本報表
- 廣州狀元坊歷史文化街區(qū)更新改造前期調(diào)研圖文.ppt
評論
0/150
提交評論