




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Microsoft SQL Server 2008 R2數(shù)據(jù)挖掘算法模型內(nèi)容目錄挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)2關(guān)聯(lián)模型的挖掘模型內(nèi)容(Analysis Services 數(shù)據(jù)挖掘)11聚類分析模型的挖掘模型內(nèi)容(Analysis Services 數(shù)據(jù)挖掘)15決策樹(shù)模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)19線性回歸模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)26邏輯回歸模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)30Naive Bayes 模型的挖掘模型內(nèi)容(Analysi
2、s Services - 數(shù)據(jù)挖掘)35神經(jīng)網(wǎng)絡(luò)模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)41順序分析和聚類分析模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)47時(shí)序模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)53挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)SQL Server 2008 R2其他版本 SQL Server 2012 SQL Server 2008使用基礎(chǔ)挖掘結(jié)構(gòu)中的數(shù)據(jù)設(shè)計(jì)并處理挖掘模型后,該挖掘模型就已完成,包含有“挖掘模型內(nèi)容”??梢允褂么藘?nèi)容來(lái)預(yù)測(cè)或分析您的數(shù)據(jù)。挖掘模型內(nèi)
3、容包含關(guān)于模型的元數(shù)據(jù)、關(guān)于數(shù)據(jù)的統(tǒng)計(jì)信息以及挖掘算法發(fā)現(xiàn)的模式。模型內(nèi)容可能包括回歸公式、規(guī)則和項(xiàng)集的定義或權(quán)重和其他統(tǒng)計(jì)信息,具體取決于所使用的算法。不論使用的是哪種算法,挖掘模型內(nèi)容都是以標(biāo)準(zhǔn)結(jié)構(gòu)呈現(xiàn)的。您可以在 Business Intelligence Development Studio 提供的 Microsoft 一般內(nèi)容樹(shù)查看器中瀏覽結(jié)構(gòu),然后切換到自定義查看器之一,查看系統(tǒng)是如何針對(duì)每種模型類型以圖形方式解釋和顯示信息的。還可以使用支持 MINING_MODEL_CONTENT 架構(gòu)行集的任意客戶端創(chuàng)建針對(duì)該挖掘模型內(nèi)容的查詢。有關(guān)詳細(xì)信息,請(qǐng)參閱使用數(shù)據(jù)挖掘模型操作指南主題
4、(Analysis Services - 數(shù)據(jù)挖掘)1。本節(jié)介紹為所有的挖掘模型類型提供的基本內(nèi)容結(jié)構(gòu)。還說(shuō)明了所有挖掘模型內(nèi)容所通用的節(jié)點(diǎn)類型,并提供了關(guān)于如何解釋這些信息的指南。挖掘模型內(nèi)容的結(jié)構(gòu)節(jié)點(diǎn)按算法類型列出挖掘模型內(nèi)容查看挖掘模型內(nèi)容的工具查詢挖掘模型內(nèi)容的工具挖掘模型內(nèi)容的結(jié)構(gòu)每個(gè)模型的內(nèi)容均顯示為一系列“節(jié)點(diǎn)”。節(jié)點(diǎn)是挖掘模型內(nèi)的對(duì)象,包含該模型某一部分的元數(shù)據(jù)或信息。節(jié)點(diǎn)按層次結(jié)構(gòu)排列。層次結(jié)構(gòu)中節(jié)點(diǎn)的準(zhǔn)確排列以及層次結(jié)構(gòu)的含義取決于您使用的算法。例如,如果您創(chuàng)建一個(gè)決策樹(shù)模型,該模型可以包含多個(gè)樹(shù),并且所有樹(shù)均連接到模型根;如果您創(chuàng)建一個(gè)神經(jīng)網(wǎng)絡(luò)模型,則該模型可能包含一個(gè)或
5、多個(gè)網(wǎng)絡(luò),外加一個(gè)統(tǒng)計(jì)信息節(jié)點(diǎn)。每個(gè)模型中的第一個(gè)節(jié)點(diǎn)都稱為“根節(jié)點(diǎn)”或“模型父節(jié)點(diǎn)”。每個(gè)模型都有一個(gè)根節(jié)點(diǎn) (NODE_TYPE = 1)。根節(jié)點(diǎn)通常包含關(guān)于模型的某些元數(shù)據(jù)以及子節(jié)點(diǎn)的數(shù)目,但是幾乎沒(méi)有關(guān)于該模型發(fā)現(xiàn)的模式的其他信息。根據(jù)您用來(lái)創(chuàng)建模型的算法,根節(jié)點(diǎn)的子節(jié)點(diǎn)的數(shù)量會(huì)有所不同。子節(jié)點(diǎn)具有不同的含義,包含不同的內(nèi)容,具體取決于算法以及數(shù)據(jù)的深度和復(fù)雜性。返回頁(yè)首節(jié)點(diǎn)在挖掘模型中,每個(gè)節(jié)點(diǎn)都是一個(gè)常規(guī)用途的容器,用于存儲(chǔ)關(guān)于整個(gè)模型或它的一部分的一段信息。每個(gè)節(jié)點(diǎn)的結(jié)構(gòu)始終是相同的,并包含數(shù)據(jù)挖掘架構(gòu)行集定義的列。有關(guān)詳細(xì)信息,請(qǐng)參閱 DMSCHEMA_MINING_MODEL
6、_CONTENT 行集2。每個(gè)節(jié)點(diǎn)都包含關(guān)于該節(jié)點(diǎn)的元數(shù)據(jù),包括在每個(gè)模型中唯一的標(biāo)識(shí)符、父節(jié)點(diǎn)的 ID 以及該節(jié)點(diǎn)具有的子節(jié)點(diǎn)數(shù)量。元數(shù)據(jù)標(biāo)識(shí)節(jié)點(diǎn)屬于哪個(gè)模型以及存儲(chǔ)該特定模型的數(shù)據(jù)庫(kù)目錄。節(jié)點(diǎn)中提供的其他內(nèi)容根據(jù)您用來(lái)創(chuàng)建模型的算法類型的不同而不同,可能包含: 支持特定的預(yù)測(cè)值的定型數(shù)據(jù)中的事例計(jì)數(shù)。 統(tǒng)計(jì)信息,如平均值、標(biāo)準(zhǔn)偏差或方差。 系數(shù)和公式。 規(guī)則和橫向指針的定義。 XML 片段,用于描述該模型的一部分。節(jié)點(diǎn)類型列表。下表列出了可以在數(shù)據(jù)挖掘模型中輸出的各種類型的節(jié)點(diǎn)。由于每種算法處理信息的方式不同,因此每個(gè)模型僅生成幾種特定類型的節(jié)點(diǎn)。如果您更改算法,節(jié)點(diǎn)的類型可能也會(huì)更改。此
7、外,如果您重新處理模型,每個(gè)節(jié)點(diǎn)的內(nèi)容可能也會(huì)更改。注意如果您使用的數(shù)據(jù)挖掘服務(wù)不是由 SQL Server 2008 Analysis Services 提供的,或者您創(chuàng)建自己的插件算法,則可能還有更多自定義節(jié)點(diǎn)類型。NODE_TYPE ID節(jié)點(diǎn)標(biāo)簽節(jié)點(diǎn)內(nèi)容1Model元數(shù)據(jù)和根內(nèi)容節(jié)點(diǎn)。適用于所有模型類型。2Tree分類樹(shù)的根節(jié)點(diǎn)。適用于決策樹(shù)模型。3Interior樹(shù)中的內(nèi)部拆分節(jié)點(diǎn)。適用于決策樹(shù)模型。4Distribution樹(shù)的終端節(jié)點(diǎn)。適用于決策樹(shù)模型。5Cluster算法檢測(cè)到的分類。適用于聚類分析模型以及順序分析和聚類分析模型。6Unknown未知節(jié)點(diǎn)類型。7ItemSet算法
8、檢測(cè)到的項(xiàng)集。適用于關(guān)聯(lián)模型或順序分析和聚類分析模型。8AssociationRule算法檢測(cè)到的關(guān)聯(lián)規(guī)則。適用于關(guān)聯(lián)模型或順序分析和聚類分析模型。9PredictableAttribute可預(yù)測(cè)屬性。適用于所有模型類型。10InputAttribute輸入屬性。適用于決策樹(shù)和 Nave Bayes 模型。11InputAttributeState有關(guān)輸入屬性狀態(tài)的統(tǒng)計(jì)信息。適用于決策樹(shù)和 Nave Bayes 模型。13Sequence序列分類的 Markov 模型組件的頂端節(jié)點(diǎn)。適用于順序分析和聚類分析模型。14TransitionMarkov 轉(zhuǎn)換矩陣。適用于順序分析和聚類分析模型。15
9、TimeSeries時(shí)序樹(shù)的非根節(jié)點(diǎn)。僅適用于時(shí)序模型。16TsTree對(duì)應(yīng)于可預(yù)測(cè)時(shí)序的時(shí)序樹(shù)的根節(jié)點(diǎn)。適用于時(shí)序模型,并僅限于使用 MIXED 參數(shù)創(chuàng)建的模型。17NNetSubnetwork一個(gè)子網(wǎng)絡(luò)。適用于神經(jīng)網(wǎng)絡(luò)模型。18NNetInputLayer包含輸入層的節(jié)點(diǎn)的組。適用于神經(jīng)網(wǎng)絡(luò)模型。19NNetHiddenLayer包含描述隱藏層的節(jié)點(diǎn)的組。適用于神經(jīng)網(wǎng)絡(luò)模型。21NNetOutputLayer包含輸出層的節(jié)點(diǎn)的組。適用于神經(jīng)網(wǎng)絡(luò)模型。21NNetInputNode將輸入屬性與對(duì)應(yīng)狀態(tài)相匹配的輸入層中的節(jié)點(diǎn)。適用于神經(jīng)網(wǎng)絡(luò)模型。22NNetHiddenNode隱藏層中的節(jié)點(diǎn)。
10、適用于神經(jīng)網(wǎng)絡(luò)模型。23NNetOutputNode輸出層中的節(jié)點(diǎn)。此節(jié)點(diǎn)通常將輸出屬性與對(duì)應(yīng)的狀態(tài)相匹配。適用于神經(jīng)網(wǎng)絡(luò)模型。24NNetMarginalNode關(guān)于定型集的邊際統(tǒng)計(jì)信息。適用于神經(jīng)網(wǎng)絡(luò)模型。25RegressionTreeRoot回歸樹(shù)的根。適用于線性回歸模型以及包含連續(xù)的輸入屬性的決策樹(shù)模型。26NaiveBayesMarginalStatNode關(guān)于定型集的邊際統(tǒng)計(jì)信息。適用于 Nave Bayes 模型。27ArimaRootARIMA 模型的根節(jié)點(diǎn)。僅適用于那些使用 ARIMA 算法的時(shí)序模型。28ArimaPeriodicStructureARIMA 模型中的周期
11、性結(jié)構(gòu)。僅適用于那些使用 ARIMA 算法的時(shí)序模型。29ArimaAutoRegressiveARIMA 模型中的單個(gè)字詞的自動(dòng)回歸系數(shù)。僅適用于那些使用 ARIMA 算法的時(shí)序模型。30ArimaMovingAverageARIMA 模型中單個(gè)字詞的移動(dòng)平均值系數(shù)。僅適用于那些使用 ARIMA 算法的時(shí)序模型。1000CustomBase自定義節(jié)點(diǎn)類型的起始點(diǎn)。自定義節(jié)點(diǎn)類型必須是值大于此常量的整數(shù)。適用于通過(guò)使用自定義插件算法創(chuàng)建的模型。節(jié)點(diǎn) ID、名稱、標(biāo)題和說(shuō)明任何模型的根節(jié)點(diǎn)始終具有值為 0 的唯一 ID (NODE_UNIQUE_NAME)。所有節(jié)點(diǎn) ID 自動(dòng)由 Analysi
12、s Services 分配,無(wú)法修改。每個(gè)模型的根節(jié)點(diǎn)還包含有關(guān)模型的一些基本的元數(shù)據(jù)。這些元數(shù)據(jù)包括存儲(chǔ)模型的 Analysis Services 數(shù)據(jù)庫(kù) (MODEL_CATALOG)、架構(gòu) (MODEL_SCHEMA) 和模型的名稱 (MODEL_NAME)。不過(guò),這些信息在模型的所有節(jié)點(diǎn)中都是重復(fù)的,因此您無(wú)需查詢根節(jié)點(diǎn)來(lái)獲取這些元數(shù)據(jù)。除了用作唯一標(biāo)識(shí)符的名稱,每個(gè)節(jié)點(diǎn)還具有一個(gè)“名稱”(NODE_NAME)。此名稱是算法自動(dòng)創(chuàng)建的,用于顯示目的,不能進(jìn)行編輯。注意Microsoft 聚類分析算法允許用戶為每個(gè)分類指定友好名稱。不過(guò),這些友好名稱在服務(wù)器上不是持久性的,如果您重新處理
13、模型,算法將重新生成新的分類名稱。每個(gè)節(jié)點(diǎn)的“標(biāo)題”和“說(shuō)明”都是由算法自動(dòng)生成的,用作標(biāo)簽,可以幫助您了解節(jié)點(diǎn)的內(nèi)容。為每個(gè)字段生成的文本取決于模型類型。某些情況下,名稱、標(biāo)題和說(shuō)明可能包含完全相同的字符串,但是在某些模型中,說(shuō)明還可能包含更多信息。請(qǐng)參閱各個(gè)模型類型的主題,了解有關(guān)實(shí)現(xiàn)的詳細(xì)信息。注意Analysis Services 服務(wù)器支持重命名節(jié)點(diǎn),前提是您的模型是使用實(shí)現(xiàn)重命名的自定義插件算法生成的。若要啟用重命名,必須在創(chuàng)建插件算法時(shí)覆蓋方法。父節(jié)點(diǎn)、子節(jié)點(diǎn)和節(jié)點(diǎn)基數(shù)樹(shù)結(jié)構(gòu)中父節(jié)點(diǎn)和子節(jié)點(diǎn)之間的關(guān)系是由 PARENT_UNIQUE_NAME 列的值決定的。該值存儲(chǔ)在子節(jié)點(diǎn),指示
14、父節(jié)點(diǎn)的 ID。下面給出了說(shuō)明此信息的含義的示例: 為 NULL 的 PARENT_UNIQUE_NAME 表示此節(jié)點(diǎn)是模型的頂端節(jié)點(diǎn)。 如果 PARENT_UNIQUE_NAME 的值為 0,則此節(jié)點(diǎn)一定是模型中頂端節(jié)點(diǎn)的直接后代。這是因?yàn)楦?jié)點(diǎn)的 ID 始終為 0。 您可以在數(shù)據(jù)挖掘擴(kuò)展插件 (DMX) 查詢內(nèi)使用函數(shù)來(lái)查找特定節(jié)點(diǎn)的后代或父級(jí)。有關(guān)在查詢中使用函數(shù)的詳細(xì)信息,請(qǐng)參閱查詢數(shù)據(jù)挖掘模型(Analysis Services 數(shù)據(jù)挖掘)3?!盎鶖?shù)”是指集中的項(xiàng)數(shù)。在處理的挖掘模型的上下文中,基數(shù)會(huì)指示特定節(jié)點(diǎn)中子級(jí)的數(shù)量。例如,如果某個(gè)決策樹(shù)模型有一個(gè) Yearly Income
15、 節(jié)點(diǎn),并且該節(jié)點(diǎn)有兩個(gè)子節(jié)點(diǎn),一個(gè)針對(duì)條件 Yearly Income = High,一個(gè)針對(duì)條件 Yearly Income = Low,則 Yearly Income 節(jié)點(diǎn)的 CHILDREN_CARDINALITY 值將為 2。注意在 Analysis Services 中,當(dāng)計(jì)算節(jié)點(diǎn)的基數(shù)時(shí),僅統(tǒng)計(jì)直接的子節(jié)點(diǎn)。不過(guò),如果您創(chuàng)建了一個(gè)自定義插件算法,則可以重載 CHILDREN_CARDINALITY,從而按不同的方式統(tǒng)計(jì)基數(shù)。這種做法可能會(huì)很有用,例如,如果您希望統(tǒng)計(jì)后代的總數(shù),而不僅僅是直接子級(jí)的數(shù)量。盡管對(duì)于所有模型來(lái)說(shuō)統(tǒng)計(jì)基數(shù)的方法都是相同的,但是根據(jù)模型類型的不同,解釋或使
16、用基數(shù)值的方式會(huì)有所不同。例如,在聚類分析模型中,頂端節(jié)點(diǎn)的基數(shù)會(huì)指示已找到的分類總數(shù)。在其他類型的模型中,基數(shù)可能始終有一個(gè)設(shè)定的值(取決于節(jié)點(diǎn)類型)。有關(guān)如何解釋基數(shù)的詳細(xì)信息,請(qǐng)參閱有關(guān)各個(gè)模型類型的主題。注意有些模型(例如,由 Microsoft 神經(jīng)網(wǎng)絡(luò)算法創(chuàng)建的模型)另外還包含一個(gè)特殊的節(jié)點(diǎn)類型,該類型提供關(guān)于整個(gè)模型的定型數(shù)據(jù)的描述性統(tǒng)計(jì)信息。根據(jù)定義,這些節(jié)點(diǎn)永遠(yuǎn)不會(huì)具有子節(jié)點(diǎn)。節(jié)點(diǎn)分布NODE_DISTRIBUTION 列包含一個(gè)嵌套表,在許多節(jié)點(diǎn)中這個(gè)表都提供有關(guān)算法所發(fā)現(xiàn)的模式的重要而詳細(xì)的信息。根據(jù)模型類型、節(jié)點(diǎn)在樹(shù)中的位置以及此可預(yù)測(cè)屬性是連續(xù)數(shù)值還是離散值,該表中所
17、提供的準(zhǔn)確統(tǒng)計(jì)信息會(huì)有所變化;不過(guò),它們可以包括屬性的最小值和最大值、分配給值的權(quán)重、節(jié)點(diǎn)中事例的數(shù)量、回歸公式中使用的系數(shù)以及諸如標(biāo)準(zhǔn)偏差和方差等統(tǒng)計(jì)度量值。有關(guān)如何解釋節(jié)點(diǎn)分布的詳細(xì)信息,請(qǐng)參閱對(duì)應(yīng)于您所使用的特定模型類型的主題。注意NODE_DISTRIBUTION 表可能為空,具體取決于節(jié)點(diǎn)類型。例如,某些節(jié)點(diǎn)僅用于組織子節(jié)點(diǎn)的集合,包含詳細(xì)統(tǒng)計(jì)信息的是子節(jié)點(diǎn)。嵌套表 NODE_DISTRIBUTION 始終包含以下列。每個(gè)列的內(nèi)容會(huì)有所不同,具體取決于模型類型。有關(guān)特定模型類型的詳細(xì)信息,請(qǐng)參閱按算法類型列出挖掘模型內(nèi)容。ATTRIBUTE_NAME內(nèi)容隨算法的不同而變化。可以是列的
18、名稱,例如可預(yù)測(cè)屬性、規(guī)則、項(xiàng)集或算法內(nèi)部的一條信息(如公式的一部分)。此列還可以包含一個(gè)屬性/值對(duì)。ATTRIBUTE_VALUE在 ATTRIBUTE_NAME 中指定的屬性的值。如果屬性名稱為列,則在最簡(jiǎn)單的事例中,ATTRIBUTE_VALUE 包含該列的離散值之一。根據(jù)算法處理值的方式,ATTRIBUTE_VALUE 還可能包含一個(gè)標(biāo)志,用于指示該屬性是存在一個(gè)值 (Existing) 還是值為 Null (Missing)。例如,如果將模型設(shè)置為查找至少購(gòu)買過(guò)一次某個(gè)特定商品的客戶,ATTRIBUTE_NAME 列可能包含屬性/值對(duì),用于定義所關(guān)注的商品(如 Model = Wat
19、er bottle),并且 ATTRIBUTE_VALUE 列將僅僅包含關(guān)鍵字 Existing 或 Missing。SUPPORT具有此屬性/值對(duì)或包含此項(xiàng)集或規(guī)則的事例的計(jì)數(shù)。通常,每個(gè)節(jié)點(diǎn)的支持值會(huì)指示定型集中有多少事例包含在當(dāng)前節(jié)點(diǎn)中。在大多數(shù)模型類型中,支持代表的是事例的準(zhǔn)確計(jì)數(shù)。支持值很有用,這是因?yàn)樗沟媚鸁o(wú)需查詢定型數(shù)據(jù),就可以查看定型事例內(nèi)的數(shù)據(jù)分布。Analysis Services 服務(wù)器還使用這些存儲(chǔ)值來(lái)計(jì)算存儲(chǔ)概率與以前的概率之比,以確定推導(dǎo)是強(qiáng)還是弱。例如,在分類樹(shù)中,支持值指示具有所描述的屬性組合的事例數(shù)。在決策樹(shù)中,樹(shù)中每個(gè)級(jí)別的支持的總數(shù)等于其父節(jié)點(diǎn)的支持?jǐn)?shù)。
20、例如,如果某個(gè)包含 1200 個(gè)事例的模型按性別平分,然后按 Income 的三個(gè)值 Low、Medium 和 High(節(jié)點(diǎn) (2) 的子節(jié)點(diǎn),即節(jié)點(diǎn) (4)、(5) 和 (6))再平分,事例總數(shù)將總是與節(jié)點(diǎn) (2) 的事例數(shù)相同。節(jié)點(diǎn) ID 和節(jié)點(diǎn)屬性支持計(jì)數(shù)(1) 模型根1200(2) Gender = Male(3) Gender = Female600600(4) Gender = Male 并且 Income = High(5) Gender = Male 并且 Income = Medium(6) Gender = Male 并且 Income = Low200200200(7)
21、 Gender = Female 并且 Income = High(8) Gender = Female 并且 Income = Medium(9) Gender = Female 并且 Income = Low200200200對(duì)于聚類分析模型,支持的數(shù)量可以加權(quán),以包括屬于多個(gè)分類的概率。多重分類成員身份是默認(rèn)的聚類分析方法。在這種情況下,由于每個(gè)事例不必屬于一個(gè)且僅一個(gè)分類,因此這些模型中的支持在所有分類中可能不會(huì)合計(jì)達(dá) 100%。PROBABILITY指示在整個(gè)模型中此特定節(jié)點(diǎn)的概率。通常,概率代表對(duì)此特定值的支持除以節(jié)點(diǎn)內(nèi)的事例總數(shù) (NODE_SUPPORT)。但是,概率會(huì)略有調(diào)整
22、以消除數(shù)據(jù)中缺失的值所造成的偏差。例如,如果 Total Children 的當(dāng)前值為 One 和 Two,則您會(huì)希望避免創(chuàng)建預(yù)測(cè)出不可能沒(méi)有孩子或有三個(gè)孩子的模型。若要確保缺失值是不可能的(而是完全可能),則算法會(huì)始終為任何屬性的實(shí)際值的計(jì)數(shù)加 1。示例:Total Children = One 的概率 = Total Children = One 的事例數(shù) + 1/所有事例數(shù) + 3Total Children = Two 的概率 = Total Children = Two 的事例數(shù) +1/所有事例數(shù) +3注意調(diào)整值 3 是通過(guò)將現(xiàn)有值的總數(shù) n 加 1 而計(jì)算得來(lái)的。調(diào)整后,所有值的概
23、率相加仍為 1。沒(méi)有數(shù)據(jù)的值的概率(在此示例中,Total Children = Zero、Three 或其他某個(gè)值)是從一個(gè)很低的非零級(jí)別開(kāi)始,并隨著事例數(shù)的增加而緩慢上升。VARIANCE指示節(jié)點(diǎn)中值的方差。根據(jù)定義,對(duì)于離散值,方差始終為 0。如果模型支持連續(xù)值,則方差是使用分母 n 或節(jié)點(diǎn)中的事例數(shù)計(jì)算為 (sigma) 的。一般有兩個(gè)定義用來(lái)表示標(biāo)準(zhǔn)偏差 (StDev)。計(jì)算標(biāo)準(zhǔn)偏差的一個(gè)方法是考慮偏差,另一個(gè)方法是不使用偏差計(jì)算標(biāo)準(zhǔn)偏差。一般情況下,Microsoft 數(shù)據(jù)挖掘算法在計(jì)算標(biāo)準(zhǔn)偏差時(shí)不使用偏差。NODE_DISTRIBUTION 表中顯示的值是所有離散和離散化屬性的實(shí)
24、際值以及連續(xù)值的平均值。VALUE_TYPE指示值或?qū)傩缘臄?shù)據(jù)類型以及值的用法。某些值類型僅適用于某些特定的模型類型:VALUE_TYPE ID值標(biāo)簽值類型名稱1Missing指示事例數(shù)據(jù)不包含此屬性的值。Missing 狀態(tài)與具有值的屬性是分開(kāi)計(jì)算的。2Existing指示事例數(shù)據(jù)包含此屬性的值。3Continuous指示此屬性的值是一個(gè)連續(xù)數(shù)值,因此可以由平均值以及偏差和標(biāo)準(zhǔn)偏差表示。4離散指示值(數(shù)字或文本)被視為離散值。注意 離散值也可能處于缺失狀態(tài);不過(guò),在進(jìn)行計(jì)算時(shí),它們的處理方式不同。有關(guān)信息,請(qǐng)參閱缺少值(Analysis Services 數(shù)據(jù)挖掘)4。5Discretize
25、d指示該屬性包含已離散化的數(shù)值。該值將是一個(gè)帶格式的字符串,描述離散化存儲(chǔ)桶。6Existing指示屬性具有連續(xù)數(shù)值,并且這些值已經(jīng)在數(shù)據(jù)中提供(與缺失或推導(dǎo)的值不同)。7系數(shù)指示一個(gè)表示系數(shù)的數(shù)值。系數(shù)是一個(gè)在計(jì)算依賴變量的值時(shí)要應(yīng)用的值。例如,如果您的模型創(chuàng)建了一個(gè)基于年齡預(yù)測(cè)收入的回歸公式,則在將年齡與收入相關(guān)聯(lián)的公式中將使用系數(shù)。8得分指示表示某個(gè)屬性的得分的數(shù)值。9統(tǒng)計(jì)信息指示表示回歸量的統(tǒng)計(jì)信息的數(shù)值。10節(jié)點(diǎn)唯一名稱指示該值不應(yīng)處理為數(shù)字或字符串,而是應(yīng)處理為模型中另一內(nèi)容節(jié)點(diǎn)的唯一標(biāo)識(shí)符。例如,在神經(jīng)網(wǎng)絡(luò)模型中,ID 提供從輸出層中節(jié)點(diǎn)至隱藏層中節(jié)點(diǎn)的指針,以及從隱藏層中節(jié)點(diǎn)至
26、輸入層中節(jié)點(diǎn)的指針。11截距表示數(shù)值,代表回歸公式中的截距。12周期指示該值表示模型中的周期性結(jié)構(gòu)。僅適用于包含 ARIMA 模型的時(shí)序模型。注意Microsoft 時(shí)序算法會(huì)基于定型數(shù)據(jù)自動(dòng)檢測(cè)到周期性結(jié)構(gòu)。因而,最終模型中的周期包括的周期值可能不是您在創(chuàng)建模型時(shí)作為參數(shù)提供的。13自動(dòng)回歸階數(shù)指示一個(gè)值,該值表示自動(dòng)回歸序列的數(shù)目。適用于使用 ARIMA 算法的時(shí)序模型。14移動(dòng)平均值階數(shù)指示一個(gè)值,表示一個(gè)序列中的移動(dòng)平均值數(shù)。適用于使用 ARIMA 算法的時(shí)序模型。15差分階數(shù)指示一個(gè)值,用于表示差分時(shí)序的次數(shù)。適用于使用 ARIMA 算法的時(shí)序模型。16布爾值表示布爾型。17其他表示
27、一個(gè)由該算法定義的自定義值。18預(yù)呈現(xiàn)的字符串表示一個(gè)由算法作為字符串呈現(xiàn)的自定義值。對(duì)象模型不應(yīng)用格式。值類型是從 ADMOMD.NET 枚舉派生的。有關(guān)詳細(xì)信息,請(qǐng)參閱 MiningValueType5。節(jié)點(diǎn)分?jǐn)?shù)根據(jù)模型類型的不同,節(jié)點(diǎn)分?jǐn)?shù)的含義也不同,也可以特定于節(jié)點(diǎn)類型。有關(guān)如何為每個(gè)模型和節(jié)點(diǎn)類型計(jì)算 NODE_SCORE 的信息,請(qǐng)參閱按算法類型列出挖掘模型內(nèi)容。節(jié)點(diǎn)概率和邊際概率所有模型類型的挖掘模型架構(gòu)行集均包括列 NODE_PROBABILITY 和 MARGINAL_PROBABILITY。這些列僅在那些概率值有意義的節(jié)點(diǎn)中包含值。例如,模型的根節(jié)點(diǎn)永遠(yuǎn)不會(huì)包含一個(gè)概率分?jǐn)?shù)
28、。在那些提供概率分?jǐn)?shù)的節(jié)點(diǎn)中,節(jié)點(diǎn)概率和邊際概率表示不同的計(jì)算。 邊際概率是指從其父節(jié)點(diǎn)到達(dá)該節(jié)點(diǎn)的概率。 節(jié)點(diǎn)概率是指從根節(jié)點(diǎn)到達(dá)該節(jié)點(diǎn)的概率。 節(jié)點(diǎn)概率始終小于或等于邊際概率。例如,如果決策樹(shù)中所有客戶的總?cè)藬?shù)按性別平分(并且沒(méi)有值缺失),則子節(jié)點(diǎn)的概率應(yīng)為 .5。接下來(lái),假設(shè)每個(gè)性別節(jié)點(diǎn)再根據(jù)收入級(jí)別(High、Medium 和 Low)平分。這種情況下,每個(gè)子節(jié)點(diǎn)的 MARGINAL_PROBABILITY 分?jǐn)?shù)應(yīng)始終為 .33,而 NODE_PROBABILTY 值將是指向該節(jié)點(diǎn)的所有概率的乘積,因此始終小于 MARGINAL_PROBABILITY 值。節(jié)點(diǎn)/屬性和值的級(jí)別邊際概率
29、節(jié)點(diǎn)概率模型根所有目標(biāo)客戶11按性別平分目標(biāo)客戶.5.5按性別平分目標(biāo)客戶,然后按三種收入級(jí)別平分.33.5 * .33 = .165節(jié)點(diǎn)規(guī)則和邊際規(guī)則所有模型類型的挖掘模型架構(gòu)行集也均包括列 NODE_RULE 和 MARGINAL_RULE。這些列包含 XML 片段,可以用于對(duì)模型進(jìn)行序列化,或表示模型結(jié)構(gòu)的某一部分。如果某個(gè)值毫無(wú)意義,則某些節(jié)點(diǎn)的這些列可能為空。提供兩種類型的 XML 規(guī)則,與兩種類型的概率值相似。MARGINAL_RULE 中的 XML 片段用于定義當(dāng)前節(jié)點(diǎn)的屬性和值,而 NODE_RULE 中的 XML 片段用于描述從模型根至當(dāng)前節(jié)點(diǎn)的路徑。返回頁(yè)首按算法類型列出挖
30、掘模型內(nèi)容每個(gè)算法將不同類型的信息作為其內(nèi)容架構(gòu)的一部分存儲(chǔ)。例如,Microsoft 聚類分析算法會(huì)生成許多子節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一個(gè)可能的分類。每個(gè)分類節(jié)點(diǎn)都包含一些規(guī)則,這些規(guī)則描述該分類中各個(gè)項(xiàng)所共有的特征。相反,Microsoft 線性回歸算法不包含任何子節(jié)點(diǎn);而模型的父節(jié)點(diǎn)包含的公式用于說(shuō)明分析所發(fā)現(xiàn)的線性關(guān)系。下表提供了指向每種算法的主題的鏈接: 模型內(nèi)容主題:說(shuō)明每個(gè)算法類型的每個(gè)節(jié)點(diǎn)類型的含義,并提供有關(guān)特定模型類型中最受關(guān)注的節(jié)點(diǎn)的指南。 查詢主題:提供針對(duì)特定模型類型的查詢的示例,以及關(guān)于如何解釋這些結(jié)果的指南。算法或模型類型模型內(nèi)容查詢挖掘模型關(guān)聯(lián)規(guī)則模型關(guān)聯(lián)模型的挖掘模
31、型內(nèi)容(Analysis Services 數(shù)據(jù)挖掘)6查詢關(guān)聯(lián)模型(Analysis Services 數(shù)據(jù)挖掘)7聚類分析模型決策樹(shù)模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)8查詢聚類分析模型(Analysis Services - 數(shù)據(jù)挖掘)9決策樹(shù)模型決策樹(shù)模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)8查詢決策樹(shù)模型(Analysis Services - 數(shù)據(jù)挖掘)10線性回歸模型線性回歸模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)11查詢線性回歸模型(Analysis Services - 數(shù)據(jù)挖掘)1
32、2邏輯回歸模型邏輯回歸模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)13查詢線性回歸模型(Analysis Services - 數(shù)據(jù)挖掘)12Nave Bayes 模型Naive Bayes 模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)14查詢 Naive Bayes 模型(Analysis Services - 數(shù)據(jù)挖掘)15神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)16查詢神經(jīng)網(wǎng)絡(luò)模型(Analysis Services - 數(shù)據(jù)挖掘)17序列聚類分析順序分析和聚類分析模型的挖掘模型內(nèi)容(A
33、nalysis Services - 數(shù)據(jù)挖掘)18查詢順序分析和聚類分析模型(Analysis Services - 數(shù)據(jù)挖掘)19時(shí)序模型時(shí)序模型的挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)20查詢時(shí)序模型(Analysis Services - 數(shù)據(jù)挖掘)21查看挖掘模型內(nèi)容的工具當(dāng)在 Business Intelligence Development Studio 中瀏覽模型時(shí),可以使用 Microsoft 一般內(nèi)容樹(shù)查看器查看信息,Business Intelligence Development Studio 和 SQL Server Management S
34、tudio 中均提供了此查看器。Microsoft 一般內(nèi)容查看器通過(guò)使用挖掘模型內(nèi)容架構(gòu)行集中可用的同一信息,來(lái)顯示模型中的列、規(guī)則、屬性 (property)、屬性 (attribute)、節(jié)點(diǎn)以及其他內(nèi)容。內(nèi)容架構(gòu)行集是用于呈現(xiàn)數(shù)據(jù)挖掘模型內(nèi)容詳細(xì)信息的通用框架。您可以在任何支持分層行集的客戶端中查看模型內(nèi)容。Business Intelligence Development Studio 中的此查看器在 HTML 表查看器中呈現(xiàn)這些信息,這些信息將以一致的格式表示所有模型,使得您所創(chuàng)建模型的結(jié)構(gòu)更易于理解。有關(guān)詳細(xì)信息,請(qǐng)參閱使用 Microsoft 一般內(nèi)容樹(shù)查看器查看模型詳細(xì)信息2
35、2。返回頁(yè)首查詢挖掘模型內(nèi)容的工具若要檢索挖掘模型內(nèi)容,您必須針對(duì)數(shù)據(jù)挖掘模型創(chuàng)建一個(gè)查詢。創(chuàng)建內(nèi)容查詢的最簡(jiǎn)便方法就是在 SQL Server Management Studio 中執(zhí)行以下 DMX 語(yǔ)句:復(fù)制SELECT * FROM .CONTENT有關(guān)詳細(xì)信息,請(qǐng)參閱查詢數(shù)據(jù)挖掘模型(Analysis Services 數(shù)據(jù)挖掘)3。還可以通過(guò)使用數(shù)據(jù)挖掘架構(gòu)行集來(lái)查詢挖掘模型內(nèi)容。架構(gòu)行集是標(biāo)準(zhǔn)的架構(gòu),客戶端可以用來(lái)發(fā)現(xiàn)、瀏覽和查詢有關(guān)挖掘結(jié)構(gòu)和模型的信息。您可以通過(guò)使用 XMLA、Transact-SQL 或 DMX 語(yǔ)句來(lái)查詢架構(gòu)行集。在 SQL Server 2008 中,您還
36、可以通過(guò)啟動(dòng)與 Analysis Services 服務(wù)器的連接并查詢系統(tǒng)表來(lái)訪問(wèn)數(shù)據(jù)挖掘架構(gòu)行集中的信息。有關(guān)使用 SELECT 語(yǔ)句查詢數(shù)據(jù)挖掘架構(gòu)行集的詳細(xì)信息,請(qǐng)參閱故障排除工具(Analysis Services - 數(shù)據(jù)挖掘)23。返回頁(yè)首請(qǐng)參閱參考Microsoft 一般內(nèi)容樹(shù)查看器(數(shù)據(jù)挖掘設(shè)計(jì)器)24概念數(shù)據(jù)挖掘算法(Analysis Services 數(shù)據(jù)挖掘)25關(guān)聯(lián)模型的挖掘模型內(nèi)容(Analysis Services 數(shù)據(jù)挖掘)SQL Server 2008 R2其他版本 SQL Server 2012 SQL Server 2008本主題講述使用 Microsoft
37、 關(guān)聯(lián)規(guī)則算法的模型特有的挖掘模型內(nèi)容。 有關(guān)與適用于所有模型類型的挖掘模型內(nèi)容相關(guān)的常規(guī)術(shù)語(yǔ)和統(tǒng)計(jì)術(shù)語(yǔ)的說(shuō)明,請(qǐng)參閱挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)1。了解關(guān)聯(lián)模型的結(jié)構(gòu)關(guān)聯(lián)模型結(jié)構(gòu)非常簡(jiǎn)單。 每個(gè)模型均具有表示該模型及其元數(shù)據(jù)的單一父節(jié)點(diǎn),且每個(gè)父節(jié)點(diǎn)均具有項(xiàng)集和規(guī)則的平面列表。 項(xiàng)集和規(guī)則不是按樹(shù)組織的,它們的順序是項(xiàng)集在先、規(guī)則在后,如下面的關(guān)系圖所示。每個(gè)項(xiàng)集均包含在其自己的節(jié)點(diǎn)中 (NODE_TYPE = 7)。 “節(jié)點(diǎn)”包含項(xiàng)集定義、含有此項(xiàng)集的事例的數(shù)目以及其他信息。 每個(gè)規(guī)則也包含在其自己的節(jié)點(diǎn)中 (NODE_TYPE = 8)。 “規(guī)則”說(shuō)明
38、項(xiàng)目關(guān)聯(lián)方式的一般模式。 規(guī)則類似于 IF-THEN 語(yǔ)句。 規(guī)則左側(cè)顯示的是一個(gè)現(xiàn)有條件或條件集。 規(guī)則右側(cè)顯示的是數(shù)據(jù)集中的項(xiàng),該項(xiàng)通常與左側(cè)的條件相關(guān)聯(lián)。注意 如果要提取規(guī)則或項(xiàng)集,可使用查詢僅返回需要的節(jié)點(diǎn)類型。 有關(guān)詳細(xì)信息,請(qǐng)參閱 查詢關(guān)聯(lián)模型(Analysis Services 數(shù)據(jù)挖掘)2。關(guān)聯(lián)模型的模型內(nèi)容本節(jié)僅針對(duì)與關(guān)聯(lián)模型相關(guān)的挖掘模型內(nèi)容中的列給出詳細(xì)信息和示例。 有關(guān)架構(gòu)行集中通用列(例如 MODEL_CATALOG 和 MODEL_NAME)的信息,請(qǐng)參閱挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)1。MODEL_CATALOG 存儲(chǔ)模型的數(shù)據(jù)庫(kù)
39、的名稱。MODEL_NAME 模型的名稱。ATTRIBUTE_NAME 與此節(jié)點(diǎn)對(duì)應(yīng)的屬性的名稱。NODE_NAME 節(jié)點(diǎn)的名稱。 對(duì)于關(guān)聯(lián)模型,該列包含的值與 NODE_UNIQUE_NAME 列相同。NODE_UNIQUE_NAME 節(jié)點(diǎn)的唯一名稱。NODE_TYPE關(guān)聯(lián)模型僅輸出以下節(jié)點(diǎn)類型: 節(jié)點(diǎn)類型 ID類型1(模型)根節(jié)點(diǎn)或父節(jié)點(diǎn)。7(項(xiàng)集)項(xiàng)集,或?qū)傩?值對(duì)的集合。 示例:Product 1 = Existing, Product 2 = Existing或者 Gender = Male.8(規(guī)則)用于定義項(xiàng)相互關(guān)聯(lián)的方式的規(guī)則。 示例:Product 1 = Existing,
40、 Product 2 = Existing - Product 3 = Existing.NODE_CAPTION 與節(jié)點(diǎn)關(guān)聯(lián)的標(biāo)簽或標(biāo)題。 項(xiàng)集節(jié)點(diǎn) 逗號(hào)分隔的項(xiàng)列表。規(guī)則節(jié)點(diǎn) 包含規(guī)則的左右兩邊。 CHILDREN_CARDINALITY指示當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)的數(shù)目。父節(jié)點(diǎn) 指示項(xiàng)集與規(guī)則數(shù)目的總和。 注意若要獲取對(duì)項(xiàng)集和規(guī)則計(jì)數(shù)的明細(xì),請(qǐng)參閱該模型根節(jié)點(diǎn)的 NODE_DESCRIPTION。項(xiàng)集或規(guī)則節(jié)點(diǎn) 始終為 0。PARENT_UNIQUE_NAME 節(jié)點(diǎn)的父節(jié)點(diǎn)的唯一名稱。 父節(jié)點(diǎn) 始終為 NULL。項(xiàng)集或規(guī)則節(jié)點(diǎn) 始終為 0。NODE_DESCRIPTION節(jié)點(diǎn)內(nèi)容的用戶友好說(shuō)明。
41、父節(jié)點(diǎn) 包括一個(gè)逗號(hào)分隔列表,該列表包含有關(guān)該模型的以下信息:項(xiàng)說(shuō)明ITEMSET_COUNT模型中所有項(xiàng)集的計(jì)數(shù)。 RULE_COUNT模型中所有規(guī)則的計(jì)數(shù)。 MIN_SUPPORT為任何單個(gè)項(xiàng)集找到的最小支持。 注意 該值可能不同于為 MINIMUM _SUPPORT 參數(shù)設(shè)置的值。MAX_SUPPORT為任何單個(gè)項(xiàng)集找到的最大支持。注意 該值可能不同于為 MAXIMUM_SUPPORT 參數(shù)設(shè)置的值。MIN_ITEMSET_SIZE最小項(xiàng)集的大小,由項(xiàng)目的計(jì)數(shù)表示。 值為 0 指示 Missing 狀態(tài)被視為獨(dú)立項(xiàng)目。注意MINIMUM_ITEMSET_SIZE 參數(shù)的默認(rèn)值為 1。 M
42、AX_ITEMSET_SIZE指示找到的最大項(xiàng)集的大小。注意 該值受創(chuàng)建模型時(shí)為 MAX_ITEMSET_SIZE 參數(shù)設(shè)置的值的約束。 該值永遠(yuǎn)不可大于、但可小于為該參數(shù)設(shè)置的值。 默認(rèn)值為 3。MIN_PROBABILITY為模型中的任何單個(gè)項(xiàng)集或規(guī)則檢測(cè)到的最小概率。示例:0.400390625注意 對(duì)于項(xiàng)集,該值始終大于創(chuàng)建模型時(shí)為 MINIMUM_PROBABILITY 參數(shù)設(shè)置的值。MAX_PROBABILITY為模型中的任何單個(gè)項(xiàng)集或規(guī)則檢測(cè)到的最大概率。示例:1注意 沒(méi)有參數(shù)來(lái)約束項(xiàng)集的最大概率。 若要消除出現(xiàn)過(guò)于頻繁的項(xiàng)目,請(qǐng)改用 MAXIMUM_SUPPORT 參數(shù)。MIN
43、_LIFT該模型為任何項(xiàng)集提供的最小提升量。 示例:0.14309369632511注意了解最小提升可幫助您確定對(duì)任何一個(gè)項(xiàng)集的提升是否有效。MAX_LIFT該模型為每個(gè)項(xiàng)集提供的最大提升量。 示例:1.95758227647523 注意 了解最大提升可幫助您確定對(duì)任何一個(gè)項(xiàng)集的提升是否有效。項(xiàng)集節(jié)點(diǎn) 項(xiàng)集節(jié)點(diǎn)包含一個(gè)項(xiàng)目列表,該列表顯示為一個(gè)以逗號(hào)分隔的文本字符串。示例:Touring Tire = Existing, Water Bottle = Existing這表示同時(shí)購(gòu)買了旅行車輪胎和水瓶。規(guī)則節(jié)點(diǎn) 規(guī)則節(jié)點(diǎn)包含由箭頭分隔的規(guī)則的左右兩邊。 示例:Touring Tire = Exi
44、sting, Water Bottle = Existing - Cycling cap = Existing這意味著如果某人買了旅行車輪胎和水瓶,他還可能買了自行車運(yùn)動(dòng)帽。NODE_RULE描述節(jié)點(diǎn)中嵌套的規(guī)則或項(xiàng)集的 XML 片段。父節(jié)點(diǎn) 空白。項(xiàng)集節(jié)點(diǎn) 空白。規(guī)則節(jié)點(diǎn) 包含關(guān)于規(guī)則的其他有用信息的 XML 片段,這些信息包括支持、置信度、項(xiàng)目數(shù)量以及表示規(guī)則左側(cè)的節(jié)點(diǎn)的 ID 等。 MARGINAL_RULE空白。NODE_PROBABILITY與項(xiàng)集或規(guī)則關(guān)聯(lián)的概率或置信度分?jǐn)?shù)。父節(jié)點(diǎn) 始終為 0。項(xiàng)集節(jié)點(diǎn) 項(xiàng)集的概率。 規(guī)則節(jié)點(diǎn) 規(guī)則的置信度值。MARGINAL_PROBABILIT
45、Y與 NODE_PROBABILITY 相同。NODE_DISTRIBUTION根據(jù)節(jié)點(diǎn)是項(xiàng)集還是規(guī)則,該表包含的信息可能會(huì)有很大不同。父節(jié)點(diǎn) 空白。項(xiàng)集節(jié)點(diǎn) 列出了項(xiàng)集中的每個(gè)項(xiàng)目以及概率和支持值。 例如,如果項(xiàng)集包含兩個(gè)產(chǎn)品,則將列出每個(gè)產(chǎn)品的名稱,同時(shí)還會(huì)列出包括每個(gè)產(chǎn)品的事例的計(jì)數(shù)。規(guī)則節(jié)點(diǎn) 包含兩行。 第一行顯示規(guī)則右側(cè)(預(yù)測(cè)項(xiàng)目)所具有的屬性以及置信度分?jǐn)?shù)。 第二行為關(guān)聯(lián)模型獨(dú)有,包含一個(gè)指向位于規(guī)則右側(cè)的項(xiàng)集的指針。 在 ATTRIBUTE_VALUE 列中,將該指針表示為僅包含右側(cè)項(xiàng)目的項(xiàng)集的 ID。例如,如果規(guī)則為 If A,B Then C,則該表包含項(xiàng)目 C 的名稱,以及
46、含有項(xiàng)目 C 所在項(xiàng)集的節(jié)點(diǎn)的 ID。在根據(jù)項(xiàng)集節(jié)點(diǎn)確定總共有多少個(gè)事例包含右側(cè)產(chǎn)品時(shí),該指針很有用處。 遵循 If A,B Then C 規(guī)則的事例是 C 的項(xiàng)集中列出的事例的子集。 NODE_SUPPORT 支持此節(jié)點(diǎn)的事例的數(shù)目。父節(jié)點(diǎn) 模型中的事例數(shù)。項(xiàng)集節(jié)點(diǎn) 包含項(xiàng)集中所有項(xiàng)目的事例的數(shù)目。規(guī)則節(jié)點(diǎn) 含有規(guī)則中包含的所有項(xiàng)目的事例的數(shù)目。MSOLAP_MODEL_COLUMN 根據(jù)節(jié)點(diǎn)是項(xiàng)集還是規(guī)則,包含不同的信息。父節(jié)點(diǎn) 空白。項(xiàng)集節(jié)點(diǎn) 空白。規(guī)則節(jié)點(diǎn) 包含規(guī)則左側(cè)項(xiàng)目的項(xiàng)集的 ID。 例如,如果規(guī)則為 If A,B Then C,則該列包含僅含有 A,B 的項(xiàng)集的 ID。MSOL
47、AP_NODE_SCORE父節(jié)點(diǎn) 空白。項(xiàng)集節(jié)點(diǎn) 項(xiàng)集的重要性分?jǐn)?shù)。規(guī)則節(jié)點(diǎn) 規(guī)則的重要性分?jǐn)?shù)。注意項(xiàng)集和規(guī)則的重要性的計(jì)算方法不同。 有關(guān)詳細(xì)信息,請(qǐng)參閱 Microsoft 關(guān)聯(lián)算法技術(shù)參考3。MSOLAP_NODE_SHORT_CAPTION 空白。請(qǐng)參閱概念挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)1Microsoft 關(guān)聯(lián)算法4查詢關(guān)聯(lián)模型(Analysis Services 數(shù)據(jù)挖掘)2聚類分析模型的挖掘模型內(nèi)容(Analysis Services 數(shù)據(jù)挖掘)SQL Server 2008 R2其他版本 SQL Server 2012 SQL Server 2
48、008本主題介紹使用 Microsoft 聚類分析算法的模型特有的挖掘模型內(nèi)容。 有關(guān)所有模型類型的挖掘模型內(nèi)容的一般說(shuō)明,請(qǐng)參閱挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)1。了解聚類分析模型的結(jié)構(gòu)聚類分析模型的結(jié)構(gòu)很簡(jiǎn)單。 每個(gè)模型均具有表示該模型及其元數(shù)據(jù)的單一父節(jié)點(diǎn),且每個(gè)父節(jié)點(diǎn)均具有分類的平面列表 (NODE_TYPE = 5)。 下圖顯示了此組織。每個(gè)子節(jié)點(diǎn)均表示一個(gè)分類,并包含有關(guān)該分類中事例屬性的詳細(xì)統(tǒng)計(jì)信息。 這包含該分類中事例數(shù)的計(jì)數(shù)以及將該分類與其他分類區(qū)分開(kāi)來(lái)的值的分布。注意您無(wú)需遍歷節(jié)點(diǎn)來(lái)獲取分類的計(jì)數(shù)或說(shuō)明,該模型父節(jié)點(diǎn)也會(huì)對(duì)分類進(jìn)行計(jì)數(shù)并列出分
49、類。父節(jié)點(diǎn)包含有用的統(tǒng)計(jì)信息,用于描述所有定型事例的實(shí)際分布。 可在嵌套表列 NODE_DISTRIBUTION 中找到這些統(tǒng)計(jì)信息。 例如,下表顯示了 NODE_DISTRIBUTION 表中的若干行,這些行描述了您在數(shù)據(jù)挖掘基礎(chǔ)教程2中創(chuàng)建的聚類分析模型 TM_Clustering 的客戶人口統(tǒng)計(jì)信息的分布:ATTRIBUTE_NAMEATTRIBUTE_VALUESUPPORTPROBABILITYVARIANCEVALUE_TYPEAge缺少 0001(缺失)Age44.9016152716593129391125.6634531025543(連續(xù))Gender缺少0001(缺少)性別
50、F63500.49076435582347904(離散)GenderM65890.50923564417652104(離散)從這些結(jié)果可以看出,12939 個(gè)事例用于生成此模型,男女的比例約為 50-50,平均年齡為 44。 根據(jù)所報(bào)告的屬性為連續(xù)數(shù)值數(shù)據(jù)類型(如年齡),還是為離散值類型(如性別),描述性統(tǒng)計(jì)信息也有所差異。 對(duì)于連續(xù)數(shù)據(jù)類型,計(jì)算統(tǒng)計(jì)度量值“均值”和“方差”,而對(duì)于離散數(shù)據(jù)類型,則計(jì)算“概率”和“支持”。注意該方差表示分類的總方差。 如果方差的值較小,則表示列中的大多數(shù)值與均值很接近。 若要獲取標(biāo)準(zhǔn)偏差,請(qǐng)計(jì)算該方差的平方根。請(qǐng)注意,對(duì)于每個(gè)屬性,都有一個(gè) Missing 值
51、類型,可告訴您有多少個(gè)事例沒(méi)有該屬性的數(shù)據(jù)。 缺少的數(shù)據(jù)可能會(huì)很重要,影響計(jì)算的方式也會(huì)不同,具體取決于數(shù)據(jù)類型。 有關(guān)詳細(xì)信息,請(qǐng)參閱 缺少值(Analysis Services 數(shù)據(jù)挖掘)3。聚類分析模型的模型內(nèi)容本節(jié)僅針對(duì)與聚類分析模型有關(guān)的挖掘模型內(nèi)容中的這些列給出詳細(xì)信息和示例。 有關(guān)架構(gòu)行集中通用列(例如 MODEL_CATALOG 和 MODEL_NAME)的信息,請(qǐng)參閱挖掘模型內(nèi)容(Analysis Services - 數(shù)據(jù)挖掘)1。MODEL_CATALOG 存儲(chǔ)模型的數(shù)據(jù)庫(kù)的名稱。MODEL_NAME 模型的名稱。ATTRIBUTE_NAME 在聚類分析模型中始終空白,原
52、因是在該模式下沒(méi)有任何可預(yù)測(cè)屬性。NODE_NAME 始終與 NODE_UNIQUE_NAME 相同。NODE_UNIQUE_NAME 此模型中節(jié)點(diǎn)的唯一標(biāo)識(shí)符。 此值不能更改。NODE_TYPE聚類分析模型輸出以下節(jié)點(diǎn)類型: 節(jié)點(diǎn) ID 和名稱說(shuō)明1(模型)模型的根節(jié)點(diǎn)。5(分類)包含分類中的事例計(jì)數(shù)、分類中事例的特征以及描述分類中的值的統(tǒng)計(jì)信息。NODE_CAPTION 顯示時(shí)使用的友好名稱。 當(dāng)創(chuàng)建某個(gè)模型時(shí),會(huì)將 NODE_UNIQUE_NAME 值自動(dòng)用作標(biāo)題。 但是,您可以用編程方式或使用查看器更改 NODE_CAPTION 的值,以更新該分類的顯示名稱。 注意重新處理該模型時(shí),新
53、的值將覆蓋所有的名稱更改。 您不能在模型中保留名稱,也不能跟蹤不同模型版本之間的分類成員身份中的更改。CHILDREN_CARDINALITY對(duì)節(jié)點(diǎn)所具有的子節(jié)點(diǎn)數(shù)的估計(jì)。 父節(jié)點(diǎn) 指示模型中分類的數(shù)目。 分類節(jié)點(diǎn) 始終為 0。PARENT_UNIQUE_NAME 節(jié)點(diǎn)的父節(jié)點(diǎn)的唯一名稱。 父節(jié)點(diǎn) 始終為 NULL 分類節(jié)點(diǎn) 通常為 000。NODE_DESCRIPTION節(jié)點(diǎn)的說(shuō)明。父節(jié)點(diǎn) 始終為“(全部)”。分類節(jié)點(diǎn) 一個(gè)以逗號(hào)分隔的列表,包含用于將該分類與其他分類區(qū)分開(kāi)來(lái)的主要屬性。 NODE_RULE不用于聚類分析模型。MARGINAL_RULE不用于聚類分析模型。NODE_PROBA
54、BILITY與此節(jié)點(diǎn)相關(guān)聯(lián)的概率。 父節(jié)點(diǎn) 始終為 1。分類節(jié)點(diǎn) 該概率表示屬性的組合概率,其中根據(jù)用于創(chuàng)建聚類分析模型的算法,會(huì)有某些調(diào)整。MARGINAL_PROBABILITY從父節(jié)點(diǎn)到達(dá)該節(jié)點(diǎn)的概率。 在聚類分析模型中,邊緣概率始終與此節(jié)點(diǎn)概率相同。NODE_DISTRIBUTION一個(gè)包含該節(jié)點(diǎn)的概率直方圖的表。父節(jié)點(diǎn) 請(qǐng)參閱對(duì)本主題的介紹。分類節(jié)點(diǎn) 表示包含在此分類中的事例的屬性和值的分布。NODE_SUPPORT 支持此節(jié)點(diǎn)的事例的數(shù)目。 父節(jié)點(diǎn) 指示整個(gè)模型的定型事例數(shù)。分類節(jié)點(diǎn) 指示將分類的大小作為事例數(shù)。 注意 如果模型使用 K-Means 聚類分析,則每個(gè)事例只能屬于一個(gè)
55、分類。 但是,如果模型使用 EM 聚類分析,則每個(gè)事例可以屬于不同的分類,而且對(duì)于事例所屬的每個(gè)分類,該事例都將分配有一個(gè)加權(quán)距離。 因此,對(duì)于 EM 模型來(lái)說(shuō),對(duì)單個(gè)分類支持的和將大于對(duì)整個(gè)模型的支持。MSOLAP_MODEL_COLUMN 不用于聚類分析模型。MSOLAP_NODE_SCORE顯示與此節(jié)點(diǎn)關(guān)聯(lián)的分?jǐn)?shù)。父節(jié)點(diǎn) 聚類分析模型的 Bayesian 信息標(biāo)準(zhǔn) ( BIC) 分?jǐn)?shù)。分類節(jié)點(diǎn) 始終為 0。MSOLAP_NODE_SHORT_CAPTION 用于顯示的標(biāo)簽。 此標(biāo)題無(wú)法更改。父節(jié)點(diǎn) 模型的類型:聚類分析模型分類節(jié)點(diǎn) 分類的名稱。 示例:分類 1。注釋Analysis Services 提供了用于創(chuàng)建聚類分析模型的多種方法。 如果不了解所使用的模型是使用哪種方法創(chuàng)建的,可以使用 ADOMD 客戶端或 AMO,也可以通過(guò)查詢?cè)摂?shù)據(jù)挖掘架構(gòu)行集,以編程方式檢索該模型的元數(shù)據(jù)。 有關(guān)詳細(xì)信息,請(qǐng)參閱 如
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國(guó)鹽業(yè)市場(chǎng)十三五規(guī)劃與投資戰(zhàn)略研究報(bào)告
- 呂梁師范高等??茖W(xué)校《軟件項(xiàng)目研發(fā)實(shí)踐》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙大寧波理工學(xué)院《食品分析與檢驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 中北大學(xué)《計(jì)算機(jī)網(wǎng)絡(luò)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025重慶市安全員-B證考試題庫(kù)及答案
- 江蘇農(nóng)牧科技職業(yè)學(xué)院《計(jì)量經(jīng)濟(jì)學(xué)B》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼東學(xué)院《巖石力學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年云南省建筑安全員知識(shí)題庫(kù)及答案
- 北京政法職業(yè)學(xué)院《健身一》2023-2024學(xué)年第二學(xué)期期末試卷
- 貴州盛華職業(yè)學(xué)院《三維影像設(shè)計(jì)Ⅰ》2023-2024學(xué)年第二學(xué)期期末試卷
- Illustrator設(shè)計(jì)教案(第一講)課件
- 我國(guó)的雙重國(guó)籍問(wèn)題研究 邊防管理專業(yè)
- 廣東義務(wù)教育標(biāo)準(zhǔn)化學(xué)校
- 全電發(fā)票樣式
- (完整)藥劑學(xué)教案
- 提案改善課件全員版
- 2022年全國(guó)新高考Ⅰ卷:馮至《江上》
- 銅陵油庫(kù)重油罐區(qū)工藝設(shè)計(jì)
- 質(zhì)量手冊(cè)CCC認(rèn)證完整
- DB51∕T 2767-2021 安全生產(chǎn)風(fēng)險(xiǎn)分級(jí)管控體系通則
- 反興奮劑考試試題與解析
評(píng)論
0/150
提交評(píng)論