畢業(yè)論文--基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘.doc_第1頁(yè)
畢業(yè)論文--基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘.doc_第2頁(yè)
畢業(yè)論文--基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘.doc_第3頁(yè)
畢業(yè)論文--基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘.doc_第4頁(yè)
畢業(yè)論文--基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘.doc_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

內(nèi)蒙古科技大學(xué)畢業(yè)論文 I 內(nèi)蒙古科技大學(xué) 本科生畢業(yè)畢業(yè)論文 題 目 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘 學(xué)生姓名 孫成偉 學(xué) 號(hào) 0710132133 專(zhuān) 業(yè) 數(shù)學(xué)與應(yīng)用數(shù)學(xué) 班 級(jí) 2007 級(jí) 1 班 指導(dǎo)教師 王培吉 副教授 內(nèi)蒙古科技大學(xué)畢業(yè)論文 I 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘 摘摘 要要 數(shù)據(jù)挖掘利用了統(tǒng)計(jì)學(xué)的抽樣 估計(jì)和假設(shè)檢驗(yàn)及人工智能 模式識(shí)別和 機(jī)器學(xué)習(xí)的搜索算法 建模技術(shù)和學(xué)習(xí)理論等領(lǐng)域的思想 數(shù)據(jù)挖掘在這種具 有固定形式的數(shù)據(jù)集上完成知識(shí)的提煉 最后以合適的知識(shí)模式用于進(jìn)一步分 析決策工作 在數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識(shí)模型中 關(guān)聯(lián)規(guī)則模式是非常重要的一種 也是 最活躍的一個(gè)分支 關(guān)聯(lián)規(guī)則表示數(shù)據(jù)庫(kù)中一組對(duì)象之間某種關(guān)聯(lián)關(guān)系的規(guī)則 本文通過(guò) Apriori 算法 將收集來(lái)的歷年全國(guó)各地區(qū)城鎮(zhèn)居民食品消費(fèi)情況 進(jìn)行數(shù)據(jù)挖掘 通過(guò)數(shù)據(jù)挖掘 找到頻繁項(xiàng)集并得到關(guān)聯(lián)規(guī)則 由關(guān)聯(lián)規(guī)則進(jìn) 行相關(guān)分析 并將得出的分析結(jié)果應(yīng)用到實(shí)際當(dāng)中 關(guān)鍵字 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 關(guān)鍵字 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 Apriori 算法 食品消費(fèi)分析算法 食品消費(fèi)分析 內(nèi)蒙古科技大學(xué)畢業(yè)論文 II Data mining based on association rules Abstract Using the statistical data mining the sampling estimation and hypothesis testing and artificial intelligence pattern recognition and machine learning search algorithm modeling technology and learning theory and other areas of thought Data mining in this has fixed forms of datasets finally complete knowledge refining in the proper knowledge model for further analysis and decision work In the knowledge models that data mining has found association rules mode is a very important kind it is also a branch of the most activities Association rules is the relationship between some of the rules in a group of objects in the database Through Apriori algorithm in this paper will collect of calendar year the national regions to urban residents food consumption data mining By data mining to find frequent Itemset and get association rules Correlation analysis by association rules and will the results of analysis in the practical application Key words Data Mining Association rules Apriori algorithm Food consumption analysis 內(nèi)蒙古科技大學(xué)畢業(yè)論文 III 目目 錄錄 摘 要 I ABSTRACT II 目 錄 II 第一章 引 言 1 1 1 研究背景 1 1 1 1 數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別 3 1 2 數(shù)據(jù)挖掘的主要問(wèn)題 3 1 2 1 數(shù)據(jù)挖掘技術(shù)和用戶界面問(wèn)題 3 1 2 2 挖掘不同類(lèi)型的知識(shí)問(wèn)題 3 1 2 3 多個(gè)抽象層的交互知識(shí)挖掘問(wèn)題 3 1 2 4 數(shù)據(jù)挖掘結(jié)果的表示和顯示問(wèn)題 3 1 2 5 處理噪音和不完全數(shù)據(jù) 3 1 2 6 模式評(píng)估 興趣度問(wèn)題 4 1 2 7 性能問(wèn)題 4 1 2 8 數(shù)據(jù)挖掘算法的有效性和可規(guī)模性 4 1 2 9 并行 分布和增量挖掘算法 4 1 3 數(shù)據(jù)挖掘的研究方向 4 1 4 擬解決的問(wèn)題 5 1 5 本章小結(jié) 6 第二章 數(shù)據(jù)挖掘概念與技術(shù) 7 2 1 數(shù)據(jù)挖掘的任務(wù) 7 2 1 1 數(shù)據(jù)挖掘的職能 7 2 2 數(shù)據(jù)挖掘的對(duì)象 8 2 3 可數(shù)據(jù)挖掘的知識(shí)模型 9 2 4 數(shù)據(jù)挖掘的技術(shù) 9 內(nèi)蒙古科技大學(xué)畢業(yè)論文 IV 2 4 1 數(shù)據(jù)挖掘的方法 9 2 4 2 數(shù)據(jù)挖掘的步驟 11 第三章 關(guān)聯(lián)規(guī)則 13 3 1 由購(gòu)物籃分析得到的關(guān)聯(lián)規(guī)則 13 3 2 關(guān)聯(lián)規(guī)則的相關(guān)概念 13 3 2 1 關(guān)聯(lián)規(guī)則的概念 13 3 2 2 支持度與置信度 14 3 3 關(guān)聯(lián)規(guī)則挖掘的過(guò)程及分類(lèi) 15 3 3 1 關(guān)聯(lián)規(guī)則的挖掘過(guò)程 15 3 3 2 關(guān)聯(lián)規(guī)則的分類(lèi) 15 3 4 關(guān)聯(lián)規(guī)則的相關(guān)算法 16 3 4 1 Apriori 算法 16 3 4 2 基于劃分的算法 16 3 4 3 FP 樹(shù)頻集算法 17 第四章 APRIORI 算法 18 4 1 APRIORI算法的定義及思想 18 4 1 1 Apriori 算法的基本思想 18 4 2 APRIORI算法的性質(zhì) 18 4 3 APRIORI 算法的步驟 18 4 4 APRIORI算法的特點(diǎn)及局限性 19 4 5 APRIORI算法評(píng)價(jià) 20 第五章 應(yīng)用 APRIORI 算法的實(shí)例分析 21 5 1 研究說(shuō)明 21 5 2 研究方法 21 5 2 1 數(shù)據(jù)采集 21 5 2 2 數(shù)據(jù)處理 21 5 2 3 應(yīng)用算法進(jìn)行數(shù)據(jù)挖掘 23 5 2 4 結(jié)果分析 26 內(nèi)蒙古科技大學(xué)畢業(yè)論文 V 參考文獻(xiàn) 27 附 錄 28 致 謝 32 內(nèi)蒙古科技大學(xué)畢業(yè)論文 1 第第一一章章 引引 言言 數(shù)據(jù)挖掘 Data Mining DM 又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn) Knowledge Discover in Database KDD 是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題 所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的 先前未知的并有潛在 價(jià)值的信息的非平凡過(guò)程 數(shù)據(jù)挖掘是一種決策支持過(guò)程 它主要基于人工智能 機(jī)器學(xué)習(xí) 模式識(shí) 別 統(tǒng)計(jì)學(xué) 數(shù)據(jù)庫(kù) 可視化技術(shù)等 高度自動(dòng)化地分析企業(yè)的數(shù)據(jù) 做出歸 納性的推理 從中挖掘出潛在的模式 幫助決策者調(diào)整市場(chǎng)策略 減少風(fēng)險(xiǎn) 做出正確的決策 1 1 研究背景研究背景 自 2000 年以來(lái) 數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注 其主要原因是存 在大量數(shù)據(jù) 可以廣泛使用 并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知 識(shí) 獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用 包括商務(wù)管理 生產(chǎn)控制 市 場(chǎng)分析 工程設(shè)計(jì)和科學(xué)探索等 數(shù)據(jù)挖掘利用了統(tǒng)計(jì)學(xué)的抽樣 估計(jì)和假設(shè)檢驗(yàn)及人工智能 模式識(shí)別和 機(jī)器學(xué)習(xí)的搜索算法 建模技術(shù)和學(xué)習(xí)理論等領(lǐng)域的思想 數(shù)據(jù)挖掘也吸納了 其他領(lǐng)域的思想 包括最優(yōu)化 進(jìn)化計(jì)算 信息論 信號(hào)處理 可視化和信息 檢索 其中的一些領(lǐng)域在數(shù)據(jù)挖掘中起到了重要的支撐作用 特別的 需要數(shù) 據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ) 索引和查詢(xún)處理的支持 廣義上說(shuō) 任何從數(shù)據(jù)庫(kù)中挖掘信息的過(guò)程都叫做數(shù)據(jù)挖掘 從這點(diǎn)看來(lái) 數(shù)據(jù)挖掘就是 BI 商業(yè)智能 但從技術(shù)術(shù)語(yǔ)上說(shuō) 數(shù)據(jù)挖掘 Data Mining 特 指的是 源數(shù)據(jù)經(jīng)過(guò)清洗和轉(zhuǎn)換等成為適合于挖掘的數(shù)據(jù)集 數(shù)據(jù)挖掘在這種 具有固定形式的數(shù)據(jù)集上完成知識(shí)的提煉 最后以合適的知識(shí)模式用于進(jìn)一步 分析決策工作 從這種狹義的觀點(diǎn)上 我們可以定義 數(shù)據(jù)挖掘是從特定形式 的數(shù)據(jù)集中提煉知識(shí)的過(guò)程 數(shù)據(jù)挖掘往往針對(duì)特定的數(shù)據(jù) 特定的問(wèn)題 選 擇一種或者多種挖掘算法 找到數(shù)據(jù)下面隱藏的規(guī)律 這些規(guī)律往往被用來(lái)預(yù) 測(cè) 支持決策 自 60 年代以來(lái) 數(shù)據(jù)庫(kù)和信息技術(shù)已經(jīng)系統(tǒng)地從原始的文件處理進(jìn)化到 內(nèi)蒙古科技大學(xué)畢業(yè)論文 2 復(fù)雜的 功能強(qiáng)大的數(shù)據(jù)庫(kù)系統(tǒng) 自70年代以來(lái) 數(shù)據(jù)庫(kù)系統(tǒng)的研究和開(kāi)發(fā)已 經(jīng)從層次和網(wǎng)狀數(shù)據(jù)庫(kù)發(fā)展到開(kāi)發(fā)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng) 數(shù)據(jù)建模工具 索引和數(shù) 據(jù)組織技術(shù) 自 80 年代中期以來(lái) 數(shù)據(jù)庫(kù)技術(shù)的特點(diǎn)是廣泛接受關(guān)系技術(shù) 研究和開(kāi) 發(fā)新的 功能強(qiáng)大的數(shù)據(jù)庫(kù)系統(tǒng) 這些使用了先進(jìn)的數(shù)據(jù)模型 如擴(kuò)充關(guān)系 面向?qū)ο?對(duì)象 關(guān)系和演繹模型 圖 1 1 數(shù)據(jù)庫(kù)技術(shù)的進(jìn)化 內(nèi)蒙古科技大學(xué)畢業(yè)論文 3 1 1 11 1 1 數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別 數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析 如查詢(xún) 報(bào)表 聯(lián)機(jī)應(yīng)用分析 的本質(zhì)區(qū)別 是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息 發(fā)現(xiàn)知識(shí) 數(shù)據(jù)挖掘所得 到的信息應(yīng)具有先未知 有效和可實(shí)用三個(gè)特征 先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的 即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那 些不可能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí) 甚至是違背直覺(jué)的信息或知識(shí) 挖掘出的 信息越是出乎意料 就可能越有價(jià)值 在商業(yè)應(yīng)用中最典型的例子就是一家連 鎖超市通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布與啤酒之間的聯(lián)系 1 1 2 數(shù)據(jù)挖掘的主要問(wèn)題數(shù)據(jù)挖掘的主要問(wèn)題 由于強(qiáng)調(diào)數(shù)據(jù)挖掘的主要問(wèn)題 考慮挖掘技術(shù) 用戶界面 性能和各種數(shù) 據(jù)類(lèi)型 這些問(wèn)題介紹如下 1 2 1 數(shù)據(jù)挖掘技術(shù)和用戶界面問(wèn)題數(shù)據(jù)挖掘技術(shù)和用戶界面問(wèn)題 這反映所挖掘的知識(shí)類(lèi)型 在多粒度上挖掘知識(shí)的能力 領(lǐng)域知識(shí)的使用 特定的挖掘和知識(shí)顯示 1 2 2 挖掘不同類(lèi)型的知識(shí)問(wèn)題挖掘不同類(lèi)型的知識(shí)問(wèn)題 由于不同的用戶可能對(duì)不同類(lèi)型的知識(shí)感興趣 數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)覆蓋廣 譜的數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)任務(wù) 包括數(shù)據(jù)特征 區(qū)分 關(guān)聯(lián) 聚類(lèi) 趨勢(shì) 偏 差分析和類(lèi)似性分析 這些任務(wù)可能以不同的方式使用相同的數(shù)據(jù)庫(kù) 并需要 開(kāi)發(fā)大量數(shù)據(jù)挖掘技術(shù) 1 2 3 多個(gè)抽象層的交互知識(shí)挖掘問(wèn)題多個(gè)抽象層的交互知識(shí)挖掘問(wèn)題 由于很難準(zhǔn)確地知道能夠在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)什么 數(shù)據(jù)挖掘過(guò)程應(yīng)當(dāng)是交互 的 1 2 4 數(shù)據(jù)挖掘結(jié)果的表示和顯示問(wèn)題數(shù)據(jù)挖掘結(jié)果的表示和顯示問(wèn)題 發(fā)現(xiàn)的知識(shí)應(yīng)當(dāng)用高級(jí)語(yǔ)言 可視化表示形式 或其它表示形式表示 使 得知識(shí)易于理解 能夠直接被人使用 如果數(shù)據(jù)挖掘系統(tǒng)是交互的 這一點(diǎn)尤 為重要 這要求系統(tǒng)采用有表達(dá)能力的知識(shí)表示技術(shù) 如樹(shù) 表 圖 圖表 交叉表 矩陣或曲線 1 2 5 處理噪音和不完全數(shù)據(jù)處理噪音和不完全數(shù)據(jù) 內(nèi)蒙古科技大學(xué)畢業(yè)論文 4 存放在數(shù)據(jù)庫(kù)中數(shù)據(jù)可能反映噪音 例外情況 或不完全的數(shù)據(jù)對(duì)象 這 些對(duì)象可能搞亂分析過(guò)程 導(dǎo)致數(shù)據(jù)與所構(gòu)造的知識(shí)模型過(guò)分適應(yīng) 其結(jié)果是 所發(fā)現(xiàn)的模式的精確性可能很差 1 2 6 模式評(píng)估模式評(píng)估 興趣度問(wèn)題興趣度問(wèn)題 數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)數(shù)以千計(jì)的模式 對(duì)于給定的用戶 許多模式不是 有趣的 它們表示平凡知識(shí)或缺乏新穎性 1 2 7 性能問(wèn)題性能問(wèn)題 這包括數(shù)據(jù)挖掘算法的有效性 可規(guī)模性和并行處理 1 2 8 數(shù)據(jù)挖掘算法的有效性和可規(guī)模性數(shù)據(jù)挖掘算法的有效性和可規(guī)模性 為了有效地從數(shù)據(jù)庫(kù)中大量數(shù)據(jù)提取信息 數(shù)據(jù)挖掘算法必須是有效的和 可規(guī)?;?1 2 9 并行 分布和增量挖掘算法并行 分布和增量挖掘算法 許多數(shù)據(jù)庫(kù)的大容量 數(shù)據(jù)的廣泛分布和一些數(shù)據(jù)挖掘算法的計(jì)算復(fù)雜性 是促使開(kāi)發(fā)并行和分布式數(shù)據(jù)挖掘算法的因素 這些算法將數(shù)據(jù)劃分成部分 這些部分可以并行處理 然后合并每部分的結(jié)果 1 3 數(shù)據(jù)挖掘的研究方向數(shù)據(jù)挖掘的研究方向 1 數(shù)據(jù)輸入形式的多樣性 應(yīng)用中經(jīng)常需要對(duì)一些半結(jié)構(gòu)化 非結(jié)構(gòu)化的數(shù)據(jù)形式如文本 圖形 數(shù) 學(xué)公式 圖像或WWW 資源進(jìn)行挖掘操作 但目前的數(shù)據(jù)挖掘工具一般只能提 供對(duì)數(shù)值型的結(jié)構(gòu)化數(shù)據(jù)的處理 對(duì)數(shù)據(jù)中存在缺損或噪聲的情況也沒(méi)有有效 的方法 2 數(shù)據(jù)挖掘算法的有效性與可測(cè)性 數(shù)據(jù)挖掘的對(duì)象向更大型的數(shù)據(jù)庫(kù) 更高的維數(shù)和屬性之間更復(fù)雜的關(guān)系 方向發(fā)展 更多的記錄和屬性意味著更大 更高維的搜索空間 從而導(dǎo)致組合 爆炸 屬性之間的關(guān)系變得更為復(fù)雜如表現(xiàn)為層次結(jié)構(gòu) 會(huì)大大提高知識(shí)搜索的 代價(jià) 從1個(gè)大型數(shù)據(jù)庫(kù)中抽取知識(shí)的算法必須高效 可測(cè)量 即數(shù)據(jù)挖掘算法 的運(yùn)行時(shí)間必須可預(yù)測(cè) 且可接受 指數(shù)和多項(xiàng)式算法等復(fù)雜性的算法不具有實(shí) 用價(jià)值 目前的研究發(fā)展到用并行處理或抽樣的方法處理大規(guī)模數(shù)據(jù)以獲得較 高的計(jì)算效率 根據(jù)問(wèn)題的定義和領(lǐng)域知識(shí)選擇出需要的屬性從而降低維數(shù)并 內(nèi)蒙古科技大學(xué)畢業(yè)論文 5 有效處理屬性之間的復(fù)雜關(guān)系等 3 用戶參與和領(lǐng)域知識(shí) 有效的決策過(guò)程往往需要多次交互和多次反復(fù) 使數(shù)據(jù)挖掘的結(jié)果準(zhǔn)確地 描述數(shù)據(jù)挖掘的要求 并易于表達(dá) 實(shí)現(xiàn)在多抽象層次上交互挖掘知識(shí) 目前許 多知識(shí)發(fā)現(xiàn)系統(tǒng)和工具缺乏與用戶的交互 難以有效利用領(lǐng)域知識(shí) 4 證實(shí)技術(shù)的局限 數(shù)據(jù)挖掘使用特定的分析方法或邏輯形式發(fā)現(xiàn)知識(shí) 如歸納方法 但系統(tǒng) 可能無(wú)法去交互證實(shí)所發(fā)現(xiàn)的知識(shí)的正確或正確的程度 使得發(fā)現(xiàn)的知識(shí)沒(méi)有 普遍性而不能成為有用的知識(shí) 5 知識(shí)的表達(dá)和解釋機(jī)制 許多應(yīng)用中重要的是用戶能夠理解發(fā)現(xiàn)的知識(shí) 這要求知識(shí)的表達(dá)不僅限 于數(shù)字或符號(hào) 而是更易于理解的方式 如圖形 自然語(yǔ)言和可視化技術(shù)等 同 時(shí) 只有當(dāng)數(shù)據(jù)挖掘系統(tǒng)能提供更好的解釋機(jī)制 用戶才能更有效地評(píng)價(jià)這些知 識(shí) 并且區(qū)分出哪些是真正有用的知識(shí) 哪些只是常識(shí)性的知識(shí)或異常情況 6 知識(shí)的維護(hù)和更新 新的知識(shí)發(fā)現(xiàn)可能導(dǎo)致以前發(fā)現(xiàn)的知識(shí)失效 因此知識(shí)需要?jiǎng)討B(tài)維護(hù)和及 時(shí)更新 目前研究采用增量更新的方法 數(shù)據(jù)快照和時(shí)間戳等方法來(lái)維護(hù)已有 的知識(shí) 7 私有性和安全性 數(shù)據(jù)挖掘能從不同角度 不同抽象層次上觀察數(shù)據(jù) 將影響到數(shù)據(jù)挖掘的 私有性和安全性 通過(guò)研究數(shù)據(jù)挖掘?qū)е碌臄?shù)據(jù)非法侵入 可改進(jìn)數(shù)據(jù)庫(kù)安全 方法 以避免信息泄露 8 支持的局限與其他系統(tǒng)的集成 目前的數(shù)據(jù)挖掘系統(tǒng)尚不能支持多種平臺(tái) 一些產(chǎn)品是基于PC的 一些是 面向大型主機(jī)系統(tǒng)的 還有一些是面向客戶機(jī) 服務(wù)器環(huán)境的 另外 由于方法 功能單一的發(fā)現(xiàn)系統(tǒng)的適應(yīng)范圍的限制 要充分發(fā)揮系統(tǒng)的作用 應(yīng)該和數(shù)據(jù)庫(kù) 知識(shí)庫(kù) 專(zhuān)家系統(tǒng) 決策支持系統(tǒng) 可視化工具 網(wǎng)絡(luò)技術(shù)等進(jìn)行有機(jī)集成 5 6 1 4 擬解決的問(wèn)題擬解決的問(wèn)題 內(nèi)蒙古科技大學(xué)畢業(yè)論文 6 通過(guò)調(diào)查 9 類(lèi)食品歷年 2000 2009 年 2004 年除外 各地區(qū)的人均食物消 費(fèi)情況 可以清楚的知道各地區(qū)人民的飲食習(xí)慣 對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘 得到相應(yīng)的關(guān)聯(lián)規(guī)則 依據(jù)得到的關(guān)聯(lián)規(guī)則 可以建立相應(yīng)的食品供給機(jī)制 提供合理的飲食建議 可以使人們?cè)谌粘5娘嬍持谐缘母】?本文通過(guò)對(duì)采集來(lái)的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘 運(yùn)用 apriori 算法進(jìn)行相關(guān)的挖掘 得到關(guān)聯(lián)規(guī)則 并應(yīng)用到實(shí)際 1 5 本章小結(jié)本章小結(jié) 本章介紹了數(shù)據(jù)挖掘技術(shù)的研究意義及技術(shù)背景 數(shù)據(jù)挖掘的主要問(wèn)題 論文選題的依據(jù) 數(shù)據(jù)挖掘的研究方向及我們所做論文的主要內(nèi)容等 在當(dāng)今 社會(huì) 正處于信息爆炸的年代 怎樣從眾多的 無(wú)序 紛亂 復(fù)雜的信息中得 到自己有用的信息 這就需要一定的信息處理能力 數(shù)據(jù)挖掘就是在這樣的環(huán) 境中得到完善和發(fā)展 數(shù)據(jù)挖掘技術(shù)融合了當(dāng)今的許多學(xué)科的最新研究成果和 技術(shù)而形成的一個(gè)具有自己特色的研究分支 可進(jìn)行數(shù)據(jù)挖掘的項(xiàng)目極其豐富 進(jìn)行數(shù)據(jù)挖掘的方法也有很多種 本文是對(duì)全國(guó)各地區(qū)歷年對(duì) 9 類(lèi)食品的消費(fèi) 情況進(jìn)行數(shù)據(jù)挖掘 并得出相應(yīng)的分析 內(nèi)蒙古科技大學(xué)畢業(yè)論文 7 第第二二章章 數(shù)數(shù)據(jù)據(jù)挖挖掘掘概概念念與與技技術(shù)術(shù) 數(shù)據(jù)挖掘 Data Mining 就是從存放在數(shù)據(jù)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中 的大量的數(shù)據(jù)中獲取有效的 新穎的 潛在有用的 最終可理解模式的非平凡 過(guò)程 數(shù)據(jù)挖掘涉及多學(xué)科技術(shù)的集成 包括數(shù)據(jù)庫(kù)技術(shù) 統(tǒng)計(jì) 機(jī)器學(xué)習(xí) 高 性能計(jì)算 模式識(shí)別 神經(jīng)網(wǎng)絡(luò) 數(shù)據(jù)可視化 信息提取 圖像與信號(hào)處理和 空間數(shù)據(jù)分析 簡(jiǎn)單地說(shuō) 數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或 挖掘 知識(shí) 該術(shù)語(yǔ)實(shí)際上有 點(diǎn)用詞不當(dāng) 注意 從礦石或砂子挖掘黃金稱(chēng)作黃金挖掘 而不是砂石挖掘 這樣 數(shù)據(jù)挖掘應(yīng)當(dāng)更正確地命名為 從數(shù)據(jù)中挖掘知識(shí) 知識(shí)挖掘 是一個(gè) 短術(shù)語(yǔ) 可能不能強(qiáng)調(diào)從大量數(shù)據(jù)中挖掘 畢竟 挖掘是一個(gè)很生動(dòng)的術(shù)語(yǔ) 它抓住了從大量的 未加工的材料中發(fā)現(xiàn)少量金塊這一過(guò)程的特點(diǎn) 圖 2 1 通過(guò)數(shù)據(jù)挖掘 可以從數(shù)據(jù)庫(kù)提取有趣的知識(shí) 規(guī)律 或高層信息 并可 以從不同角度觀察或?yàn)g覽 發(fā)現(xiàn)的知識(shí)可以用于決策 過(guò)程控制 信息管理 查詢(xún)處理 等等 因此 數(shù)據(jù)挖掘被信息產(chǎn)業(yè)界認(rèn)為是數(shù)據(jù)庫(kù)系統(tǒng)最重要的前 沿之一 是信息產(chǎn)業(yè)最有前途的交叉學(xué)科 2 1 數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的任務(wù) 通常數(shù)據(jù)挖掘的任務(wù)可以分為預(yù)測(cè)和描述兩大類(lèi) 預(yù)測(cè)任務(wù)是根據(jù)己知屬性的值 推斷特定的未知屬性的值 被預(yù)測(cè)的屬性一 般稱(chēng)為目標(biāo)變量 用于做預(yù)測(cè)的屬性稱(chēng)為說(shuō)明變量 預(yù)測(cè)分為針對(duì)離散的目標(biāo) 變量的分類(lèi)任務(wù)和針對(duì)連續(xù)的目標(biāo)變量的回歸任務(wù) 描述任務(wù)是刻畫(huà)數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性 目標(biāo)是以簡(jiǎn)潔概要的方式導(dǎo)出 概括數(shù)據(jù)中潛在聯(lián)系的模式 描述任務(wù)可以發(fā)現(xiàn)的模式有 概念描述 特征化和 比較 關(guān)聯(lián)規(guī)則 聚類(lèi) 異常等 2 1 1 數(shù)據(jù)挖掘的職能數(shù)據(jù)挖掘的職能 內(nèi)蒙古科技大學(xué)畢業(yè)論文 8 數(shù)據(jù)挖掘能做以下七種不同事情 分析方法 分類(lèi) Classification 估值 Estimation 預(yù)言 Prediction 相關(guān)性分組或關(guān)聯(lián)規(guī)則 Affinity grouping or association rules 聚集 Clustering 描述和可視化 Description and Visualization 復(fù)雜數(shù)據(jù)類(lèi)型挖掘 Text Web 圖形圖像 視頻 音頻等 以上七種數(shù)據(jù)挖掘的分析方法可以分為兩類(lèi) 直接數(shù)據(jù)挖掘 間接數(shù)據(jù)挖 掘 1 直接數(shù)據(jù)挖掘直接數(shù)據(jù)挖掘 目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型 這個(gè)模型對(duì)剩余的數(shù)據(jù) 對(duì)一個(gè)特 定的變量 可以理解成數(shù)據(jù)庫(kù)中表的屬性 即列 進(jìn)行描述 2 間接數(shù)據(jù)挖掘 間接數(shù)據(jù)挖掘 目標(biāo)中沒(méi)有選出某一具體的變量 用模型進(jìn)行描述 而是在所有的變量中 建立起某種關(guān)系 分類(lèi) 估值 預(yù)言屬于直接數(shù)據(jù)挖掘 后三種屬于間接數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的范圍非常廣泛 可以是社會(huì)科學(xué) 經(jīng)濟(jì)學(xué) 商業(yè)數(shù)據(jù) 科學(xué)處 理產(chǎn)生的數(shù)據(jù)和衛(wèi)星觀測(cè)得到的數(shù)據(jù) 它們的數(shù)據(jù)結(jié)構(gòu)也各不相同 可以是層 次的 網(wǎng)狀的 關(guān)系的和面向?qū)ο蟮臄?shù)據(jù) 2 2 數(shù)據(jù)挖掘的對(duì)象數(shù)據(jù)挖掘的對(duì)象 數(shù)據(jù)挖掘是一個(gè)以數(shù)據(jù)庫(kù) 人工智能 數(shù)理統(tǒng)計(jì) 可視化四大支柱技術(shù)為 基礎(chǔ) 多學(xué)科交叉 滲透 融合形成的新的交叉學(xué)科 其研究?jī)?nèi)容十分廣泛 目前存在很多數(shù)據(jù)挖掘方法或算法 因此有必要對(duì)這些方法進(jìn)行分門(mén)別類(lèi) 描 述或說(shuō)明一個(gè)算法涉及三個(gè)部分 輸入 輸出和處理過(guò)程 數(shù)據(jù)挖掘算法的輸 入是數(shù)據(jù)庫(kù) 算法的輸出是要發(fā)現(xiàn)的知識(shí)或模式 算法的處理過(guò)程則涉及具體 的搜索方法 從算法的輸入 輸出和處理過(guò)程三個(gè)角度 我們可以確定這樣幾 種分類(lèi)標(biāo)準(zhǔn) 挖掘?qū)ο?挖掘方法 挖掘任務(wù) 根據(jù)挖掘?qū)ο蠓?有如下若干種數(shù)據(jù)庫(kù)或數(shù)據(jù)源 關(guān)系數(shù)據(jù)庫(kù) 面向?qū)ο髷?shù) 內(nèi)蒙古科技大學(xué)畢業(yè)論文 9 據(jù)庫(kù) 空間數(shù)據(jù)庫(kù) 時(shí)態(tài)數(shù)據(jù)庫(kù) 文本數(shù)據(jù)庫(kù) 多媒體數(shù)據(jù)庫(kù) 異質(zhì)數(shù)據(jù)庫(kù) 歷史數(shù)據(jù)庫(kù) 以及萬(wàn)維網(wǎng) Web 根據(jù)挖掘方法分 可粗分為 統(tǒng)計(jì)方法 機(jī)器學(xué)習(xí)方法 神經(jīng)網(wǎng)絡(luò)方法和數(shù) 據(jù)庫(kù)方法 統(tǒng)計(jì)方法可細(xì)分為 回歸分析 判別分析 聚類(lèi)分析 探索性分析等 機(jī)器學(xué)習(xí)可細(xì)分為 歸納學(xué)習(xí)方法 基于范例學(xué)習(xí) 遺傳算法等 神經(jīng)網(wǎng)絡(luò)方法 可細(xì)分為 前向神經(jīng)網(wǎng)絡(luò) 自組織神經(jīng)網(wǎng)絡(luò)等 數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析 或 OLAP 方法 另外還有面向?qū)傩缘臍w納方法 2 3 可數(shù)據(jù)挖掘的知識(shí)模型可數(shù)據(jù)挖掘的知識(shí)模型 根據(jù)挖掘任務(wù)分 數(shù)據(jù)挖掘主要發(fā)現(xiàn)以下五類(lèi)知識(shí) 1 廣義型知識(shí) 根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的 帶有普遍性的 較高 層次概念的 中觀或宏觀的知識(shí) 2 分類(lèi)型知識(shí) 反映同類(lèi)事物共同性質(zhì)的特征型知識(shí)和不同事物之間差異 性特征知識(shí) 用于反映數(shù)據(jù)的匯聚模式或根據(jù)對(duì)象的屬性區(qū)分其所屬類(lèi)別 3 關(guān)聯(lián)型知識(shí) 反映一個(gè)事件和其他事件之間依賴(lài)或關(guān)聯(lián)的知識(shí) 又稱(chēng)依 賴(lài)關(guān)系 這類(lèi)知識(shí)可用于數(shù)據(jù)庫(kù)中的歸一化 查詢(xún)優(yōu)化等 4 預(yù)測(cè)型知識(shí) 通過(guò)時(shí)間序列型數(shù)據(jù) 有歷史的和當(dāng)前的數(shù)據(jù)去預(yù)測(cè)未來(lái) 的情況 它實(shí)際上是一種以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí) 5 偏差型知識(shí) 通過(guò)分析標(biāo)準(zhǔn)類(lèi)以外的特例 數(shù)據(jù)聚類(lèi)外的離群值 實(shí)際 觀測(cè)值和系統(tǒng)預(yù)測(cè)值間的顯著差別 來(lái)對(duì)差異和極端特例進(jìn)行描述 2 4 數(shù)據(jù)挖掘的技術(shù)數(shù)據(jù)挖掘的技術(shù) 2 4 1 數(shù)據(jù)挖掘的方法數(shù)據(jù)挖掘的方法 從不同的角度看 數(shù)據(jù)挖掘技術(shù)有多種分類(lèi)方法 如根據(jù)發(fā)現(xiàn)的知識(shí)種類(lèi)分 類(lèi) 根據(jù)挖掘的數(shù)據(jù)庫(kù)類(lèi)型分類(lèi) 根據(jù)挖掘方法分類(lèi) 根據(jù)挖掘的途徑分類(lèi) 根 據(jù)所采用的技術(shù)分類(lèi)等等 目前常用的數(shù)據(jù)挖掘技術(shù)內(nèi)容包括如下 1 決策樹(shù)方法 利用信息論中的互信息 信息增益 尋找數(shù)據(jù)庫(kù)中具有最大信息量的字段 建立決策樹(shù)的一個(gè)結(jié)點(diǎn) 再根據(jù)字段的不同取值建立樹(shù)的分支 在每個(gè)分支子集 中重復(fù)建立樹(shù)的下層結(jié)點(diǎn)和分支的過(guò)程 即可建立決策樹(shù) 國(guó)際上最有影響和 最早的決策樹(shù)算法是 Quiulan 研制的 ID3 方法 數(shù)據(jù)庫(kù)越大它的效果越好 此 內(nèi)蒙古科技大學(xué)畢業(yè)論文 10 后又發(fā)展了各種決策樹(shù)方法 如 IBL E 方法使識(shí)別率提高了 10 2 神經(jīng)網(wǎng)絡(luò)方法 它模擬人腦神經(jīng)元結(jié)構(gòu) 以 MP 模型和 Hebb 學(xué)習(xí)規(guī)則為基礎(chǔ) 用神經(jīng)網(wǎng)絡(luò) 連接的權(quán)值表示知識(shí) 其學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計(jì)算上 目前主要有 3 大類(lèi)多種神經(jīng)網(wǎng)絡(luò)模型 前饋式網(wǎng)絡(luò) 它以感知機(jī) 反向傳播模型 函數(shù)型 網(wǎng)絡(luò)為代表 可用于預(yù)測(cè) 模式識(shí)別等方面 反饋式網(wǎng)絡(luò) 它以 Hopf ield 的 離散模型和連續(xù)模型為代表 分別用于聯(lián)想記憶和優(yōu)化計(jì)算 自組織網(wǎng)絡(luò) 它以 ART 模型 Koholon 模型為代表 用于聚類(lèi) 3 覆蓋正例排斥反例方法 它是利用覆蓋所有正例 排斥所有反例的思想來(lái)尋找規(guī)則 首先在正例集 合中任選一個(gè)種子 到反例集合中逐個(gè)比較 與字段取值構(gòu)成的選擇子相容則舍 去 相反則保留 按此思想循環(huán)所有正例種子 將得到正例的規(guī)則 選擇子的合 取式 比較典型的算法有 M ichalsk i 的 AQ 11 方法 洪家榮改進(jìn)的 AQ 15 方 法以及他的 A E5 方法 4 粗集 Rough Set 方法 在數(shù)據(jù)庫(kù)中 將行元素看成對(duì)象 列元素看成屬性 分為條件屬性和決策屬 性 等價(jià)關(guān)系 R 定義為不同對(duì)象在某個(gè) 或幾個(gè) 屬性上取值相同 這些滿足 等價(jià)關(guān)系的對(duì)象組成的集合稱(chēng)為該等價(jià)關(guān)系 R 的等價(jià)類(lèi) 條件屬性上的等價(jià)類(lèi) E 與決策屬性上的等價(jià)類(lèi) Y 之間有 3 種情況 下近似 Y 包含 E 上近似 Y 和 E 的交非空 無(wú)關(guān) Y 和 E 的交為空 對(duì)下近似建立確定性規(guī)則 對(duì)上近似 建立不確定性規(guī)則 含可信度 對(duì)無(wú)關(guān)情況不存在規(guī)則 5 概念樹(shù)方法 對(duì)數(shù)據(jù)庫(kù)中記錄的屬性字段按歸類(lèi)方式進(jìn)行抽象 建立起來(lái)的層次結(jié)構(gòu)稱(chēng) 之為概念樹(shù) 利用概念樹(shù)提升的方法可以大大濃縮數(shù)據(jù)庫(kù)中的記錄 對(duì)多個(gè)屬 性字段的概念樹(shù)進(jìn)行提升 將得到高度概括的知識(shí)基表 然后可再將它轉(zhuǎn)換成規(guī) 則 6 遺傳算法 這是模擬生物進(jìn)化過(guò)程的算法 由 3 個(gè)基本算子組成 繁殖 選擇 是從 1 個(gè)舊種群 父代 選出生命力強(qiáng)的個(gè)體 產(chǎn)生新種群 后代 的過(guò)程 交叉 重 內(nèi)蒙古科技大學(xué)畢業(yè)論文 11 組 選擇 2 個(gè)不同個(gè)體 染色體 的部分 基因 進(jìn)行交換 形成新個(gè)體 變 異 突變 對(duì)某些個(gè)體的某些基因進(jìn)行變異 1 變 0 0 變 1 這種遺傳算法可以 起到產(chǎn)生優(yōu)良后代的作用 這些后代需滿足適應(yīng)度值 經(jīng)過(guò)若干代的遺傳 將得 到滿足要求的后代 問(wèn)題的解 遺傳算法已在優(yōu)化計(jì)算和分類(lèi)機(jī)器學(xué)習(xí)方面顯 示了明顯的優(yōu)勢(shì) 7 公式發(fā)現(xiàn) 在工程和科學(xué)數(shù)據(jù)庫(kù) 由實(shí)驗(yàn)數(shù)據(jù)組成 中 對(duì)若干數(shù)據(jù)項(xiàng) 變量 進(jìn)行一定 的數(shù)學(xué)運(yùn)算 求得相應(yīng)的數(shù)學(xué)公式 比較典型的 BACON 發(fā)現(xiàn)系統(tǒng)完成了對(duì)物 理學(xué)中大量定律的重新發(fā)現(xiàn) 其基本思想是 對(duì)數(shù)據(jù)項(xiàng)進(jìn)行初等數(shù)學(xué)運(yùn)算 加 減 乘 除等 形成組合 數(shù)據(jù)項(xiàng) 若它的值為常數(shù)項(xiàng) 就得到了組合數(shù)據(jù)項(xiàng)等于常數(shù)的公式 8 統(tǒng)計(jì)分析方法 在數(shù)據(jù)庫(kù)字段項(xiàng)之間存在兩種關(guān)系 函數(shù)關(guān)系 能用函數(shù)公式表示的確定性 關(guān)系 和相關(guān)關(guān)系 不能用函數(shù)公式表示 但仍是相關(guān)確定關(guān)系 對(duì)它們的分析 采用如下方法 回歸分析 相關(guān)分析 主成分分析 9 模糊集方法 利用模糊集理論對(duì)實(shí)際問(wèn)題進(jìn)行模糊評(píng)判 模糊決策 模糊模式識(shí)別和模 糊聚類(lèi)分析 模糊性是客觀存在的 系統(tǒng)的復(fù)雜性越高 精確化能力就越低 即 模糊性就越強(qiáng) 這是 Zadeh 總結(jié)出的互克性原理 10 可視化技術(shù) 可視化數(shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能 使用戶對(duì)數(shù)據(jù)的剖析更清楚 例如 把數(shù)據(jù)庫(kù)中的多維數(shù)據(jù)變成多種圖形 這對(duì)揭示數(shù)據(jù)的狀況 內(nèi)在本質(zhì)及 規(guī)律性起了很大作用 2 4 2 數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘的步驟 一些人只是把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)基本步驟 知識(shí) 發(fā)現(xiàn)過(guò)程 由以下步驟組成 1 數(shù)據(jù)清理 消除噪音或不一致數(shù)據(jù) 2 數(shù)據(jù)集成 多種數(shù)據(jù)源可以組合在一起 3 數(shù)據(jù)選擇 從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù) 內(nèi)蒙古科技大學(xué)畢業(yè)論文 12 4 數(shù)據(jù)變換 數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式 如 通過(guò)匯總或聚集操 作 5 數(shù)據(jù)挖掘 基本步驟 使用智能方法提取數(shù)據(jù)模式 6 模式評(píng)估 根據(jù)某種興趣度度量 識(shí)別提供知識(shí)的真正有趣的模式 7 知識(shí)表示 使用可視化和知識(shí)表示技術(shù) 向用戶提供挖掘的知識(shí) 數(shù)據(jù)挖掘步驟可以與用戶或知識(shí)庫(kù)交互 有趣的模式提供給用戶 或作為 新的知識(shí)存放在知識(shí)庫(kù)中 注意 根據(jù)這種觀點(diǎn) 數(shù)據(jù)挖掘只是整個(gè)過(guò)程中的 一步 盡管是最重要的一步 因?yàn)樗l(fā)現(xiàn)隱藏的模式 內(nèi)蒙古科技大學(xué)畢業(yè)論文 13 第第三三章章 關(guān)關(guān)聯(lián)聯(lián)規(guī)規(guī)則則 3 1 由購(gòu)物籃分析得到的關(guān)聯(lián)規(guī)則由購(gòu)物籃分析得到的關(guān)聯(lián)規(guī)則 作為超市的一名銷(xiāo)售經(jīng)理 應(yīng)該最想知道的是消費(fèi)者購(gòu)物的心里 消費(fèi)者 在購(gòu)物時(shí)最想買(mǎi)到的物品 在買(mǎi)一件商品時(shí)會(huì)有這個(gè)商品會(huì)再買(mǎi)那種商品 也 是哪幾種商品會(huì)被消費(fèi)者頻繁購(gòu)買(mǎi) 例如 在一家超市中 人們發(fā)現(xiàn)了一個(gè)特 別有趣的現(xiàn)象 尿布與啤酒這兩種風(fēng)馬牛不相及的商品居然擺在一起 但這一 奇怪的舉措居然使尿布和啤酒的銷(xiāo)量大幅增加了 這可不是一個(gè)笑話 而是一 直被商家所津津樂(lè)道的發(fā)生在美國(guó)沃爾瑪連鎖超市的真實(shí)案例 原來(lái) 美國(guó)的婦女通常在家照顧孩子 所以她們經(jīng)常會(huì)囑咐丈夫在下班回 家的路上為孩子買(mǎi)尿布 而丈夫在買(mǎi)尿布的同時(shí)又會(huì)順手購(gòu)買(mǎi)自己愛(ài)喝的啤酒 這個(gè)發(fā)硯為商家?guī)?lái)了大量的利潤(rùn) 但是如何從浩如煙海卻又雜亂無(wú)章的數(shù)據(jù) 中 發(fā)現(xiàn)啤酒和尿布銷(xiāo)售之間的聯(lián)系呢 這又給了我們什么樣的啟示呢 3 啤酒 和 尿布 兩個(gè)看上去沒(méi)聯(lián)系的兩種商品放在一起 卻獲得了豐 厚的利潤(rùn) 這種現(xiàn)象就是賣(mài)場(chǎng)中商品直接的關(guān)聯(lián)性 研究 啤酒和尿布 關(guān)聯(lián) 的方法就是購(gòu)物籃分析 3 2 關(guān)聯(lián)規(guī)則的相關(guān)概念關(guān)聯(lián)規(guī)則的相關(guān)概念 在數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識(shí)模型中 關(guān)聯(lián)規(guī)則模式是非常重要的一種 也是 最活躍的一個(gè)分支 關(guān)聯(lián)規(guī)則表示數(shù)據(jù)庫(kù)中一組對(duì)象之間某種關(guān)聯(lián)關(guān)系的規(guī)則 關(guān)聯(lián)規(guī)則挖掘是指發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系 關(guān)聯(lián) 規(guī)則問(wèn)題由 R Agrawal 等在 1993 年提出 隨即引起了廣泛的關(guān)注 許多研究者 對(duì)關(guān)聯(lián)規(guī)則挖掘問(wèn)題進(jìn)行了深入的研究 對(duì)最初的關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行了改 進(jìn)和擴(kuò)展 同時(shí) 關(guān)聯(lián)規(guī)則的挖掘被應(yīng)用到許多其它領(lǐng)域的數(shù)據(jù)庫(kù) 取得了良 好的挖掘效果 3 2 1 關(guān)聯(lián)規(guī)則的概念關(guān)聯(lián)規(guī)則的概念 內(nèi)蒙古科技大學(xué)畢業(yè)論文 14 設(shè) I 是項(xiàng)的集合 設(shè)任務(wù)相關(guān)的數(shù)據(jù) D 是數(shù)據(jù)庫(kù)事務(wù)的集 1i2imi 合 其中每個(gè)事務(wù) T 是項(xiàng)的集合 使得 TI 每一個(gè)事務(wù)有一個(gè)標(biāo)識(shí)符 稱(chēng)作 TID 設(shè) A 是一個(gè)項(xiàng)集 事務(wù) T 包含 A 當(dāng)且僅當(dāng) A I 關(guān)聯(lián)規(guī)則是形如 A B 的蘊(yùn)涵式 其中 A I B I 并且 A B 3 2 2 支持度與置信度支持度與置信度 規(guī)則的支持度和置信度是兩個(gè)規(guī)則興趣度量值 它們分別表示發(fā)現(xiàn)規(guī)則的 有用性和確定性 規(guī)則 AB 在事務(wù)集 D 中出現(xiàn) 具有支持度 s 其中 s 是 D 中事務(wù)包含 A B 即 A 和 B 二者 的百分比 它是概率 P A B 規(guī)則 A B 在 事務(wù)集 D 中具有置信度 c 如果 D 中包含 A 的事務(wù)的同時(shí)也包含 B 的百分比是 c 這是條件概率 P B A 即是 support AB P A B 3 1 即 關(guān)聯(lián)模式的支持度是模式為真的任務(wù)相關(guān)的元組 或事務(wù) 所占的百 分比 對(duì)于關(guān)聯(lián)規(guī)則 AB 其中 A 和 B 是項(xiàng)目的集合 支持度定義為 元組總數(shù) 的元組數(shù)和包含 支持度 BA BA confidence AB P B A 3 2 即 每個(gè)發(fā)現(xiàn)模式都應(yīng)當(dāng)由一個(gè)表示其有效性或 值得信賴(lài)性 的確定性 度量 對(duì)于關(guān)聯(lián)規(guī)則 AB 其中 A 和 B 是項(xiàng)目的集合 其確定性度量置信 度定義為 的元組數(shù)包含 的元組數(shù)和包含 置信度 A BA BA 同時(shí)滿足最小支持度閾值 min sup 和最小置信度閾值 min conf 的規(guī) 則稱(chēng)作強(qiáng)規(guī)則 我們用 0 和 100 之間的值而不是用 0 到 1 之間的值表示支持 度和置信度 為挖掘有效的關(guān)聯(lián)規(guī)則 必須給定最小支持度 min sup 和最小置信度 min conf 關(guān)聯(lián)規(guī)則的挖掘問(wèn)題就是在 D 中求解所有支持度和置信度均分別 超過(guò) min sup 和 min conf 的關(guān)聯(lián)規(guī)則 即要求解滿足 support AB min sup 和 confidence AB min conf 的規(guī)則 AB 同時(shí)滿足最小支持度閾值 min sup 和最小置信度閾值 min conf 的規(guī)則稱(chēng)為強(qiáng)規(guī)則 7 內(nèi)蒙古科技大學(xué)畢業(yè)論文 15 項(xiàng)的集合稱(chēng)為項(xiàng)集 包含 k 個(gè)項(xiàng)的項(xiàng)集稱(chēng)為 k 項(xiàng)集 3 3 關(guān)聯(lián)規(guī)則挖掘的過(guò)程及分類(lèi)關(guān)聯(lián)規(guī)則挖掘的過(guò)程及分類(lèi) 3 3 1 關(guān)聯(lián)規(guī)則的挖掘過(guò)程關(guān)聯(lián)規(guī)則的挖掘過(guò)程 關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步的過(guò)程 1 找出所有頻繁項(xiàng)集 根據(jù)定義 這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的 最小支持度計(jì)數(shù)一樣 2 由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則 根據(jù)定義 這些規(guī)則必須滿足最小支持度 和最小置信度 關(guān)聯(lián)規(guī)則的第一階段必須從原始資料集合中 找出所有高頻項(xiàng)目組 Large Itemsets 第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則 Association Rules 從高頻項(xiàng)目組產(chǎn) 生關(guān)聯(lián)規(guī)則 是利用前一步驟的頻繁 k 項(xiàng)集來(lái)產(chǎn)生規(guī)則 在最小置信度 Minimum Confidence 的條件下 若這一規(guī)則所求得的置信度滿足最小置信 度 則稱(chēng)此規(guī)則為關(guān)聯(lián)規(guī)則 4 3 3 2 關(guān)聯(lián)規(guī)則的分類(lèi)關(guān)聯(lián)規(guī)則的分類(lèi) 按照不同情況 關(guān)聯(lián)規(guī)則可以進(jìn)行分類(lèi)如下 1 基于規(guī)則中處理的變量的類(lèi)別 關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型 布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的 種類(lèi)化的 它顯示了這些變量之 間的關(guān)系 而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來(lái) 對(duì) 數(shù)值型字段進(jìn)行處理 將其進(jìn)行動(dòng)態(tài)的分割 或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處 理 當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類(lèi)變量 2 基于規(guī)則中數(shù)據(jù)的抽象層次 可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則 在單層的關(guān)聯(lián)規(guī)則中 所有的變量都沒(méi)有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè) 不同的層次的 而在多層的關(guān)聯(lián)規(guī)則中 對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的 考慮 3 基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù) 關(guān)聯(lián)規(guī)則可以分為單維的和多維的 內(nèi)蒙古科技大學(xué)畢業(yè)論文 16 在單維的關(guān)聯(lián)規(guī)則中 我們只涉及到數(shù)據(jù)的一個(gè)維 如用戶購(gòu)買(mǎi)的物品 而在多維的關(guān)聯(lián)規(guī)則中 要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維 換成另一句話 單 維關(guān)聯(lián)規(guī)則是處理單個(gè)屬性中的一些關(guān)系 多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之 間的某些關(guān)系 例如 啤酒 尿布 這條規(guī)則只涉及到用戶的購(gòu)買(mǎi)的物品 性別 女 職業(yè) 秘書(shū) 這條規(guī)則就涉及到兩個(gè)字段的信息 是兩個(gè)維上 的一條關(guān)聯(lián)規(guī)則 3 4 關(guān)聯(lián)規(guī)則的相關(guān)算法關(guān)聯(lián)規(guī)則的相關(guān)算法 3 4 1 Apriori 算算法法 Apriori 算法 使用候選項(xiàng)集找頻繁項(xiàng)集 Apriori 算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法 其核 心是基于兩階段頻集思想的遞推算法 該關(guān)聯(lián)規(guī)則在分類(lèi)上屬于單維 單層 布爾關(guān)聯(lián)規(guī)則 在這里 所有支持度大于最小支持度的項(xiàng)集稱(chēng)為頻繁項(xiàng)集 簡(jiǎn)稱(chēng)頻集 Apriori 算法的基本思想是 1 找出所有的頻集 這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度 一樣 2 由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則 這些規(guī)則必須滿足最小支持度和最小可 信度 3 使用第一步找到的頻集產(chǎn)生期望的規(guī)則 產(chǎn)生只包含集合的項(xiàng)的所有 規(guī)則 其中每一條規(guī)則的右部只有一項(xiàng) 這里采用的是中規(guī)則的定義 一旦 這些規(guī)則被生成 那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下 來(lái) 為了生成所有頻集 使用了遞推的方法 可能產(chǎn)生大量的候選集 以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù) 是 Apriori 算法 的兩大缺點(diǎn) 3 4 2 基基于于劃劃分分的的算算法法 基于劃分的算法 是由 Savasere 等人設(shè)計(jì)的 這個(gè)算法先把數(shù)據(jù)庫(kù)從邏輯 上分成幾個(gè)互不相交的塊 每次單獨(dú)考慮一個(gè)分塊并對(duì)它生成所有的頻集 然后把產(chǎn)生的頻集合并 用來(lái)生成所有可能的頻集 最后計(jì)算這些項(xiàng)集的支 持度 這里分塊的大小選擇要使得每個(gè)分塊可以被放入主存 每個(gè)階段只需 內(nèi)蒙古科技大學(xué)畢業(yè)論文 17 被掃描一次 該算法是可以高度并行的 可以把每一分塊分別分配給某一個(gè) 處理器生成頻集 算法的正確性是由每一個(gè)可能的頻集 至少在某一個(gè)分 塊中保證是頻繁項(xiàng)集 產(chǎn)生頻集的每一個(gè)循環(huán)結(jié)束后 處理器之間進(jìn)行通信 來(lái)產(chǎn)生全局的候選 k 項(xiàng)集 通常這里的通信過(guò)程是算法執(zhí)行時(shí)間的主要瓶頸 而另一方面 每個(gè)獨(dú)立的處理器生成頻集的時(shí)間也是一個(gè)瓶頸 3 4 3 FP 樹(shù)頻集算法樹(shù)頻集算法 針對(duì) Apriori 算法的固有缺陷 J Han 等提出了不產(chǎn)生候選挖掘頻繁項(xiàng) 集的方法 FP 樹(shù)頻集算法 采用分而治之的策略 在經(jīng)過(guò)第一遍掃描之后 把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹(shù) FP tree 同時(shí)依然保留其中的 關(guān)聯(lián)信息 隨后再將 FP tree 分化成一些條件庫(kù) 每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1 的 頻集相關(guān) 然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘 當(dāng)原始數(shù)據(jù)量很大的時(shí)候 也可以結(jié)合劃分的方法 使得一個(gè) FP tree 可以放入主存中 實(shí)驗(yàn)表明 FP tree 對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性 同時(shí)在效率上較之Apriori 算法 有巨大的提高 本文主要是應(yīng)用 Apriori 算法 對(duì)本文中的是實(shí)例進(jìn)行分析 研究 內(nèi)蒙古科技大學(xué)畢業(yè)論文 18 第四章第四章 Apriori 算法算法 4 1 Apriori 算法的定義及思想算法的定義及思想 Apriori 算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法 算法的 名字基于這樣的事實(shí) 算法使用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí) 正如我們將看到的 Apriori 使用一種稱(chēng)作逐層搜索的迭代方法 k 項(xiàng)集用于探索 k 1 項(xiàng)集 4 1 14 1 1 AprioriApriori 算法的基本思想算法的基本思想 1 首先 通過(guò)掃描數(shù)據(jù)集 產(chǎn)生一個(gè)大的候選數(shù)據(jù)項(xiàng)集 并計(jì)算每個(gè)候 選數(shù)據(jù)項(xiàng)發(fā)生的次數(shù) 然后基于預(yù)先給定的最小支持度生成頻繁1 項(xiàng)集的集合 該集合記作L1 2 然后基于L1 和數(shù)據(jù)集中的數(shù)據(jù) 產(chǎn)生頻繁2 項(xiàng)集L2 3 用同樣的方法 直到生成頻繁n 項(xiàng)集Ln 其中已不再可能生成滿足最 小支持度的 N 1 項(xiàng)集 4 最后 從大數(shù)據(jù)項(xiàng)集中導(dǎo)出規(guī)則 為提高頻繁項(xiàng)集逐層產(chǎn)生的效率 一種稱(chēng)作 Apriori 性質(zhì)的重要性質(zhì)用于 壓縮搜索空間 4 2 Apriori 算法的性質(zhì)算法的性質(zhì) 為了提高按層搜索并產(chǎn)生相應(yīng)頻繁項(xiàng)集的處理效率 Apriori 算法利用了如 下一個(gè)重要性質(zhì)來(lái)幫助有效縮小頻繁項(xiàng)集的搜索空間 Apriori 性質(zhì) 一個(gè)頻繁項(xiàng)集中 任一子集也應(yīng)是頻繁項(xiàng)集 Apriori 性質(zhì)是根據(jù)以下觀察而得出結(jié)論 根據(jù)定義 若一個(gè)項(xiàng)集 I 不滿 足最小支持度閾值s 那么該項(xiàng)集 I 就不是頻繁項(xiàng)集 即P I s 若增加一個(gè)項(xiàng)A 到項(xiàng)集 I 中 那么所獲得的新項(xiàng)集 I A在整個(gè)交易數(shù)據(jù)庫(kù)所出現(xiàn)的次數(shù)也不 可能多于原項(xiàng)集 I 出現(xiàn)的次數(shù) 因此 I A 也不能是頻繁的 即P I A s 根據(jù)逆反公理 即若一個(gè)集合不能通過(guò)測(cè)試 該集合所有超集也不能通過(guò) 內(nèi)蒙古科技大學(xué)畢業(yè)論文 19 同樣的測(cè)試 因此很容易確定Apriori 算法是正確的 4 3 Apriori 算法的步驟算法的步驟 第一步 初始化數(shù)據(jù)庫(kù) 根據(jù)條件初始化數(shù)據(jù)庫(kù) 掃描事務(wù)數(shù)據(jù)庫(kù) 從中找 出所有的項(xiàng)集長(zhǎng)度為 k 1 的項(xiàng)集 且支持度大于 s 形成頻繁 1 項(xiàng)集 Lk 第二步 根據(jù)頻繁 k 項(xiàng)集產(chǎn)生候選 k 十 1 項(xiàng)候選項(xiàng)集 Ck 1 如果 Ck 1 進(jìn)入下一步 否則循環(huán)結(jié)束 第三步 掃描數(shù)據(jù)庫(kù) 以確定每個(gè)候選項(xiàng)集的支持度 第四步 刪除候選項(xiàng)中支持度小于 s 的候選項(xiàng) 形成 k 1 頻繁項(xiàng)集 Lk 1 第五步 k k 1 轉(zhuǎn)入第二步 Apriori 算法的第一步就是發(fā)現(xiàn)頻繁 1 項(xiàng)集 L1 在第二至第五步 利用 Lk 1 產(chǎn)生 Ck以便獲得 Lk 在這個(gè)過(guò)程產(chǎn)生相應(yīng)的候選項(xiàng)集 然后利用 Apriori 算法 性質(zhì)刪除那些子集為非頻繁項(xiàng)集的候選項(xiàng)集 一旦產(chǎn)生所有候選 就要掃描數(shù) 據(jù)庫(kù) 由此求出每個(gè)候選項(xiàng)集的支持度 算法中的第三步 最終滿足最小支持 度的候選項(xiàng)集組成了頻繁項(xiàng)集 Lk 1 這樣可以利用該過(guò)程來(lái)幫助從所獲得頻繁 項(xiàng)集中生成所有的關(guān)聯(lián)規(guī)則 Apriori 過(guò)程完成兩個(gè)操作 一是連接 二是剪枝操作 正如上面所介紹的 在連接過(guò)程中 Lk與 Lk連接以產(chǎn)生潛在候選項(xiàng)集 算法中的第二步 剪枝過(guò)程 中 算法中的第四步 利用 Apriori 性質(zhì)刪除候選項(xiàng)集中那些子集為非頻繁項(xiàng)集的 項(xiàng)集 4 4 Apriori 算法的特點(diǎn)及局限性算法的特點(diǎn)及局限性 Apriori 算法利用候選項(xiàng)集和頻繁項(xiàng)集的相互作用 得到了全部頻集 并通 過(guò)對(duì)候選項(xiàng)集進(jìn)行剪枝 大大地減少了候選項(xiàng)集的尺寸 獲得了令人滿意的結(jié) 果 然而 當(dāng)面對(duì)挖掘?qū)ο缶哂蟹倍嗟念l繁模式或者用戶給定的最小支持度較 低時(shí) Apriori 算法仍然有可能因?yàn)槿缦聝蓚€(gè)方面的巨大開(kāi)銷(xiāo)而面臨困境 1 在處理候選項(xiàng)集方面 如果算法得到了大量的頻繁1 項(xiàng)集 那么 在產(chǎn) 生候選項(xiàng)集時(shí) 會(huì)遇到大量候選項(xiàng)集難以處理的情況 所以 在有大量候選項(xiàng) 集產(chǎn)生的情況下 Apriori 算法基本無(wú)法運(yùn)行 2 Apriori 算法采用的模式匹配方式 在檢測(cè)大量的候選項(xiàng)集 特別是在 內(nèi)蒙古科技大學(xué)畢業(yè)論文 20 挖掘長(zhǎng)模式時(shí) 對(duì)數(shù)據(jù)庫(kù)的重復(fù)掃描非常多 大量的時(shí)間消耗在內(nèi)存與數(shù)據(jù)庫(kù) 中的數(shù)據(jù)的交換上 8 4 5 Apriori 算法評(píng)價(jià)算法評(píng)價(jià) 在許多情況下 Apriori算法的候選產(chǎn)生檢查方法大幅度壓縮了候選項(xiàng)集的 大小 并導(dǎo)致很好的性能 然而 它有兩種開(kāi)銷(xiāo)可能并非微不足道的 9 1 它可能產(chǎn)生大量候選項(xiàng)集 例如 如果有104個(gè)頻繁1 項(xiàng)集 則需要產(chǎn) 107 個(gè)頻繁2 項(xiàng)集 并累計(jì)和檢查其頻繁性 為發(fā)現(xiàn)長(zhǎng)度為100的頻繁模式 a1 a2 a100 則需產(chǎn)生多達(dá)約1030個(gè)候選 2 它可能需要重復(fù)的掃描數(shù)據(jù)庫(kù) 通過(guò)模式匹配檢查一個(gè)很大的候選集 合 為了提高Apriori 算法的效率 已經(jīng)提出了許多Apriori 算法的變形 3 無(wú)法對(duì)稀有信息進(jìn)行分析 由于頻繁集的使用了參數(shù)min sup 所以就 無(wú)法對(duì)小于min sup的事件進(jìn)行分析 而如果將min sup設(shè)成一個(gè)很低的值 那 么算法的效率就成了一個(gè)很難處理的問(wèn)題 內(nèi)蒙古科技大學(xué)畢業(yè)論文 21 第五章第五章 應(yīng)用應(yīng)用 Apriori 算法的實(shí)例分析算法的實(shí)例分析 居民在飲食方面的合理設(shè)置 對(duì)我們的生活質(zhì)量起到重要的作用 合理的 飲食習(xí)慣 使我們身體健康 生活質(zhì)量也有一定的提高 5 1 研究說(shuō)明研究說(shuō)明 通過(guò)對(duì) 2000 2009 年 2004 年除外 全國(guó)各地區(qū)城鎮(zhèn)居民對(duì)淀粉及薯類(lèi) 豆制品 油脂類(lèi) 肉禽及制品 水產(chǎn)品類(lèi) 菜類(lèi) 干鮮瓜果類(lèi)和奶及奶制品 9 類(lèi)食品的消費(fèi)情況及各地區(qū)城鎮(zhèn)居民的歷年人均收入及人均消費(fèi)性支出進(jìn)行統(tǒng) 計(jì) 并進(jìn)行一系列的處理之后 進(jìn)行相關(guān)的數(shù)據(jù)挖掘和關(guān)聯(lián)規(guī)則分析 中國(guó)國(guó)家統(tǒng)計(jì)局組織實(shí)施全國(guó)及省 自治區(qū) 直轄市國(guó)民經(jīng)濟(jì)核算制度和 全國(guó)投入產(chǎn)出調(diào)查 并建立信息數(shù)據(jù)庫(kù) 通過(guò)統(tǒng)計(jì)數(shù)據(jù)可以了解到一些相應(yīng)的 信息 但是 將同一類(lèi)型的數(shù)據(jù)結(jié)合到一起 獲得的意義就會(huì)更大 本文就是 采用收集 9 類(lèi)食品的相關(guān)數(shù)據(jù) 進(jìn)行數(shù)據(jù)挖掘 得到關(guān)聯(lián)規(guī)則 食品消費(fèi)的相關(guān)性分析可以更加明確居民在食品購(gòu)物方面的一些內(nèi)在聯(lián)系 為政府及商家提供了相關(guān)的銷(xiāo)售意見(jiàn) 5 2 研究方法研究方法 首先 采集相關(guān)數(shù)據(jù)信息 其次 對(duì)數(shù)據(jù)進(jìn)行處理 得到布爾數(shù)據(jù)庫(kù) 第 三 應(yīng)用 Apriori 算法對(duì)布爾數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘 得到關(guān)聯(lián)規(guī)則 最后 對(duì)得 到的結(jié)果進(jìn)行相關(guān)分析 5 2 1 數(shù)據(jù)采集數(shù)據(jù)采集 在中國(guó)國(guó)家統(tǒng)計(jì)局公布的 2000 2009 年統(tǒng)計(jì)年鑒中篩選出 淀粉及薯類(lèi) 豆制品 油脂類(lèi) 肉禽及制品 水產(chǎn)品類(lèi) 菜類(lèi) 干鮮瓜果類(lèi)和奶及奶制品 9 類(lèi)食品的消費(fèi)情況及各地區(qū)城鎮(zhèn)居民的歷年人均收入和人均消費(fèi)性支出 其中 包括 2000 2009 年 2004 年除外 的 9 年間的 31 個(gè)省 市 自治區(qū)的情況 得 到 31 個(gè) 省 市 自治區(qū) 9 年間 9 類(lèi)食品的 279 9 個(gè)數(shù)據(jù) 內(nèi)蒙古科技大學(xué)畢業(yè)論文 22 5 2 2 數(shù)據(jù)處理數(shù)據(jù)處理 首先 將得到九種食品的消費(fèi)支出與全年的消費(fèi)性支出比值及全年消費(fèi)性 支出與人均收入的比值 得到的數(shù)值都為 0 1 之間的小數(shù) 其次 將上面得到的數(shù)值進(jìn)行分區(qū) 將 9 類(lèi)食品與消費(fèi)性支出的比值等分 為 3 個(gè)區(qū)間 全年消費(fèi)性支出與人均收入的比值等分為 4 個(gè)區(qū)間 應(yīng)用 Excel 處理將比值落在對(duì)應(yīng)區(qū)間的為 1 另外的幾個(gè)區(qū)間則為 0 得到新的數(shù)據(jù)庫(kù) 打開(kāi)數(shù)據(jù)文件所在的 Excel 表格 在右邊的空白出 N2 中輸入 c2 d2 在 N2 中得到的就是消費(fèi)性支出與工資的比例 將鼠標(biāo)放在此時(shí) N2 的黑色 框的右下角當(dāng)鼠標(biāo)是十字形時(shí) 向下拖拽 得到的就是 C 列與 D 列各行的比值 E 列之后是 E 列與 C 列的比值 將得到的結(jié)果重新存儲(chǔ)到新的表格中 得到的 比例數(shù)據(jù)為 打開(kāi)比例數(shù)據(jù)表格 同樣是在右邊的空白處 N2 輸入 IF AND C2 0 33 C2 0 48 1 0 表示落在 0 33 0 48 區(qū)間的數(shù)值輸出為 1 不在這個(gè)區(qū)間的數(shù)值為 0 把得到的結(jié)果存儲(chǔ)到新的數(shù)據(jù)表格 5 2 3 應(yīng)用算法進(jìn)行數(shù)據(jù)挖掘應(yīng)用算法進(jìn)行數(shù)據(jù)挖掘 應(yīng)用 MATLAB 軟件進(jìn)行數(shù)據(jù)挖掘 通過(guò) File Import Data 將生成的布爾數(shù)據(jù)庫(kù)導(dǎo)入到 MATLAB 中 內(nèi)蒙古科技大學(xué)畢業(yè)論文 24 將導(dǎo)入到 MATLAB 中的 Data 文件 重命名為 X 在 MATLAB 中新建 4 個(gè) M 文件 association rules m subset m setsub m in m 其中 association rules m 為主程 序 在 command window 窗口中分別輸入 內(nèi)蒙古科技大學(xué)畢業(yè)論文 25 得到的頻繁 2 項(xiàng)集為 內(nèi)蒙古科技大學(xué)畢業(yè)論文 26 得到的頻繁 3 項(xiàng)集為 內(nèi)蒙古科技大學(xué)畢

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論