下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、一、概述數(shù)據(jù)挖掘概念: 數(shù)據(jù)挖掘是對大量數(shù)據(jù)進行探索和分析、以便發(fā)現(xiàn)有意義的模式和規(guī) 則的過程 .數(shù)據(jù)倉庫: 數(shù)據(jù)倉庫就是面向主題的、集成的、非易失的(穩(wěn)定性) 、隨時間變化(不 同時間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。數(shù)據(jù)立方體:允許以多維對數(shù)據(jù)建模和觀察 .由維和事實組成 .其中事實是數(shù)值的度量 .分類: 就是通過學習獲得一個目標函數(shù) f, 將每個屬性集 x 映射到一個預先定義好的類標號y.分類任務的輸入數(shù)據(jù)是紀錄的集合,每條記錄也稱為實例或者樣例.用元組(X,y)表示, 其中 ,X 是屬性集合 ,y 是一個特殊的屬性 ,指出樣例的類標號 (也稱為分類屬性或者目標屬 性).信
2、息檢索: 信息檢索(In formation Retrieval)是指信息按一定的方式組織起來,并根據(jù) 信息用戶的需要找出有關的信息的過程和技術。 狹義的信息檢索就是信息檢索過程的后半部 分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查尋(InformationSearch 或 Information Seek )。知識發(fā)現(xiàn)( KDD ):知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以 及最終可理解的模式的非平凡過程。OLAP:OLAP 是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析 .通過對信息 (這些信息已經(jīng)從原始的數(shù)據(jù)進行了轉(zhuǎn)換 ,以反映用戶所能理解的企業(yè)的 實的 “維”)
3、的很多可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入觀察 .維:是人們觀察數(shù)據(jù)的特定角度 . 企業(yè)常常關心產(chǎn)品銷售隨著時間推移而產(chǎn)生的 變化的情況 ,這時企業(yè)是從時間的角度來觀察產(chǎn)品的 銷售,所以時間就是一個維 (時間維 ).企業(yè)也常常關心自己的產(chǎn)品在不同地區(qū)的銷售分布情況 ,這時企業(yè)是從地理分布的角度來觀察產(chǎn)品的銷售,所以地理分布也是一個維 (地理維 ).上卷: -通過一個維的概念分層向上攀升或者通過維歸約,在數(shù)據(jù)立方體上進行聚集, 也稱為聚合操作 .下卷: -是上鉆的逆操作 .它由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù).鉆取可以通過沿維的概念分層向下或引入新的維來實現(xiàn)
4、 .切片:-設有(維1,維2,維i,維n,觀察變量)多維數(shù)據(jù)集,對維i選定了某個維成員,則(維 1,維2,維i成員,維n,觀察變量)就是多維數(shù)據(jù)集(維1,維2,,維I,維n,觀察變量)在 維 i 上的一個切片 .切塊: -將完整的數(shù)據(jù)立方體切取一部分數(shù)據(jù)而得到的新的數(shù)據(jù)立方體.在(維1,維2,維i,維k,維n,觀察變量)多維數(shù)據(jù)集上,對維i,維k,選定了維成員, 則(維1,維2,維i成員,維k成員,維n,觀察變量)就是多維數(shù)據(jù)集(維1,維2,,維 i,維k,維n,觀察變量)在維i,維k上的一個切塊.二、簡述1、 KDD 的主要過程KDD 過程是多個步驟相互連接、反復進行人機交互的過程。 主要包
5、括以下步驟:1. 問題的理解和定義:數(shù)據(jù)挖掘人員與領域?qū)<液献鲗栴}進行深入的分析以確定 可能的解決途徑和對學習結(jié)果的評測方法。2相關數(shù)據(jù)收集和提?。焊鶕?jù)問題的定義收集有關的數(shù)據(jù)。在數(shù)據(jù)提取過程中,可以 利用數(shù)據(jù)庫的查詢功能以加快數(shù)據(jù)的提取速度。3數(shù)據(jù)探索和清理:了解數(shù)據(jù)庫中字段的含義及其與其他字段的關系。對提取出的數(shù) 據(jù)進行合法性檢查并清理含有錯誤的數(shù)據(jù)。4數(shù)據(jù)工程:對數(shù)據(jù)進行再加工主要包括選擇相關的屬性子集并剔除冗余屬性、根 據(jù)知識發(fā)現(xiàn)任務對數(shù)據(jù)進行采樣以減少學習量以及對數(shù)據(jù)的表述方式進行轉(zhuǎn)換以適于學習 算法等。為了使數(shù)據(jù)與任務達到最佳的匹配這個步驟可能反復多次。5算法選擇:根據(jù)數(shù)據(jù)和所要
6、解決的問題選擇合適的數(shù)據(jù)挖掘算法并決定如何在這 些數(shù)據(jù)上使用該算法。6運行數(shù)據(jù)挖掘算法:根據(jù)選定的數(shù)據(jù)挖掘算法對經(jīng)過處理后的數(shù)據(jù)進行模式提取。7結(jié)果的評價:對學習結(jié)果的評價依賴于需要解決的問題由領域?qū)<覍Πl(fā)現(xiàn)的模式 的新穎性和有效性進行評價。 數(shù)據(jù)挖掘是 KDD 過程的一個基本步驟 它包括特定的從數(shù)據(jù) 庫中發(fā)現(xiàn)模式的挖掘算法。 KDD 過程使用數(shù)據(jù)挖掘算法根據(jù)特定的度量方法和閾值從數(shù)據(jù) 庫中提取或識別出知識,這個過程包括對數(shù)據(jù)庫的預處理、樣本劃分和數(shù)據(jù)變換。2、操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別OLTP 和 OLAP 的主要區(qū)別概述如下:用戶和系統(tǒng)的面向性: OLTP 是面向顧客的,用于辦事員、客
7、戶、和信息技術專業(yè)人員的 事務和查詢處理。 OLAP 是面向市場的,用于知識工人(包括經(jīng)理、主管、和分析人員)的 數(shù)據(jù)分析。數(shù)據(jù)內(nèi)容: OLTP 系統(tǒng)管理當前數(shù)據(jù)。通常,這種數(shù)據(jù)太瑣碎,難以方便地用于決策。 O LAP 系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機制,并在不同的粒度級別上存儲和管理信 息。這些特點使得數(shù)據(jù)容易用于見多識廣的決策。數(shù)據(jù)庫設計:通常,OLTP系統(tǒng)采用實體-聯(lián)系(ER)模型和面向應用的數(shù)據(jù)庫設計。而0LAP 系統(tǒng)通常采用星形或雪花模型和面向主題的數(shù)據(jù)庫設計。視圖: OLTP 系統(tǒng)主要關注一個企業(yè)或部門內(nèi)部的當前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組 織的數(shù)據(jù)。相比之下,由于組織的變
8、化, OLAP 系統(tǒng)常??缭綌?shù)據(jù)庫模式的多個版本。 OL AP 系統(tǒng)也處 理來自不同組織的信息,由多個數(shù)據(jù)存儲集成的信息。由于數(shù)據(jù)量巨大,OLAP 數(shù)據(jù)也存放在多個存儲介質(zhì)上。訪問模式: OLTP 系統(tǒng)的訪問主要由短的、原子事務組成。這種系統(tǒng)需要并行控制和恢復 機制。然而,對 OLAP 系統(tǒng)的訪問大部分是只讀操作(由于大部分數(shù)據(jù)倉庫存放歷史數(shù)據(jù), 而不是當前數(shù)據(jù)),盡管許多可能是復雜的查詢。OLTP 和 OLAP 的其它區(qū)別包括數(shù)據(jù)庫大小、操作的頻繁程度、性能度量等。OLTP 系統(tǒng)和 OLAP系統(tǒng)的比較特性OLTPOLAP特征操作處理信息處理面向事務分析用戶 辦事員、 DBA、數(shù)據(jù)庫專業(yè)人員知
9、識工人 (如經(jīng)理、 主管、分析員)功能日常操作長期信息需求,決策支持DB 設計基于 E-R ,面向應用星形/ 雪花,面向主題數(shù)據(jù)當前的;確保最新歷史的;跨時間維護匯總原始的,高度詳細匯總的,統(tǒng)一的視圖詳細,一般關系匯總的,多維的工作單位短的、簡單事務復雜查詢存取讀/寫大多為讀關注數(shù)據(jù)進入信息輸出操作主關鍵字上索引 / 散列大量掃描訪問記錄數(shù)量數(shù)十個數(shù)百萬用戶數(shù)數(shù)千數(shù)百DB規(guī)模優(yōu)先度量100GB 至U TB高靈活性,端點用戶自治查詢吞吐量,響應時間100MB 到 GB高性能,高可用性事務吞吐量其中:OLTP指聯(lián)機事務處理OLAP指聯(lián)機分析處理3、如果面對學校數(shù)據(jù)庫,你認為數(shù)據(jù)挖掘的目標是什么?&
10、#39; - r f . 'HI |P VfP* 甲 V P" r 9 !< " f 咎利學樓姊岸j可口楣8出老即的科醸力,斛盼解習精那的人軌博情亂1>通制毎年招収的斛孵習脳的分気可以挖爲啊柘的斛朋US好,以餐今呂曲大財?shù)恼?牛鍬師期的*瀛通it對學牛四九9U珈.計舜機一三級成鎮(zhèn)的掄鮒可以不韓出啊誦鮮殺賞請水半覓樂:訂通辻和確也文去綁氐tifflii老匹的關能力和於札n jii.可以令理安*件啓的軟札 4、比較星型模式,雪花模式和事實星座模式歡星塑損式包1S事實表科一俎冷BM*舊花彊云是呈型嶷式時曼母彳嗣的蹄某刪抿規(guī)巾化.£他電用、救JMI*干
11、耀滬節(jié)ffiM. in足征眞行盤聞時IHHE婁的關聯(lián)塊”,咐氐弋擁任 »!刨軌I訃中,星型HbCJUWb 實里座HW>J應爹個那實«A$««5、你了解的信息檢索模型幷簡要敘述其思想、布爾欖型布爾模型是基于集合理論和布爾代故的一種簡單的楡索模理由于集合的搗含 非SSS,所規(guī)布爾模架為f;息檢占琨疑I切;通出戶畏供了一種券寸常也的血架.主要優(yōu)點,理式簡潔、給構(gòu)閒單;主要不足;只是判斷文獻要么相矢.要么不無鋌描述打衿剳條f汁”;兒 忙的悄撫對能導數(shù)榆H亦j猷過芳或過少,二、向童空斶??障蜃羁臻g視型通過対檢出文獻按網(wǎng)姒度降序托列的方式來實現(xiàn)丈就與香詢伯 部
12、分匹配這樣做嚴明顯的效呆就是姑果地(answerKt)內(nèi)關文橄榕列頂序比通過 布揮除型總列伯嬪卑集翌侖理馮気從某種總壯說,能更好地國配用戶帯息需求一1癢優(yōu)點:標引詞加収改進了檢索效果其部分匹配繪略運軒檢出與杏詢條件 接IE的丈*U余找公式根據(jù)丈就與賽詢之徹的相釵度對文獻進打排厚.不足:標引詞被認為彼此之間相血獨立-三、經(jīng)典輒率稅抱經(jīng)軌帆率蟲型的裁木思想足敏用戶-個齊詢,徉農(nóng)一個文獻童令,讀勒合 MS完全相關的丈就而不包桔其他不相關的文獻.我們耙逗個文猷毎介稱為理JS 給果集主要優(yōu)點;從理論上講畑棍據(jù)它門相關的概率按逸減的吧T|倩畀其缺點 £:帝買最初把文猷分曲相關怖集侖和不相關的集4
13、 堪種川不考世標引詞在 乂枝中出現(xiàn)的鎖卒:舊律標引訶州兀腹M不址:井不能明確標引詞的獨立性在時間悄況中是古是一個不劇的建設.6、數(shù)據(jù)挖掘的相關領域及主要的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的相關領域:1. 金融數(shù)據(jù)分析的數(shù)據(jù)挖掘* 為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設計和構(gòu)造數(shù)據(jù)倉庫貸款償還預測和顧客信用政策分析針對定向銷售的顧客分類和聚類* 洗黑錢和其他金融犯罪的偵破2. 零售業(yè)的數(shù)據(jù)挖掘基于有效數(shù)據(jù)挖掘的數(shù)據(jù)倉庫的設計和構(gòu)造* 銷售,顧客,產(chǎn)品,時間和地區(qū)的多維分析*促銷活動的有效性分析*顧客保持力一一顧客忠誠度分析* 產(chǎn)品推銷和產(chǎn)品的交叉推動3. 電信業(yè)的數(shù)據(jù)挖掘電信數(shù)據(jù)的多維分析* 盜用模式分析和異常模式識別
14、*多維關聯(lián)和序列模式分析移動通信服務 電信數(shù)據(jù)分析中可視化工具的使用4. 生物學數(shù)據(jù)分析的數(shù)據(jù)挖掘*異構(gòu)分布基因組和蛋白質(zhì)組數(shù)據(jù)庫的語義集成多核苷、蛋白質(zhì)序列的對比、索引,相似性搜索和比較分析結(jié)構(gòu)模式的發(fā)現(xiàn)、遺傳網(wǎng)絡和蛋白質(zhì)路徑的分析 關聯(lián)和路徑分析:識別同時出現(xiàn)的基因序列、把基因與疾病的不同階段鏈接基因數(shù)據(jù)分析中的可視化工具5. 其他科技應用的數(shù)據(jù)挖掘數(shù)據(jù)倉庫和數(shù)據(jù)庫預處理挖掘復雜數(shù)據(jù)類型基于圖的挖掘*可視化工具和特定領域知識數(shù)據(jù)挖掘的方法:可粗分為:統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡方法和數(shù)據(jù)庫方法。統(tǒng)計方法中,可細 分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非
15、參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關分析法等)以及模糊集、粗糙集、支持向量機等。機器學習中,可細分為:歸納學習方法(決策樹、規(guī) 則歸納等)、基于范例的推理 CBR、遺傳算法、貝葉斯信念網(wǎng)絡等。神經(jīng)網(wǎng)絡方法,可細分 為:前向神經(jīng)網(wǎng)絡(BP算法等)、自組織神經(jīng)網(wǎng)絡(自組織特征映射、競爭學習等)等。數(shù) 據(jù)庫方法主要是基于可視化的多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。7、數(shù)據(jù)挖掘涉及的數(shù)據(jù)類型Analysis Services支持挖湄結(jié)構(gòu)列的以下如據(jù)類型匸型支持的內(nèi)容類型TextLongCyclical-. Discrete. Discretized. Key Sequence, Ordered 和 SequenceContinuous-. Cydicak Discrete,Discretized,Key- Key Sequence. Key Time-,Ordered,Sequence 和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025年中國養(yǎng)老保險行業(yè)市場調(diào)查研究及投資戰(zhàn)略咨詢報告
- 2025年中國皸裂佳軟膏行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年二合一過渡機構(gòu)行業(yè)深度研究分析報告
- 2021-2026年中國智能貨柜行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略規(guī)劃研究報告
- 2025年三工位限型淬火機床行業(yè)深度研究分析報告
- 2025年微型平臺行業(yè)深度研究分析報告
- 2019-2025年中國磷霉素鈣膠囊市場前景預測及投資規(guī)劃研究報告
- 2025年電力工程監(jiān)理市場分析報告
- 2025年中國家居建材行業(yè)投資分析、市場運行態(tài)勢、未來前景預測報告
- 2023-2029年中國皮膚科藥行業(yè)市場深度分析及投資策略咨詢報告
- 鋼筋桁架樓承板施工方案
- DL-T5434-2021電力建設工程監(jiān)理規(guī)范
- 2024年上海核工程研究設計院股份有限公司招聘筆試沖刺題(帶答案解析)
- 眼的解剖結(jié)構(gòu)與生理功能課件
- 2024年銀行考試-興業(yè)銀行筆試參考題庫含答案
- 泵站運行管理現(xiàn)狀改善措施
- 2024屆武漢市部分學校中考一模數(shù)學試題含解析
- SYT 0447-2014《 埋地鋼制管道環(huán)氧煤瀝青防腐層技術標準》
- 浙教版七年級下冊科學全冊課件
- 弧度制及弧度制與角度制的換算
- 瓦楞紙箱計算公式測量方法
評論
0/150
提交評論