大數據時代的數據挖掘與商務智能培訓_第1頁
大數據時代的數據挖掘與商務智能培訓_第2頁
大數據時代的數據挖掘與商務智能培訓_第3頁
大數據時代的數據挖掘與商務智能培訓_第4頁
大數據時代的數據挖掘與商務智能培訓_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1大數據時代(shdi)的數據挖掘與商務智能第一頁,共八十二頁。2第四局部(jb)數據管理與數據挖掘概論第二頁,共八十二頁。3數據挖掘概況(gikung)從20世紀80年代中后期,知識發(fā)現的方法、技術和系統(tǒng)(xtng),從不同角度、不同領域和不同學科進行了研究和實踐,主要的學科有數據庫、統(tǒng)計學和機器學習。1989年 在底特律第11屆IJCAI會議上的KDD研討會。 1991年MIT 出版社出版了一本書 “Knowledge Discovery in Databases。1994年召開了一個國際會議(KDD94), 并于1996年由 MIT出版社又出版了一本書 “Advances in Know

2、ledge Discovery and Data Mining。第三頁,共八十二頁。4數據挖掘概況(gikung)1995年在加拿大的蒙特利爾召開KDD95,作為第一屆國際KDD會議,以后(yhu)每年一次,原為AAAI組織,1999年由ACM組織,改為SIGKDD。20*年、第12屆在美國費城Philadelphia。20*年在美國加州圣何塞SIGKDD07) 2021年在美國LAS VEGAS(SIGKDD08)。 “Data Mining and Knowledge Discovery 1997年創(chuàng)刊。(Springer,1997,20*。國外相應的研究小組的建立,接著數據挖掘公司風起云

3、涌。一些大公司建立數據挖掘小組和開發(fā)各種產品。國內研究小組的建立,一些公司也開始了數據挖掘工程。第四頁,共八十二頁。5數據挖掘概況(gikung)數據挖掘是20世紀80年代后期開展起來的一種新興技術。它是商業(yè)(shngy)、企業(yè)競爭和技術開展的需求的結果,數據挖掘技術是多種學科的交叉的產物。數據挖掘第五頁,共八十二頁。6數據挖掘任務(rn wu)數據挖掘任務技術分類預測Predication:用歷史預測未來描述Description:了解數據中潛在的規(guī)律數據挖掘的具體任務關聯分析序列(xli)模式分類預測聚集異常檢測第六頁,共八十二頁。7數據挖掘任務(rn wu)描述性分析聚類分析關聯(gun

4、lin)分析異常點分析、可視化預測性分析分類離散回歸分析連續(xù)時間序列分析第七頁,共八十二頁。8數據挖掘概況(gikung)數據挖掘技術根本內容框架數據預處理 1數據清理 2 數據變換 3數據集成 4數據歸約 5數據離散化數據挖掘根本方法 1關聯規(guī)那么2分類與預測3聚類數據挖掘的深入內容 1時間序列(xli)和序列(xli)2空間數據挖掘 3文本挖掘 4Web挖掘 5多媒體挖掘 6可視化第八頁,共八十二頁。9數據挖掘概況(gikung)由于任務不同,要求不同,數據不同,沒有單一的數據挖掘軟件可適用所有的情形。造成了各種方法都在快速(kui s)開展,各種數據挖掘軟件不斷增多。但商家近年來有逐漸減

5、少的趨勢,大公司的介入,一些大的有實力的公司開始更多占領市場。根本方法如上所述。軟件功能和性能有很大差異。選軟件應考慮的因素很多。第九頁,共八十二頁。10數據挖掘概況(gikung) 從問題答復的角度:有些問題可明確和準確答復要求(yoqi)這樣有些問題是給出可能的答復有些問題可能給出不太明確的答復有些問題可能給出可能錯誤的答復。這些答復從數據的角度:有些是查詢,有些是統(tǒng)計,有些是歸納,有些是推斷,有些預測,有些是分析。數據挖掘要答復那些不是簡單查詢和統(tǒng)計答復問題。第十頁,共八十二頁。11數據挖掘概況(gikung)無法準確答復的問題信貸中信用(xnyng)評估,信用(xnyng)卡評級,信用

6、(xnyng)卡欺詐銷售一個產品 廣告 材料 郵寄給誰保存客戶, 爭取客戶交叉銷售違規(guī)操作,欺詐行為發(fā)現,異常發(fā)現 貨架貨物的擺放國民經濟各指標間的關系疾病, 病癥, 藥物, 療效之間的關系DNA序列的相似分析導致各種疾病的特定基因序列模式憑理論,經驗,群體分析,憑數據分析,挖掘第十一頁,共八十二頁。12數據挖掘概況(gikung)各種部門都面臨不同的挑戰(zhàn)一些面臨競爭的部門與企業(yè): 銀行,電信,保險,證券,商場,各種企業(yè)。這些企業(yè)關心的問題:爭取客戶,增大銷售,提高利潤。一些壟斷部門與企業(yè): 電力(dinl),稅務,社保。面對抱怨,面對抗爭,面對欺詐。政府和企業(yè)面臨科學決策第十二頁,共八十二頁

7、。13數據挖掘概況(gikung)數據倉庫和數據挖掘工程提到日程數據分析、決策支持系統(tǒng)、商業(yè)智能BI、 知識管理、客戶關系管理(CRM)、物流與供給鏈管理(SCM)、企業(yè)資源方案(ERP)、各種預測。政府、科技部門、大型企業(yè)工廠,公司,商場,經濟部門、金融機構(jn rn j u)銀行、證券、保險、電子商務、電子政務、各種“金 工程。第十三頁,共八十二頁。14數據挖掘概況(gikung)數據倉庫 將不同數據源、多年的數據經“整合 成一個有組織的便于分析的結構化的數據環(huán)境。 組織數據方法。數據挖掘: 從數據中找出推出,歸納出,預測、挖掘有用的信息,規(guī)律(gul),知識。 分析數據方法。第十四頁,

8、共八十二頁。15數據庫集成:數據倉庫技術所有(suyu)的數據在物理上集中在一起 虛擬數據庫技術數據外表上或者在邏輯上是集成在一起,然而它們的物理存貯那么是分散在Internet不同的數據效勞器上 數據挖掘概況(gikung)第十五頁,共八十二頁。16從兩種數據庫集成技術來看:數據倉庫技術實用于數據庫變動不太頻繁、數據庫中數據類型和使用方法比較接近的情況。虛擬(xn)數據庫技術實用于數據更新速度快、數據類型和使用方法完全不一樣的情況。 數據挖掘概況(gikung)第十六頁,共八十二頁。17聯機分析(fnx)處理60年代,關系數據庫之父提出了關系模型,促進了聯機事務處理(OLTP)的開展(數據以

9、表格的形式而非文件(wnjin)方式存儲)。1993年,提出了OLAP概念,認為OLTP已不能滿足終端用戶對數據庫查詢分析的需要,SQL對大型數據庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關系數據庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求。因此,提出了多維數據庫和多維分析的概念,即OLAP。 OLTP數據 OLAP數據 原始數據 導出數據 細節(jié)性數據 綜合性和提煉性數據 當前值數據 歷史數據 可更新 不可更新,但周期性刷新 一次處理的數據量小 一次處理的數據量大面向應用,事務驅動 面向分析,分析驅動面向操作人員,支持日常操作 面向決策人員,支持管

10、理需要第十七頁,共八十二頁。18OLAP定義(dngy)OLAP(聯機分析處理) 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進行(jnxng)快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。(OLAP委員會的定義)OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術核心是“維這個概念,因此OLAP也可以說是多維數據分析工具的集合。第十八頁,共八十二頁。19數據倉庫與數據挖掘所處地位(dwi)決策支持系統(tǒng)OLAP數據挖掘數 據 倉 庫數 據 庫各種( zhn)信息系統(tǒng)各種( zhn)

11、管理系統(tǒng)搜索、抽取過濾萬維網信息發(fā)布信息檢索ACRMCRM第十九頁,共八十二頁。20數據挖掘發(fā)現知識(zh shi)類型 廣義型知識:反映同類事物共同性質(xngzh)的知識 特征型知識:反映事物各方面特征的的知識 差異型知識:反映不同事物之間屬性差異的知識 關聯型知識:反映事物之間依賴和關聯的知識 偏差型知識:揭示事物偏離常規(guī)的異?,F象的知識 預測型知識:根據歷史與當前數據推測未來數據第二十頁,共八十二頁。21(B) DataInformation(A) Knowledge(Arrangement)(Transmit)Knowledge transmitted by character, s

12、ign, voice, etc.(B) Data arranged to be useful for decision makingINFORMATION(Recognition)(C) Knowledge(C) Recognition memorized personally or socially(D) Judgment or a system of judgment which has objective validityKNOWLEDGE(D) Knowledge(Judgment)(D) Knowledge(Judgment)What is the energy to bring s

13、uch transformation?(E) Computers ability to judge things automatically (F) Peoples ability to understand and learn thingsINTELLIGENCEInformation ScienceManagement ScienceKnowledge Science+Information, Knowledge, and Intelligence第二十一頁,共八十二頁。22A theory of organizational knowledge creation, which sugge

14、sts that new knowledge is created by the interaction between explicit and tacit knowledge through the spiral of Socialization, Externalization, Combination, and Internalization. Shared mental modelsor technical skills1Metaphors, analogies, concepts, hypotheses, or models2Linkingexplicitknowledge3Lea

15、rning by doing4I. Nonaka and H. Takeuchi The Knowledge-Creating Company. How Japanese Companies Create the Dynamics of Innovation. Oxford University Press, 1995.GroupexplicitknowledgeIndividual explicitknowledgeIndividualtacitknowledgeGrouptacitknowledgeCombinationInternalizationSocializationExterna

16、lizationKey Factor in Establishing the SchoolProf. Nonaka第二十二頁,共八十二頁。23應 用市場分析、預測和管理行銷(xngxio)策略, 客戶關系管理(CRM), 購貨籃分析, 市場分割風險分析、預測和管理風險預警, 客戶挽留, 改進的保險業(yè), 質量控制, 競爭分析欺詐檢測和管理證券違規(guī)操作,稅務偷漏,瞞報,信用卡欺詐行為判斷信用評估銀行信貸評估,信用卡評估第二十三頁,共八十二頁。24應 用宏觀經濟(指標之間關聯,經濟指標的預測,預警)電信客戶細分,客戶流失,客戶挽留金融信用評估(pn ),洗錢,欺詐)情報文本挖掘,新聞組, 電子郵件,

17、 文檔)Web 挖掘信息過濾,個性化效勞,異常行為,)DNA 數據分析一些引起疾病的DNA序列,)人力資源配置如何有效進行人力分配醫(yī)療診斷中藥配伍規(guī)律零售業(yè)科學天氣預報,災難預測第二十四頁,共八十二頁。25KDnuggets對數據挖掘各種情況(qngkung)進行了調查從應用領域使用(shyng)工具使用方法數據挖掘組的地位數據庫的大小10G以上,100-1000G)數據格式文本和工具特定格式居多第二十五頁,共八十二頁。26銀行 17%生物/基因 8%E商務/Web 15%欺詐檢測 8%保險 6%投資/股票 4%藥品 5%零售業(yè) 6%科學數據 8%電信(dinxn) 11%其他 11%應用領域

18、情況(qngkung)2022第二十六頁,共八十二頁。27應用領域情況(qngkung) 2 0 0 6第二十七頁,共八十二頁。28應用領域情況(qngkung)2021170 voters第二十八頁,共八十二頁。29數據挖掘軟件(run jin) (May 2021) 347 voters第二十九頁,共八十二頁。30數據挖掘軟件(run jin) (May 2021) 第三十頁,共八十二頁。2021年 R以30.7%的得票率榮登榜首31第三十一頁,共八十二頁。32從技術看數據挖掘使用技術情況784 votes total (Feb 2005) Decision Trees/Rules (10

19、7)決策樹 14%Clustering (101)聚類 13%Regression (90)回歸 11%Statistics (80)統(tǒng)計 10%Visualization (63)可視化 8%Neural Nets (61)神經網絡 8%Association rules (54)關聯規(guī)則 7%Nearest Neighbor (34)最近鄰 4%SVM (Support vector machine) (31)支持向量機 4%Bayesian (30)貝葉斯 4%Sequence/Time series analysis (26)序列/時間序列分析 3%Boosting (25) 增強 3

20、%Hybrid methods (23) 混合方法 3%Bagging (20) 袋裝 3%Genetic algorithms (19)遺傳算法 2%Other (20) 其他 3%第三十二頁,共八十二頁。33數據挖掘任務(rn wu)類型 ( Dec 20*) 170 voters第三十三頁,共八十二頁。34數據類型 ( Sep 2021) 第三十四頁,共八十二頁。35數據挖掘系統(tǒng)的典型(dinxng)架構數據倉庫 數據清理與數據集成過濾 數據庫數據庫、數據倉庫管理系統(tǒng)數據挖掘引擎模型、模式評價可視化用戶界面數據挖掘方法庫其它數據源用戶知識庫World-WideWebOther InfoR

21、epositories第三十五頁,共八十二頁。36各行業(yè)電子商務網站算法層商業(yè)邏輯層行業(yè)應用層商業(yè)應用商業(yè)模型挖掘算法CRM產品推薦客戶細分客戶流失客戶利潤客戶響應關聯規(guī)則、序列模式、分類、聚集、神經元網絡、偏差分析WEB挖掘網站結構優(yōu)化網頁推薦商品推薦?;蛲诰蚧虮磉_路徑分析基因表達相似性分析基因表達共發(fā)生分析。銀行電信零售保險制藥生物信息科學研究。相關行業(yè)綜合(zngh)的數據挖掘解決方案復旦第三十六頁,共八十二頁。371. 業(yè)務分析Data SourceData Source 2. 數據收集與整理3 數據分析與處理4. 財務指標展示6.數據挖掘結果的解釋和展示7. 系統(tǒng)建設8. 嘗試應

22、用5. 數據挖掘建模商業(yè)銀行客戶違約模型(mxng)建立第三十七頁,共八十二頁。38數據挖掘在我國的前景(qinjng)國外數據挖掘已相當普遍,各大數據庫公司(n s)與典型產品IBM, Oracle, Microsoft) SPSS, SAS, BO國內情況如何:應用普遍性?對其相信程度?制約的因素?市場標準程度? 消費者成熟程度? 人為因素程度? 國內尚處開展階段,周期長,效益不明顯,數據積累不夠,人的認識程度,第三十八頁,共八十二頁。39為什么沒有廣泛(gungfn)使用?數據挖掘正在快速的開展技術的研究和開發(fā)已經走在很前沿的地方數據挖掘應用面已經擴充(kuchng)了很多但是仍然沒有希

23、望的高,為什么?希望在多少年內到達數十億元的盈利?是一種增值效勞Not bread-and-butter不能認為高不可攀,所以不去過問是一門年輕的技術,需要和實際結合,解決現實問題第三十九頁,共八十二頁。40數據挖掘國內應用存在(cnzi)的問題數據積累不充分、不全面業(yè)務模型構建困難(kn nn)缺少有經驗的實施者第四十頁,共八十二頁。41數據挖掘的方法論第四十一頁,共八十二頁。42知識發(fā)現(fxin)KDD的過程第四十二頁,共八十二頁。431.數據的選擇(xunz)與抽樣 根據用戶的需要從數據庫中選擇或抽樣一局部數據。2.數據預處理1數據的過濾:除噪聲去冗余 2數據的添補3數據歸約與約簡3.

24、數據轉換: 數據轉換的主要目的是消減數據維數或維數縮減4.數據挖掘:挖掘方法的使用5.結果的評價 1可視化表示2解釋3知識的使用6.循環(huán)第四十三頁,共八十二頁。44KDD過程(guchng)數據挖掘: KDD過程(guchng)的核心。Data CleaningData IntegrationDatabasesData WarehouseKnowledgeTask-relevant DataSelectionData MiningPattern Evaluation第四十四頁,共八十二頁。45數據挖掘的方法論有許多數據挖掘的方法論,比較典型有CRISP-DM Cross Industry St

25、andard Process for Data Mining SAS 提出的數據挖掘方法論SEMMA (Sample,Explore,Modify,Model Access)IBM 提出的通用(tngyng)數據挖掘方法The generic data mining method)第四十五頁,共八十二頁。46數據挖掘的方法論KDnugets 調查情況:各組織機構、公司、個人進行(jnxng)數據挖掘時使用的方法論(Aug 20*) 第四十六頁,共八十二頁。47CRISP-DM NCR SPSS等公司提供CRISP-DM跨行業(yè)數據挖掘標準數據挖掘方法論實現。主要包括以下(yxi)六個主要環(huán)節(jié):

26、問題業(yè)務理解(Business Understanding)數據理解(Data Understanding) 數據準備(Data Preparation)建立模型(Modeling )模型評估(Evaluation) 方案實施(Deployment)第四十七頁,共八十二頁。48CRISP-DM1.業(yè)務問題理解Business Understanding要解決哪類問題:在數據挖掘之前,收集與該工程有關的信息,確定數據挖掘要解決哪類問題。并把要解決的問題轉化為數據挖掘問題。資源的評估: 硬件資源,軟件資源,數據資源, 人力資源管理人員,業(yè)務人員,技術人員數據評估:數據數量,數據質量評估。工程成功估

27、計:成功后的效益(xioy),相應人員分 析、維護的增加。第四十八頁,共八十二頁。49如:一個電信(dinxn)領域的數據挖掘工程問題可為: 一些優(yōu)質(yuzh)客戶有什么特征? 哪些是不良客戶,他們有什么特征? 在欠費客戶中,哪些是惡意的欠費, 哪些是善意的欠費。 哪些客戶可能會有最好的潛力? 通過什么樣的標準來細分客戶? 如何來衡量客戶帶來的價值? 哪些是高價值客戶?如何去保住他們。第四十九頁,共八十二頁。50CRISP-DM2. 理解數據 Data Understanding 從哪里進行數據的收集數據來源有那些各數據源數據描述:格式(g shi),含義數據質量外來數據有那些對數據的含義一

28、定要有深刻的理解才有可能從中找出挖掘規(guī)律和知識。第五十頁,共八十二頁。51CRISP-DM3. 準備數據Data Preparation數據選擇數據清理數據重構數據整合規(guī)格化:定出范圍標準化:解決不一致(yzh)數據準備會占用整個工程50%以上時間第五十一頁,共八十二頁。52CRISP-DM4. 建立模型(mxng)Modeling數據匯總概念描述關聯規(guī)那么相關分析分類與預測聚類第五十二頁,共八十二頁。53CRISP-DM5. 方案(fng n)評估Evaluation挖掘結果獲得知識的評估挖掘過程的評估來決定是否要反復,KDD是迭代過程第五十三頁,共八十二頁。54迭代(di di)過程第五十

29、四頁,共八十二頁。55CRISP-DM6. 方案實施(Deployment)發(fā)布挖掘結果獲得知識(zh shi)的評估決定實施方案Crisp-DM 1.0CRISP-DM 2.0 SIG WORKSHOP ANNOUNCEDCHICAGO, SEPTEMBER 26, 20* 第五十五頁,共八十二頁。56CRISP-DM各階段占用(zhn yn)時間和重要性1%10%方案實施5%10-20%建立模型和模型評估 15%50%數據準備5%10-20%數據理解70%10%問題理解占項目成功的重要性花費時間第五十六頁,共八十二頁。57數據挖掘需要(xyo)的人員 業(yè)務分析人員:要求精通業(yè)務,能夠解釋業(yè)

30、務對象,并根據各業(yè)務對象確定出用于數據定義和挖掘算法的業(yè)務需求。數據分析人員:精通數據分析技術,并對統(tǒng)計學有較熟練的掌握,有能力(nngl)把業(yè)務需求轉化為數據挖掘的各步操作,并為每步操作選擇適宜的技術。數據管理人員:精通數據管理技術,并從數據庫或數據倉庫中收集數據。 第五十七頁,共八十二頁。58數據挖掘軟件(run jin)第五十八頁,共八十二頁。59數據挖掘軟件(run jin)的現狀國外Data Mining / Analytic Software Tools 534 voters (May 20*) 第五十九頁,共八十二頁。60數據挖掘軟件(run jin)的現狀國內第六十頁,共八十二

31、頁。61數據挖掘軟件(run jin)的開展代特征數據挖掘算法集成分布計算模型數據模型第一代作為一個獨立的應用支持一個或者多個算法 獨立的系統(tǒng)單個機器向量數據第二代和數據庫以及數據倉庫集成多個算法:能夠挖掘一次不能放進內存的數據數據管理系統(tǒng),包括數據庫和數據倉庫同質、局部區(qū)域的計算機群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數據第三代和預測模型系統(tǒng)集成 多個算法數據管理和預測模型系統(tǒng)intranet/extranet網絡計算支持半結構化數據和web數據第四代和移動數據/各種計算設備的數據聯合 多個算法數據管理、預測模型、移動系統(tǒng)移動和各種計算設備普遍存在的計算模型 Robert Grossman的

32、觀點(gundin) (National Center for Data Mining, University of Illinois at Chicago)第六十一頁,共八十二頁。62數據挖掘軟件(run jin)的開展第一代數據挖掘軟件(run jin)第六十二頁,共八十二頁。63第一代數據挖掘軟件 CBA新加坡國立大學基于(jy)關聯規(guī)那么的分類算法,能從關系數據或者交易數據挖掘關聯規(guī)那么,使用關聯規(guī)那么進行分類和預測第六十三頁,共八十二頁。64數據挖掘軟件(run jin)的開展第二代數據挖掘軟件(run jin)特點與數據庫管理系統(tǒng)DBMS集成 支持數據庫和數據倉庫,和它們具有高性能

33、的接口,具有高的可擴展性 能夠挖掘(wju)大數據集、以及更復雜的數據集 通過支持數據挖掘模式data mining schema和數據挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作缺陷只注重模型的生成,如何和預言模型系統(tǒng)集成導致了第三代數據挖掘系統(tǒng)的開發(fā)第六十四頁,共八十二頁。65數據挖掘軟件(run jin)的開展第二代數據挖掘軟件(run jin) DBMiner第六十五頁,共八十二頁。66數據挖掘軟件(run jin)的開展第二代軟件(run jin) SAS Enterprise Miner第六十六頁,共八十二頁。67數據挖掘軟件(run

34、 jin)的開展第三代數據挖掘軟件(run jin)特點和預言模型系統(tǒng)之間能夠無縫的集成,使得由數據挖掘軟件產生的模型的變化能夠及時反映到預言模型系統(tǒng)中 由數據挖掘軟件產生的預言模型能夠自動地被操作(cozu)型系統(tǒng)吸收,從而與操作(cozu)型系統(tǒng)中的預言模型相聯合提供決策支持的功能 能夠挖掘網絡環(huán)境下Internet/Extranet的分布式和高度異質的數據,并且能夠有效地和操作型系統(tǒng)集成 缺陷不能支持移動環(huán)境第六十七頁,共八十二頁。68數據挖掘軟件(run jin)的開展第三代軟件(run jin) SPSS Clementine以PMML的格式(g shi)提供與預言模型系統(tǒng)的接口第六

35、十八頁,共八十二頁。69數據挖掘軟件(run jin)的開展第四代數據挖掘軟件(run jin)特點目前(mqin)移動計算越發(fā)顯得重要,將數據挖掘和移動計算相結合是當前的一個研究領域。 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在ubiquitous計算設備產生的各種類型的數據 第四代數據挖掘原型或商業(yè)系統(tǒng)剛剛起步,PKDD2022上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學University of Maryland Baltimore County正在研制的CAREER數據挖掘工程的負責人,該工程研究期限是2022年4月到20*

36、年4月,目的是開發(fā)挖掘分布式和異質數據Ubiquitous設備的第四代數據挖掘系統(tǒng)。 第六十九頁,共八十二頁。70數據挖掘軟件(run jin)的開展第一代系統(tǒng)與第二代相比因為不具有和數據管理系統(tǒng)之間有效的接口,所以在數據預處理方面有一定缺陷(quxin) 第三、四代系統(tǒng)強調預言模型的使用和在操作型環(huán)境的部署 第二代系統(tǒng)提供數據管理系統(tǒng)和數據挖掘系統(tǒng)之間的有效接口 第三代系統(tǒng)另外還提供數據挖掘系統(tǒng)和預言模型系統(tǒng)之間的有效的接口 目前,隨著新的挖掘算法的研究和開發(fā),第一代數據挖掘系統(tǒng)仍然會出現,第二代系統(tǒng)是商業(yè)軟件的主流,局部第二代系統(tǒng)開發(fā)商開始研制相應的第三代數據挖掘系統(tǒng),比方 IBM Int

37、elligent Score Service。第四代數據挖掘原型或商業(yè)系統(tǒng)剛剛起步。第七十頁,共八十二頁。71數據挖掘軟件(run jin)的開展數據挖掘軟件開展(kizhn)的三個階段獨立的數據挖掘軟件橫向的數據挖掘工具集縱向的數據挖掘解決方案Gregory Piatetsky-Shapiro的觀點(gundin)the President of KDnuggets 第七十一頁,共八十二頁。72數據挖掘軟件(run jin)的開展獨立的數據挖掘軟件(run jin)95年以前特點獨立的數據挖掘軟件對應第一代系統(tǒng),出現在數據挖掘技術開展(kizhn)早期,研究人員開發(fā)出一種新型的數據挖掘算法,

38、就形成一個軟件。這類軟件要求用戶對具體的算法和數據挖掘技術有相當的了解,還要負責大量的數據預處理工作。比方C4.5決策樹,平行坐標可視化parallel-coordinate visualization。 第七十二頁,共八十二頁。73橫向(hn xin)的數據挖掘工具集95年開始開展原因隨著數據挖掘應用的開展,人們逐漸認識到數據挖掘軟件需要和以下三個方面緊密結合:1數據庫和數據倉庫;2多種類型的數據挖掘算法;3數據清洗、轉換等預處理工作。隨著數據量的增加,需要利用數據庫或者數據倉庫技術進行管理(gunl),所以數據挖掘系統(tǒng)與數據庫和數據倉庫結合是自然的開展。 現實領域的問題是多種多樣的,一種或

39、少數數據挖掘算法難以解決 挖掘的數據通常不符合算法的要求,需要有數據清洗、轉換等數據預處理的配合,才能得出有價值的模型 第七十三頁,共八十二頁。74橫向(hn xin)的數據挖掘工具集95年開始開展過程隨著這些需求的出現,1995年左右軟件開發(fā)商開始提供稱之為“工具集的數據挖掘軟件特點此類工具集的特點是提供多種數據挖掘算法 包括數據的轉換和可視化 由于(yuy)此類工具并非面向特定的應用,是通用的算法集合,可以稱之為橫向的數據挖掘工具Horizontal Data Mining Tools 由于此類工具并非面向特定的應用,是通用的算法集合,所以稱之為橫向的數據挖掘工具典型的橫向工具有IBM I

40、ntelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等 第七十四頁,共八十二頁。75橫向(hn xin)的數據挖掘工具集95年開始IBM Intelligent MinerSPSS的ClementineSAS的Enterprise MinerSGI的MineSetOracle Darwin第七十五頁,共八十二頁。76縱向(zn xin)的數據挖掘解決方案99年開始開展原因隨著橫向的數據挖掘工具的使用日漸廣泛,人們也發(fā)現這類工具只有精通數數據挖掘算法的專家才能(cinng)熟練使用,如果對算法不了解,難以得出好的模型 從1999年開始,大量的數據挖掘工具研制者開始提供縱向的數據挖掘解決方案Vertical Solution,即針對特定的應用提供完整的數據挖掘方案 對于縱向的解決方案,數據挖掘技術的應用多數還是為了解決某些特定的難題,而嵌入在應用系統(tǒng)中第七十六頁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論