第1章數(shù)據(jù)挖掘課件..ppt_第1頁(yè)
第1章數(shù)據(jù)挖掘課件..ppt_第2頁(yè)
第1章數(shù)據(jù)挖掘課件..ppt_第3頁(yè)
第1章數(shù)據(jù)挖掘課件..ppt_第4頁(yè)
第1章數(shù)據(jù)挖掘課件..ppt_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2020年7月7日星期二,Data Mining: Concepts and Techniques,1,何謂數(shù)據(jù)挖掘?,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個(gè)步驟。 數(shù)據(jù)準(zhǔn)備是從各種數(shù)據(jù)源中選取和集成用于數(shù)據(jù)挖掘的數(shù)據(jù); 規(guī)律尋找是用某種方法將數(shù)據(jù)中的規(guī)律找出來(lái); 規(guī)律表示是用盡可能符合用戶習(xí)慣的方式(如可視化)將找出的規(guī)律表示出來(lái)。 數(shù)據(jù)挖掘在自身發(fā)展的過(guò)程中,吸收了數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫(kù)和人工智能中的大量技術(shù)。,2020年7月7日星期二,Data Mining: Concepts and Techniques,2,數(shù)據(jù)挖掘項(xiàng)目實(shí)例, 信用卡公司分析信用卡歷

2、史數(shù)據(jù),判斷哪些人有風(fēng)險(xiǎn),哪些沒(méi)有 超市分析交易數(shù)據(jù),安排貨架上貨物擺布,以提高銷售 調(diào)查局分析行為模式,判斷哪些人對(duì)受保護(hù)的信息具有潛在威脅 藥房分析醫(yī)師的處方,判斷哪些醫(yī)師愿意購(gòu)買他們的產(chǎn)品 保險(xiǎn)公司分析以前的客戶記錄,決定哪些客戶是潛在花費(fèi)昂貴的 汽車公司分析不同地方人的購(gòu)買模型,針對(duì)性地發(fā)送給客戶喜歡的汽車的手冊(cè) 人才中心分析不同客戶的工作歷史,發(fā)送客戶潛在的感興趣的工作信息 訪問(wèn)沒(méi)有歸類的競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)庫(kù),推斷出潛在的歸類信息,2020年7月7日星期二,Data Mining: Concepts and Techniques,3, 教育學(xué)院分析學(xué)生歷史信息,決定哪些人愿意參加培訓(xùn),發(fā)送

3、手冊(cè)給他們 核武器工廠分析歷史核查信息記錄,決定沒(méi)有采用哪項(xiàng)預(yù)防措施將導(dǎo)致核災(zāi)難 廣告公司分析人們購(gòu)買模式,估計(jì)他們的收入和孩子數(shù)目,作為潛在的市場(chǎng)信息 調(diào)查局分析不同團(tuán)體的旅游模式,決定不同團(tuán)體之間的關(guān)聯(lián) 醫(yī)師分析病人歷史和當(dāng)前用藥情況,不僅診斷用藥而且預(yù)測(cè)潛在的問(wèn)題 稅務(wù)局分析不同團(tuán)體的交所得稅的記錄,發(fā)現(xiàn)異常模型和趨勢(shì) 調(diào)查局分析罪犯記錄,推斷哪些人可能會(huì)犯恐怖罪和大的謀殺罪,2020年7月7日星期二,Data Mining: Concepts and Techniques,4,Chapter 1. Introduction,什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的? 什么是數(shù)據(jù)挖掘? 在何

4、種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘? 數(shù)據(jù)挖掘功能可以挖掘什么類型的模式 所有模式都是有趣的嗎? 數(shù)據(jù)挖掘系統(tǒng)的分類 數(shù)據(jù)挖掘的主要問(wèn)題,2020年7月7日星期二,Data Mining: Concepts and Techniques,5,動(dòng)機(jī): “需要是發(fā)明之母”,數(shù)據(jù)泛濫問(wèn)題 自動(dòng)數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫(kù)技術(shù)使得大量數(shù)據(jù) 存儲(chǔ)于數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)和其他信息庫(kù)。 我們數(shù)據(jù)豐富但信息貧乏 解決辦法:數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘 數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理 大型數(shù)據(jù)庫(kù)中的有趣知識(shí)(規(guī)則、模式),2020年7月7日星期二,Data Mining: Concepts and Techniques,6,數(shù)據(jù)庫(kù)技術(shù)的演化,196

5、0s: 從原始的文件處理演化到復(fù)雜的、功能強(qiáng)大的數(shù)據(jù)庫(kù)系統(tǒng) 數(shù)據(jù)收集,數(shù)據(jù)庫(kù)創(chuàng)建,信息管理系統(tǒng)(IMS)和數(shù)據(jù)庫(kù)管理系統(tǒng) 1970s: 從層次和網(wǎng)狀數(shù)據(jù)庫(kù)系統(tǒng)發(fā)展到開發(fā)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng) 關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)工具 1980s:廣泛接受關(guān)系技術(shù),研究和開發(fā)新的、功能強(qiáng)大的數(shù)據(jù)庫(kù)系統(tǒng)。使用了先進(jìn)的數(shù)據(jù)模型,面向?qū)ο竽P?,擴(kuò)充關(guān)系模型,對(duì)象-關(guān)系模型和演繹模型。 關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS), 高級(jí)數(shù)據(jù)模型(面向?qū)ο?、演繹 等等)和面向應(yīng)用的DBMS(空間的、科學(xué)的、工程的) 1990s: 數(shù)據(jù)倉(cāng)庫(kù)是一種數(shù)據(jù)庫(kù)結(jié)構(gòu)。這是一種多個(gè)異種數(shù)據(jù)源在單個(gè)站點(diǎn)以統(tǒng)一的模式組織的存儲(chǔ),以支持管理決策。

6、 數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù),多媒體數(shù)據(jù)庫(kù)和web數(shù)據(jù)庫(kù) 2000s(新一代綜合信息系統(tǒng)) Stream data management and mining Data mining and its applications Web technology (XML, data integration) and global information systems,2020年7月7日星期二,Data Mining: Concepts and Techniques,7,數(shù)據(jù)挖掘的出現(xiàn),數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代后期,90年代有了突飛猛進(jìn)的發(fā)展。2001年,Gartner Group的一次高級(jí)技術(shù)調(diào)查將

7、數(shù)據(jù)挖掘和人工智能列為“未來(lái)三到五年內(nèi)將對(duì)工業(yè)產(chǎn)生深遠(yuǎn)影響的五大關(guān)健技術(shù)”之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為未來(lái)五年內(nèi)投資焦點(diǎn)的十大新興技術(shù)前兩位。 數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代末,最早是在數(shù)據(jù)庫(kù)領(lǐng)域發(fā)展起來(lái)的,稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD,Knowledge Discovery in Database)。數(shù)據(jù)挖掘是KDD過(guò)程中的一個(gè)環(huán)節(jié),它的歷史雖然較短,但從20世紀(jì)90年代以來(lái),發(fā)展速度很快,目前還沒(méi)有一個(gè)完整的定義。 數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)一詞首次出現(xiàn)于1989年在美國(guó)底特律召開的第十一屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上,到1995年在加拿大蒙特利爾召開的首屆KDD&Data Mining

8、國(guó)際學(xué)術(shù)會(huì)議,再到以后每年都要召開一次的KDD&Data Mining國(guó)際學(xué)術(shù)會(huì)議,經(jīng)過(guò)十多年的努力,數(shù)據(jù)挖掘技術(shù)的研究已經(jīng)取得了豐碩的成果,不少軟件公司已研制出數(shù)據(jù)挖掘軟件產(chǎn)品,并在北美、歐洲等國(guó)家得到應(yīng)用。,2020年7月7日星期二,Data Mining: Concepts and Techniques,8,數(shù)據(jù)挖掘的當(dāng)前熱點(diǎn),數(shù)據(jù)挖掘技術(shù)的三大支柱為:數(shù)據(jù)庫(kù)技術(shù);人工智能技術(shù)及概率與數(shù)理統(tǒng)計(jì)。 當(dāng)前數(shù)據(jù)挖掘的研究熱點(diǎn)為: 1.網(wǎng)站的數(shù)據(jù)挖掘(Web site data mining) 2.生物信息或基因的數(shù)據(jù)挖掘 3.文本的數(shù)據(jù)挖掘(Textual Mining),2020年7月7日星

9、期二,Data Mining: Concepts and Techniques,9,什么是數(shù)據(jù)挖掘?,Data mining (knowledge discovery from data) 在大型數(shù)據(jù)庫(kù)中提取有趣的(重要的,隱含的,目前未知的,潛 在有用的)信息和模式 Data mining: a misnomer? 另外的名字和它們的“內(nèi)在故事” Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging

10、, information harvesting, business intelligence, etc. 什么不是數(shù)據(jù)挖掘? Simple search and query processing (Deductive) expert systems,2020年7月7日星期二,Data Mining: Concepts and Techniques,10,專家系統(tǒng),專家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲。在研制一個(gè)專家系統(tǒng)時(shí),知識(shí)工程師首先要從領(lǐng)域?qū)<夷抢铽@取知識(shí),這一過(guò)程實(shí)質(zhì)上是歸納過(guò)程,是非常復(fù)雜的個(gè)人到個(gè)人之間的交互過(guò)程,有很強(qiáng)的個(gè)性和隨機(jī)性。因此,知識(shí)獲取成為專家系統(tǒng)研究中公認(rèn)的瓶頸問(wèn)

11、題。 其次,知識(shí)工程師在整理表達(dá)從領(lǐng)域?qū)<夷抢铽@得的知識(shí)時(shí),用if-then等類的規(guī)則表達(dá),約束性太大,用常規(guī)數(shù)理邏輯來(lái)表達(dá)社會(huì)現(xiàn)象和人的思維活動(dòng)局限性太大,也太困難,知識(shí)表示又成為一大難題。 此外,即使某個(gè)領(lǐng)域的知識(shí)通過(guò)一定手段獲取并表達(dá)了,但這樣做成的專家系統(tǒng)對(duì)常識(shí)和百科知識(shí)相當(dāng)缺乏,而人類專家知識(shí)是以擁有大量常識(shí)為基礎(chǔ)的。 人工智能技術(shù)的三大難題:“知識(shí)獲取、知識(shí)表示、缺乏常識(shí)”大大限制了專家系統(tǒng)的應(yīng)用。人工智能學(xué)者開始著手基于案例的推理,尤其是從事機(jī)器學(xué)習(xí)的科學(xué)家們,不再滿足自己構(gòu)造的小樣本學(xué)習(xí)模式的象牙塔,開始正視現(xiàn)實(shí)生活中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的大數(shù)據(jù)樣本,從而與

12、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)相結(jié)合,轉(zhuǎn)向數(shù)據(jù)挖掘技術(shù)。,2020年7月7日星期二,Data Mining: Concepts and Techniques,11,Database Processing vs. Data Mining Processing數(shù)據(jù)庫(kù)查詢對(duì)數(shù)據(jù)挖掘查詢,Query Well defined SQL,Query Poorly defined No precise query language,Data Operational data,Output Precise Subset of database,Data Not operational data,Output Fuzzy Not

13、 a subset of database,2020年7月7日星期二,Data Mining: Concepts and Techniques,12,Query Examples查詢實(shí)例對(duì)比,Database Data Mining,Find all customers who have purchased milk,Find all items which are frequently purchased with milk. (association rules),Find all credit applicants with last name of Smith.,Identify cu

14、stomers who have purchased more than $10,000 in the last month.,Find all credit applicants who are poor credit risks. (classification),Identify customers with similar buying habits. (Clustering),2020年7月7日星期二,Data Mining: Concepts and Techniques,13,Why Data Mining?Potential Applications,數(shù)據(jù)庫(kù)分析和決定支持 市場(chǎng)

15、分析和管理 目標(biāo)市場(chǎng), 用戶關(guān)系管理,市場(chǎng)菜籃子分析,交叉銷售, 市場(chǎng)分割。 風(fēng)險(xiǎn)性分析和管理 預(yù)測(cè), 顧客保留,改善保險(xiǎn),質(zhì)量控制, 競(jìng)爭(zhēng)分析 欺騙察覺(jué)和發(fā)現(xiàn)不尋常的模式(outliers) 其他應(yīng)用 文本挖掘(新聞組,電子郵件,文件) 和WEB分析 智能詢問(wèn)回答 生物信息學(xué)和生物數(shù)據(jù)分析,2020年7月7日星期二,Data Mining: Concepts and Techniques,14,市場(chǎng)分析和管理(1),用于分析的數(shù)據(jù)從何來(lái)? 信用卡交易, 信譽(yù)卡,折扣券,用戶投訴電話,公眾生活方式調(diào)查。 目標(biāo)市場(chǎng) 找出具有相同特征(興趣,收入水平,消費(fèi)習(xí)慣等等)的“模式”顧客群。 隨著時(shí)間的推

16、移決定顧客的購(gòu)買方式 從單獨(dú)銀行賬戶向聯(lián)合銀行賬戶的轉(zhuǎn)變。例如:結(jié)婚 Predict what factors will attract new customers 交叉市場(chǎng)分析 不同產(chǎn)品之間的銷售關(guān)聯(lián)關(guān)系 在此關(guān)聯(lián)信息上進(jìn)行預(yù)測(cè),2020年7月7日星期二,Data Mining: Concepts and Techniques,15,市場(chǎng)分析和管理(2),顧客形象 數(shù)據(jù)挖掘可以告訴你什麼樣的顧客會(huì)買什麼樣的 產(chǎn)品(聚類或分類) 識(shí)別顧客需求 保證為不同的顧客提供了最好的產(chǎn)品 使用預(yù)測(cè)手段去發(fā)現(xiàn)什麼因素會(huì)吸引新的顧客。 提供匯總信息 各種各樣的多方位匯總信息 統(tǒng)計(jì)的匯總信息(數(shù)據(jù)中心的趨勢(shì)和變

17、化),2020年7月7日星期二,Data Mining: Concepts and Techniques,16,公司分析和風(fēng)險(xiǎn)管理,財(cái)政計(jì)劃和財(cái)產(chǎn)評(píng)估 現(xiàn)金流分析和預(yù)測(cè) 財(cái)產(chǎn)分析的偶發(fā)性需求分析 典型性分析和時(shí)序分析(財(cái)政比率,趨勢(shì)分析等等) 資源計(jì)劃: 總結(jié)和比較資源和花銷 競(jìng)爭(zhēng): 控制對(duì)手和市場(chǎng)的方向 把顧客劃分成許多類,依據(jù)類的劃分編制價(jià)格程序 把這個(gè)價(jià)格策略放到高度競(jìng)爭(zhēng)的市場(chǎng)環(huán)境內(nèi),2020年7月7日星期二,Data Mining: Concepts and Techniques,17,欺騙性檢測(cè)和管理(1),廣泛應(yīng)用于醫(yī)療系統(tǒng), 零售系統(tǒng),信用卡服務(wù), 電信(電話卡欺騙行 為), 等

18、等. 實(shí)現(xiàn)途徑:利用歷史性數(shù)據(jù)建立欺騙性行為模型并使用數(shù)據(jù)挖掘幫助識(shí)別同類例子 具體事例 汽車保險(xiǎn):檢測(cè)出那些故意制造車禍而索取保險(xiǎn)金的人 來(lái)路不明錢財(cái)?shù)淖粉? 發(fā)現(xiàn)可疑錢財(cái)交易(美國(guó)財(cái)政部的財(cái)政犯罪 執(zhí)行網(wǎng)) 醫(yī)療保險(xiǎn): 檢測(cè)出潛在的病人,呼叫醫(yī)生和證明人,2020年7月7日星期二,Data Mining: Concepts and Techniques,18,欺騙性檢測(cè)和管理(2),發(fā)現(xiàn)不正確的醫(yī)學(xué)治療 澳大利亞醫(yī)療保險(xiǎn)協(xié)會(huì)證明在許多情況下全面審 查測(cè)試是很需要的 檢測(cè)電話錯(cuò)誤 電話呼叫模式:呼叫目的地,持續(xù)時(shí)間,每天或 每周的次數(shù)。分析與預(yù)期標(biāo)準(zhǔn)相背離的模式 零售 分析家估計(jì)38%的零售

19、收縮緣于雇員的不誠(chéng)實(shí)。,2020年7月7日星期二,Data Mining: Concepts and Techniques,19,2020年7月7日星期二,Data Mining: Concepts and Techniques,20,Knowledge Discovery (KDD) Process,Data miningcore of knowledge discovery process,Data Cleaning,Data Integration,Databases,Data Warehouse,Knowledge,Task-relevant Data,Selection,Data M

20、ining,Pattern Evaluation,2020年7月7日星期二,Data Mining: Concepts and Techniques,21,KDD Process: Several Key Steps,了解應(yīng)用領(lǐng)域: 相關(guān)的預(yù)備知識(shí)和應(yīng)用目標(biāo) 創(chuàng)建一個(gè)目標(biāo)數(shù)據(jù)集:數(shù)據(jù)選擇 數(shù)據(jù)清理和預(yù)加工(可能占用60%精力) 數(shù)據(jù)變換: 發(fā)現(xiàn)有用的特征,維/變量的變換, 常量的表示 選擇數(shù)據(jù)挖掘功能(任務(wù)) 匯總,分類,關(guān)聯(lián),聚集 選擇挖掘算法 數(shù)據(jù)挖掘:搜索興趣模式 模式評(píng)估和知識(shí)表達(dá) 可視化,變形,去掉冗余模式等等 使用發(fā)現(xiàn)的知識(shí),2020年7月7日星期二,Data Mining: Co

21、ncepts and Techniques,22,Data Mining and Business Intelligence,Increasing potential to support business decisions,End User,Business Analyst,Data Analyst,DBA,Decision Making,Data Presentation,Visualization Techniques,Data Mining,Information Discovery,Data Exploration,Statistical Summary, Querying, an

22、d Reporting,Data Preprocessing/Integration, Data Warehouses,Data Sources,Paper, Files, Web documents, Scientific experiments, Database Systems,2020年7月7日星期二,Data Mining: Concepts and Techniques,23,2020年7月7日星期二,Data Mining: Concepts and Techniques,24,Architecture: Typical Data Mining System,2020年7月7日星

23、期二,Data Mining: Concepts and Techniques,25,2020年7月7日星期二,Data Mining: Concepts and Techniques,26,Data Mining: Confluence of Multiple Disciplines,2020年7月7日星期二,Data Mining: Concepts and Techniques,27,2020年7月7日星期二,Data Mining: Concepts and Techniques,28,Why Not Traditional Data Analysis?,Tremendous amou

24、nt of data Algorithms must be highly scalable to handle such as tera-bytes of data High-dimensionality of data Micro-array may have tens of thousands of dimensions High complexity of data Data streams and sensor data Time-series data, temporal data, sequence data Structure data, graphs, social netwo

25、rks and multi-linked data Heterogeneous databases and legacy databases Spatial, spatiotemporal, multimedia, text and Web data Software programs, scientific simulations New and sophisticated applications,2020年7月7日星期二,Data Mining: Concepts and Techniques,29,Data Mining: On What Kinds of Data?,Database

26、-oriented data sets and applications Relational database, data warehouse, transactional database Advanced data sets and advanced applications Data streams and sensor data Time-series data, temporal data, sequence data (incl. bio-sequences) Structure data, graphs, social networks and multi-linked dat

27、a Object-relational databases Heterogeneous databases and legacy databases Spatial data and spatiotemporal data Multimedia database Text databases The World-Wide Web,2020年7月7日星期二,Data Mining: Concepts and Techniques,30,2020年7月7日星期二,Data Mining: Concepts and Techniques,31,2020年7月7日星期二,Data Mining: Co

28、ncepts and Techniques,32,2020年7月7日星期二,Data Mining: Concepts and Techniques,33,Ex: Time Series Analysis,Example: Stock Market Predict future values Determine similar patterns over time Classify behavior,2020年7月7日星期二,Data Mining: Concepts and Techniques,34,Multi-Dimensional View of Data Mining,Data to

29、 be mined Relational, data warehouse, transactional, stream, object-oriented/relational, active, spatial, time-series, text, multi-media, heterogeneous, legacy, WWW Knowledge to be mined Characterization, discrimination, association, classification, clustering, trend/deviation, outlier analysis, etc

30、. Multiple/integrated functions and mining at multiple levels Techniques utilized Database-oriented, data warehouse (OLAP), machine learning, statistics, visualization, etc. Applications adapted Retail, telecommunication, banking, fraud analysis, bio-data mining, stock market analysis, text mining,

31、Web mining, etc.,2020年7月7日星期二,Data Mining: Concepts and Techniques,35,Data Mining: Classification Schemes,General functionality Descriptive data mining Predictive data mining Different views lead to different classifications Data view: Kinds of data to be mined Knowledge view: Kinds of knowledge to

32、be discovered Method view: Kinds of techniques utilized Application view: Kinds of applications adapted,2020年7月7日星期二,Data Mining: Concepts and Techniques,36,Data Mining Models and Tasks,預(yù)測(cè)型模型對(duì)數(shù)據(jù)的值進(jìn)行預(yù)測(cè)。 預(yù)測(cè)模型建??赡苁腔谑褂闷渌臍v史數(shù)據(jù)。 描述型模型對(duì)數(shù)據(jù)中的模式或關(guān)系進(jìn)行辨識(shí)。與預(yù)測(cè)行型模型不同, 描述型模型提供了一種探索被分析數(shù)據(jù)的性質(zhì)的方法, 而不是預(yù)測(cè)新的性質(zhì)。,2020年7月7日

33、星期二,Data Mining: Concepts and Techniques,37,Are All the “Discovered” Patterns Interesting?,Data mining may generate thousands of patterns: Not all of them are interesting Suggested approach: Human-centered, query-based, focused mining Interestingness measures A pattern is interesting if it is easily

34、 understood by humans, valid on new or test data with some degree of certainty, potentially useful, novel, or validates some hypothesis that a user seeks to confirm Objective vs. subjective interestingness measures Objective: based on statistics and structures of patterns, e.g., support, confidence,

35、 etc. Subjective: based on users belief in the data, e.g., unexpectedness, novelty, actionability, etc.,2020年7月7日星期二,Data Mining: Concepts and Techniques,38,Find All and Only Interesting Patterns?,Find all the interesting patterns: Completeness Can a data mining system find all the interesting patte

36、rns? Do we need to find all of the interesting patterns? Heuristic vs. exhaustive search Association vs. classification vs. clustering Search for only interesting patterns: An optimization problem Can a data mining system find only the interesting patterns? Approaches First general all the patterns

37、and then filter out the uninteresting ones Generate only the interesting patternsmining query optimization,2020年7月7日星期二,Data Mining: Concepts and Techniques,39,Why Data Mining Query Language?,Automated vs. query-driven? Finding all the patterns autonomously in a database?unrealistic because the patt

38、erns could be too many but uninteresting Data mining should be an interactive process User directs what to be mined Users must be provided with a set of primitives to be used to communicate with the data mining system Incorporating these primitives in a data mining query language More flexible user

39、interaction Foundation for design of graphical user interface Standardization of data mining industry and practice,2020年7月7日星期二,Data Mining: Concepts and Techniques,40,DMQLA Data Mining Query Language,Motivation A DMQL can provide the ability to support ad-hoc and interactive data mining By providin

40、g a standardized language like SQL Hope to achieve a similar effect like that SQL has on relational database Foundation for system development and evolution Facilitate information exchange, technology transfer, commercialization and wide acceptance Design DMQL is designed with the primitives describ

41、ed earlier,2020年7月7日星期二,Data Mining: Concepts and Techniques,41,Primitives that Define a Data Mining Task,Task-relevant data Type of knowledge to be mined Background knowledge Pattern interestingness measurements Visualization/presentation of discovered patterns,2020年7月7日星期二,Data Mining: Concepts an

42、d Techniques,42,Major Issues in Data Mining,Mining methodology Mining different kinds of knowledge from diverse data types, e.g., bio, stream, Web Performance: efficiency, effectiveness, and scalability Pattern evaluation: the interestingness problem Incorporation of background knowledge Handling noise and incomplete data Parallel,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論