人工智能之?dāng)?shù)據(jù)挖掘_第1頁(yè)
人工智能之?dāng)?shù)據(jù)挖掘_第2頁(yè)
人工智能之?dāng)?shù)據(jù)挖掘_第3頁(yè)
人工智能之?dāng)?shù)據(jù)挖掘_第4頁(yè)
人工智能之?dāng)?shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能

——數(shù)據(jù)挖掘之?dāng)?shù)據(jù)倉(cāng)庫(kù)目錄一、什么是數(shù)據(jù)挖掘?二、什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的特征。三、數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)四、從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘02二月2023數(shù)據(jù)挖掘:概念與技術(shù)3什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)):

從大型數(shù)據(jù)庫(kù)中提取有趣的(非平凡的,蘊(yùn)涵的,先前未知的并且是潛在有用的)信息或模式數(shù)據(jù)挖掘:用詞不當(dāng)?其它名稱:數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledgediscoveryindatabases,KDD)知識(shí)提取(knowledgeextraction)數(shù)據(jù)/模式分析(data/patternanalysis)數(shù)據(jù)考古(dataarcheology)數(shù)據(jù)捕撈(datadredging)信息收獲(informationharvesting)商務(wù)智能(businessintelligence),等.什么不是數(shù)據(jù)挖掘?(演繹)查詢處理.專家系統(tǒng)或小型機(jī)器學(xué)習(xí)(ML)/統(tǒng)計(jì)程序02二月2023數(shù)據(jù)挖掘:概念與技術(shù)4數(shù)據(jù)挖掘:在數(shù)據(jù)中發(fā)現(xiàn)知識(shí)/模式02二月2023數(shù)據(jù)挖掘:概念與技術(shù)5數(shù)據(jù)挖掘過(guò)程數(shù)據(jù)庫(kù)文件數(shù)據(jù)倉(cāng)庫(kù)清理與集成選擇與變換數(shù)據(jù)挖掘模式評(píng)估知識(shí)什么是數(shù)據(jù)倉(cāng)庫(kù)用不同的方法定義,但不是嚴(yán)格的是一個(gè)決策支持?jǐn)?shù)據(jù)庫(kù),它與組織的操作數(shù)據(jù)庫(kù)分離地維護(hù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)允許將各種應(yīng)用系統(tǒng)集成在一起,通過(guò)為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),支持信息處理.數(shù)據(jù)倉(cāng)庫(kù)是一種信息環(huán)境,它將各種應(yīng)用系統(tǒng)集成在一起,提供了企業(yè)信息的完整概括,為靈活的、交互的數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),為決策提供支持.W.H.Inmon的定義:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的(subject-oriented),集成的,時(shí)變的,和非易失的數(shù)據(jù)集合,支持管理決策過(guò)程建立數(shù)據(jù)倉(cāng)庫(kù)(Datawarehousing):構(gòu)造和使用數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)6數(shù)據(jù)倉(cāng)庫(kù)的特征面向主題的(subject-oriented)數(shù)據(jù)倉(cāng)庫(kù)圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織數(shù)據(jù)倉(cāng)庫(kù)關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理.

數(shù)據(jù)倉(cāng)庫(kù)排除對(duì)于決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖集成的(integrated)通常,構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)是將多個(gè)異種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫(kù)、一般文件和聯(lián)機(jī)事務(wù)處理記錄,集成在一起使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編關(guān)鍵字結(jié)構(gòu)、屬性度量等的一致性當(dāng)數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)時(shí),數(shù)據(jù)將被轉(zhuǎn)換2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)7數(shù)據(jù)倉(cāng)庫(kù)的特征(續(xù))時(shí)變的(time-variant)數(shù)據(jù)存儲(chǔ)從歷史的角度(例如過(guò)去5-10年)提供信息.操作數(shù)據(jù)庫(kù)數(shù)據(jù):當(dāng)前值數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵結(jié)構(gòu),隱式或顯式地包含時(shí)間元素非易失的(nonvolatile)數(shù)據(jù)倉(cāng)庫(kù)總是物理地分離存放數(shù)據(jù);這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)由于這種分離,數(shù)據(jù)倉(cāng)庫(kù)不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制.通常,它只需要兩種數(shù)據(jù)訪問(wèn)操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問(wèn)2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)8如何使用數(shù)據(jù)倉(cāng)庫(kù)中的信息數(shù)據(jù)倉(cāng)庫(kù)用于商務(wù)決策活動(dòng),包括增加顧客關(guān)注包括分析顧客購(gòu)買模式,如喜愛買什么、購(gòu)買時(shí)間、預(yù)算周期、消費(fèi)習(xí)慣根據(jù)季度、年和地區(qū)的營(yíng)銷情況比較,重新配置產(chǎn)品和管理產(chǎn)品的投資,調(diào)整生產(chǎn)策略分析運(yùn)營(yíng)情況和查找利潤(rùn)源管理顧客關(guān)系、進(jìn)行環(huán)境調(diào)整、管理公司資產(chǎn)開銷2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)9數(shù)據(jù)倉(cāng)庫(kù)vs.操作數(shù)據(jù)庫(kù)OLTP(on-linetransactionprocessing,聯(lián)機(jī)事務(wù)處理)傳統(tǒng)關(guān)系DBMS的主要任務(wù)日常事務(wù)處理:購(gòu)買,庫(kù)存,銀行,制造,工資單,注冊(cè),記帳等.OLAP(on-lineanalyticalprocessing,聯(lián)機(jī)分析處理)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要任務(wù)數(shù)據(jù)分析和決策制定2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)10數(shù)據(jù)倉(cāng)庫(kù)vs.操作數(shù)據(jù)庫(kù)(續(xù))不同的特點(diǎn)(OLTPvs.OLAP):用戶和系統(tǒng)的面向性:顧客vs.市場(chǎng)OLTP是面向顧客的,用于辦事員、客戶、和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理OLAP是面向市場(chǎng)的,用于知識(shí)工人(包括經(jīng)理、主管、和分析人員)的數(shù)據(jù)分析數(shù)據(jù)內(nèi)容:當(dāng)前的,細(xì)節(jié)的vs.歷史的,合并的OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù)這種數(shù)據(jù)太瑣碎,很難用于決策OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制,并在不同的粒度級(jí)別上存儲(chǔ)和管理信息這些特點(diǎn)使得數(shù)據(jù)更容易用于決策2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)11數(shù)據(jù)倉(cāng)庫(kù)vs.操作數(shù)據(jù)庫(kù)(續(xù))2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)12數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)

數(shù)據(jù)倉(cāng)庫(kù)為商務(wù)分析提供了什么

擁有數(shù)據(jù)倉(cāng)庫(kù)可以提供競(jìng)爭(zhēng)優(yōu)勢(shì)通過(guò)提供相關(guān)信息,據(jù)此測(cè)量性能并作出重要調(diào)整,以幫助戰(zhàn)勝其它競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)倉(cāng)庫(kù)可以提高企業(yè)生產(chǎn)力因?yàn)樗軌蚩焖儆行У厮鸭瘻?zhǔn)確描述組織機(jī)構(gòu)的信息數(shù)據(jù)倉(cāng)庫(kù)有利于顧客的聯(lián)系管理因?yàn)樗缭剿猩虅?wù)、所有部門和所有市場(chǎng),提供了顧客和商品的一致視圖數(shù)據(jù)倉(cāng)庫(kù)可以帶來(lái)費(fèi)用的降低通過(guò)以一致和可靠的方式長(zhǎng)期跟蹤趨勢(shì)、模式和異常2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)13數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(續(xù))四種視圖自頂向下視圖使得我們可以選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息.這些信息能夠滿足當(dāng)前和未來(lái)商務(wù)的需求數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)捕獲、存儲(chǔ)和管理的信息通常,數(shù)據(jù)源用傳統(tǒng)的數(shù)據(jù)建模技術(shù),如實(shí)體-聯(lián)系模型或CASE工具建模數(shù)據(jù)倉(cāng)庫(kù)視圖包括事實(shí)表和維表.它們提供存放在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部的信息,包括預(yù)計(jì)算的總和與計(jì)數(shù),以及增加的提供歷史背景的關(guān)于源、原來(lái)的日期和時(shí)間等信息商務(wù)查詢視圖從最終用戶的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)14數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(續(xù))建立和使用數(shù)據(jù)倉(cāng)庫(kù)是一項(xiàng)復(fù)雜的任務(wù),需要商務(wù)技巧、技術(shù)技巧和程序管理技巧商務(wù)技巧建立數(shù)據(jù)倉(cāng)庫(kù)涉及理解系統(tǒng)如何存儲(chǔ)和管理數(shù)據(jù);如何構(gòu)造一個(gè)提取程序,將數(shù)據(jù)由操作數(shù)據(jù)庫(kù)轉(zhuǎn)換到數(shù)據(jù)倉(cāng)庫(kù);如何構(gòu)造一個(gè)倉(cāng)庫(kù)刷新軟件,合理地保持?jǐn)?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)相對(duì)于操作數(shù)據(jù)庫(kù)中數(shù)據(jù)的當(dāng)前性使用數(shù)據(jù)倉(cāng)庫(kù)涉及理解它所包含的數(shù)據(jù)的含義理解商務(wù)需求并將它轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)查詢2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)15數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(續(xù))技術(shù)技巧數(shù)據(jù)分析需要理解如何由定量信息作出估價(jià)如何根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的歷史信息得到的結(jié)論推導(dǎo)事實(shí)這些技巧包括發(fā)現(xiàn)模式和趨勢(shì),根據(jù)歷史推斷趨勢(shì)和發(fā)現(xiàn)異?;蚰J狡?并根據(jù)這種分析提出相應(yīng)的管理建議的能力程序管理技巧涉及與許多技術(shù)人員、經(jīng)銷商和最終用戶交往,以便以及時(shí)和合算的方式提交結(jié)果2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)16數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(續(xù))數(shù)據(jù)倉(cāng)庫(kù)可以使用自頂向下方法、自底向上方法,或二者結(jié)合的混合方法設(shè)計(jì)自頂向下方法由總體設(shè)計(jì)和規(guī)劃開始當(dāng)技術(shù)成熟并且已經(jīng)掌握,對(duì)必須解決的商務(wù)問(wèn)題清楚并且已經(jīng)很好理解時(shí),這種方法是有用的自底向上方法以實(shí)驗(yàn)和原型開始在商務(wù)建模和技術(shù)開發(fā)的早期階段,這種方法是有用的混合方法既能利用自頂向下方法的規(guī)劃和戰(zhàn)略特點(diǎn),又能保持象自底向上方法一樣快速實(shí)現(xiàn)和立即應(yīng)用2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)17數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)(續(xù))典型的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程選取待建模的商務(wù)處理例如,訂單、發(fā)票、出貨、庫(kù)存、記帳管理、銷售或一般分類帳選用數(shù)據(jù)倉(cāng)庫(kù)模型vs.選擇數(shù)據(jù)集市選取商務(wù)處理的粒度該粒度是基本的,在事實(shí)表中是數(shù)據(jù)的原子級(jí)例如,單個(gè)事務(wù)、一天的快照等選取用于每個(gè)事實(shí)表記錄的維典型的維是時(shí)間、商品、顧客、供應(yīng)商、倉(cāng)庫(kù)、事務(wù)類型和狀態(tài)選取將安放在事實(shí)表中的度量典型的度量是可加的數(shù)值量,如dollars_sold和units_sold

2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)18三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)19三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)(續(xù))底層是倉(cāng)庫(kù)數(shù)據(jù)服務(wù)器一般是關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)使用后端工具和實(shí)用程序,由操作數(shù)據(jù)庫(kù)或其他外部數(shù)據(jù)源(如由外部咨詢者提供的顧客側(cè)面信息)提取數(shù)據(jù),放入底層這一層還包括元數(shù)據(jù)庫(kù),存放關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和它的內(nèi)容的信息中間層是OLAP服務(wù)器關(guān)系OLAP(ROLAP)模型即擴(kuò)充的關(guān)系DBMS,它將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作多維OLAP(MOLAP)模型即專門的服務(wù)器,它直接實(shí)現(xiàn)多維數(shù)據(jù)和操作頂層是前端客戶層包括查詢和報(bào)告工具、分析工具和/或數(shù)據(jù)挖掘工具

2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)20三種數(shù)據(jù)倉(cāng)庫(kù)

企業(yè)倉(cāng)庫(kù)(enterprisewarehouse)搜集了跨越整個(gè)組織的關(guān)于主題的所有信息提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成數(shù)據(jù)集市(datamart)包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶是有用的根據(jù)數(shù)據(jù)的來(lái)源不同,數(shù)據(jù)集市分為獨(dú)立的和依賴的兩類獨(dú)立的數(shù)據(jù)集市:數(shù)據(jù)來(lái)自一個(gè)或多個(gè)操作的系統(tǒng)或外部信息提供者,或者來(lái)自在一個(gè)特定的部門或地域局部產(chǎn)生的數(shù)據(jù)依賴的數(shù)據(jù)集市中的數(shù)據(jù)直接來(lái)自企業(yè)數(shù)據(jù)倉(cāng)庫(kù)虛擬倉(cāng)庫(kù)(virtualwarehouse)是操作數(shù)據(jù)庫(kù)上視圖的集合.為了有效地處理查詢,只有一些可能的匯總視圖被物化虛擬倉(cāng)庫(kù)易于建立,但需要操作數(shù)據(jù)庫(kù)服務(wù)器具有剩余能力2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)21數(shù)據(jù)倉(cāng)庫(kù)開發(fā):一種推薦的方法以遞增、進(jìn)化的方式實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)

定義一個(gè)高層企業(yè)數(shù)據(jù)模型數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉(cāng)庫(kù)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)模型提煉數(shù)據(jù)集市模型提煉2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)22數(shù)據(jù)倉(cāng)庫(kù)的使用通常,數(shù)據(jù)倉(cāng)庫(kù)使用時(shí)間越長(zhǎng),它進(jìn)化得越好數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的三種類型信息處理支持查詢,基本統(tǒng)計(jì)分析,使用交叉表,表,圖表和圖進(jìn)行報(bào)告分析處理數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的多維分析支持基本的OLAP操作,切片-切塊,上下鉆,轉(zhuǎn)軸數(shù)據(jù)挖掘隱藏模式的知識(shí)發(fā)現(xiàn)支持關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類和預(yù)測(cè),并使用可視化工具提供挖掘結(jié)果.2023/2/2數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)23OLAP與數(shù)據(jù)挖掘OLAP向數(shù)據(jù)挖掘走近了一步它可以由用戶選定的數(shù)據(jù)倉(cāng)庫(kù)子集,在多粒度上導(dǎo)出匯總的信息。這種描述等價(jià)于類/概念描述數(shù)據(jù)挖掘系統(tǒng)能挖掘更一般的類/概念描述數(shù)據(jù)挖掘比傳統(tǒng)的OLAP前進(jìn)了一步OLAP是數(shù)據(jù)匯總/聚集

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論