




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)倉基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)的設(shè)計與實現(xiàn)第一章引言1.1問題的提出我國的電信業(yè),尤其是移動通信業(yè),起步比較晚,但發(fā)展非???,對許多精品文檔放心下載業(yè)務(wù)的決策和方向的把握都是在摸索中進行的,某些立項缺乏統(tǒng)一意見和充足感謝閱讀的科學依據(jù),帶有一定程度的盲目性。另一方面,經(jīng)過多年運營,積累了龐大感謝閱讀的業(yè)務(wù)數(shù)據(jù),如計費中心的計費數(shù)據(jù)、客服中心的用戶信息數(shù)據(jù)等,這些海量精品文檔放心下載數(shù)據(jù)中包含著寶貴的經(jīng)驗和商業(yè)信息,可以很好地拿來借鑒今后的業(yè)務(wù)運作。謝謝閱讀但是這些數(shù)據(jù)信息隱藏在龐大、復(fù)雜的數(shù)據(jù)庫里面,許多有價值的信息并沒有精品文檔放心下載直接表現(xiàn)出來,而是掩蓋在無聊的數(shù)據(jù)后面。多數(shù)情況下,我們不得不用到某謝謝閱讀些分析工具,以期取得豐富而又客觀翔實的商業(yè)信息,用于開發(fā)更大的市場和謝謝閱讀提供更完善的服務(wù)。到目前為止,電信業(yè)尚無比較完備的分析工具,然而另一方面,電信業(yè)又精品文檔放心下載面臨著許多急于解決的問題,如:話費流失問題、新業(yè)務(wù)開展問題、基站分配感謝閱讀問題、批價問題等等。以話費流失為例,我國電信業(yè)每年僅此項損失就達數(shù)億精品文檔放心下載元人民幣之巨,基本上無法追回。如何盡快避免或盡量減免這一損失,就顯得感謝閱讀極為迫切和必須。在這種背景下,數(shù)據(jù)倉庫技術(shù)以及其上的一些分析挖掘工具就應(yīng)運而生了,感謝閱讀如聯(lián)機分析處理、數(shù)據(jù)挖掘等等。決策支持系統(tǒng)(DSS-DecisionSupportSystem)是70年代由美國M.S.Scott精品文檔放心下載Morton提出,迅速發(fā)展起來的新型學科。決策支持系統(tǒng)是綜合利用大量數(shù)據(jù),感謝閱讀謝謝閱讀策者實現(xiàn)科學決策的系統(tǒng)。數(shù)據(jù)倉庫DW(DataWarehouse)建立在傳統(tǒng)事務(wù)型數(shù)據(jù)庫的基礎(chǔ)之上,精品文檔放心下載為企業(yè)DSS及數(shù)據(jù)挖掘系統(tǒng)提供數(shù)據(jù)源。它從原事務(wù)數(shù)據(jù)庫中將分析型數(shù)據(jù)與感謝閱讀事務(wù)型數(shù)據(jù)相分離,單獨存放而形成數(shù)據(jù)集合。數(shù)據(jù)倉庫就是要把分散存放在感謝閱讀企業(yè)各個地方的數(shù)據(jù)集中到一起,并利用這些數(shù)據(jù)制定出更好的決策。精品文檔放心下載聯(lián)機分析處理OLAP(OnLineAnalysisProcessing)是數(shù)據(jù)倉庫上的分析精品文檔放心下載應(yīng)用工具。它建立在多維數(shù)據(jù)視圖的基礎(chǔ)上,主要有在線性和多維分析兩個特精品文檔放心下載點。數(shù)據(jù)挖掘DM(DataMining)是從大量數(shù)據(jù)中提取出可信的、新穎的、有感謝閱讀效的并能被人理解的模式的高級處理過程。41.2國內(nèi)外發(fā)展現(xiàn)狀目前,各大數(shù)據(jù)庫廠商均在數(shù)據(jù)倉庫項目上提出了風格各異、內(nèi)容相似的謝謝閱讀數(shù)據(jù)倉庫全面解決方案,比較知名的有OracleSybaseInformix、IBMNCR、精品文檔放心下載CA等公司。Sybase擁有一個獨特而強有力的點對點方案,用來設(shè)計、建立和管理數(shù)據(jù)謝謝閱讀倉庫和數(shù)據(jù)集市。各個部門之間通過集中的元數(shù)據(jù)進行交互,具有完整性、集精品文檔放心下載中性和靈活性等特點。使用的工具也具有很多優(yōu)越性能,如PowerDesigner謝謝閱讀WarehouseArchitect、PowerStage、AdaptiveServerIQ、PowerDimensions感謝閱讀等。Sybase的解決方案及其組成具有以下特點:快速實現(xiàn)、數(shù)據(jù)集市與中心倉庫的謝謝閱讀無縫集成、極高的查詢速度、高效的數(shù)據(jù)壓縮。Oracle提出一個面向決策支持應(yīng)用的數(shù)據(jù)倉庫解決方案,開發(fā)出了Oracle感謝閱讀WarehouseBuilder、Oracle8i數(shù)據(jù)庫、OracleExpress等系列工具,其中感謝閱讀Oracle8i直接對分區(qū)鍵值作更新,有利于大量重復(fù)操作;還在SQL引擎內(nèi)建立強大的指精品文檔放心下載令集,如擴展了CUBE和ROLLUPSQL操作,支持對表進行抽樣查詢。謝謝閱讀Informix為促使IT專業(yè)人員迅速建立和運用數(shù)據(jù)倉庫和數(shù)據(jù)集市,提供了謝謝閱讀尖端決策方案套裝,這一合成的產(chǎn)品和服務(wù)是專為概括高級關(guān)鍵商務(wù)分析的決謝謝閱讀策支持環(huán)境設(shè)計的。為關(guān)鍵商務(wù)數(shù)據(jù)倉庫提供世界一流的數(shù)據(jù)倉庫產(chǎn)品和服務(wù),感謝閱讀及工業(yè)領(lǐng)先的工具,包括:Informix的專家級數(shù)據(jù)庫設(shè)計,具有超級的可操作謝謝閱讀性,伸縮性和廣泛性。為建立和展開分析應(yīng)用的合成工具,包括數(shù)據(jù)抽取,轉(zhuǎn)謝謝閱讀換,清理和裝載。提供了基于ROLAP的多維數(shù)據(jù)分析、導(dǎo)向、匯報以及一整感謝閱讀套編程工具和APIs。值得一提的是,Informix的OLAP工具METACUBE在漢感謝閱讀化方面做了大量的工作,基本能夠滿足國內(nèi)用戶的需求。其他公司的解決方案大體類似,只是具體開發(fā)工具在功能上有所不同。這謝謝閱讀些國外公司的最大特點是各種開發(fā)工具齊全,從數(shù)據(jù)倉庫模型設(shè)計、數(shù)據(jù)抽取感謝閱讀工具、數(shù)據(jù)庫管理系統(tǒng)到OLAP分析工具。用戶只需要面對一個廠商就可以獲精品文檔放心下載得全部的支持和服務(wù)。而國內(nèi)公司則沒有這樣的技術(shù)優(yōu)勢。謝謝閱讀在國內(nèi),數(shù)據(jù)倉庫剛剛起步,從事這方面研究的學校和公司不多,主要是謝謝閱讀知識發(fā)現(xiàn)(數(shù)據(jù)挖掘)領(lǐng)域的研究,并且是利用第三方開發(fā)工具系統(tǒng)集成,比較謝謝閱讀知名的有:中青旅尚洋電子技術(shù)有限公司、亞信德康通信技術(shù)有限公司、億陽精品文檔放心下載信通有限公司、巨陽科技開發(fā)有限公司等。根據(jù)數(shù)據(jù)倉庫技術(shù)國際著名刊物DMReview的評論,有國外一些電信公司感謝閱讀采用決策支持通用平臺,如新加坡電信,英國電信等。目前已經(jīng)在我國設(shè)立辦謝謝閱讀事處或代理機構(gòu)的廠商的產(chǎn)品有:Brio,SAS,Clementine,BusinessObject,精品文檔放心下載5SPSSOracleInformixSybasePilot謝謝閱讀之處在于存在本地化問題等,往往需要二次開發(fā),無法直接適應(yīng)中國電信市場的謝謝閱讀需要。1.3主要工作及成果本文在深入研究數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,設(shè)計并實現(xiàn)了一個DSS感謝閱讀系統(tǒng)。主要完成了以下幾個方面的工作:建造了一個數(shù)據(jù)倉庫管理系統(tǒng),并運用聚類、分類算法和C5算法進行用謝謝閱讀戶信用度分析和客戶行為特征分析。提出并實現(xiàn)了一個改進的聚類算法。傳統(tǒng)系統(tǒng)聚類算法僅限于樣本聚類,感謝閱讀在聚類指標過多并且指標之間存在依賴關(guān)系的情況下正確度不高。本文提出并精品文檔放心下載實現(xiàn)的多重系統(tǒng)聚類算法,將樣本聚類與變量聚類結(jié)合起來,在不同的指標組謝謝閱讀上分別聚類,然后進行二次(或多次)聚類,在很大程度上提高了算法的正確感謝閱讀度。6第二章數(shù)據(jù)倉庫技術(shù)2.1基本概念隨著IT業(yè)的發(fā)展,業(yè)界數(shù)據(jù)規(guī)模的不斷擴大。為了以合理的費用,向任精品文檔放心下載何地點需要數(shù)據(jù)的人提供高質(zhì)量的數(shù)據(jù),1992年WilliamH.Inmon提出了取感謝閱讀得廣泛認可的數(shù)據(jù)倉庫概念:集成的、面向主題的、隨時間變化的不可修改的精品文檔放心下載數(shù)據(jù)集合。從上面的定義,我們可以知道,數(shù)據(jù)倉庫首先是一個數(shù)據(jù)的集合,在這一精品文檔放心下載點上,它與傳統(tǒng)意義上的數(shù)據(jù)庫是一致的。實際在物理上,數(shù)據(jù)倉庫也主要是精品文檔放心下載以關(guān)系表的形式實現(xiàn)的。數(shù)據(jù)倉庫有四大主要特點:面向主題的。是相對于傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用而言的。所謂面向應(yīng)用,指精品文檔放心下載的是系統(tǒng)實現(xiàn)過程中主要圍繞著一些應(yīng)用或功能。而面向主題則考慮一個個的感謝閱讀問題域,對問題域涉及到的數(shù)據(jù)和分析數(shù)據(jù)所采用的功能給予同樣的重視。精品文檔放心下載集成的。數(shù)據(jù)倉庫中的數(shù)據(jù)來自各個不同的數(shù)據(jù)源(操作數(shù)據(jù)庫),由于歷感謝閱讀史的原因,各操作數(shù)據(jù)庫的組織結(jié)構(gòu)往往是不同的,在這些異構(gòu)數(shù)據(jù)載入到數(shù)感謝閱讀據(jù)倉庫之前,必須經(jīng)歷一個集成過程,或稱為抽取過程。隨時間變化的。數(shù)據(jù)倉庫以維的形式對數(shù)據(jù)進行組織,維是數(shù)據(jù)倉庫技術(shù)謝謝閱讀中很重要的一個概念。通??梢赃@樣理解一個維:維是人們看待事物的一種角謝謝閱讀度。維具有層次性。不可修改的。與面向應(yīng)用的事務(wù)數(shù)據(jù)庫對數(shù)據(jù)作頻繁的插入、更新操作不謝謝閱讀同的是,對于數(shù)據(jù)倉庫中數(shù)據(jù)的操作僅限于數(shù)據(jù)的初始導(dǎo)入和記錄查詢。在數(shù)謝謝閱讀據(jù)載入數(shù)據(jù)倉庫之后,一般不允許隨意修改。2.2數(shù)據(jù)倉庫簡介數(shù)據(jù)倉庫是一種結(jié)構(gòu)化的數(shù)據(jù)環(huán)境,為決策支持系統(tǒng)提供數(shù)據(jù)源。它可以精品文檔放心下載幫助企業(yè)管理者準確了解企業(yè)的狀況,從而進行預(yù)測,制定計劃并作出明智的謝謝閱讀決策。數(shù)據(jù)倉庫作為整個企業(yè)的業(yè)務(wù)數(shù)據(jù)集成庫,從眾多數(shù)據(jù)源中集成數(shù)據(jù),它感謝閱讀包含龐大的企業(yè)級數(shù)據(jù),其實質(zhì)是由多種技術(shù)和服務(wù)組成的完整的解決方案。精品文檔放心下載數(shù)據(jù)倉庫處理的數(shù)據(jù)與一般的信息系統(tǒng)的數(shù)據(jù)不同,它來自不同的分散數(shù)據(jù)源,謝謝閱讀包括操作數(shù)據(jù)、歷史數(shù)據(jù)、外部數(shù)據(jù)等,對這些數(shù)據(jù)進行提煉和綜合,集成到精品文檔放心下載一個單一的關(guān)系數(shù)據(jù)倉庫中;對這個集成的數(shù)據(jù)倉庫進行管理,將其規(guī)范為面感謝閱讀7向主題的格式,以便于最終用戶進行數(shù)據(jù)訪問和分析。數(shù)據(jù)倉庫由可操作的外部數(shù)據(jù)源、一個/多個數(shù)據(jù)倉庫和一個/多個數(shù)據(jù)分謝謝閱讀析工具組成。構(gòu)造數(shù)據(jù)倉庫,首先要從數(shù)據(jù)源(如聯(lián)機信息系統(tǒng)、電子郵件消感謝閱讀息等)中抽取、集成、轉(zhuǎn)換、聚合和復(fù)制數(shù)據(jù),并存儲到數(shù)據(jù)倉庫中;然后,謝謝閱讀這其中的一部分數(shù)據(jù)再被聚合、復(fù)制到數(shù)據(jù)集市;最后,用戶用分析工具創(chuàng)建感謝閱讀電子報表,進行查詢操作,從而實現(xiàn)決策分析。2.3數(shù)據(jù)倉庫的關(guān)鍵技術(shù)在技術(shù)上可以根據(jù)數(shù)據(jù)的工作過程分為:數(shù)據(jù)的抽取、存儲和管理以及數(shù)謝謝閱讀據(jù)的表現(xiàn)三個方面。在此,我們將分別討論每一個環(huán)節(jié)。2.3.1.數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)精品文檔放心下載境,它需要通過抽取程序?qū)?shù)據(jù)從聯(lián)機事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)感謝閱讀據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、感謝閱讀轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面。數(shù)據(jù)倉庫的數(shù)據(jù)不要求實時響應(yīng),因此數(shù)據(jù)抽感謝閱讀取可以定時進行,但多個抽取操作執(zhí)行的時間、相互的順序、成敗對數(shù)據(jù)倉庫謝謝閱讀中信息的有效性則至關(guān)重要。目前市場上提供很多數(shù)據(jù)抽取工具(例如Informix的ETLExtract謝謝閱讀TransformLoader和Sybase的PowerStage)。這些工具通過用戶選定源數(shù)據(jù)感謝閱讀和目標數(shù)據(jù)的對應(yīng)關(guān)系,會自動生成數(shù)據(jù)抽取的代碼。數(shù)據(jù)抽取過程涉及數(shù)據(jù)謝謝閱讀的轉(zhuǎn)換,但抽取工具支持的數(shù)據(jù)種類有限;這種情況使得抽取工具往往不能滿謝謝閱讀足要求。因此,實際的數(shù)據(jù)倉庫實施過程中往往不一定使用抽取工具。整個抽感謝閱讀取過程能否因工具的使用而納入有效的管理、調(diào)度和維護則更為重要。謝謝閱讀經(jīng)過抽取后的數(shù)據(jù)記錄應(yīng)為格式統(tǒng)一、業(yè)務(wù)信息完整的數(shù)據(jù)記錄。謝謝閱讀2.3.2.存儲和管理數(shù)據(jù)倉庫的關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它謝謝閱讀有別于傳統(tǒng)數(shù)據(jù)庫的特性,同時也決定了它對外部數(shù)據(jù)的表現(xiàn)形式。要決定采感謝閱讀用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分感謝閱讀析。數(shù)據(jù)倉庫遇到的第一個問題是對大量數(shù)據(jù)的存儲和管理。這里所涉及的數(shù)謝謝閱讀據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時間的推移而累積。從現(xiàn)有技術(shù)和產(chǎn)品來看,精品文檔放心下載只有關(guān)系數(shù)據(jù)倉庫系統(tǒng)能夠擔當此任。關(guān)系數(shù)據(jù)倉庫經(jīng)過近30年的發(fā)展,在數(shù)精品文檔放心下載8據(jù)存儲和管理方面已經(jīng)非常成熟。目前不少關(guān)系數(shù)據(jù)倉庫系統(tǒng)已支持數(shù)據(jù)分割精品文檔放心下載技術(shù),能夠?qū)⒁粋€大的數(shù)據(jù)倉庫表分散在多個物理存儲設(shè)備中,進一步增強了精品文檔放心下載系統(tǒng)管理大數(shù)據(jù)量的擴展能力。采用關(guān)系數(shù)據(jù)倉庫管理數(shù)百個GB甚至到TB的精品文檔放心下載數(shù)據(jù)已是一件平常的事情。數(shù)據(jù)倉庫要解決的第二個問題是并行處理。在傳統(tǒng)聯(lián)機事務(wù)處理應(yīng)用中,謝謝閱讀用戶訪問系統(tǒng)的特點是短小而密集;對于一個多處理機系統(tǒng)來說,能夠?qū)⒂脩糁x謝閱讀的請求進行均衡分擔是關(guān)鍵,這便是并發(fā)操作。而在數(shù)據(jù)倉庫系統(tǒng)中,用戶訪謝謝閱讀問系統(tǒng)的特點是龐大而稀疏,每一個查詢和統(tǒng)計都很復(fù)雜,但訪問的頻率并不感謝閱讀是很高。此時系統(tǒng)需要有能力將所有的處理機調(diào)動起來為這一個復(fù)雜的查詢請精品文檔放心下載求服務(wù),將該請求并行處理。因此,并行處理技術(shù)在數(shù)據(jù)倉庫中比以往更加重謝謝閱讀要。數(shù)據(jù)倉庫的第三個問題是針對決策支持查詢的優(yōu)化。這個問題主要針對關(guān)謝謝閱讀系數(shù)據(jù)倉庫而言。在技術(shù)上,針對決策支持的優(yōu)化涉及數(shù)據(jù)倉庫系統(tǒng)的索引機感謝閱讀制、查詢優(yōu)化器、連接策略、數(shù)據(jù)排序和采樣等諸多部分。普通關(guān)系數(shù)據(jù)倉庫感謝閱讀采用B樹類的索引,對于性別、年齡、地區(qū)等具有大量重復(fù)值的字段幾乎沒有精品文檔放心下載效果。而擴充的關(guān)系數(shù)據(jù)倉庫則引入了位圖索引的機制,以二進制位表示字段感謝閱讀的狀態(tài),將查詢過程變?yōu)楹Y選過程,單個計算機的基本操作便可篩選多條記錄。謝謝閱讀由于數(shù)據(jù)倉庫中各數(shù)據(jù)表的數(shù)據(jù)量往往極不均勻,普通查詢優(yōu)化器所得出的最謝謝閱讀佳查詢路徑可能不是最優(yōu)的。因此,面向決策支持的關(guān)系數(shù)據(jù)倉庫在查詢優(yōu)化精品文檔放心下載器上也做了改進,同時根據(jù)索引的使用特性增加了多重索引掃描的能力。以關(guān)感謝閱讀系數(shù)據(jù)倉庫建立的數(shù)據(jù)倉庫在應(yīng)用時會遇到大量的表間連接操作,而連接操作感謝閱讀對于關(guān)系數(shù)據(jù)倉庫來說是一件耗時的事兒。擴充的關(guān)系庫中對連接操作可以做感謝閱讀預(yù)先的定義,我們稱之為連接索引,使得數(shù)據(jù)倉庫在執(zhí)行查詢時可直接獲取數(shù)感謝閱讀據(jù)而不必實施具體的連接操作。數(shù)據(jù)倉庫的查詢常常只需要數(shù)據(jù)倉庫中的部分感謝閱讀記錄,決策支持的關(guān)系數(shù)據(jù)倉庫在此做了改進,提供了這一功能。此外,在大感謝閱讀容量數(shù)據(jù)環(huán)境中需要有足夠短的系統(tǒng)相應(yīng)時間。因此,一些數(shù)據(jù)倉庫系統(tǒng)增加謝謝閱讀了采樣數(shù)據(jù)的查詢能力,在精確度允許的范圍內(nèi),大幅度提高系統(tǒng)查詢效率。感謝閱讀數(shù)據(jù)倉庫的第四個問題是支持多維分析的查詢模式,這也是關(guān)系數(shù)據(jù)倉庫感謝閱讀在數(shù)據(jù)倉庫領(lǐng)域遇到的最嚴峻的挑戰(zhàn)之一。用戶在使用數(shù)據(jù)倉庫時的訪問方式謝謝閱讀與傳統(tǒng)關(guān)系數(shù)據(jù)倉庫有很大的不同。對于數(shù)據(jù)倉庫的訪問往往不是簡單的表和感謝閱讀記錄的查詢,而是基于用戶業(yè)務(wù)的分析模式,即聯(lián)機分析。它的特點是將數(shù)據(jù)謝謝閱讀想像成多維的立方體,用戶的查詢便相當于在其中的部分維(棱)上施加條件,謝謝閱讀對立方體進行切片、分割,得到的結(jié)果則是數(shù)值的矩陣或向量,并將其制成圖謝謝閱讀表或輸入數(shù)理統(tǒng)計的算法。92.3.3.數(shù)據(jù)的表現(xiàn)它們主要集中在多維分析、數(shù)理統(tǒng)計和數(shù)據(jù)挖掘方面。多維分析是數(shù)據(jù)倉庫的重要表現(xiàn)形式,由于MOLAP(多維OLAP)系統(tǒng)是專精品文檔放心下載用的,因此,關(guān)于多維分析領(lǐng)域的工具和產(chǎn)品大多是ROLAP(關(guān)系OLAP)工具。謝謝閱讀在實際工作中,客戶需要通過對數(shù)據(jù)的統(tǒng)計來驗證他們對某些事物的假設(shè),以感謝閱讀進行決策。數(shù)據(jù)挖掘強調(diào)的不僅僅是驗證人們對數(shù)據(jù)特性的假設(shè),而且它更要感謝閱讀主動地尋找并發(fā)現(xiàn)蘊藏在數(shù)據(jù)之中的規(guī)律。因此,在當前的數(shù)據(jù)倉庫應(yīng)用中,精品文檔放心下載有效地利用數(shù)理統(tǒng)計就已經(jīng)能夠獲得可觀的效益。2.4數(shù)據(jù)倉庫和數(shù)據(jù)庫的區(qū)別數(shù)據(jù)倉庫和數(shù)據(jù)庫有多方面的區(qū)別,下表從幾個方面加以比較:謝謝閱讀數(shù)據(jù)庫數(shù)據(jù)倉庫聯(lián)線處理方式OLTPOLAP數(shù)據(jù)源單一數(shù)據(jù)源多數(shù)據(jù)源集成數(shù)據(jù)屬性動態(tài)除非刷新,否則為靜態(tài)數(shù)據(jù)內(nèi)容當前值概要值,計算值,歸檔值數(shù)據(jù)結(jié)構(gòu)復(fù)雜,適于OLTP簡單,適于OLAP數(shù)據(jù)存取頻率高低數(shù)據(jù)修改方式直接修改不直接修改數(shù)據(jù)存取類型重復(fù)的讀和寫不重復(fù),只讀系統(tǒng)響應(yīng)時間秒級分級2.5數(shù)據(jù)倉庫多維模型設(shè)計2.5.1多維模型的設(shè)計原則:數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫所不同的是表間較少以二維關(guān)系型方式連接,而以精品文檔放心下載多維形式關(guān)聯(lián)。最為流行且被業(yè)界認可的邏輯結(jié)構(gòu)有星型結(jié)構(gòu)和雪花型結(jié)構(gòu),精品文檔放心下載其中以星型結(jié)構(gòu)最常被人們采用。下圖是數(shù)據(jù)倉庫邏輯結(jié)構(gòu)的一個實例,這個例子采用的是星型結(jié)構(gòu)。星型謝謝閱讀模式中間有一個單一對象,沿半徑向外連接到多個對象。它反映了最終用戶對精品文檔放心下載(FactTable”謝謝閱讀(DimensionTable)。圖中事實表中存儲了鍵屬性(時間代碼、地區(qū)代碼、年謝謝閱讀10感謝閱讀對維表的查詢結(jié)合在一起時,就可以檢索大量的信息。通過聯(lián)合,維表可以對感謝閱讀查找標準細剖和聚集。維表通過外鍵與事實表相關(guān)聯(lián)。雪花模式:雪花模式是對星型模式的擴展,每一個點都沿半徑向外連接到感謝閱讀多個點。雪花模式對星型模式的維表進一步標準化,它的優(yōu)點是通過最大限度精品文檔放心下載地減少數(shù)據(jù)存儲量以及把最小的標準化表(而不是大的非標準化表)聯(lián)合在一謝謝閱讀起來改善查詢性能。由于采取了標準化及較低的粒度,雪花模式增加了應(yīng)用程精品文檔放心下載序的靈活性,當然同時也增加了用戶必須處理的表的數(shù)量和某些查詢的復(fù)雜性。謝謝閱讀圖2.1:客戶群體特征事實表2.5.2多維模型的設(shè)計方法:多維數(shù)據(jù)模型由事實表和維表組成。事實表中一個索引對應(yīng)一個維表,常謝謝閱讀用的統(tǒng)計信息放在事實表中。維表分得盡可能的細致、方便,維表之間相互獨謝謝閱讀立,不同維表之間不能有相同的主鍵和外鍵。要根據(jù)數(shù)據(jù)之間的基本的內(nèi)在聯(lián)謝謝閱讀系組織數(shù)據(jù),而不是根據(jù)現(xiàn)有的分析主題組織數(shù)據(jù)。下面是一個實例:droptablef_cdr;droptabled_account;11createtabled_account(
sub_idintegernotnull,
namechar(50),postal_codechar(6),id_namechar(10),id_codechar(20),contact_personchar(20),
contact_phonechar(40),
addresschar(60),primarykey(sub_id)感謝閱讀)maxrowspersegment40000;
createsynonymdet_accountford_account;
droptabled_period;createtabled_period(
per_keyintegernotnull,
daychar(20),monthchar(10),yearchar(6),current_flagchar(1),primarykey(per_key)精品文檔放心下載)maxrowspersegment400;精品文檔放心下載createsynonymdet_periodford_period;
droptabled_duration;createtabled_duration(
dur_keyintegernotnull,
dur_segchar(40),primarykey(dur_key)精品文檔放心下載)maxrowspersegment10;createsynonymdet_durationford_duration;
droptabled_time;createtabled_time(
time_keyintegernotnull,
minutechar(6),hourchar(2),promo_descchar(10),primarykey(time_key)感謝閱讀)maxrowspersegment1440;
createsynonymdet_timeford_time;
droptablew_area;謝謝閱讀createtablew_area(area_codechar(8)notnull,精品文檔放心下載area_tagchar(8),citychar(20),provincechar(10),regionchar(10),primarykey(area_code))maxrowspersegment600;精品文檔放心下載12createsynonymd_orig_areaforw_area;
createsynonymdet_areaforw_area;
droptabled_route;createtabled_route(route_keychar(10)notnull,
route_descchar(10),primarykey(route_key)精品文檔放心下載)maxrowspersegment1000;謝謝閱讀createsynonymdet_routeford_route;
createtablef_cdr(imsichar(15)notnull,calling_timetimestampnotnull,
sub_idintegernotnull,per_keyintegernotnull,time_keyintegernotnull,dur_keyintegernotnull,orig_area_codechar(8)notnull,
route_keychar(10)notnull,
base_feedecimal(7,3),idd_feedecimal(9,3),sub_feedecimal(9,3),ddd_feedecimal(9,3),gat_feedecimal(9,3),roam_feedecimal(7,3),extra_feedecimal(7,3),durationinteger,calling_countinteger,謝謝閱讀primarykey(imsi,calling_time),謝謝閱讀foreignkey(imsi)referencesd_imsi(imsi),foreignkey(sub_id)referencesd_account(sub_id),
foreignkey(per_key)referencesd_period(per_key),
foreignkey(time_key)referencesd_time(time_key),
foreignkey(dur_key)referencesd_duration(dur_key),
foreignkey(route_key)referencesd_route(route_key),
foreignkey(orig_area_code)referencesd_orig_area(area_code),謝謝閱讀)maxsegments2maxrowspersegment10000000;謝謝閱讀2.6數(shù)據(jù)倉庫的成功案例在數(shù)據(jù)倉庫應(yīng)用領(lǐng)域,從電信、金融到制造、餐飲零售,都有不少成功的精品文檔放心下載案例。如MCI通過Informix公司為其建立數(shù)據(jù)倉庫應(yīng)用,數(shù)據(jù)倉庫規(guī)模為3TB,精品文檔放心下載能被1萬個用戶訪問。借助于數(shù)據(jù)倉庫,MCI公司可以分析存儲其公司范圍內(nèi)謝謝閱讀幾乎全部的美國消費者信息,以此增強公司的競爭地位。美國百事可樂快餐集團也建立了自己的數(shù)據(jù)倉庫解決方案,各連鎖快餐廳精品文檔放心下載13使用數(shù)據(jù)倉庫技術(shù)為其提供及時、有效的信息,它們包括:顧客對某個快餐廳謝謝閱讀的喜好,總體購買行為,快餐廳地理位置的選擇等等,用于集團對所有快餐廳感謝閱讀的最終管理和評估。這些信息對于集團來說是極其重要且有價值的。精品文檔放心下載Sybase公司與美國財政部的國內(nèi)稅收服務(wù)部門(IRS)合作開發(fā)的項目獲感謝閱讀得了DataWarehousingInstitute(TDWI)頒發(fā)的1999年度數(shù)據(jù)庫最佳實踐獎。感謝閱讀NCR公司的”電信業(yè)解決方案”–FraudSENTRY等。謝謝閱讀在國內(nèi)也有不少成功的數(shù)據(jù)倉庫應(yīng)用案例。在目前國內(nèi)采用的同類產(chǎn)品,謝謝閱讀可分為開發(fā)專用的系統(tǒng)、引進國外的軟件、使用通用決策支持基礎(chǔ)平臺等。見謝謝閱讀諸報道的專用系統(tǒng)有國內(nèi)新太公司的”郵電智能辦公決策管理系統(tǒng)”-感謝閱讀IntraSuite,亞信德康的“金眼睛”等。第三章聯(lián)機分析處理與數(shù)據(jù)挖掘143.1聯(lián)機分析處理傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)建立在事務(wù)型數(shù)據(jù)的基礎(chǔ)之上,注重的是數(shù)據(jù)庫的感謝閱讀安全、高效運作以及維持大量細節(jié)數(shù)據(jù)的一致性、安全性以及完整性這樣的事感謝閱讀務(wù)性操作,即OLTP(OnLineTransactionProcessing)。為了保證系統(tǒng)的高謝謝閱讀效運作及快速響應(yīng),不可能維持決策分析所需的大量歷史數(shù)據(jù)。此外,系統(tǒng)在精品文檔放心下載運行過程中產(chǎn)生的數(shù)據(jù)大多并不能直接拿來做決策支持分析之用,而首先要作謝謝閱讀一些預(yù)處理工作,比如匯總、抽取等,這樣的預(yù)處理工作也是OLTP所不能完成精品文檔放心下載的。要想得到對決策有用的信息或?qū)?shù)據(jù)倉庫中的數(shù)據(jù)做靈活的、多角度的探謝謝閱讀察,則還必須借助一些分析展示工具。因此,就在這樣一個背景下,1993年精品文檔放心下載E.F.Codd首次提出了聯(lián)機分析處理系統(tǒng)(OLAP)的概念。感謝閱讀3.1.1OLAP的概念及特征聯(lián)機分析處理OLAP是一類軟件技術(shù),它使分析人員、管理人員通過對信精品文檔放心下載息的多種可能的觀察進行快速、一致和交互性的存取以獲得對信息的深入理解。謝謝閱讀OLAP是數(shù)據(jù)倉庫上的分析展示工具,它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上,可以提精品文檔放心下載供給用戶強大的統(tǒng)計、分析、報表處理功能及進行趨勢預(yù)測的能力。主要有兩感謝閱讀個特點,一是在線性(OnLine),體現(xiàn)為對用戶請求的快速響應(yīng)和交互式操作;精品文檔放心下載二是多維分析(MultiDimensionAnalysis),數(shù)據(jù)的多維視圖使用戶能從多角精品文檔放心下載OLAP技術(shù)的核心所在。謝謝閱讀根據(jù)對數(shù)據(jù)組織方式的不同,OLAP可分為兩種:基于多維數(shù)據(jù)庫的精品文檔放心下載OLAP(MOLAP)和基于關(guān)系數(shù)據(jù)庫的OLAP(ROLAP);前者響應(yīng)速度快、執(zhí)行精品文檔放心下載效率高,但由于所有的預(yù)處理操作都是預(yù)先定義好的,限制了它的靈活性。與精品文檔放心下載之相比,后者由于建立在數(shù)據(jù)倉庫的基礎(chǔ)上,靈活性、擴展性要高得多,并且謝謝閱讀支持大數(shù)據(jù)量和較多維數(shù)的能力也要強于前者,因此,雖然在響應(yīng)速度、執(zhí)行謝謝閱讀效率上差一點,仍然得到了廣泛的應(yīng)用。就軟件技術(shù)而言,數(shù)據(jù)倉庫的核心是精品文檔放心下載關(guān)系數(shù)據(jù)倉庫,而讓集成的數(shù)據(jù)發(fā)揮效益,則需要一個先進的關(guān)系型聯(lián)機分析謝謝閱讀處理(ROLAP)工具。這種工具應(yīng)能支持并行數(shù)據(jù)查詢(PDQ)和操作,支持感謝閱讀表分割技術(shù)(TableCross),支持多種DSS索引等等。因此現(xiàn)有的OLAP工具謝謝閱讀大多基于后者。關(guān)于二者的更詳細的區(qū)別,請參見文獻[46]。精品文檔放心下載目前,針對OLAP技術(shù)的研究領(lǐng)域相當活躍,對OLAP的理解也不斷深入。有謝謝閱讀人提出了OLAP的更為簡潔的定義,如NigelPendse提出的FASMI(Fast精品文檔放心下載AnalysisOfSharedMultidimensionalInformation)。謝謝閱讀153.1.2OLAP的結(jié)構(gòu)OLAP是建立在客戶/服務(wù)器結(jié)構(gòu)之上的。它要對來自基層的操作數(shù)據(jù)進行感謝閱讀多維化或預(yù)綜合處理,故它是一個三層的客戶/服務(wù)器體系結(jié)構(gòu)。謝謝閱讀OLAP對數(shù)據(jù)倉庫中數(shù)據(jù)的操作是針對多維數(shù)據(jù)視圖或稱為超立方體進行感謝閱讀的。對立方體的典型操作有:切片、切塊以及旋轉(zhuǎn)等:切片是指選定多維數(shù)組的一個二維子集;切塊是指選定多維數(shù)組的一個三維子集;旋轉(zhuǎn)指改變一個立方體顯示的維方向,使人們可以從不同的角度更加清晰精品文檔放心下載直觀地觀察數(shù)據(jù)圖3.1是典型OLAP操作的抽象圖:3.2數(shù)據(jù)挖掘數(shù)據(jù)挖掘涵蓋了廣泛的計算機技術(shù),涉及到機器學習、模式識別、統(tǒng)計學、感謝閱讀智能數(shù)據(jù)庫、知識獲取、數(shù)據(jù)可視化、高性能計算、專家系統(tǒng)等多個領(lǐng)域。根精品文檔放心下載據(jù)人類學習的不同模式人們提出了很多機器學習方法,如:實例學習、觀察和感謝閱讀發(fā)現(xiàn)學習、神經(jīng)網(wǎng)絡(luò)和遺傳算法等等。其中某些常用且較成熟的算法已被人們感謝閱讀運用于實際的應(yīng)用系統(tǒng)及智能計算機的設(shè)計和實現(xiàn)中。數(shù)據(jù)挖掘包括在數(shù)據(jù)中查找模式,傳統(tǒng)上這是屬于分析專家的領(lǐng)域。其中謝謝閱讀一個主要的問題是統(tǒng)計上重要的模式?jīng)]有商業(yè)價值,要借助于商業(yè)知識和日常感謝閱讀感覺,而不是IT經(jīng)驗來實現(xiàn)。數(shù)據(jù)挖掘通常用于電信、金融、零售、直銷、銀行貸款欺詐檢測及欺詐分感謝閱讀析、健康保障行業(yè)、電視臺電視欄目收視率分析、交通流量分析、罪犯特征分感謝閱讀析、保險風險分析、藥品和化學成分的影響分析等。這種投資回報有時是超出謝謝閱讀Clementine軟件處理了一家環(huán)保超標的工廠的數(shù)據(jù),謝謝閱讀切片切塊旋轉(zhuǎn)地域年份地域產(chǎn)品圖3.1:對超立方體的典型操作16這項改進為公司節(jié)約了計劃10萬美元的預(yù)期投資。3.2.1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人理解的精品文檔放心下載模式的高級處理過程。下面我們對這個定義作一些解釋:數(shù)據(jù):數(shù)據(jù)是指一個有關(guān)事實F的集合,它是用來描述事物有關(guān)方面的原感謝閱讀始信息的。模式:模式給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)包含信息更抽象感謝閱讀的描述。對于集合F中的數(shù)據(jù),我們可以用語言L來描述其中數(shù)據(jù)的特性,得精品文檔放心下載出一個表達式E,E所描述的數(shù)據(jù)是集合F的一個子集FE。只有當表達式E比精品文檔放心下載列舉所有FE中元素的描述方法更為簡單時,我們才可稱之為模式。如:“如果精品文檔放心下載成績在81-90之間,則成績優(yōu)良”可稱為一個模式,而“如果成績?yōu)?1、82、精品文檔放心下載83、84、85、86、87、88、89或90,則成績優(yōu)良”就不能稱之為一個模式。精品文檔放心下載可信:通過數(shù)據(jù)挖掘從當前數(shù)據(jù)中所發(fā)現(xiàn)的模式必須有一定的正確程度,感謝閱讀否則數(shù)據(jù)挖掘就毫無作用??梢酝ㄟ^新增數(shù)據(jù)來檢驗?zāi)J降恼_性,我們用c感謝閱讀表示模式E的可信度c=C(E,F(xiàn))。新穎:經(jīng)過數(shù)據(jù)挖掘提取出的模式必須是新穎的,至少對系統(tǒng)來說應(yīng)該如精品文檔放心下載此。模式是否新穎可以通過兩個途徑來衡量:其一是得到的數(shù)據(jù),通過對比當精品文檔放心下載前得到的數(shù)據(jù)和以前的數(shù)據(jù)或期望得到的數(shù)據(jù)之間的比較來判斷該模式的新穎精品文檔放心下載程度;其二是通過其內(nèi)部所包含的知識,通過對比發(fā)現(xiàn)的模式與已有的模式的精品文檔放心下載關(guān)系來判斷。通常我們可以用一個函數(shù)來表示模式的新穎程度N(E,F(xiàn)),該函精品文檔放心下載數(shù)的返回值是邏輯值或是對模式E的新穎程度的一個判斷數(shù)值。精品文檔放心下載有效:提取出的模式應(yīng)該是有意義的,這可以通過某些函數(shù)的值來衡量。感謝閱讀用u表示模式E的有作用程度,u=U(E,F(xiàn))。感謝閱讀可被人理解:數(shù)據(jù)挖掘的一個目標就是將數(shù)據(jù)庫中隱含的模式以容易理解精品文檔放心下載的形式表現(xiàn)出來,從而幫助人們更好地了解數(shù)據(jù)庫中所包含的信息。當然一個感謝閱讀模式是否容易被人理解,這本身就很難衡量,比較常用的方法是對其簡單程度精品文檔放心下載進行衡量。我們假定模式E的簡單度(可理解度)為S,則可用函數(shù)S(E,F(xiàn))感謝閱讀來衡量。處理過程:數(shù)據(jù)挖掘是一個多步驟的處理過程,包括數(shù)據(jù)預(yù)處理、模式提精品文檔放心下載取、知識評估及過程優(yōu)化。上面介紹的各種度量函數(shù)都只是從不同角度對所發(fā)現(xiàn)的模式進行評價,一感謝閱讀般為方便起見,往往采用權(quán)值來對所發(fā)現(xiàn)的模式進行綜合評判。在某些數(shù)據(jù)挖謝謝閱讀17掘系統(tǒng)中,利用函數(shù)來求得模式E的權(quán)值i=I(E,F(xiàn),C,N,U,S);而在其謝謝閱讀他一些系統(tǒng)中,通過對求得的模式的不同排序來表現(xiàn)模式的權(quán)值大小。謝謝閱讀3.2.2數(shù)據(jù)挖掘技術(shù)的工業(yè)標準數(shù)據(jù)挖掘技術(shù)的工業(yè)標準CRISP-DM是英文“CRossIndustryStandard謝謝閱讀ProcessforDataMining”(數(shù)據(jù)挖掘技術(shù)的工業(yè)標準過程)的縮寫,是基于經(jīng)感謝閱讀驗的,集中于解決業(yè)務(wù)問題的,數(shù)據(jù)挖掘技術(shù)的業(yè)界規(guī)范。1997年數(shù)據(jù)挖掘技術(shù)報告感謝閱讀DataMiningReport指出,CRISP-DM確立了數(shù)據(jù)挖掘技術(shù)的工業(yè)規(guī)范,提供了精品文檔放心下載數(shù)據(jù)挖掘過程的所有策略。數(shù)據(jù)挖掘本質(zhì)上是根據(jù)經(jīng)驗來學習。恰當?shù)臄?shù)據(jù)展精品文檔放心下載示了企業(yè)積累的經(jīng)驗;通過CRISP-DM可以理解數(shù)據(jù)及建立數(shù)據(jù)模型可使商務(wù)謝謝閱讀活動能吸收過去積累的經(jīng)驗。職業(yè)的商務(wù)人員能發(fā)現(xiàn)那些對商務(wù)活動真正重要謝謝閱讀的東西,避免無謂的浪費時間。CRISP-DM最早由英國ISL公司在其著名軟件Clementine中提出,其倡導(dǎo)感謝閱讀者包括ISL,NCR,Daimler-Benz,OHRA等著名公司,并得到了歐洲議會的支精品文檔放心下載持。CRISP-DM提出的目的是開發(fā)一種產(chǎn)業(yè)界用戶和工具開發(fā)商共同認可的數(shù)感謝閱讀據(jù)挖掘過程模型。CRISP-DM在世界范圍內(nèi)超過100個成員公司的支持,其中包括:謝謝閱讀數(shù)據(jù)挖掘技術(shù)開發(fā)商,有IBM,SAS,SGI,DataDistilleries,Magnify等;謝謝閱讀系統(tǒng)提供商,有CapGemini,ICLRetail等;謝謝閱讀最終用戶,包括BT,Daimler-Benz,ABB,LloydsBank,AirTouch等。精品文檔放心下載3.2.3數(shù)據(jù)挖掘的處理過程數(shù)據(jù)挖掘是一個高級處理過程,它從數(shù)據(jù)集中識別出以模式表示的知識。謝謝閱讀數(shù)據(jù)挖掘包括以下步驟:1.數(shù)據(jù)準備數(shù)據(jù)挖掘的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲在業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)精品文檔放心下載中,是長期積累的結(jié)果。但往往不合適直接在這些數(shù)據(jù)上進行知識挖掘,需要精品文檔放心下載做一些準備工作,也就是數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇(選擇相精品文檔放心下載精品文檔放心下載型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)等。感謝閱讀數(shù)據(jù)準備是數(shù)據(jù)挖掘的第一個步驟,也是比較重要的一個步驟。數(shù)據(jù)準備謝謝閱讀是否做好將影響到數(shù)據(jù)挖掘的效率和準確度以及最終模式的有效性。精品文檔放心下載2.數(shù)據(jù)分析數(shù)據(jù)分析是數(shù)據(jù)挖掘中最為關(guān)鍵的步驟,它根據(jù)數(shù)據(jù)挖掘的目標,選取相精品文檔放心下載應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識的模式模型。目前采用較多的技精品文檔放心下載術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。感謝閱讀183.模式的評估、解釋通過上面步驟所得到的模式,有可能是沒有意義或沒有實用價值的,因此謝謝閱讀需要評估,確定哪些是有效的、有用的模式。此外,大部分模式是用數(shù)學手段感謝閱讀描述的表達式,很難被人理解,還需要將其解釋成可理解的方式以呈現(xiàn)給用戶,謝謝閱讀亦即上文說的數(shù)據(jù)展示。4.知識運用發(fā)現(xiàn)知識是為了運用,如何使知識能被運用也是數(shù)據(jù)挖掘的步驟之一。運精品文檔放心下載用知識有兩種方法:一種是只需看知識本身所描述的關(guān)系或結(jié)果,就可以對決精品文檔放心下載策提供支持;另一種是要求對新的數(shù)據(jù)運用知識,由此可能產(chǎn)生新的問題,而精品文檔放心下載需要對知識做進一步的優(yōu)化。數(shù)據(jù)挖掘過程可能需要多次的循環(huán)反復(fù),每一個步驟一旦與預(yù)期目標不謝謝閱讀符,都要回到前面的步驟,重新調(diào)整,重新執(zhí)行。3.2.4數(shù)據(jù)挖掘的典型模式模式有很多種,按功能可分有兩大類:預(yù)測型(Predictive)模式和描述型謝謝閱讀(Descriptive)模式。預(yù)測型模式是可以根據(jù)數(shù)據(jù)項的值精確確定某種結(jié)果的模式。挖掘預(yù)測型感謝閱讀模式所使用的數(shù)據(jù)也都是可以明確知道結(jié)果的。例如,根據(jù)各種動物的資料,感謝閱讀可以建立這樣的模式:凡是胎生的動物都是哺乳類動物。當有新的動物資料時,謝謝閱讀就可以根據(jù)這個模式判別此動物是否是哺乳動物。描述型模式是對數(shù)據(jù)中存在的規(guī)則做一種描述,或者根據(jù)數(shù)據(jù)的相似性把精品文檔放心下載數(shù)據(jù)分組。描述型模式不能直接用于預(yù)測。例如,在地球上,70%的表面被水感謝閱讀覆蓋,30%是土地。在實際應(yīng)用中,根據(jù)模式的實際作用往往可以細分為以下六種:感謝閱讀分類(Classification)、回歸(Regression)、時間序列(TimeSeries)、謝謝閱讀聚類(Clustering)、相關(guān)分析(AssociationAnalysis)、序列發(fā)現(xiàn)(Sequence謝謝閱讀Discovery)。分類和回歸主要用于預(yù)測,相關(guān)分析和序列發(fā)現(xiàn)主要用于描述,聚類則二者皆精品文檔放心下載可。1.分類(Classification)分類模式是一個分類函數(shù)(分類器),能夠把數(shù)據(jù)集中的數(shù)據(jù)項映射到某個精品文檔放心下載給定的類上。分類模式往往表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的值從樹根開始搜索,精品文檔放心下載沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能確定類別。給定類的屬性不能太多,感謝閱讀也就是樹的分支不能太多。2.回歸(Regression)19回歸用一系列已經(jīng)存在的數(shù)值和它們的屬性來預(yù)測連續(xù)型變量的數(shù)值。精品文檔放心下載與分類不同的是,分類的輸出是離散型的變量,回歸輸出的是連續(xù)型的變量。謝謝閱讀3.時間序列(TimeSeries)與回歸類似,時間序列也用于預(yù)測,所不同的是,時間序列基于時間的各感謝閱讀個層次,如一周七天,一年十二月。4.聚類(Clustering)聚類模式以“物以類聚”的原則將數(shù)據(jù)劃分到不同的組中,使組之間的差謝謝閱讀別盡可能大,組內(nèi)的差別盡可能小。與分類模式不同,進行聚類前并不知道將感謝閱讀要劃分成幾個組和什么樣的組,也不知道根據(jù)哪一(幾)個數(shù)據(jù)項來定義組。精品文檔放心下載一般來說,業(yè)務(wù)知識豐富的人應(yīng)該可以理解這些組的含義,如果產(chǎn)生的模式無精品文檔放心下載法理解或不可用,則該模式可能是無意義的,需要回到上階段重新組織數(shù)據(jù)。精品文檔放心下載5.相關(guān)分析(AssociationAnalysis)謝謝閱讀相關(guān)分析用于描述發(fā)生在給定事件中數(shù)據(jù)項之間的關(guān)聯(lián)關(guān)系。當事件A感謝閱讀發(fā)生時,事件B發(fā)生的概率。例如“在購買面包和黃油的顧客中,有90%的精品文檔放心下載人同時也買了牛奶”就是一條關(guān)聯(lián)規(guī)則。用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的對象主要是事務(wù)型數(shù)據(jù)庫。如果不考慮關(guān)聯(lián)規(guī)則的支謝謝閱讀持度和可信度,那么在事務(wù)數(shù)據(jù)庫中存在無窮多的關(guān)聯(lián)規(guī)則。事實上人們只對謝謝閱讀滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的問題也就謝謝閱讀是:給定一個事務(wù)數(shù)據(jù)庫D,求出所有滿足最小支持度Minsup和最小可信度感謝閱讀Minconf的關(guān)聯(lián)規(guī)則。6.序列發(fā)現(xiàn)(SequenceDiscovery)謝謝閱讀序列模式與關(guān)聯(lián)模式相仿,把數(shù)據(jù)之間的關(guān)聯(lián)性與時間聯(lián)系起來。為了發(fā)謝謝閱讀現(xiàn)序列模式,不僅需要知道事件是否發(fā)生,而且需要確定事件發(fā)生的時間。例感謝閱讀如,在購買彩電的人們當中,60%的人會在3個月內(nèi)購買影碟機。感謝閱讀在解決實際問題時,經(jīng)常要同時使用多種模式。同時,挖掘同一種模式或感謝閱讀實現(xiàn)同一種功能,可能會有多種算法可以采用,這就需要根據(jù)具體情況,選擇謝謝閱讀針對問題空間最為合適的算法。3.3OLAP與DM的區(qū)別OLAP與DM都是數(shù)據(jù)庫(數(shù)據(jù)倉庫)上的分析工具,在實際應(yīng)用中各有側(cè)重。謝謝閱讀最主要的區(qū)別是:前者是用戶驅(qū)動的,分析專家提出一個假設(shè),然后使用OLAP精品文檔放心下載驗證它,后者是數(shù)據(jù)驅(qū)動的,挖掘工具作用于數(shù)據(jù)生成一個假設(shè)。前者建立在多謝謝閱讀維視圖的基礎(chǔ)之上,強調(diào)執(zhí)行效率和對用戶命令的及時響應(yīng),而且其直接數(shù)據(jù)謝謝閱讀源一般是數(shù)據(jù)倉庫;后者建立在各種數(shù)據(jù)源的基礎(chǔ)上,重在發(fā)現(xiàn)隱藏在數(shù)據(jù)深層精品文檔放心下載20次的對人們有用的模式(Patterns),一般并不過多考慮執(zhí)行效率和響應(yīng)速度。精品文檔放心下載在上一節(jié)我們已經(jīng)討論過,數(shù)據(jù)挖掘的過程可以分為四個階段:數(shù)據(jù)準備、感謝閱讀數(shù)據(jù)分析、模式的評估解釋以及知識展示。我們可以看到,在數(shù)據(jù)挖掘過程的感謝閱讀這四個階段,引入數(shù)據(jù)倉庫、OLAP的相關(guān)特點都是有必要的:感謝閱讀首先,在數(shù)據(jù)準備階段,數(shù)據(jù)挖掘工具需要的數(shù)據(jù)是一些經(jīng)過凈化、集成感謝閱讀處理的數(shù)據(jù),通常這種處理過程也是昂貴的;而數(shù)據(jù)倉庫作為OLAP的數(shù)據(jù)源,謝謝閱讀存儲的就是這樣的數(shù)據(jù),它能為OLAP提供數(shù)據(jù),當然也可以為DM提供數(shù)據(jù)。感謝閱讀其次,在數(shù)據(jù)挖掘的過程中,人們往往需要對數(shù)據(jù)作鉆探性(exploratory)精品文檔放心下載分析,比如,挖掘所需的數(shù)據(jù)可能只是一部分、一定范圍的數(shù)據(jù)。因此,對多精品文檔放心下載維數(shù)據(jù)模型的切片、切塊、下鉆等操作,同樣可以應(yīng)用于DM的過程中。也就感謝閱讀是說,可以將DM建立在多維模型(或說超級立方體)的基礎(chǔ)之上。此外,用戶感謝閱讀有時還可能動態(tài)地提出挖掘要求、選擇挖掘算法。最后,在知識展示階段,在大規(guī)模數(shù)據(jù)集上挖掘出的知識,往往需要量化謝謝閱讀并寫回到數(shù)據(jù)倉庫中,然后以超立方體的形式通過OLAP工具進行展示。在傳統(tǒng)謝謝閱讀的關(guān)系數(shù)據(jù)庫應(yīng)用中,對同一個主題,任何不同的查詢過程所得到結(jié)果是相同謝謝閱讀的。而數(shù)據(jù)挖掘則不然,對同一個問題,運用不同的挖掘算法,得出的結(jié)果可能大謝謝閱讀相徑庭。根據(jù)立方體計算和數(shù)據(jù)挖掘所進行的次序的不同組合可以有以下一些模精品文檔放心下載式:先進行立方體計算,后進行數(shù)據(jù)挖掘。在進行數(shù)據(jù)挖掘前,先對多維數(shù)據(jù)進精品文檔放心下載行一定的立方體計算,以選擇合適的數(shù)據(jù)范圍和恰當?shù)某橄蠹墑e;謝謝閱讀先對多維數(shù)據(jù)作數(shù)據(jù)挖掘,然后再利用立方體計算算法對挖掘出來的結(jié)果謝謝閱讀做進一步的深入分析;立方體計算與數(shù)據(jù)挖掘同時進行,在挖掘的過程中,可以根據(jù)需要對數(shù)據(jù)視謝謝閱讀圖做相應(yīng)的多維操作。這也意味著同一個挖掘算法可以應(yīng)用于多維數(shù)據(jù)視精品文檔放心下載圖的不同部分;第四章決策支持系統(tǒng)及其實現(xiàn)對電信運營商來說,話費流失以及吸引新客戶和保留大客戶是他們最為關(guān)謝謝閱讀心的兩個問題。所謂話費流失,指的是電信用戶使用移動通信服務(wù)而不付費,直至被停機,謝謝閱讀然后再以其他戶名入網(wǎng)繼續(xù)惡意消費。其表現(xiàn)形式有多種,如利用呼叫轉(zhuǎn)移、謝謝閱讀21利用漫游等。由于移動通信的欺詐行為形式多樣,技術(shù)手段高明而且隱蔽,因精品文檔放心下載此解決問題的方案也很復(fù)雜。其中一個比較好的思路是從分析用戶信息和帳務(wù)感謝閱讀數(shù)據(jù)入手,為每一用戶賦予一定的信用級別,對不同信用級別的用戶分別采用感謝閱讀不同的預(yù)防措施或給予不同的關(guān)注程度,從而盡早發(fā)現(xiàn)不良用戶的異常行為,感謝閱讀提前采取措施,減少欺詐行為的發(fā)生。挖掘新客戶是電信運營企業(yè)關(guān)心的另一個重點。因為其主要利潤并不是來謝謝閱讀自于產(chǎn)品或服務(wù)的初始銷售,而是來自于用戶對產(chǎn)品或服務(wù)的后續(xù)消費。因此,謝謝閱讀對這些企業(yè)來說,如何能盡量多地挖掘潛在客戶、吸引客戶采用公司的服務(wù)或精品文檔放心下載產(chǎn)品,是增加利潤的關(guān)鍵一步。潛在客戶發(fā)現(xiàn)的做法是分析客戶行為,將客戶感謝閱讀的行為分為若干類別。在客戶行為類別統(tǒng)計分析的基礎(chǔ)上,統(tǒng)計分析各類別行精品文檔放心下載為的用戶基本信息,找出具有某些行為的用戶的基本特征,然后,根據(jù)這些特精品文檔放心下載征制定相應(yīng)的營銷或優(yōu)惠政策,以刺激這類客戶的消費。由此可見,信用度分析和客戶行為分析是反欺詐和潛在客戶挖掘的基礎(chǔ),謝謝閱讀也是電信運營企業(yè)決策支持系統(tǒng)的重要功能部分。本文所做的工作,正是基于精品文檔放心下載這樣一種思路實現(xiàn)了一個DSS系統(tǒng)。4.1系統(tǒng)概述考慮到應(yīng)具有開放性、易擴展、低成本、管理及使用方便等特性,該系統(tǒng)精品文檔放心下載采用數(shù)據(jù)庫服務(wù)器端(UnixAgentServer)、WindowsNT和PCs三層體系結(jié)構(gòu),精品文檔放心下載保證系統(tǒng)的開放性和對技術(shù)發(fā)展的適應(yīng)性。三層體系結(jié)構(gòu)支持所有運行于Web瀏覽器上的用戶。中間層是運行精品文檔放心下載WindowsNT的PC機或服務(wù)器,其目的是管理象OLAP分析引擎這樣的共享謝謝閱讀OLEAutomationServers。OLAP分析引擎也安裝在中間層,處理所有Web謝謝閱讀瀏覽器使用者提交的查詢?nèi)蝿?wù)。來自聯(lián)機事物處理系統(tǒng)(OLTP)的業(yè)務(wù)數(shù)據(jù),如計費系統(tǒng),客戶服務(wù)系統(tǒng),感謝閱讀財務(wù)系統(tǒng),客戶信息數(shù)據(jù)庫的數(shù)據(jù),被存儲在業(yè)務(wù)數(shù)據(jù)庫中,應(yīng)用程序一般具精品文檔放心下載有讀寫權(quán)限;數(shù)據(jù)倉庫設(shè)在單獨的數(shù)據(jù)倉庫服務(wù)器上,由業(yè)務(wù)數(shù)據(jù)庫備份、歷史數(shù)據(jù)庫、精品文檔放心下載中間結(jié)果數(shù)據(jù)庫(或者為決策支持系統(tǒng)建立獨立的數(shù)據(jù)集市)、發(fā)布數(shù)據(jù)庫組成。謝謝閱讀此間所有的數(shù)據(jù)轉(zhuǎn)換任務(wù),如數(shù)據(jù)備份、查詢、統(tǒng)計、OLAP分析、數(shù)據(jù)挖掘精品文檔放心下載等,由決策支持系統(tǒng)的任務(wù)管理器統(tǒng)一調(diào)度,這些任務(wù)可以細分為:謝謝閱讀業(yè)務(wù)數(shù)據(jù)備份。業(yè)務(wù)數(shù)據(jù)經(jīng)過定期或定時備份到數(shù)據(jù)倉庫中的備份業(yè)務(wù)數(shù)謝謝閱讀據(jù)庫中;建立歷史數(shù)據(jù)庫。由數(shù)據(jù)分析和挖掘工具經(jīng)數(shù)據(jù)清潔、查詢、提取、格式精品文檔放心下載轉(zhuǎn)換、統(tǒng)一、多表聯(lián)接,將數(shù)據(jù)轉(zhuǎn)換到專門的歷史數(shù)據(jù)庫中;謝謝閱讀22建立面向主題的中間結(jié)果數(shù)據(jù)庫或從屬數(shù)據(jù)集市。所有數(shù)據(jù)由歷史數(shù)據(jù)庫謝謝閱讀集中管理,按照專門的主題,將數(shù)據(jù)的中間結(jié)果和中間文件組成中間結(jié)果數(shù)據(jù)感謝閱讀庫或從屬數(shù)據(jù)集市。這些操作不允許改變原有的歷史數(shù)據(jù)庫,具有只讀權(quán)限;精品文檔放心下載分析,挖掘,準備發(fā)布數(shù)據(jù)。將查詢、統(tǒng)計、分析、挖掘等產(chǎn)生的文件被謝謝閱讀以轉(zhuǎn)換后的格式保存到發(fā)布數(shù)據(jù)庫中。任務(wù)管理器還具有菜單定制,用戶密碼謝謝閱讀管理,批處理任務(wù)設(shè)置,發(fā)布網(wǎng)頁動態(tài)合成,訪問數(shù)據(jù)倉庫等管理功能。感謝閱讀終端用戶可以通過分級密碼訪問數(shù)據(jù)庫,瀏覽在局域網(wǎng)中發(fā)布的信息。謝謝閱讀EthernetX-windows終端數(shù)據(jù)倉庫服務(wù)器筆記本臺式PCUnix/NT大型數(shù)據(jù)庫軟件數(shù)據(jù)分析和挖掘工具Windows98/NT任務(wù)管理器X-Windows仿真終端瀏覽器圖4.1網(wǎng)絡(luò)拓撲圖決策支持解決方案網(wǎng)絡(luò)拓撲圖可用圖4.1表示。數(shù)據(jù)倉庫服務(wù)器包括大型精品文檔放心下載數(shù)據(jù)倉庫軟件,數(shù)據(jù)分析和挖掘工具;客戶端包括決策支持任務(wù)管理器,配套謝謝閱讀軟件,瀏覽器等。4.2模塊描述要建立一個數(shù)據(jù)倉庫,一般分為六個步驟:1.分析主題設(shè)計2.維設(shè)計和維表設(shè)計3.數(shù)據(jù)倉庫結(jié)構(gòu)定義4.導(dǎo)入數(shù)據(jù)5.CUBE設(shè)計6.建立挖掘模型這六個步驟有的已在前文闡述過,有的屬于電信業(yè)務(wù)范疇,所以這里重點謝謝閱讀介紹數(shù)據(jù)挖掘模型的建立。23在建模階段,精通數(shù)據(jù)挖掘的專業(yè)人員,根據(jù)實際問題的不同,選擇合適精品文檔放心下載的挖掘算法以及數(shù)據(jù)倉庫/集市中的訓(xùn)練數(shù)據(jù)進行訓(xùn)練學習,并得到相應(yīng)的模精品文檔放心下載型。一般來說,建模的復(fù)雜度取決于多種因素,如數(shù)據(jù)庫/倉庫大小、建模訓(xùn)練精品文檔放心下載集屬性多少、挖掘算法性能以及操作者的熟練程度等。模型一旦建立并經(jīng)歷史數(shù)據(jù)驗證有一定的可靠性之后,就可以進入動態(tài)評精品文檔放心下載分過程。用戶就可以根據(jù)需要對新數(shù)據(jù)動態(tài)進行評分,也可以對數(shù)據(jù)庫中某一感謝閱讀部分數(shù)據(jù)執(zhí)行評分操作。數(shù)據(jù)挖掘模塊主要有兩個方面的分析:群體分析:利用聚類或分類算法,把企業(yè)客戶按照某種規(guī)則分為若干群體。感謝閱讀行為分析:根據(jù)客戶以前的消費行為,分析某幾類有顯著特征的行為模式,謝謝閱讀并據(jù)此對客戶未來的行為進行預(yù)測。上述兩種建模技術(shù)均可以被用來提高企業(yè)營銷目標對象的準確性并提高相謝謝閱讀應(yīng)的收益。為達到這個目的,目前有很多的分析工具可以被應(yīng)用,如:感謝閱讀交叉報表工具基于機器學習的數(shù)據(jù)挖掘工具工具如Clementine、IntelligentMiner等感謝閱讀基于統(tǒng)計學的分析工具,如SAS、SPSS等神經(jīng)網(wǎng)絡(luò)下面依次介紹各基本功能模塊:4.2.1客戶信用度管理根據(jù)影響客戶信用度的主要因素,對用戶的帳務(wù)數(shù)據(jù)進行分類,建立分類精品文檔放心下載模型,并對用戶進行評分,給出用戶的信用度級別;影響客戶信用度的主要因素有:1.交費的及時度2.用戶的社會性質(zhì)3.用戶的通話業(yè)務(wù)量4.用戶申請的業(yè)務(wù)數(shù)量5.用戶申請的業(yè)務(wù)種類和用戶的投訴情況客戶信用度等級描述。詳細描述客戶信用度等級的具體含義。精品文檔放心下載信用等級分布表示。客戶的利潤、客戶的基本信息和行為分類如時間謝謝閱讀段、業(yè)務(wù)類型等的分布表示。類似于客戶行為分析。信用度的相關(guān)分析。分析影響用戶信用度的因素之間的概率依賴關(guān)系、感謝閱讀強度及其可信度。這一方面用于預(yù)測客戶信用度的發(fā)展趨勢,當發(fā)生感謝閱讀變化時,對其信用等級進行相應(yīng)的調(diào)整。24利用以上的結(jié)果,給出從一個信用度等級到另一個信用度等級變化可謝謝閱讀能性大的客戶。4.2.2防欺詐策略管理防欺詐策略分析建立在信用度管理的基礎(chǔ)之上。分析防欺詐策略的相關(guān)變量:高額話費額度、欠費停機額度和用戶具感謝閱讀有不同的欠費停機額度等。指定防欺詐策略分析信用度、客戶的滿意程度、高額話費警告額度和停機額度之間的精品文檔放心下載關(guān)系。根據(jù)分析結(jié)果調(diào)整用戶的基本信息。分析信用度、客戶的滿意程度和用戶催繳周期、催繳頻度之間的關(guān)系。感謝閱讀4.2.3客戶行為與潛在客戶分析與管理客戶行為分析的思路是將客戶的行為分為若干類別,對具有某一類行為特感謝閱讀征的用戶,分析其基本信息,以期找出客戶行為和客戶基本特征兩者之間的若精品文檔放心下載干潛在關(guān)系。客戶行為分析的依據(jù)是對用戶話單數(shù)據(jù)的分類,因為數(shù)據(jù)量龐大,故對高感謝閱讀效分類算法的選擇顯得尤為重要。潛在客戶分析則是在行為分析的基礎(chǔ)上,根據(jù)某種業(yè)務(wù)或業(yè)務(wù)組合與客戶謝謝閱讀基本信息特征之間的相關(guān)度分析,建立兩者之間的相關(guān)度定量關(guān)系模型,由此精品文檔放心下載得出與某種業(yè)務(wù)或業(yè)務(wù)組合最為相關(guān)的客戶群體。潛在客戶分為兩類:未采用任何業(yè)務(wù)的爭取對象使用某一種或幾種業(yè)務(wù)的已有用戶對于前者,為營銷部門提供科學的依據(jù),采取更為靈活的優(yōu)惠銷售策略以感謝閱讀吸引更多的新用戶是最終目的,為此,需要待開發(fā)地區(qū)和人群的相關(guān)社會資料,感謝閱讀如職業(yè)構(gòu)成、年齡層次、受教育程度以及收入等級、期望通信支出等等。這些謝謝閱讀信息數(shù)據(jù)往往較難得到,可以通過各種途徑,如問卷調(diào)查、電話咨詢記錄,第感謝閱讀三方資料共享等。而對于后者,則以爭取用戶采用更多業(yè)務(wù)種類為目的。對任意一種業(yè)務(wù)組精品文檔放心下載合,通過分析其用戶的基本信息以獲取這部分用戶的相應(yīng)特征,那么,具有相感謝閱讀同或相似特征而只采用其中某一種業(yè)務(wù)的用戶就是另外幾種業(yè)務(wù)的潛在用戶。感謝閱讀這樣的分析,由于用戶基本資料已記錄在案,因此在可操作性上較前者為高。感謝閱讀4.2.4趨勢分析趨勢分析主要指業(yè)務(wù)預(yù)測,是針對電信量發(fā)展的短期預(yù)測。它建立在對大精品文檔放心下載25量數(shù)據(jù)(業(yè)務(wù)資料數(shù)據(jù)、社會基礎(chǔ)資料數(shù)據(jù)、市場調(diào)查資料、其他運營者資料精品文檔放心下載數(shù)據(jù))統(tǒng)計分析的基礎(chǔ)上,通過模型運算、統(tǒng)計分析等數(shù)據(jù)處理手段,完成對精品文檔放心下載電信企業(yè)的業(yè)務(wù)發(fā)展、用戶需求數(shù)量、用戶分布、市場占有等幾方面的預(yù)測分謝謝閱讀析。從上面介紹的數(shù)據(jù)挖掘子系統(tǒng)各模塊的介紹中可以看出,信用度分析及客精品文檔放心下載戶行為分析是每個部分的基礎(chǔ),也是系統(tǒng)設(shè)計的重點,在下文中,我們將給出精品文檔放心下載信用度分析及客戶行為分析的數(shù)據(jù)流圖,并簡單介紹基于分類的潛在客戶挖掘謝謝閱讀處理。4.3信用度及行為分析處理數(shù)據(jù)流圖4.3.1客戶信用度分析客戶信用度分析可以分為兩步:1.系統(tǒng)初裝時,沒有用戶的信用度級別信息,這時采用無監(jiān)督分類算法(聚類),精品文檔放心下載按照用戶的帳務(wù)行為信息將其分為若干類。在此基礎(chǔ)上,依照每類指標的統(tǒng)計感謝閱讀數(shù)據(jù)和一定的等級評定規(guī)則,將各類的信用度賦予高低級別;謝謝閱讀2(指本系統(tǒng)用戶)可能會對已有信用度級別提出異議,感謝閱讀或加以修改,這樣,對做了相應(yīng)級別修正后的用戶數(shù)據(jù),采用有監(jiān)督的分類學感謝閱讀習,就會得到更為準確的分類模型,而且,這個模型也是不斷在更新的。相應(yīng)謝謝閱讀地,隨著用戶信用行為特征的變化,其信用級別也會不斷變動。謝謝閱讀作為信用度類別分類依據(jù)的用戶帳務(wù)信息數(shù)據(jù)包括:1).開戶平均時長;2).欠費次數(shù);3).金額(如本月欠費,則為欠費金額,此值為負,如本月不欠費,則為通感謝閱讀話費用)。4).欠費時長;5).帳務(wù)人社會性質(zhì)。(一)信用度初始化:(圖中號碼表示相應(yīng)操作的先后順序)精品文檔放心下載26圖4.1信用度初始化注:1.這里的聚類分析是無監(jiān)督分類學習算法,采用貝因斯聚類算法感謝閱讀Autoclass;2.類別模型1是一個初始模型,說明樣本數(shù)據(jù)分為幾類,每一類都有哪些謝謝閱讀數(shù)據(jù)樣本,但每一類的信用度級別高低并沒有明確區(qū)分,按照每類用戶的各指感謝閱讀標的統(tǒng)計信息以及等級評定規(guī)則,分出各類級別高低順序,就得到修正的類別精品文檔放心下載模型1。3.等級評定規(guī)則的制定較為困難,按照對影響信用度級別的各指標的權(quán)感謝閱讀重大小的理解不同,評定規(guī)則也不同,在這里,我們采取另外一種思路,從各感謝閱讀類別用戶的利潤貢獻角度來考察其級別等級,利潤的計算可用如下公式:感謝閱讀利潤=平均通話金額-平均欠費時長*平均欠費金額*0.01-平均壞帳精品文檔放心下載其中:假設(shè)向用戶收取的滯納金為每天1%;平均通話金額=平均開戶時長*平均通話金額(反映在金額字段為正值);精品文檔放心下載平均欠費金額反映在金額字段為負值;平均壞帳來自于壞帳歷史記錄表;4.抽樣過程:抽樣的原則是樣本盡量具有代表性,且數(shù)據(jù)量能保證學習耗感謝閱讀時不是太多,在這里我們用一個隨機數(shù)產(chǎn)生器隨機產(chǎn)生要抽取的樣本:感謝閱讀歷史帳務(wù)信息數(shù)據(jù)庫抽樣抽樣樣本數(shù)據(jù)聚類分析類別模型1等級定義修正的類別模型1等級評分等級評定規(guī)則12345統(tǒng)計類別統(tǒng)計信息677899信用度模型更新1011模塊27圖4.2數(shù)據(jù)抽樣(二)信用度模型更新:(圖中號碼表示操作先后順序)圖4.3信用度模型更新注:1.訓(xùn)練樣本的確定采用一定的抽樣算法,這里的樣本數(shù)據(jù)除了上一階段的精品文檔放心下載用戶帳務(wù)信息外,還包括每一用戶的級別信息。所以此時的抽樣過程與信用度感謝閱讀初始化時所用抽樣算法有所不同,因為是要采用有監(jiān)督的分類學習算法,故所感謝閱讀有經(jīng)過人為信用度級別設(shè)定的帳務(wù)記錄,都要被抽取。2.有監(jiān)督的分類學習采用C5初始化后的帳務(wù)歷史數(shù)據(jù)庫信用度人為設(shè)定抽樣訓(xùn)練樣本數(shù)據(jù)有監(jiān)督分類學習分類模型1234上月帳務(wù)數(shù)據(jù)用戶基本信息庫信用度歷史記錄用戶信用度更新模塊15歷史帳務(wù)數(shù)據(jù)庫抽取帳務(wù)記錄ID抽樣隨機數(shù)發(fā)生器供學習用樣本數(shù)據(jù)28(三)用戶信用度級別更新:圖4.4信用度級別更新注:評分后用戶類別信息除了放入帳務(wù)數(shù)據(jù)庫以利于下一次模型更新外,同時謝謝閱讀插入用戶基本信息數(shù)據(jù)庫,同時觸發(fā)營銷及倉庫接口部分的數(shù)據(jù)作相應(yīng)更新。謝謝閱讀(四)新開用戶信用度設(shè)定:用戶的信用度級別設(shè)定是由用戶的帳務(wù)信息決定的,而新開用戶沒有任何謝謝閱讀帳務(wù)記錄,故根據(jù)已有的信用度模型無法設(shè)置其信用度??紤]到有不同帳務(wù)行感謝閱讀為的用戶有不同的基本信息,即某種信用等級的用戶具有相似的基本信息,我謝謝閱讀們可以分析新開戶的基本信息,與各個信用等級的用戶基本信息做比較,以確精品文檔放心下載定他屬于哪個信用級別,分為以下兩步:(1)分類模型確定(2)新開戶信用等級評定當月帳務(wù)數(shù)據(jù)庫分類模型評分用戶基本信息庫信用度歷史記錄庫營銷接口倉庫接口29圖4.5新開用戶信用度設(shè)定注:1.這里的抽樣主要為保證分類學習效率而取少量數(shù)據(jù),在學習器容許的情謝謝閱讀況下,抽樣的比率即參與學習的樣本越大越好;2.參與學習的樣本數(shù)據(jù)是用戶基本信息數(shù)據(jù),樣本的標記就是此用戶的感謝閱讀信用度等級;3.根據(jù)新開用戶的基本信息評定信用等級后,要通知其他模塊作相應(yīng)更謝謝閱讀新。4.3.2客戶行為分析客戶行為分析的思路是將客戶的行為分為若干類別,對具有某一類行為特謝謝閱讀征的用戶,分析其基本信息,以期找出客戶行為和客戶基本特征兩者之間的若感謝閱讀干潛在關(guān)系。(見圖4.6)圖4.6客戶行為分析抽樣訓(xùn)練樣本數(shù)據(jù)有監(jiān)督分類學習分類模型用戶基本信息數(shù)據(jù)等級評分營銷接口倉庫借口客戶行為信息數(shù)據(jù)庫抽樣抽樣樣本數(shù)據(jù)聚類分析類別模型評分1234556統(tǒng)計分析類別利潤等級信息7按利潤的等級排序規(guī)則7830第一步工作是采用無監(jiān)督分類算法對客戶的行為進行分類,衡量一個客戶謝謝閱讀行為的特征有如下指標:客戶ID,時段,工作日性質(zhì)工作日和非工作日消費金額,業(yè)務(wù)類型(重要指長話,市話等通話業(yè)務(wù)),目的(重要指本地,長途,我網(wǎng)他網(wǎng)等信息)這里的聚類分析是采用無監(jiān)督分類學習算法Autoclass,根據(jù)得到的類別模謝謝閱讀型與客戶行為信息庫對個客戶行為進行評分,結(jié)果寫回到客戶行為信息庫;精品文檔放心下載第二步工作是統(tǒng)計分析各類別的行為特性,首先按照各行為類別的利潤貢謝謝閱讀獻大小對各類別進行排序,類別利潤計算公式在此采用:類別平均利潤=Σ(各行為消費金額)/類別行為個數(shù)類別行為特性按不同主題有多種考察重點,如某一種業(yè)務(wù)或業(yè)務(wù)組合在各謝謝閱讀類別行為中出現(xiàn)的百分比,各行為的時間段分布情況等;這里得到兩類類別統(tǒng)謝謝閱讀計信息表:按類別組織和按各種主題(如業(yè)務(wù)類型,業(yè)務(wù)量)組織;感謝閱讀4.3.3基于類別的潛在客戶挖掘在客戶行為類別統(tǒng)計分析的基礎(chǔ)上,統(tǒng)計分析各類別行為的用戶基本信息,謝謝閱讀找出具有某些行為的用戶基本特征,這樣,凡是具備這些特征而暫時還沒有相精品文檔放心下載應(yīng)行為的客戶就是這類行為的的潛在客戶。這種聯(lián)系是通過客戶行為數(shù)據(jù)中用精品文檔放心下載戶ID來建立的。這里的統(tǒng)計分析按照不同的主題進行,也就是說按要尋找潛感謝閱讀在客戶的業(yè)務(wù)或業(yè)務(wù)組合在不同類別中采用分布情況進行統(tǒng)計。謝謝閱讀下面以一種業(yè)務(wù)或業(yè)務(wù)組合為例,則在這種業(yè)務(wù)或業(yè)務(wù)組合的類別統(tǒng)計信精品文檔放心下載息庫的基礎(chǔ)上,尋找潛在客戶的過程為:31圖4.7潛在客戶挖掘注:1.‘抽取1’算法從類別統(tǒng)計信息庫中將采用這種業(yè)務(wù)或業(yè)務(wù)組合人數(shù)最感謝閱讀多的兩個類別數(shù)據(jù)取出,得到類別數(shù)據(jù)1;‘抽取2’算法則將采用這種業(yè)務(wù)或精品文檔放心下載業(yè)務(wù)組合人數(shù)最多和最少的兩個類別數(shù)據(jù)取出,得到類別數(shù)據(jù)。謝謝閱讀2.‘相似分析’尋找類別數(shù)據(jù)1中兩個類別中客戶基本信息的相似特征;感謝閱讀而‘差別分析’則尋求類別數(shù)據(jù)2中兩個類別中客戶基本信息差別比較大的若謝謝閱讀干指標;3.‘潛在客戶分析’將上一階段的類別相似基本特征和類別差別基本特征感謝閱讀取交集,得出的就是潛在客戶的基本信息。各種類別統(tǒng)計信息庫抽取1抽取2類別數(shù)據(jù)1用戶基本信息類別數(shù)據(jù)2相似分析差別分析類別相似基本特征潛在客戶分析類別差別基本特征潛在客戶基本信息模板用戶基本信息潛在客戶查找潛在客戶數(shù)據(jù)庫32第五章算法設(shè)計5.1概述上一章我們簡要介紹了一個DSS系統(tǒng),并給出數(shù)據(jù)挖掘子系統(tǒng)的詳細設(shè)感謝閱讀計。在這一章,我們將討論相關(guān)算法。理論上,聚類屬于一種無監(jiān)督分類算法,在本系統(tǒng)中用于系統(tǒng)的初啟時的謝謝閱讀信用度初始化以及對客戶行為數(shù)據(jù)的分類操作。根據(jù)理論基礎(chǔ)的不同,有多種謝謝閱讀聚類算法可被應(yīng)用,下文我們將討論基于統(tǒng)計學的多重系統(tǒng)聚類算法。感謝閱讀對于有監(jiān)督分類算法,本系統(tǒng)采用目前國際上較為流行的C5算法,本章謝謝閱讀的后一部分將做詳細介紹。5.2多重系統(tǒng)聚類算法5.2.1預(yù)備知識本文所討論的系統(tǒng)聚類是基于多元統(tǒng)計分析的一種聚類挖掘算法。所謂聚精品文檔放心下載類,就是將一組個體按照相似性歸成若干類別,其目的是使得屬于同一類別的謝謝閱讀個體之間的距離盡可能小而不同類別的個體間的距離盡可能大。傳統(tǒng)的系統(tǒng)聚精品文檔放心下載類僅考慮了樣本聚類,對樣本各指標間差別因素沒有太多考慮,而筆者提出的精品文檔放心下載多重聚類在一定程度上解決了這一問題,將樣本聚類與變量聚類結(jié)合起來,在感謝閱讀被考察樣本的指標個數(shù)較多時有著較高的準確性。5.2.2基本概念假定我們要根據(jù)n個對象的p個指標值進行聚類,稱這n個對象為樣品,感謝閱讀p個指標為變量。把每一個樣品視為p維歐氏空間的一個點,則聚類分析問題謝謝閱讀可歸結(jié)為給p維空間中n個點作出一種恰當?shù)姆诸惙椒?。謝謝閱讀樣品距離:設(shè)n個樣品,每個樣品測得p項指標,樣本數(shù)據(jù)陣為:感謝閱讀待考察的任意兩個樣品間的距離可定義為p維空間兩個點之間的距離。常謝謝閱讀用的距離有:Ⅰ,明考夫斯基(Minkowski)距離Ⅱ,蘭氏距離(Lance和Villians)nnnpppxxxxxxxxx,,,....,,...,...1,221,22211,12133Ⅲ,斜交空間距離Ⅳ,馬氏距離類:設(shè)T為預(yù)先給定的閥值,樣品集合G中任意的兩個樣品Xi與Xj間的精品文檔放心下載距離為Dij,如果Dij<T,則稱G為一個類。類間距離:針對不同的問題,類的定義和形式不盡相同,故類與類之間的精品文檔放心下載距離也多種多樣,主要有:最短距離法、最長距離法、重心法、類平均法、離精品文檔放心下載差平方和法等(詳見文獻[34])。5.2.3系統(tǒng)聚類基本思想是,先將n個樣品各自看成一類,然后計算各類兩兩之間的距離,精品文檔放心下載選擇其中距離最小的兩類合并成一個新類,于是n類樣品就聚成n-1類,計算謝謝閱讀這一新類與其他各類之間的距離,再合并其中距離最小的兩類,如此反復(fù)進行,謝謝閱讀每次減少一類,直到所有樣品歸為一類。根據(jù)類之間距離的不同定義,可以有不同的系統(tǒng)聚類法,可以把這些不同精品文檔放心下載的聚類算法統(tǒng)一起來,這種統(tǒng)一關(guān)鍵在于不同距離定義的統(tǒng)一,有如下的遞推謝謝閱讀公式:設(shè)Gp類和Gq類合并為新類Gr,則上式中的Dir就是新類與任意類Gi間謝謝閱讀的距離。上式中系數(shù)取不同值,就可以得到不同的距離公式(見文獻[34]表6.1)。感謝閱讀算法實現(xiàn):假設(shè)對含有p個指標的n個樣品進行聚類:input:n個樣品間的距離陣a[n][n],期望結(jié)果的類別數(shù)k精品文檔放心下載output:記錄最終聚類結(jié)果的二維數(shù)組b[k][n]感謝閱讀FUNCCluster(a[n][n],k)FORi:=1TOnDO{b[i][1]:=1;b[i][2]:=i;b[i][3]:=0}//初始化b[n][n],//將n個樣品各自看作一類感謝閱讀m=nWHILEm>kDO{a[p][q]=min(a[1..m][1..m]);//確定p,q,使得第p類和第q類間的距離最小感謝閱讀adjust(b[1..m-2][1..m-2]);//重置類別記錄數(shù)組,撤銷第p類和第q類謝謝閱讀//將第p類與第q類合為一類b[m-1][1]:=b[p][1]+b[q][1];謝謝閱讀DirapDipaqDiqmDpqnDipDiq公式(1)精品文檔放心下載34b[m-1][2..x]=b[p][2..x];b[m-1][x+1..z]=b[q][2..y];感謝閱讀b[m-1][z+1]=0;adjust(a[1..m-2][1..m-2]);//重置距離陣,撤銷第p類和第q類精品文檔放心下載FORi:=1TOm-1DO{a[m-1][i]=s1*a[i][p]+s2*a[i][q]+s3*a[p[q]+b4*|a[i][p]-a[i][q]|;}精品文檔放心下載//利用公式(1),計算新類與其他各類間的距離m:=m-1}return(b[1..k][1..n]);ENDF;{Cluster}5.2.4多重系統(tǒng)聚類1.基本原理根據(jù)分類對象的不同,聚類分為樣本聚類和變量聚類,前者稱為Q型聚類感謝閱讀分析、后者稱為R型聚類分析。上文的系統(tǒng)聚類算法關(guān)注的僅是樣本聚類,但精品文檔放心下載在實際中,單純的樣本聚類有時并不準確,主要原因是忽視了不同指標間也存謝謝閱讀在一定的關(guān)系。因為考察的角度不同,所以不同指標對最終樣本聚類結(jié)果會產(chǎn)謝謝閱讀生不同的影響,這就導(dǎo)致了結(jié)果的不準確性,尤其是當指標個數(shù)很多時。精品文檔放心下載克服這種缺點的途徑之一是先將指標按一定的規(guī)則分成若干類別,對包含謝謝閱讀每一類別指標的樣本數(shù)據(jù)分別進行聚類,然后對聚類結(jié)果進行二次聚類,這種謝謝閱讀方法就是多重聚類??疾靝維的歐氏空間:按一定規(guī)則將p個n維變量分成若干類別,每一類別的指標在實際中往往感謝閱讀有具體的含義,則:這樣,整個p維歐氏空間劃分為q個多維子空間,對每一個Y分別進行系感謝閱讀統(tǒng)聚類。可以看到,分別聚類的結(jié)果,仍可以構(gòu)成一個q維的歐氏空間,對這謝謝閱讀個包含q精品文檔放心下載5.1)'M=(X1,X2,X3,...Xp)其中Xi(xi1,xi2,xi3,...xin)精品文檔放心下載M(Y1、Y2、Y3...Yq)其中Yi(Xm,。。Xk),并且rmkT,T為某一閥值,r謝謝閱讀mk為Xm與Xk的相關(guān)系數(shù)352.算法實現(xiàn)設(shè)樣品個數(shù)為n,每一樣品有p個指標:input:樣本數(shù)據(jù)矩陣M[n][p];期望結(jié)果的類別數(shù)k謝謝閱讀output:記錄最終聚類結(jié)果的二維數(shù)組b[k][n]精品文檔放心下載PROCMulti_Cluster(M[n][p],k)感謝閱讀按具體含義劃分p個指標為q類,即將樣本數(shù)據(jù)的一個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋租賃合同分期付款
- 三農(nóng)村基礎(chǔ)設(shè)施改善工程方案
- 項目時間線及進度表制定
- 中外貨物買賣合同書
- 農(nóng)行個人貸款合同
- 橋梁加寬加固施工方案
- 維修補漏施工方案
- 路基清表施工方案
- TCSHB 0021-2024 全自動真空焊接爐設(shè)備軟件技術(shù)規(guī)范
- 玻璃鋼保溫管道施工方案
- 結(jié)膜炎課件完整版
- 初中英語中考總復(fù)習
- 學習弘揚楓橋精神與楓橋經(jīng)驗PPT楓橋經(jīng)驗蘊含的精神和內(nèi)涵PPT課件(帶內(nèi)容)
- 鈑金噴漆承包協(xié)議書
- 高血壓病例課件
- 煤礦瓦斯防治八招及釋義
- (6.4)-6.4和聲性吹奏樂器-笙
- GB/T 35452-2017再生粘合軟質(zhì)聚氨酯泡沫塑料
- GB/T 27903-2011電梯層門耐火試驗完整性、隔熱性和熱通量測定法
- GB/T 15242.2-2017液壓缸活塞和活塞桿動密封裝置尺寸系列第2部分:支承環(huán)尺寸系列和公差
- 部編人教版六年級下冊小學數(shù)學全冊課時練(一課一練)
評論
0/150
提交評論