數(shù)據(jù)挖掘在商務智能_第1頁
數(shù)據(jù)挖掘在商務智能_第2頁
數(shù)據(jù)挖掘在商務智能_第3頁
數(shù)據(jù)挖掘在商務智能_第4頁
數(shù)據(jù)挖掘在商務智能_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘在商務智能決策與CRM中的應用北京科技大學楊炳儒教授數(shù)據(jù)挖掘(知識發(fā)現(xiàn))新進展數(shù)據(jù)挖掘在商務智能決策中的應用數(shù)據(jù)挖掘在CRM中的應用第一部分數(shù)據(jù)挖掘(知識發(fā)現(xiàn))新進展五、研究動態(tài)與趨向一、數(shù)據(jù)挖掘(知識發(fā)現(xiàn))概念內(nèi)涵與外延的發(fā)展二、挖掘知識類型的擴展三、挖掘技術(shù)方法的擴展四、應用的擴展一、數(shù)據(jù)挖掘(知識發(fā)現(xiàn))概念內(nèi)涵與外延的發(fā)展結(jié)構(gòu)化數(shù)據(jù)挖掘DM(KDD)多媒體數(shù)據(jù)構(gòu)成的大型異質(zhì)異構(gòu)數(shù)據(jù)庫,稱為復雜數(shù)據(jù)類型挖掘CDM[動態(tài)(在線)-分布式-并行系統(tǒng)]Web:1、以文本為主的頁面內(nèi)容挖掘2、以客戶訪問信息為主3、以Web結(jié)構(gòu)為主多媒體:音頻、視頻、圖像、圖形、時序、空間等基于知識庫的知識發(fā)現(xiàn)KDK知識發(fā)現(xiàn)的新定義:

在現(xiàn)實世界中,針對客觀存在的具有海量性、不確定性、不完全性的量的、質(zhì)的、復雜形態(tài)的知識源,挖掘其中潛在的、先前未知的、用戶感興趣的、最終可被用戶理解的模式的非平凡提取過程。二、挖掘知識類型的擴展擴展擴展關(guān)聯(lián)規(guī)則、分類、聚類、相似模式、混沌模式、時序模式、預測等文本、客戶訪問路徑、音頻、視頻……生物信息挖掘、游戲信息挖掘、XML文檔、多語言文本挖掘、圖表數(shù)據(jù)庫、分子結(jié)構(gòu)數(shù)據(jù)庫等三、挖掘技術(shù)方法的擴展擴展統(tǒng)計學(數(shù)理統(tǒng)計)、證據(jù)理論、機器學習、神經(jīng)網(wǎng)絡、粗糙集、近似推理、小波、分形、概念格、概念樹提升、決策樹等Hilbert空間、信息融合與神經(jīng)網(wǎng)絡結(jié)合、距離測度函數(shù)、數(shù)據(jù)立方體、隱馬爾可夫模型、信息熵、主觀Bayes方法、信息擴散等四、應用的擴展金融、醫(yī)療保健、市場業(yè)、零售業(yè)、制造業(yè)、工程與科學、經(jīng)紀業(yè)和安全交易、證券交易、瑕疵分析、政府和防衛(wèi)、電信、司法、企業(yè)經(jīng)營管理等等應用領(lǐng)域擴展Internet、農(nóng)業(yè)、氣象、遠程教育、天文學、生物信息、地理信息等等Marksman、ThinkMachine、DataMind、IntelligentMiner、KnowledgeSEEKER、等等實例和軟件的擴展MSMiner、KDD*、KDK*、KD(D&K)等等五、研究動態(tài)與趨向

目前國際上KDD的研究主要是以知識發(fā)現(xiàn)的任務描述、知識評價與知識表示為主線,有效的知識發(fā)現(xiàn)算法為中心。這是在相當長的一段時間內(nèi)保持的主流與基調(diào)。

國外研究動態(tài)2003年8月27日在華盛頓召開了第九屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議,參與討論的專家一致認為:數(shù)據(jù)挖掘正面臨著巨大的機遇和挑戰(zhàn)。其中U.Fayyad認為從科學發(fā)展的長遠來看,最大的絆腳石是基礎理論的缺乏以及所面臨的問題和挑戰(zhàn)的清晰明白的闡述。他認為對于我們要做什么,幾乎沒有理論甚至工程實踐來指導:在今天它仍然是”不為人知的藝術(shù)”。我們需要理論來指導我們要做什么以及要如何作。這些理論能夠促使工程解決方法的出現(xiàn),這樣我們也可以將我們的“手藝”更有效的教給其他人。而這種形勢與從業(yè)者以及對應用感興趣的人們的巨大的熱情同時存在,這些人來自不同的領(lǐng)域,但是沒有科學根基以及持續(xù)的學術(shù)發(fā)展,本領(lǐng)域不可能得到發(fā)展與鞏固。R.Uthurusamy認為WEB的使用和生產(chǎn)廠家的大肆宣傳等都會在短期內(nèi)影響本領(lǐng)域的發(fā)展,它們會使得我們將更多的精力投向數(shù)據(jù)庫營銷、CRM和OLAP等方面,而不是致力于使KDD從根本上或科學上有大的進步。KDD的基礎研究界必須消除這些干擾而去努力解決KDD的真正的根本的問題。國內(nèi)研究動態(tài)我們編制了了軟件對中國期刊網(wǎng)上1994年至今的論文進行了分類與統(tǒng)計。1、歷年發(fā)表文章數(shù)分類匯總圖示如下(含所有的類別共11707篇)2、按照數(shù)據(jù)挖掘、決策支持系統(tǒng)、專家系統(tǒng)方面的文章統(tǒng)計圖示如下:(評價)發(fā)展的基本特征(1)原有理論方法的深化與拓展

如:1)網(wǎng)絡數(shù)據(jù)挖掘;流數(shù)據(jù);混合數(shù)據(jù)。2)基于神經(jīng)網(wǎng)絡的的時序數(shù)據(jù)、相似序列、快速挖掘算法的研究等。

3)粗糙集與支持向量機模型與方法的擴展。4)凸分析與數(shù)據(jù)包絡分析方法的運用。5)增強(強化)學習模型與方法的運用。(2)復雜類型(系統(tǒng))數(shù)據(jù)挖掘成為熱點

如:1)生物信息挖掘。

KnowledgeDiscoveryforPromoterStructureAnalysisStudyofMotifCorrelationinProteinsbyDataMining(用數(shù)據(jù)挖掘技術(shù)進行蛋白質(zhì)中啟動子的結(jié)構(gòu)分析)

2)半結(jié)構(gòu)化、非結(jié)構(gòu)化等復雜類型數(shù)據(jù)挖掘。

AMethodforMiningDataofSequentialImages----RebuildingofGray(Position)timeFunctiononArbitraryDirectionLines(基于圖表數(shù)據(jù)庫知識發(fā)現(xiàn)系統(tǒng)的概念等級聚類)3)分布式數(shù)據(jù)挖掘系統(tǒng)。4)動態(tài)、在線數(shù)據(jù)挖掘系統(tǒng)。5)流數(shù)據(jù)、混合數(shù)據(jù)與不完備數(shù)據(jù)挖掘系統(tǒng)。(3)新技術(shù)與方法的引入(其它學科領(lǐng)域的滲透)如:人工免疫系統(tǒng)方法;協(xié)同驗算方法;模擬退火算法;保角變換方法;黎曼幾何方法等。(4)理論融合交叉性研究如:基于RoughSet的證據(jù)推理算法;模糊關(guān)系數(shù)據(jù)模型與粗集結(jié)合算法等。認知心理學、認知物理學、認知生物學等。(5)基礎理論研究內(nèi)在機理研究;自主知識發(fā)現(xiàn)框架;DM=數(shù)據(jù)集+似然關(guān)系+挖掘算法等。第二部分數(shù)據(jù)挖掘在商務智能決策中的應用一、基于信息挖掘的新型智能決策支持系統(tǒng)二、商務部國際商務中心項目簡介三、軟件系統(tǒng)實現(xiàn)整體說明一、基于信息挖掘的新型智能決策支持系統(tǒng)自從美國麻省理工學院的MichaelS.S.Morton和PeterG.W.Keen于20世紀70年代首次提出決策支持系統(tǒng)(DSS)以來,其發(fā)展迅速,不斷取得顯著的成果,并成為許多行業(yè)經(jīng)營管理中一個不可缺少的現(xiàn)代化決策支持工具?,F(xiàn)在正逐步形成新一代的DSS:群決策支持系統(tǒng)(GDSS),分布式?jīng)Q策支持系統(tǒng)(DDSS),戰(zhàn)略決策支持系統(tǒng)等,尤其是智能決策支持系統(tǒng)(IDSS)的出現(xiàn),將人工智能的知識推理等技術(shù)引入DSS,使DSS的發(fā)展進入了一個新的階段。近年來,又相繼出現(xiàn)了基于數(shù)據(jù)倉庫與基于WEB的智能決策支持系統(tǒng),大大推進了IDSS的發(fā)展。

但是,傳統(tǒng)的決策支持系統(tǒng)尚存在著推理技術(shù)單調(diào),自學習能力較差,形成知識庫中的知識不足夠豐富這一新的“瓶頸”現(xiàn)象。近年來Internet迅速發(fā)展,網(wǎng)上信息極大豐富而知識卻相對缺乏,并且這些信息和以往決策支持系統(tǒng)所處理的信息不同,是非結(jié)構(gòu)化的,這就使其處理方式也必然有所不同。所以新一代決策支持系統(tǒng)的發(fā)展方向是高度智能化,以多種知識表示、自組織協(xié)同工作、自動知識獲取和自適應能力較強等為特征。為此,我們提出了基于信息挖掘的智能決策支持系統(tǒng)IDSSIM,這里的信息挖掘區(qū)別于通常的數(shù)據(jù)挖掘,是從結(jié)構(gòu)化數(shù)據(jù)或復雜類型數(shù)據(jù)(文本、日志、音頻、視頻、圖像等)中提取新穎、潛在有用知識的非平凡抽取過程。所形成的IDSSIM結(jié)構(gòu)模型可廣泛應用于各行各業(yè)在管理信息系統(tǒng)的基礎上所提升的輔助決策支持系統(tǒng)中。IDSSIM的總體結(jié)構(gòu)模型如下圖所示:其理論基礎是我們提出的基于雙庫協(xié)同機制的知識發(fā)現(xiàn)系統(tǒng)KDD*和WEB數(shù)據(jù)挖掘過程,它以多個知識源的知識融合、多抽象級與不同知識層次的結(jié)構(gòu),以及使數(shù)據(jù)庫、知識庫、方法庫、模型庫、文本庫、日志庫六庫協(xié)同運作為特征,形成了極其豐富的動態(tài)知識庫系統(tǒng)與相應的集成推理機制,為解決決策系統(tǒng)構(gòu)造中的核心技術(shù)提供了一條有效的途徑,也從根本上提高了決策支持系統(tǒng)的實用化程度。系統(tǒng)的核心是“源于信息的知識發(fā)現(xiàn)KDBI”(KnowledgeDiscoveryBasedonInformation),它在模塊實現(xiàn)上主要包含三個部分:基于雙庫協(xié)同機制的知識發(fā)現(xiàn)子系統(tǒng)(KDD*)、基于推理機制的知識發(fā)現(xiàn)子系統(tǒng)(KDRM)和基于WEB挖掘的知識發(fā)現(xiàn)子系統(tǒng)(KDWM)??纱致缘乇硎緸椋篕DBI=KDD*+KDRM+KDWM。首先,六庫(數(shù)據(jù)庫、知識庫、方法庫、模型庫、文本庫、日志庫)在多庫管理子系統(tǒng)的管理下協(xié)同運作。知識獲取子系統(tǒng)可以從領(lǐng)域?qū)<夷抢铽@取知識,也可以獲取書本中的知識,并將這些知識存儲在知識庫中。基于信息挖掘的新型智能決策支持系統(tǒng)。其次,知識庫中的知識可以直接納入綜合知識庫,也可以被基于雙庫協(xié)同機制的知識發(fā)現(xiàn)(KDD*)子系統(tǒng)利用,在以屬性為基礎的知識庫建庫原則下,通過搜索知識庫中知識結(jié)點的不關(guān)聯(lián)態(tài),產(chǎn)生“創(chuàng)見意向”,發(fā)現(xiàn)短缺知識。再次,基于推理機制的知識發(fā)現(xiàn)子系統(tǒng)(KDRM),包括用一種或多種知識表示方法描述的已知問題及其解法的描述集合的知識庫和需要求解的問題集;通過Fuzzy推理、演繹推理、廣義綜合歸納推理和基于案例的推理等,構(gòu)造規(guī)則集和發(fā)現(xiàn)新知識。來自WEB的信息首先被存儲在文本庫和日志庫中,并由基于WEB的知識發(fā)現(xiàn)子系統(tǒng)挖掘關(guān)于訪問信息、文本和結(jié)構(gòu)方面的知識,并將挖掘結(jié)果存入WEB知識庫。二、商務部國際商務中心項目簡介在與國家商務部國際商務中心的合作中,構(gòu)造了基于我們專利技術(shù)的“面向加工貿(mào)易基于競爭情報的智能決策支持系統(tǒng)”。針對外貿(mào)加工中國內(nèi)采購與供應鏈系統(tǒng)進行深入分析,通過數(shù)據(jù)挖掘、WEB挖掘、案例推理與OLAP等技術(shù),挖掘出一些平時很難靠直觀或憑借經(jīng)驗發(fā)現(xiàn)的規(guī)則,發(fā)現(xiàn)了若干新的知識。對領(lǐng)導戰(zhàn)略決策與企業(yè)經(jīng)營決策管理有一定的參考價值。利用商務部國際商務中心長期積累的對外加工貿(mào)易的數(shù)據(jù),充分運用我們的創(chuàng)新性信息處理技術(shù)和數(shù)據(jù)挖掘技術(shù),開展研發(fā)工作。目前已通過驗收,并將對國家的對外貿(mào)易和商務活動產(chǎn)生較大影響。概括起來有如下幾點:1)為對外貿(mào)易企業(yè)“請進來,走出去”提供決策支持;2)為領(lǐng)導關(guān)注的熱點問題,提供決策支持;3)為外商投資提供咨詢指導;4)為國家和地方招商引資提供科學的建議。項目主頁應用窗口三、軟件系統(tǒng)實現(xiàn)整體說明1、OLAP問題域運行環(huán)境與開發(fā)工具OLAP問題域1、經(jīng)營企業(yè)信息分析2、國產(chǎn)料件分析3、進口料件分析4、加工行業(yè)分析5、外商分析6、進出口幣種分析7、工繳費分析8、口岸與海關(guān)分析9、出口成品分析OLAP運行環(huán)境與工具服務器端: 硬件:性能較好的服務器、網(wǎng)絡鏈接 軟件:ORACLE數(shù)據(jù)庫服務器及數(shù)據(jù)、BRIOINTELLIGENCESERVER、BRIOCLIENTDESIGNER客戶端:硬件:普通PC、網(wǎng)卡、INTERNET網(wǎng)絡鏈接軟件:BRIOCLIENTEXPLORER、通用瀏覽器2.KDD*問題域計算模式與開發(fā)工具總體設計流程圖KDD*問題域說明預想:就采購價值鏈方面內(nèi)容,展開數(shù)據(jù)挖掘,重點對國內(nèi)采購現(xiàn)狀,抽取相關(guān)關(guān)聯(lián)規(guī)則,提供領(lǐng)導決策信息。方法特征:智能系統(tǒng)內(nèi)在的使用了人工智能方法與軟計算方法,知識發(fā)現(xiàn)方法尋求新穎的知識類型,因而所發(fā)現(xiàn)的知識與數(shù)據(jù)狀況密切相關(guān)。在未作實際挖掘前難以確定其明確主題。將提交結(jié)果:就目前挖掘情況看,領(lǐng)導決策方面與企業(yè)經(jīng)營決策方面的內(nèi)容都可能發(fā)現(xiàn)較有價值得知識。因而,須在實際研發(fā)過程中,逐步篩選、調(diào)試、聚焦。KDD*計算模式與開發(fā)工具計算模式:客戶機/服務器模式運行環(huán)境與開發(fā)工具客戶端:windows平臺,DELPH,ODBC

服務器端:商務部現(xiàn)有環(huán)境和ORACLE數(shù)據(jù)庫系統(tǒng)

KDD*總體設計流程圖數(shù)據(jù)清理:主要完成數(shù)據(jù)源的選取、數(shù)據(jù)清洗、去噪聲以及填補空缺數(shù)據(jù)等等,也就是要為挖掘準為數(shù)據(jù),確切的說就是為數(shù)據(jù)離散做準備。主題管理:主要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論