版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
-z.第一講商務智能概述〔綜合論述題〕學習本課程的原因:現(xiàn)代管理需要基于計算機的方法讓決策更有有效性企業(yè)需要有智能A:在分析型商務智能軟件的幫助下,用戶可以建立統(tǒng)一的企業(yè)數(shù)據(jù)倉庫平臺,并收集,訪問,分析每個商業(yè)領域的數(shù)據(jù),同時,數(shù)據(jù)庫技術(shù)的進步,效勞器性能的提升以及分析軟件算法的優(yōu)化,是的訪問大型數(shù)據(jù)庫處理海量信息變得更加容易便捷。B:商務智能可以提供個性化效勞,以滿足不同用戶的需求,智能搜索可以給決策者以很好的數(shù)據(jù)分析。與本專業(yè)的關(guān)聯(lián)性:信息技術(shù)迅速開展的今天,電子商務已在國民經(jīng)濟中顯現(xiàn)出極其重要的作用。伴隨著效勞形態(tài)在全球擴,市場需求多樣化,社會網(wǎng)絡的廣泛建立等社會經(jīng)濟巨大變革;數(shù)據(jù)量正以每年翻倍的速度擴增,然而數(shù)據(jù)源分散,異構(gòu)數(shù)據(jù)庫難以整合,數(shù)據(jù)接口復雜等問題嚴重,導致大量數(shù)據(jù)中真正能被利用來分析和運用的數(shù)據(jù)缺乏10%。如何將數(shù)據(jù)有效轉(zhuǎn)化為決策者所需要的信息,提升電子商務整體應用水平,已經(jīng)成為政府,企業(yè)界和軟件開發(fā)界關(guān)注的一個研究方向?!睟I開展趨勢:績效管理,產(chǎn)品模塊的集成,構(gòu)造化和非構(gòu)造化數(shù)據(jù),數(shù)據(jù)質(zhì)量,預測分析,客戶定制化?!掣鶕?jù)商務智能的主要技術(shù),以及電子商務的移動,虛擬性,個性化,社會性等新型特征,把商務智能同電子商務根底性規(guī)律結(jié)合起來,完善商務節(jié)點的數(shù)據(jù)挖掘,抽取,轉(zhuǎn)化集成和應用。提升電子商務中的智能搜索,精度營銷,比擬購物,供給鏈、配送優(yōu)化等現(xiàn)實需求。描述商務智能融合技術(shù)在電子商務中的應用展望。商務智能在電子商務中的典型應用數(shù)據(jù)挖掘的應用:挖掘主要是挖掘出有潛力價值數(shù)據(jù)的信息拘束,主要應用在情報分析,數(shù)據(jù)庫營銷,識別用戶消費行為,客戶流失分析,劃分客戶群體等相關(guān)應用?!参譅柆敵心虿寂c啤酒的銷售〕智能搜索的應用:人們運用關(guān)鍵詞進展搜索返還的結(jié)果信息之間缺乏有效的關(guān)聯(lián),不僅增加了用戶篩選結(jié)果信息的時間,而且也為用戶查找有效信息增加了復雜的。更重要的是傳統(tǒng)搜索系統(tǒng)基于信息共享平臺設計,缺乏有效的權(quán)限管理策略和平安機制,無法有效的保證資訊信息合法使用。結(jié)合新興電子商務的特征與精度營銷,比擬購物,供給鏈、配送優(yōu)化等現(xiàn)實需求,研究電子商務中的知識管理與智能搜索的理論和方法。主要容可包括:具有智能的商務知識表達與數(shù)據(jù)挖掘方法,非構(gòu)造信息中的知識獲取技術(shù),網(wǎng)頁數(shù)據(jù)有效提取與實時動態(tài)分析技術(shù),個性化推薦技術(shù)的應用等問題。可視化技術(shù)的應用:基于有限的離散采樣,三維數(shù)據(jù)比幾何形態(tài)的信息更為豐富和完整,而且更適合于表達不規(guī)則的研究對象。知識管理的應用:隨著知識管理在科研機構(gòu)的應用,所有的科研成果和業(yè)最新信息都可以共享在知識庫中,方便使用人員檢索知識,參考經(jīng)歷,從而到達商務成果信息的有效利用。個性推薦技術(shù)的應用:個性化推薦必須能夠?qū)τ脩舻南埠锰峁┫嚓P(guān)性強的準確的推薦,盡可能減少個性化用戶的查找時間,推薦結(jié)果必須能夠?qū)崟r計算。商務智能在電子商務中的未來開展趨勢(1)商務智能簡易型趨勢〔簡便易用的交互界面;良好的適用性;實施與管理的便捷性;〕〔2〕商務智能平臺化開展〔3〕商務智能嵌入化趨勢〔4〕商務智能同群眾決策互補開展第二講商務智能導論1:BI的作用1.1商務智能與信息社會處在信息社會的一個重要標志性特征就是信息融合。由信息技術(shù)的進步和廣泛應用驅(qū)動的技術(shù)融合不斷深化,從兩個方面對于人們的社會生活和經(jīng)濟活動產(chǎn)生影響。(一方面,企業(yè)中許多傳統(tǒng)的業(yè)務決策問題逐漸變成信息決策問題.另一方面,信息產(chǎn)品及其應用隨著技術(shù)創(chuàng)新呈現(xiàn)出越來越豐富的形態(tài)和特征)商務智能開展起來的四種推手:1:傳統(tǒng)業(yè)務報告數(shù)據(jù)充分而知識匱乏;2:傳統(tǒng)報告不能滿足用戶需求3:傳統(tǒng)分析工具的整合能力有限〔用戶被限定在數(shù)據(jù)對象中,而不能進一步分析和整合〕4:信息技術(shù)及應用的推廣〔大容量數(shù)據(jù)存儲,互聯(lián)網(wǎng),并行處理,云技術(shù)〕商務智能是信息社會繁榮的推動力—從傳統(tǒng)的商業(yè)領域逐步拓展到政務領域、教育領域、醫(yī)療領域等其他各領域。1.2商務智能與企業(yè)管理商務智能對企業(yè)的戰(zhàn)略決策也同樣具有非常重要的影響,這種影響表達在3個方面:公司戰(zhàn)略、業(yè)務戰(zhàn)略和職能戰(zhàn)略。(商務智能可以根據(jù)公司各戰(zhàn)略業(yè)務單元的經(jīng)營業(yè)績和經(jīng)營定位來選擇合格的投資組合戰(zhàn)略商務智能可以進展企業(yè)外部因素分析:外部環(huán)境分析、行業(yè)狀況分析、競爭對手分析等商務智能可以在分析企業(yè)部因素(勞動力,本錢,技術(shù),競爭等)的根底上為職能戰(zhàn)略提供科學的決策依據(jù))改善關(guān)系:提供有關(guān)業(yè)務狀況的有用信息,提高企業(yè)知名度,改善全信息鏈的效率。理解業(yè)務:可以對各項業(yè)務進展準確的評估,幫助理解業(yè)務的驅(qū)動因素,識別對業(yè)務產(chǎn)生影響的關(guān)鍵因素,積極推動業(yè)務開展,培養(yǎng)良好開展態(tài)勢。創(chuàng)造商業(yè)時機:掌握各種商務數(shù)據(jù)和信息的企業(yè)可以出手這些信息而獲利。衡量績效:從企業(yè)各個應用系統(tǒng)中提取各種根底績效指標與關(guān)鍵績效指標,對員工的工作績效進展追蹤、衡量和評價。商務智能是如何協(xié)助企業(yè)進展管理的呢?(基于目標的管理:能計算跨組織的績效目標.基于異常的管理:檢測實際指標與方案目標之間的偏差.基于事實的管理:將企業(yè)目標與事實結(jié)合.基于智能協(xié)同的管理:實現(xiàn)企業(yè)部與外部資源的協(xié)同)商務智能的商業(yè)價值主要有三個方面的表達:省錢,提高效率和提高競爭力。2.1BI的概念商務智能是企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析構(gòu)造化和非構(gòu)造化的商務數(shù)據(jù)和信息,創(chuàng)造和累計商務知識和見解,改善商務決策水平,采取有效的商務行動,完善各種商務流程,提升各方面商務績效,增強綜合競爭力的智慧和能力。2.2BI的理解商務智能是通過對來自不同的數(shù)據(jù)源進展統(tǒng)一處理及管理,通過靈活的展現(xiàn)方法來幫助企業(yè)進展決策支持。2.3BI的四層面〔個數(shù)據(jù)分析層面;信息系統(tǒng)層面;知識發(fā)現(xiàn)層面;戰(zhàn)略層面〕3商務智能的系統(tǒng)構(gòu)成3.1四個階段:數(shù)據(jù)收集→強大的分析工具→專業(yè)的分析知識→改善決策水平3.2關(guān)鍵技術(shù):數(shù)據(jù)倉庫,聯(lián)機分析處理技術(shù),數(shù)據(jù)挖掘,可視化技術(shù)。4商務智能的開發(fā)方法〔規(guī)劃,需求分析,設計,實現(xiàn)。〕4.1商務智能系統(tǒng)成功的關(guān)鍵因素:培訓,循序漸進,業(yè)務人員與IT人員合作,高層支持,業(yè)務驅(qū)動5商務智能的開展趨勢?融合加強,演變成門戶化?日趨“傻瓜〞,表達人性化?可視化數(shù)據(jù)和自助式BI?基于云計算的BI?移動BI?致力于搜索領域的BI第三講數(shù)據(jù)倉庫的概述不應該說數(shù)據(jù)庫到數(shù)據(jù)倉庫是技術(shù)的進步。數(shù)據(jù)倉庫并不是對數(shù)據(jù)庫的徹底拋棄。數(shù)據(jù)庫與數(shù)據(jù)倉庫的比擬:2數(shù)據(jù)集市數(shù)據(jù)集市(DataMart)又叫數(shù)據(jù)市場,是部門級的數(shù)據(jù)倉庫,或者是為*種專門的用途開發(fā)的數(shù)據(jù)存儲系統(tǒng)。數(shù)據(jù)集市:規(guī)模較小,本錢較低,針對性更強。數(shù)據(jù)倉庫:數(shù)據(jù)來源于各個部門的不同應用系統(tǒng),可保證數(shù)據(jù)的整合性。數(shù)據(jù)集市的兩種根本形式A:附屬的數(shù)據(jù)集市〔自上而下構(gòu)建數(shù)據(jù)集市〕數(shù)據(jù)是從企業(yè)的數(shù)據(jù)倉庫獲得,可看作是數(shù)據(jù)倉庫的一個子集。因此具有較好的數(shù)據(jù)整合性。假設需要的數(shù)據(jù)在數(shù)據(jù)集市中沒有,則要先修改數(shù)據(jù)倉庫的構(gòu)造,使這種數(shù)據(jù)先進入數(shù)據(jù)倉庫,再進入數(shù)據(jù)集市。這種數(shù)據(jù)集市適合用于對數(shù)據(jù)倉庫的訪問量比擬大的關(guān)鍵業(yè)務部門。B:獨立的數(shù)據(jù)集市〔自下而上構(gòu)建數(shù)據(jù)集市〕沒有數(shù)據(jù)倉庫作為它的數(shù)據(jù)來源,而是直接從各個應用系統(tǒng)取得數(shù)據(jù),因此,本錢低,靈活性好,需要一種新的數(shù)據(jù)時不必修改企業(yè)級的數(shù)據(jù)倉庫。可提供個別部門所需要的數(shù)據(jù),整合性較差。第四講數(shù)據(jù)倉庫的分析1數(shù)據(jù)倉庫的體系構(gòu)造數(shù)據(jù)倉庫是面向主題、面向分析和知識發(fā)現(xiàn)的一種數(shù)據(jù)處理技術(shù),對數(shù)據(jù)倉庫的使用沒有固定的模式,因此數(shù)據(jù)倉庫與操作型事務處理系統(tǒng)的構(gòu)造有很大的不同。對于用戶,數(shù)據(jù)倉庫就是由數(shù)據(jù)源、數(shù)據(jù)倉庫的數(shù)據(jù)存儲、數(shù)據(jù)倉庫的應用工具和可視化用戶界面組成的。2粒度越是詳細的數(shù)據(jù),粒度級別越?。辉绞歉爬ǖ臄?shù)據(jù),粒度級別越大。?雙重粒度指輕度綜合數(shù)據(jù)級和真實細節(jié)數(shù)據(jù)級(最低粒度級)。3確定粒度大小一般考慮的原則:?假設數(shù)據(jù)倉庫的空間很有限,為節(jié)省存儲空間,宜采用大粒度級表示數(shù)據(jù);?假設追求數(shù)據(jù)倉庫能夠答復的問題類型的能力,要求能夠答復非常具體的問題,則使用較小的數(shù)據(jù)粒度級別;?假設想要減輕處理器的負擔,提高查詢性能,則采用較大的數(shù)據(jù)粒度級別;?假設沒有存儲空間的限制,則可在一個數(shù)據(jù)倉庫中采用多重粒度級別,既存儲低粒度級別的數(shù)據(jù),也存儲高粒度級別的數(shù)據(jù),以同時獲得高的查詢效率和查詢能力。第五講DW的設計與開發(fā)概念模型設計關(guān)鍵任務:分析和理解DW中的主題,確定主題的要素及描述屬性。邏輯模型設計關(guān)鍵任務:粒度的劃分、數(shù)據(jù)分割策略確實定、關(guān)系模式的定義、數(shù)據(jù)源及數(shù)據(jù)抽取模型等問題。物理模型設計關(guān)鍵任務:物理數(shù)據(jù)庫表及其存儲構(gòu)造設計。2概念模型設計確定主題〔借助一些根本的方向性需求〕對每個主題的容進展描述〔描述容〕?需要做哪些類型的決策??分析問題時所關(guān)心的事實;?決策者感興趣的是什么問題??分析問題時的各種觀察角度;?這些問題需要什么樣的信息?描述事實及觀察角度的屬性。?要得到這些信息需要包含哪些數(shù)據(jù)?3分析問題的維度市場經(jīng)理:產(chǎn)品種類、時間、銷售地區(qū)、銷售渠道等。市場部部長:時間、地區(qū)、客戶統(tǒng)計特征、分銷機構(gòu)、產(chǎn)品型號等。財務經(jīng)理:預算、時間、地區(qū)4信息包圖〔用戶信息需求表〕*連鎖旅館入住情況〔核心問題是客房的使用量〕維度包括:客房類型,旅館,時間關(guān)鍵指標:已占用客房,空房間,不可用房間,入住人數(shù),收入等。對維度客房類型的分析:房間類型,房間大小,床位數(shù),床位類型,最多容納人數(shù),套房家具,冰箱,廚房等。對維度旅館的分析:分支機構(gòu)代碼,分支機構(gòu)名稱,國家,省份,地區(qū),城市,建立年份,修繕年份等。對維度時間的分析:年份,季度,月份,星期幾,日期,假日標準等。5數(shù)據(jù)倉庫工程的開發(fā)過程:工程規(guī)劃,需求分析,概念設計,ETL設計,邏輯和物理設計,實現(xiàn)與培訓。第六講OLAP1多維數(shù)據(jù)庫〔MOLAP〕與關(guān)系數(shù)據(jù)庫〔ROLAP〕在存儲上的不同對關(guān)系數(shù)據(jù)庫來說,任何數(shù)據(jù)集均用二維表來存放;對多維數(shù)據(jù)庫也是用二維表來存放的,但其存放方式和效率不同。–假設增加匯總,存儲空間的占用情況也不同。–假設增加一個時間維——季度,采用關(guān)系數(shù)據(jù)庫存儲時仍使用二維表,多維數(shù)據(jù)庫則采用數(shù)據(jù)立方體這樣的三維數(shù)組來存儲。2MOLAP與ROLAP的特征一般情況,MOLAP和ROLAP的選擇主要看應用的規(guī)模。假設要建立功能復雜、規(guī)模較大的企業(yè)級數(shù)據(jù)倉庫,則一般選擇ROLAP方式;假設是建立功能單一、小型的數(shù)據(jù)集市則更適合采用MOLAP方式。第七講DM的概述1產(chǎn)生DM的原因:A:數(shù)據(jù)挖掘技術(shù)產(chǎn)生的動力:數(shù)據(jù)爆炸問題;數(shù)據(jù)過量而知識貧乏〔新理論、新材料、新工藝、新方法的不斷出現(xiàn),使知識老化的速度加快?!矪:從商業(yè)數(shù)據(jù)到商業(yè)信息的進化C:實施數(shù)據(jù)挖掘的目的:不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價值的信息,進而獲得利潤。所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。2數(shù)據(jù)挖掘與信息處理、知識發(fā)現(xiàn)–數(shù)據(jù)挖掘從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與之相似的概念稱為知識發(fā)現(xiàn)。–信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。但是這種查詢答復反映的是直接存放在數(shù)據(jù)庫中的信息。它們不反映復雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。–知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases)是用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學習的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后隱藏的知識,稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)。3數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的區(qū)別聯(lián)系–數(shù)據(jù)挖掘是數(shù)據(jù)倉庫開展的必然結(jié)果。–數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供給用根底:?大多數(shù)數(shù)據(jù)挖掘工具要在集成的、一致的、經(jīng)過清理的數(shù)據(jù)上進展挖掘;?數(shù)據(jù)倉庫構(gòu)造過程中已組建了數(shù)據(jù)處理和數(shù)據(jù)分析的根底設施,數(shù)據(jù)挖掘可借此進展,不必重新組建根底設施;?數(shù)據(jù)倉庫中的OLAP完全可為數(shù)據(jù)挖掘提供有關(guān)的數(shù)據(jù)操作支持;?在數(shù)據(jù)挖掘中,如果將數(shù)據(jù)挖掘與數(shù)據(jù)倉庫進展有效地聯(lián)結(jié),將增加數(shù)據(jù)挖掘的聯(lián)機挖掘功能。4數(shù)據(jù)挖掘與OLAP–OLAP分析過程在本質(zhì)上是一個演繹推理的過程,是決策支持領域的一局部。傳統(tǒng)的查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么(whathappened),OLAP則更進一步告訴你下一步會怎么樣(Whatne*t)和如果采取這樣的措施又會怎么樣(Whatif)。用戶首先建立一個假設,然后用OLAP檢索數(shù)據(jù)庫來驗證這個假設是否正確。–數(shù)據(jù)挖掘在本質(zhì)上是一個歸納推理的過程,與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗證*個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。–數(shù)據(jù)挖掘和OLAP具有一定的互補性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動之前,OLAP工具能起輔助決策作用。而且在知識發(fā)現(xiàn)的早期階段,OLAP工具用來探索數(shù)據(jù),找到哪些是對一個問題比擬重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都有助于更好地理解數(shù)據(jù),加快知識發(fā)現(xiàn)的過程。5數(shù)據(jù)挖掘的應用?銀行–分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評測模型;客戶關(guān)系優(yōu)化;風險控制等?電子商務–網(wǎng)上商品推薦;個性化網(wǎng)頁;自適應??生物制藥、基因研究–DNA序列查詢和匹配;識別基因序列的共發(fā)生性??電信–欺詐甄別;客戶流失??保險、零售……決策樹?傾向性分析聚類分析?客戶細分?市場細分關(guān)聯(lián)分析?市場組合分析?套裝產(chǎn)品分析?目錄設計?穿插銷售神經(jīng)網(wǎng)絡?傾向性分析?客戶保存?目標市場?欺詐檢測6DW解決的商業(yè)問題:推薦信息的生成,異常檢測,客戶流失分析,風險管理,客戶細分,廣告定位,預測。第八講數(shù)據(jù)挖掘的過程1數(shù)據(jù)挖掘可以為公司提供哪些幫助,如何使用聚類、分類、關(guān)聯(lián)規(guī)則挖掘和離群點檢測等技術(shù)為企業(yè)效勞。(1)使用聚類發(fā)現(xiàn)互聯(lián)網(wǎng)中的不同群體,用于網(wǎng)絡社區(qū)發(fā)現(xiàn);(2)使用分類對客戶進展等級劃分,從而實施不同的效勞;(3)使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大型數(shù)據(jù)集中間存在的關(guān)系,用于推薦搜索。如大局部搜索了“廣外〞的人都會繼續(xù)搜索“信息學院〞,則在搜索“廣外〞后會提示是否進進一步搜索“信息學院〞。(4)使用離群點挖掘發(fā)現(xiàn)與大局部對象不同的對象,用于分析針對網(wǎng)絡的秘密收集信息的攻擊。CRISP-DM六階段–商業(yè)理解:確定業(yè)務目標、評估商業(yè)環(huán)境、確定數(shù)據(jù)挖掘目標、提出工程方案–數(shù)據(jù)理解:收集原始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù)、檢查數(shù)據(jù)質(zhì)量–數(shù)據(jù)準備:數(shù)據(jù)選擇、數(shù)據(jù)清洗、數(shù)據(jù)創(chuàng)立、數(shù)據(jù)合并、數(shù)據(jù)格式化–建模:選擇建模技術(shù)、測試方案設計–評估:結(jié)果評估、過程回憶、確定下一步工作–部署:部署方案、監(jiān)控和維護方案、做出最終報告、工程回憶四層次:階段劃分、定義通用任務、定義專用任務、處理實例上兩層獨立于具體數(shù)據(jù)挖掘方法,是一般數(shù)據(jù)挖掘工程均需實施的步驟(這解決了“WHATTODO?〞的問題)。這兩層的任務將結(jié)合具體數(shù)據(jù)挖掘工程的“上下文〞(CONTE*T)映射到下兩層的具體任務和過程。下兩層注重解決如何完成每個階段所要完成的任務和任務的輸出所要求的必要映射活動(這用于解決“HOWTODO〞的問題)。第九講關(guān)聯(lián)分析例1:通過統(tǒng)計用戶主叫的業(yè)務使用情況,進展業(yè)務的關(guān)聯(lián)分析。設有10項業(yè)務,記0—語音信箱,…,5—移動秘書,6—信息點播,…,9—呼叫轉(zhuǎn)移,統(tǒng)計10個主叫及使用業(yè)務如下表所示。主叫使用業(yè)務類型主叫使用業(yè)務類型設A為業(yè)務5,B為業(yè)務6,T為事務總數(shù)(主叫統(tǒng)計數(shù)),則業(yè)務AB出現(xiàn)的支持度為P(A∪B)=AB出現(xiàn)次數(shù)/事務總數(shù)T=4/10=0.4對于具有支持度0.4的項集AB,規(guī)則A→B的可信度為P(B|A)=P(AB)/P(A)=(4/10)/(5/10)=0.4/0.5=0.8同理,規(guī)則B→A的可信度為P(A|B)=P(AB)/P(B)=0.4/0.6=0.67假設用戶給出的最小可信度為0.3,最小支持度為0.3,則項集AB滿足最小支持度,是二項頻繁集,規(guī)則A→B,B→A兩條規(guī)則滿足最小可信度Apriori算法過程〔根本思想:頻繁項集的任何子集也一定是頻繁的?!?1)制定最小支持度及最小置信度;(2)Apriori算法使用候選項集的概念,首先掃描數(shù)據(jù)庫產(chǎn)生候選工程集,假設候選工程集的支持度≥最小支持度,則該候選項集合為頻繁項集;(3)在Apriori算法的過程中,首先由數(shù)據(jù)庫讀入所有的事務數(shù)據(jù),得出候選1_項集合C1及相應的支持度數(shù)據(jù),通過將每個1_項集合的支持度與最小支持度比擬,得出頻繁1_項集合L1,然后將這些頻繁1_項集兩兩進展連接,產(chǎn)生候選2_項集合C2;(4)然后再次掃描數(shù)據(jù)庫得到候選2_項集合C2的支持度,將2_項集的支持度與最小支持度比擬,確定頻繁2_項集L2,類似地,利用這些頻繁2_項集產(chǎn)生候選3_項集和確定頻繁3_項集,以此類推;(5)反復掃描數(shù)據(jù)庫與最小支持度比擬,產(chǎn)生更高項的頻繁項集合,再結(jié)合產(chǎn)生下一級候選項集,直到不再結(jié)合產(chǎn)生出新的候選項集為止。例2:假定最小支持度是2,最小置信度為50%,求大項集。第十講分類1熵〔Entropy〕:針對一個給定的屬性(可預測屬性)找出一個數(shù)學公式,來度量數(shù)據(jù)集的純度。2ID3算法構(gòu)建決策樹Step1:建立相關(guān)性計數(shù)表Step2:選擇一個屬性,然后在根層次進展拆分。例:3從樹中生成分類規(guī)則–用IF-THEN這種形式來表示規(guī)則–對從根到葉節(jié)點的每條路徑創(chuàng)立一條規(guī)則–沿著一條路徑的每個屬性值對構(gòu)成“并〞連接
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版房產(chǎn)買賣合同的簽訂程序3篇
- 2024天貓?zhí)詫毦〇|電商平臺客服人員值班安排合同2篇
- 2024年度醫(yī)療行業(yè)醫(yī)護人員任職合同范例3篇
- 2024年林業(yè)資源開發(fā)樹木種植項目承包合同范本下載3篇
- 2024年度上海市長寧區(qū)虹橋樞紐商業(yè)地產(chǎn)買賣合同2篇
- 2024版環(huán)保設備安裝制作及售后服務合同3篇
- 2024年度工程項目安全生產(chǎn)責任分配合同3篇
- 2024年度學校教材出版及發(fā)行合同3篇
- 2024版石材行業(yè)關(guān)鍵技術(shù)研發(fā)合同2篇
- 2024年人力資源和社會保障局印刷勞動保障法律法規(guī)解讀合同2篇
- 高數(shù)1-7章總復習
- 諸葛亮人物介紹PPT
- 冀教版小學數(shù)學二年級上冊第四單元綜合素質(zhì)達標含答案
- 宇電溫控器ai 500 501用戶手冊s 6中文說明書
- 建立完善安全生產(chǎn)風險分級管控和隱患排查治理雙重預防機制建設實施方案
- 電焊條生產(chǎn)工藝知識大全
- 學術(shù)英語寫作知到章節(jié)答案智慧樹2023年天津外國語大學
- 報聯(lián)商整合版專題培訓課件
- 認知覺醒:開啟自我改變的原動力
- 檢驗檢測機構(gòu)資質(zhì)認定文件資料審查表、簽到表、記錄表、確認意見表、工作評價反饋表
- 醫(yī)保檢查自查自糾報告
評論
0/150
提交評論