版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典元昌安主編鄧松李文敬劉海濤編著電子工業(yè)出版社數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典第5章數(shù)據(jù)預(yù)處理
本章包括:
數(shù)據(jù)預(yù)處理基本功能數(shù)據(jù)預(yù)處理的方法第5章數(shù)據(jù)預(yù)處理
本章包括:數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但有潛在的有用信息和知識的過程。數(shù)據(jù)挖掘:為企業(yè)決策者提供重要的、有價值的信息或知識,從而為企業(yè)帶來不可估量的經(jīng)濟效益。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中數(shù)據(jù)挖掘過程一般包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及知識評價和呈現(xiàn)。在一個完整的數(shù)據(jù)挖掘過程中,數(shù)據(jù)預(yù)處理要花費60%左右的時間,而后的挖掘工作僅占總工作量的10%左右。
目前對數(shù)據(jù)挖掘的研究主要集中于挖掘技術(shù)、挖掘算法、挖掘語言等。數(shù)據(jù)挖掘過程一般包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以數(shù)據(jù)挖掘的必要性:在海量的原始數(shù)據(jù)中,存在著大量雜亂的、重復(fù)的、不完整的數(shù)據(jù),嚴(yán)重影響到數(shù)據(jù)挖掘算法的執(zhí)行效率,甚至可能導(dǎo)致挖掘結(jié)果的偏差。數(shù)據(jù)預(yù)處理課件數(shù)據(jù)預(yù)處理分類:從對不同的源數(shù)據(jù)進行預(yù)處理的功能來分,數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等4個基本功能。在實際的數(shù)據(jù)預(yù)處理過程中,
這4種功能不一定都用到,而且,它們的使用也沒有先后順序,
某一種預(yù)處理可能先后要多次進行。數(shù)據(jù)預(yù)處理分類:從數(shù)據(jù)預(yù)處理所采用的技術(shù)和方法來分:
基本粗集理論的簡約方法;復(fù)共線性數(shù)據(jù)預(yù)處理方法;基于Hash函數(shù)取樣的數(shù)據(jù)預(yù)處理方法;基于遺傳算法數(shù)據(jù)預(yù)處理方法;基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)預(yù)處理方法;Web挖掘的數(shù)據(jù)預(yù)處理方法等等。數(shù)據(jù)預(yù)處理課件5.1數(shù)據(jù)預(yù)處理基本功能
在數(shù)據(jù)挖掘整體過程中,海量的原始數(shù)據(jù)中存在著大量雜亂的、重復(fù)的、不完整的數(shù)據(jù),嚴(yán)重影響到數(shù)據(jù)挖掘算法的執(zhí)行效率,甚至可能導(dǎo)致挖掘結(jié)果的偏差。為此,在數(shù)據(jù)挖掘算法執(zhí)行之前,必須對收集到的原始數(shù)據(jù)進行預(yù)處理,以改進數(shù)據(jù)的質(zhì)量,提高數(shù)據(jù)挖掘過程的效率、精度和性能。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換與數(shù)據(jù)歸約等技術(shù)。5.1數(shù)據(jù)預(yù)處理基本功能在數(shù)據(jù)挖掘整體過程中,海量的原始數(shù)5.1.1數(shù)據(jù)清理
數(shù)據(jù)清理要去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù)、空缺值,
識別刪除孤立點等。5.1.1數(shù)據(jù)清理數(shù)據(jù)清理要去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無5.1.1.1噪聲數(shù)據(jù)處理
噪聲是一個測量變量中的隨機錯誤或偏差,包括錯誤的值或偏離期望的孤立點值。對于噪聲數(shù)據(jù)有如下幾種處理方法:分箱法聚類法識別孤立點回歸
5.1.1.1噪聲數(shù)據(jù)處理噪聲是一個測量變量中的隨機5.1.1.2空缺值的處理
目前最常用的方法是使用最可能的值填充空缺值,
如用一個全局常量替換空缺值、使用屬性的平均值填充空缺值或?qū)⑺性M按某些屬性分類,
然后用同一類中屬性的平均值填充空缺值。例5.2:一個公司職員平均工資收入為3000元,則使用該值替換工資中“基本工資”屬性中的空缺值。
5.1.1.2空缺值的處理目前最常用的方法是使用最可能的值5.1.1.3清洗臟數(shù)據(jù)
異構(gòu)數(shù)據(jù)源數(shù)據(jù)庫中的數(shù)據(jù)并不都是正確的,常常不可避免地存在著不完整、不一致、不精確和重復(fù)的數(shù)據(jù),這些數(shù)據(jù)統(tǒng)稱為“臟數(shù)據(jù)”。臟數(shù)據(jù)能使挖掘過程陷入混亂,導(dǎo)致不可靠的輸出。
5.1.1.3清洗臟數(shù)據(jù)異構(gòu)數(shù)據(jù)源數(shù)據(jù)庫中的數(shù)據(jù)并不都是正清洗臟數(shù)據(jù)可采用下面的方式:手工實現(xiàn)方式用專門編寫的應(yīng)用程序采用概率統(tǒng)計學(xué)原理查找數(shù)值異常的記錄對重復(fù)記錄的檢測與刪除清洗臟數(shù)據(jù)可采用下面的方式:5.1.2.1實體識別問題
在數(shù)據(jù)集成時,來自多個數(shù)據(jù)源的現(xiàn)實世界的實體有時并不一定是匹配的,例如:數(shù)據(jù)分析者如何才能確信一個數(shù)據(jù)庫中的student_id和另一個數(shù)據(jù)庫中的stu_id值是同一個實體。通常,可根據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫的元數(shù)據(jù)來區(qū)分模式集成中的錯誤。5.1.2.1實體識別問題在數(shù)據(jù)集成時,來自多個數(shù)據(jù)5.1.2.2冗余問題
數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余,如同一屬性多次出現(xiàn)、同一屬性命名不一致等,對于屬性間冗余可以用相關(guān)分析檢測到,然后刪除。
5.1.2.2冗余問題5.1.2.3數(shù)據(jù)值沖突檢測與處理
對于現(xiàn)實世界的同一實體,來自不同數(shù)據(jù)源的屬性值可能不同。這可能是因為表示、比例或編碼、數(shù)據(jù)類型、單位不統(tǒng)一、字段長度不同。5.1.2.3數(shù)據(jù)值沖突檢測與處理5.1.3數(shù)據(jù)變換
數(shù)據(jù)變換主要是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括規(guī)格化、歸約、切換、旋轉(zhuǎn)和投影等操作。規(guī)格化是指將元組集按規(guī)格化條件進行合并,也就是屬性值量綱的歸一化處理。5.1.3數(shù)據(jù)變換數(shù)據(jù)變換主要是找到數(shù)據(jù)的特征表示,用維規(guī)格化條件定義了屬性的多個取值到給定虛擬值的對應(yīng)關(guān)系。對于不同的數(shù)值屬性特點,一般可以分為取值連續(xù)和取值分散的數(shù)值屬性規(guī)格化問題。規(guī)格化條件定義了屬性的多個取值到給定虛擬值的對應(yīng)關(guān)系。對于不歸約指將元組按語義層次結(jié)構(gòu)合并。語義層次結(jié)構(gòu)定義了元組屬性值之間的語義關(guān)系。規(guī)格化和歸約能大量減少元組個數(shù),提高計算效率。同時,規(guī)格化和歸約過程提高了知識發(fā)現(xiàn)的起點,使得一個算法能夠發(fā)現(xiàn)多層次的知識,適應(yīng)不同應(yīng)用的需要。歸約指將元組按語義層次結(jié)構(gòu)合并。語義層次結(jié)構(gòu)定義了元組屬性值5.1.4數(shù)據(jù)歸約
數(shù)據(jù)歸約是將數(shù)據(jù)庫中的海量數(shù)據(jù)進行歸約,歸約之后的數(shù)據(jù)仍接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量相對小得多,這樣進行數(shù)據(jù)挖掘的性能和效率會得到很大提高。數(shù)據(jù)歸約的策略主要有數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化和概念分層。5.1.4數(shù)據(jù)歸約數(shù)據(jù)歸約是將數(shù)據(jù)庫中的海量數(shù)據(jù)進行歸約5.1.4.1維歸約
通過刪除不相關(guān)的屬性(或維)減少數(shù)據(jù)量,不僅壓縮了數(shù)據(jù)集,還減少了出現(xiàn)在發(fā)現(xiàn)模式上的屬性數(shù)目,通常采用屬性子集選擇方法找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。
5.1.4.1維歸約通過刪除不相關(guān)的屬性(或維)減少5.1.4.2數(shù)據(jù)壓縮
數(shù)據(jù)壓縮分為無損壓縮和有損壓縮,比較流行和有效的有損數(shù)據(jù)壓縮方法是小波變換和主要成分分析。小波變換對于稀疏或傾斜數(shù)據(jù)以及具有有序?qū)傩缘臄?shù)據(jù)有很好的壓縮結(jié)果。5.1.4.2數(shù)據(jù)壓縮數(shù)據(jù)壓縮分為無損壓縮和有損壓縮,比較5.1.4.3數(shù)值歸約
數(shù)值歸約通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。
數(shù)值歸約技術(shù)可以是有參的,也可以是無參的。有參方法是使用一個模型來評估數(shù)據(jù),只需存放參數(shù),而不需要存放實際數(shù)據(jù)。有參的數(shù)值歸約技術(shù)有以下兩種,回歸:線性回歸和多元回歸;對數(shù)線性模型:近似離散屬性集中的多維概率分布。5.1.4.3數(shù)值歸約數(shù)值歸約通過選擇替代的、較小的數(shù)據(jù)無參的數(shù)值歸約技術(shù)有3種:直方圖聚類選樣無參的數(shù)值歸約技術(shù)有3種:5.1.4.4概念分層
概念分層通過收集并用較高層的概念替換較低層的概念來定義數(shù)值屬性的一個離散化。概念分層可以用來歸約數(shù)據(jù),通過這種概化盡管細(xì)節(jié)丟失了,但概化后的數(shù)據(jù)更有意義、更容易理解,并且所需的空間比原數(shù)據(jù)少。對于數(shù)值屬性,由于數(shù)據(jù)的可能取值范圍的多樣性和數(shù)據(jù)值的更新頻繁,說明概念分層是困難的。5.1.4.4概念分層概念分層通過收集并用較高層的概念數(shù)值屬性的概念分層可以根據(jù)數(shù)據(jù)的分布分析自動地構(gòu)造,如用分箱、直方圖分析、聚類分析、基于熵的離散化和自然劃分分段等技術(shù)生成數(shù)值概念分層。由用戶專家在模式級顯示地說明屬性的部分序或全序,從而獲得概念的分層;只說明屬性集,但不說明它們的偏序,由系統(tǒng)根據(jù)每個屬性不同值的個數(shù)產(chǎn)生屬性序,自動構(gòu)造有意義的概念分層。數(shù)值屬性的概念分層可以根據(jù)數(shù)據(jù)的分布分析自動地構(gòu)造,5.2數(shù)據(jù)預(yù)處理的方法
數(shù)據(jù)預(yù)處理方法就是根據(jù)不同的挖掘問題采用相應(yīng)的理論和技術(shù),實現(xiàn)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等基本功能。預(yù)處理方法很多,在此介紹常用的幾種方法。5.2數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)預(yù)處理方法就是根據(jù)不同的挖掘問題5.2.1基于粗集理論的簡約方法
粗糙集理論是一種研究不精確、不確定性知識的數(shù)學(xué)工具,可以對數(shù)據(jù)屬性進行十分有效的精簡,求出最小約簡集,是數(shù)據(jù)預(yù)處理一種有效的方法。5.2.1基于粗集理論的簡約方法粗糙集理論是一種研究不數(shù)據(jù)一般存在信息的含糊性問題。粗糙集理論的最大特點是無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗信息。數(shù)據(jù)一般存在信息的含糊性問題。
粗糙集理論的基本思路是利用定義在數(shù)據(jù)集合U上的等價關(guān)系對U進行劃分,對于數(shù)據(jù)表來說,這種等價關(guān)系可以是某個屬性,或者是幾個屬性的集合。因此按照不同屬性的組合就把數(shù)據(jù)表劃分成不同的基本類,在這些基本類的基礎(chǔ)上進一步求得最小約簡集。
例如:表5.1優(yōu)秀人才決策表給出了某部門的員工數(shù)據(jù)記錄集,通過對員工的政治表現(xiàn)、工作能力、科研能力等確定優(yōu)秀人才人選。論域U
條件屬性(C)
決策屬性
政治表現(xiàn)(C1)工作能力(C2)
科研能力(C3)
優(yōu)秀人才(D)
e1優(yōu)秀強強是e2良好一般一般否e3一般差差否e4一般一般一般否e5良好強一般否e6優(yōu)秀強強是其中:條件屬性集為C={政治表現(xiàn),工作能力,科研能力},決策屬性集為D={優(yōu)秀人才}。
例如:表5.1優(yōu)秀人才決策表給出了某部門的員工數(shù)據(jù)記錄集,根據(jù)粗糙集理論對表5.1進行離散化后再進行數(shù)據(jù)預(yù)處理。處理過程分兩個步驟進行,一是對決策表條件屬性集進行約簡求核;二是對條件屬性值進行約簡。具體求解步驟可見第11章相關(guān)內(nèi)容。根據(jù)粗糙集理論對表5.1進行離散化后再進行數(shù)據(jù)預(yù)處理?;诖植诩碚摰臄?shù)據(jù)預(yù)處理具有優(yōu)點:第一,數(shù)據(jù)挖掘的對象一般都是通過觀測、試驗、調(diào)查得到的數(shù)據(jù),通過觀測、試驗、調(diào)查等得到的數(shù)據(jù)存在著冗余、雜亂、不完整等因素,采用粗糙集理論進行數(shù)據(jù)預(yù)處理,不需要預(yù)先知道額外的信息,有利于集中精力解決問題;基于粗糙集理論的數(shù)據(jù)預(yù)處理具有優(yōu)點:第二,算法簡單。對于給定的決策表,預(yù)處理過程所使用的算法可以是分辨矩陣或逐個屬性、逐條規(guī)則進行檢驗,算法簡單,易于計算機的實現(xiàn),方便挖掘系統(tǒng)的自動操作;第三,可以有效地去除冗余的屬性或?qū)傩缘闹?。第二,算法簡單。對于給定的決策表,預(yù)處理過程所使用的算法可以5.2.2復(fù)共線性數(shù)據(jù)的預(yù)處理方法
常規(guī)方法進行函數(shù)發(fā)現(xiàn)時一般要作出一個假設(shè):數(shù)據(jù)滿足統(tǒng)計不相關(guān)。而傳統(tǒng)的函數(shù)發(fā)現(xiàn)算法中,常常忽略對數(shù)據(jù)是否滿足該假設(shè)的檢驗。若數(shù)據(jù)不滿足統(tǒng)計不相關(guān)的假設(shè)(也稱數(shù)據(jù)變量之間存在復(fù)共線性),在這種情況下,函數(shù)發(fā)現(xiàn)算法挖掘出來的函數(shù)關(guān)系表達式可能會存在系統(tǒng)誤差,該表達式將不是我們要發(fā)現(xiàn)的理想函數(shù)。5.2.2復(fù)共線性數(shù)據(jù)的預(yù)處理方法常規(guī)方法進行函數(shù)發(fā)現(xiàn)時一為解決該問題,本節(jié)給出ε-復(fù)共線性的概念,然后給出不滿足不相關(guān)假設(shè)的情況下進行數(shù)據(jù)預(yù)處理的算法ε-MDPA(ε-MulticollinearityDataPreprocessingAlgorithm復(fù)共線性數(shù)據(jù)預(yù)處理算法)。為解決該問題,本節(jié)給出ε-復(fù)共線性的概念,然后給出不滿足不相5.2.2.1.相關(guān)概念假定給定的樣本數(shù)據(jù)為Y、X,其中因變量樣本數(shù)據(jù)矩陣Y=(y1,y2,…,yn)是p×n樣本矩陣,即p個因變量,n個樣本;自變量樣本數(shù)據(jù)矩陣X是q×n矩陣,即q個自變量,n個樣本。在實際計算時,X一般是將原始數(shù)據(jù)中心化后得到的樣本矩陣,即:X×1n=0。5.2.2.1.相關(guān)概念假定給定的樣本數(shù)據(jù)為Y、X,其中因變在一般的函數(shù)發(fā)現(xiàn)算法中,自變量樣本數(shù)據(jù)矩陣X需要數(shù)據(jù)滿足統(tǒng)計不相關(guān)假設(shè),也即X各行之間不能存在線性關(guān)系。而實際上,只要矩陣X的行向量之間存在近似線性關(guān)系時,函數(shù)發(fā)現(xiàn)算法就有可能達不到實用的效果。為此,下面我們給出ε-復(fù)共線性的定義,并對滿足這一定義的數(shù)據(jù)給出數(shù)據(jù)預(yù)處理的算法(ε-MDPA)。在一般的函數(shù)發(fā)現(xiàn)算法中,自變量樣本數(shù)據(jù)矩陣X需要數(shù)據(jù)滿足統(tǒng)計定義5.1(ε-復(fù)共線性)給定矩陣X,設(shè)X′為X的轉(zhuǎn)置矩陣,設(shè)矩陣(XX′)n×n的特征根為λ1,λ2,…,λn,若對預(yù)設(shè)的正數(shù)ε,0<ε<0.1,有max(λi,i=1,…,n)/min(λi,i=1,…,n)>1/ε,則稱矩陣X滿足ε-復(fù)共線性。定義5.1(ε-復(fù)共線性)給定矩陣X,設(shè)X′為X的轉(zhuǎn)置矩陣,ε-復(fù)共線性描述了最大特征根和最小特征根之間的差距,當(dāng)ε足夠小時,XX′至少有一個特征根接近于0,這時,X的行向量之間存在著近似的線性關(guān)系,從而描述了數(shù)據(jù)之間的相關(guān)程度。ε用于控制X各行向量之間的相關(guān)程度,當(dāng)其線性關(guān)系達到用戶指定的程度,那么,該組數(shù)據(jù)在進行函數(shù)發(fā)現(xiàn)之前應(yīng)該進行轉(zhuǎn)換預(yù)處理。ε-復(fù)共線性描述了最大特征根和最小特征根之間的差距,當(dāng)ε足夠5.2.2.2.ε-復(fù)共線性數(shù)據(jù)預(yù)處理算法
本小節(jié)主要討論存在著ε-復(fù)共線性的數(shù)據(jù)矩陣X數(shù)據(jù)預(yù)處理的方法。5.2.2.2.ε-復(fù)共線性數(shù)據(jù)預(yù)處理算法本小節(jié)主要討論存算法思路:為消除數(shù)據(jù)的復(fù)共線性使數(shù)據(jù)滿足統(tǒng)計不相關(guān)假設(shè),需對矩陣X作主成分分析,計算出主向量矩陣Z,矩陣Z的各行向量之間是滿足統(tǒng)計不相關(guān)假設(shè)的。于是,在后繼的函數(shù)發(fā)現(xiàn)算法中,將挖掘Y與Z的關(guān)系,然后再利用X與Z的關(guān)系,得到Y(jié)與X之間的關(guān)系表達式。算法思路:為消除數(shù)據(jù)的復(fù)共線性使數(shù)據(jù)滿足統(tǒng)計不相關(guān)假設(shè),需對下面的ε-復(fù)共線性數(shù)據(jù)預(yù)處理算法描述了存在ε-復(fù)共線性數(shù)據(jù)的轉(zhuǎn)換方法。數(shù)據(jù)預(yù)處理課件算法5-1
ε-MDPA(ε-MulticollinearityDataPreprocessingAlgorithm)輸入:q×n矩陣
X,控制值ε輸出:Z(轉(zhuǎn)換后消除復(fù)共線性的數(shù)據(jù)矩陣)步驟:BeginStep1計算XX′的特征值λ1,λ2,…,λq,并按從大到小順序排序;Step2判斷數(shù)據(jù)矩陣X具有ε-復(fù)共線性。End.
算法的偽代碼如下:EC(X)//計算XX′的特征值λ1,λ2,…,λq,并按從大到小順序排序;IFλ1/λq>1/ε//數(shù)據(jù)矩陣X具有ε-復(fù)共線性
PCMC(Xq×n,λ1,λ2,…,λq,t)//主分量矩陣計算ELSEZ=X;ENDIF算法5-1ε-MDPA(ε-Multicollineari算法3-1的計算代價主要在第1行計算特征值過程和第3行主分量矩陣計算過程,分別由下面的算法5-2和算法5-3實現(xiàn)。算法3-1的計算代價主要在第1行計算特征值過程和第3行主分量算法5-2
EC(EigenvalueCompute特征值計算子程序)輸入:q×n矩陣
X輸出:特征值λ1,λ2,…,λq,并按從大到小順序排序和特征向量矩陣Eigenvalue(q,q)步驟:BeginStep1
計算相關(guān)系數(shù)矩陣CorMatrix(q,q);Step2利用雅可比法計算矩陣CorMatrix(q,q)的特征值;Step3判斷上三角元素是否全部滿足設(shè)定值;Step4將特征值、特征向量按照特征值的大小進行排序得到特征值向量lpt[q]和特征向量矩陣EigenVector[q,q]。End.算法5-2EC(EigenvalueCompute特征值算法的偽代碼如下:Begin計算相關(guān)系數(shù)矩陣CorMatrix(q,q);利用雅可比法計算矩陣CorMatrix(q,q)的特征值;Eigenvalue[i,j]=CorMatrix[i,j],(i,j=1,2,…,q);l=0;//定義計數(shù)變量while(l<(q*(q-1))/2)//判斷上三角元素是否全部滿足設(shè)定值,滿足跳出循環(huán),否則繼續(xù)循環(huán){l=0;求在Eigenvalue[q,q]矩陣上三角元素中的最大值及其位置pos1,pos2根據(jù)pos1,pos2進行一輪特征值、特征向量的計算if((abs(Eigenvalue[i,j])<),(i=0,1,…,q,j=i+1,…,q)//判斷上三角元素是否滿足條件l++;//滿足計數(shù)器l加1}Lpt[i]=Eigenvalue[i,i];(i=1,2,…,q);//將特征值放入一維數(shù)組中將特征值、特征向量按照特征值的大小進行排序得到特征值向量lpt[q]和特征向量矩陣EigenVector[q,q]End.算法的偽代碼如下:說明:算法中把特征值存放在Lpt數(shù)組,特征向量存放在Eigenvalue數(shù)組中。一般q<<n,所以算法的主要計算代價在第一步計算相關(guān)系數(shù)矩陣中,計算量為q*n=O(n)下面的算法描述了主分量矩陣的計算過程。
說明:算法5-3
PCMC(PrincipleComponentMatrixCompute主分量矩陣計算子程序)輸入:矩陣Xq×n,λ1,λ2,…,λq,特征向量矩陣EigenVector[q,q],t(t<=1為確定主分量個數(shù)時所需特征值之和對總和貢獻率的臨界值)輸出:所需主分量矩陣Zk×n步驟:
BeginStep1計算所需主分量個數(shù)k;Step2根據(jù)特征向量矩陣Eigenvalue(q,q)計算出所需特征向量矩陣Pk×q;Step3計算主分量矩陣Zk×n(=P×X)。End.算法5-3PCMC(PrincipleComponent算法的偽代碼如下:Begin計算所需主分量個數(shù)k(<=q)即滿足(λ1+λ2+…+λk)/(λ1+λ2+…+λq)>=t根據(jù)特征向量矩陣Eigenvalue(q,q)計算出所需特征向量矩陣Pk×q計算主分量矩陣Zk×n(=P×X)End.顯然,算法3-3的計算代價主要在第2行,第3行,它們的計算復(fù)雜度在下面的命題中將進行分析。下面的命題描述了算法ε-MDPA的復(fù)雜度。算法的偽代碼如下:命題5.1ε-復(fù)共線性數(shù)據(jù)預(yù)處理算法ε-MDPA的總計算量為O(n)。證明:
注意,算法中的p,q的值一般較小,相對于n的值可計為O(1),算法計算代價主要有:(1)計算特征值:計算量為O(n)(2)計算主分量個數(shù):計算量為O(1)(3)計算特征向量矩陣:計算量為O(1)(4)計算主分量矩陣:計算量為O(1)
因此,ε-MDPA的總計算量為O(n)。命題5.1ε-復(fù)共線性數(shù)據(jù)預(yù)處理算法ε-MDPA的總計算量在目前常規(guī)的數(shù)據(jù)挖掘系統(tǒng)中,其數(shù)據(jù)分析功能模塊中,一般有主成分分析模塊,因此,ε-復(fù)共線性數(shù)據(jù)預(yù)處理算法在海量數(shù)據(jù)計算中,可使用這些模塊計算的中間結(jié)果,或者使用抽樣方法估算主成分分析模塊的一些參數(shù),以減少運算量。因此,ε-MDPA在沒有明顯增加計算量的情況下,將一些函數(shù)發(fā)現(xiàn)算法的應(yīng)用推廣到數(shù)據(jù)不滿足統(tǒng)計不相關(guān)假設(shè)的情況,大大地拓寬了統(tǒng)計學(xué)及數(shù)據(jù)挖掘中的一些方法應(yīng)用
在目前常規(guī)的數(shù)據(jù)挖掘系統(tǒng)中,其數(shù)據(jù)分析功能模塊中,一般有主成5.2.2.3.實驗
本實驗的目的在于讓讀者理解ε-MDPA算法的運算過程,所以,實驗數(shù)據(jù)樣本數(shù)較小。實驗針對以下數(shù)據(jù)進行,見表5.2。表5.2某地區(qū)森林植被與引起洪澇災(zāi)害的降雨量的關(guān)系序號變量
12345678910X182.988.099.9105.3117.7131.0168.2161.8174.2184.7X292.093.096.094.0110.0101.0105.0112.0112.0112.0X317.121.325.129.034.040.044.049.051.053.0X494.096.097.097.0100.0101.0104.0109.0111.0111.0
y8.49.610.411.412.214.215.817.919.620.85.2.2.3.實驗本實驗的目的在于讓讀者理解ε-MDPA該例中:p=1,q=4,n=10運行ε-MDPA應(yīng)用程序,并選擇ε=0.001,t=0.90計算得:
CorMatrix(q,q)=
λ1=3.827,λ2=0.138,λ3=0.032,λ4=0.003λ1/λ4=1276>1/ε=1000,該例中:p=1,q=4,n=10數(shù)據(jù)矩陣X存在復(fù)共線性,執(zhí)行PCMC子程序,計算主分量矩陣。由λ1/∑λi=0.957>t,k=1,即主分量只需取一個,即λ1=3.827對應(yīng)的評分量。計算得P1*4=(0.259,0.257,0.258,0.258)計算消除復(fù)共線性后的數(shù)據(jù)矩陣Z:Z1*10=P×X=(73.8,76.9,82.0,83.9,93.3,96.3,103.6,111.5,115.7,118.9)然后,就可以使用新的數(shù)據(jù)矩陣挖掘其與因變量Y之間的函數(shù)關(guān)系,最終將結(jié)果再代回到自變量X即可。
數(shù)據(jù)矩陣X存在復(fù)共線性,執(zhí)行PCMC子程序,計算主分量矩陣。5.2.3基于Hash函數(shù)取樣的抽樣技術(shù)數(shù)據(jù)預(yù)處理
在函數(shù)發(fā)現(xiàn)算法處理海量數(shù)據(jù)時,由于實時的需要(例如針對數(shù)據(jù)流的處理),常需要先進行抽樣。要使抽樣取得好的效果,最重要的是要使樣本的代表性能真正反映總體的統(tǒng)計特性。傳統(tǒng)的抽樣方法一般采取簡單隨機抽樣,但這種方法反映的是數(shù)據(jù)編號的統(tǒng)計特性,沒有真正反映出其數(shù)據(jù)分布的統(tǒng)計特性;特別是當(dāng)數(shù)據(jù)傾斜時,樣本不具有對總體數(shù)據(jù)統(tǒng)計分布的代表性。5.2.3基于Hash函數(shù)取樣的抽樣技術(shù)數(shù)據(jù)預(yù)處理傳統(tǒng)的分層抽樣需要有關(guān)層次概念的知識,然后根據(jù)層的知識來進行分層,因而傳統(tǒng)方法在沒有層知識的情況下就顯得無能為力。傳統(tǒng)的分層抽樣需要有關(guān)層次概念的知識,然后根據(jù)層的知識來進行新的基于Hash函數(shù)取樣技術(shù)SHF(SamplingBasedonHashFunction)模型,新方法注意到傳統(tǒng)分層抽樣需要預(yù)先知道關(guān)于層的知識,因此引入Hash函數(shù)技術(shù),在對總體數(shù)據(jù)沒有層知識的情形下,利用Hash桶進行分層,即將m維超立方體按等概率空間進行分桶,使得每層(Hash桶)的數(shù)據(jù)個數(shù)相近,以較小的計算代價獲得分層的效果,然后進行分層抽樣,使所抽樣本能充分反映數(shù)據(jù)的統(tǒng)計特性。新的基于Hash函數(shù)取樣技術(shù)SHF(SamplingBa算法保證了樣本具有對總體數(shù)據(jù)的充分的統(tǒng)計代表性并從理論上可證明新算法復(fù)雜度為O(n)。算法保證了樣本具有對總體數(shù)據(jù)的充分的統(tǒng)計代表性并從理論上可證總體的分布函數(shù)構(gòu)造Hash函數(shù),由于以下原因:
完全地計算總體數(shù)據(jù)去得到精確分布的計算量太大;即使處理完整個總體的數(shù)據(jù),由于數(shù)據(jù)噪聲,得到總體的分布也只是近似的。所以,SHF利用隨機抽樣的一些性質(zhì),使用總體的估計分布函數(shù)來代替其精確分布。5.2.3.1SHF模型中的概念
總體的分布函數(shù)構(gòu)造Hash函數(shù),由于以下原因:5.2.3.1設(shè)總體數(shù)據(jù)為:X=(Xij)n×m,即共有m個變量,n行數(shù)據(jù)。為了簡化問題且不失一般性,本節(jié)作下列兩項假定:(1)假定m個變量中有下列幾種類型:
l
連續(xù)型,如重量和高度等。其距離計算方法一般用歐氏距離或曼哈坦距離。l
二元型,即變量取值只有2個狀態(tài),如性別。l
標(biāo)稱型,二元型的推廣,其狀態(tài)多于2個,如顏色。其它類型均可以看作上述三種類型的特例。設(shè)總體數(shù)據(jù)為:X=(Xij)n×m,即共有m個變量,n行數(shù)據(jù)(2)假定m個變量中,x1,…,xm1為連續(xù)型變量,xm1+1,…,xm1+m2為二元變量,
xm1+m2+1,…,xm1+m2+m3為標(biāo)稱變量。
m1+m2+m3=m,即m1個連續(xù)變量,m2個二元變量,m3個標(biāo)稱變量。關(guān)于二元變量,兩個對象i,j之間的距離常用它們的匹配系數(shù)來表示:d(i,j)=f/m2,其中f為m2個二元變量中,兩個對象取不同狀態(tài)的個數(shù)。關(guān)于標(biāo)稱變量,兩個對象i,j之間的距離也常用它們的匹配系數(shù)來表示:d(i,j)=m3-g/m3,其中g(shù)為m3個標(biāo)稱變量中,兩個對象取相同狀態(tài)的個數(shù)。
(2)假定m個變量中,x1,…,xm1為連續(xù)型變量,xm15.2.3.2各類型變量分布函數(shù)的估計
對于分布函數(shù)的估計采用簡單隨機取樣,設(shè)簡單隨機樣本數(shù)據(jù)為ssimp。為了針對各類型變量給出各分布函數(shù)的估計,根據(jù)文獻[13],有下列三條性質(zhì):
性質(zhì)5.1(無偏估計性)(1)樣本均值xmean是總體均值Xmean的無偏估計量。(2)xtotal=nxmean是總體總值Xtotal的無偏估計量。(3)樣本方差=(xi-xmean)2/(ssimp-1)是總體方差:S=(Xi-Xmean)2/(n-1)的無偏估計量。5.2.3.2各類型變量分布函數(shù)的估計對于分布函數(shù)的估計性質(zhì)5.2(關(guān)于各類型變量的近似分布性)(1)對于連續(xù)隨機變量x,其估計分布函數(shù)為近似正態(tài)分布N(xmena,sx2)。分布函數(shù)為:F(x)=
性質(zhì)5.2(關(guān)于各類型變量的近似分布性)(2)對于二元變量x,設(shè)其狀態(tài)為0,1。所抽ssimp個樣本中,0狀態(tài)的個數(shù)為ssimp0,1狀態(tài)的個數(shù)為ssimp1。令p=ssimp0/ssimp,則其估計分布函數(shù)為:F(x)=(2)對于二元變量x,設(shè)其狀態(tài)為0,1。所抽ssimp個樣(3)對于標(biāo)稱變量x,設(shè)狀態(tài)為sta1,sta2,…,stat,分別被標(biāo)記為1,2,…,t。所抽樣本中各狀態(tài)出現(xiàn)的個數(shù)分別為ksta1,ksta2,…kstat,令pi=kstai/ssimp(i=1,2,…,t)。則其估計分布函數(shù)為:F(x)=(3)對于標(biāo)稱變量x,設(shè)狀態(tài)為sta1,sta2,…,st性質(zhì)5.3
(抽樣數(shù)的確定)估計分布函數(shù)的簡單隨機抽樣樣本個數(shù)ssimp由以下方法確定:ssimp=其中為標(biāo)準(zhǔn)正態(tài)分布的雙側(cè)分位數(shù),r為相對誤差。性質(zhì)5.3(抽樣數(shù)的確定)估計分布函數(shù)的簡單隨機抽樣樣本5.2.3.3Hash函數(shù)的構(gòu)造
SHF模型按如下步驟構(gòu)造Hash函數(shù):對總體進行簡單隨機抽樣,抽樣針對每維變量進行。按(5.1)(5.2)(5.3)式得到每維變量的近似分布,構(gòu)造Hash函數(shù)如下:H(x1,x2,…,xm)=F(x1)F(x2)…F(xm)
(5.4)5.2.3.3Hash函數(shù)的構(gòu)造SHF模型按如下步驟構(gòu)以上方法實際上假定了各變量之間相互獨立。對于總體數(shù)據(jù),若各變量之間存在復(fù)共線性情形,可采取因子分析法先將數(shù)據(jù)進行轉(zhuǎn)化,消除其復(fù)共線性。其計算量為O(n)。命題5.2
x1,x2,…,xm
相互獨立時,H(x1,x2,…,xm)為變量X=(x1,x2,…,xm)的聯(lián)合分布函數(shù)。證明:由獨立隨機變量的聯(lián)合分布函數(shù)的性質(zhì)即知。以上方法實際上假定了各變量之間相互獨立。對于總體數(shù)據(jù),若各變5.2.3.4分層取樣
SHF模型利用Hash函數(shù)對總體數(shù)據(jù)進行分桶,亦即將數(shù)據(jù)進行分層,然后針對各桶進行簡單隨機抽樣,從而實現(xiàn)分層抽樣。設(shè)按函數(shù)發(fā)現(xiàn)技術(shù)要求所需抽取的樣本數(shù)為slayer,將[0,1]slayer等分,slayer個等分點如下:0=i0,i1,i2,…,islayer-1,islayer=1,則iq-iq-1=1/slayer(q=1,2,…,slayer)將n個數(shù)據(jù)分到slayer個桶,分法如下:若第j行數(shù)據(jù)滿足:iq-1<=H(xj1,xj2,…,xjm)<iq(q=1,2,…slayer-1)iq-1<=H(xj1,xj2,…,xjm)<=iq(q=slayer)(5.5)則第j行屬于第q個桶。5.2.3.4分層取樣SHF模型利用Hash函數(shù)對總體數(shù)命題5.3(各桶中數(shù)據(jù)分布的特點)按上述分桶方法,各桶中數(shù)據(jù)的個數(shù)以概率1相同。證明:由命題5.2知,
H(x1,x2,…,xm)為變量X=(x1,x2,…,xm)的聯(lián)合分布函數(shù),將n個點看作是分布在維數(shù)為m的超幾何體中。由于桶的劃分是按分布函數(shù)等概率來劃分的(注意,不是按超幾何體等體積劃分),即超幾何體被劃分為slayer個等概率空間,即slayer個等概率Hash桶,由概率函數(shù)的頻率意義知,各桶落入點的頻率應(yīng)該均為,因此,各桶中數(shù)據(jù)的個數(shù)以概率1相同。命題5.3(各桶中數(shù)據(jù)分布的特點)按上述分桶方法,各桶中數(shù)命題5.3保證了后面的基于Hash函數(shù)取樣技術(shù)在分層時,各層中數(shù)據(jù)個數(shù)接近,為保證抽樣質(zhì)量提供了理論依據(jù)。性質(zhì)5.4分層抽樣的精度優(yōu)于簡單隨機抽樣,即分層抽樣的估計量方差小于簡單隨機抽樣。命題5.3保證了后面的基于Hash函數(shù)取樣技術(shù)在分層時,各層5.2.3.5基于Hash函數(shù)取樣的數(shù)據(jù)預(yù)處理算法
SHF模型中的HSDPA(HashSamplingBasedDataPreprocessingAlgorithm)算法首先進行簡單隨機抽樣,估計分布函數(shù),構(gòu)造出Hash函數(shù),然后進行基于Hash函數(shù)的分層抽樣,得到具有充分統(tǒng)計代表性的樣本。下面的算法5-4給出了計算過程的細(xì)節(jié):5.2.3.5基于Hash函數(shù)取樣的數(shù)據(jù)預(yù)處理算法SHF算法5-4HSDPA算法輸入:n行m列混合類型數(shù)據(jù),樣本個體數(shù)為slayer輸出:slayer行m列混合類型數(shù)據(jù)步驟:
BeginStep1針對各列進行簡單隨機抽樣;Step2根據(jù)(5.1)(5.2)(5.3)式估計各列分布函數(shù);Step3根據(jù)(5.4)式構(gòu)造Hash函數(shù)H;Step4根據(jù)(5.5)式將n個個體分成slayer個桶;Stpe5隨機地從各桶抽取一個個體,組成一個樣本數(shù)為slayer的樣本;Step6End.算法5-4HSDPA算法命題5.4HSDPA算法的復(fù)雜度為O(n),即為關(guān)于n的線性時間。證明:顯然,HSDPA算法中m,k,ssimp,slayer<<n第1步代價為O(1)第2步代價為O(1)第3步代價為O(1)第4步代價為n第5代價為O(1)所以整個算法的代價為:O(n)即整個算法的復(fù)雜度是關(guān)于n的線性時間。HSDPA算法已被成功應(yīng)用于聚類分析方法中,參見文獻[15]。該文實驗表明,HSPDA算法在聚類質(zhì)量下降很小的情況下,在數(shù)據(jù)集個數(shù)接近10000時,聚類效率比傳統(tǒng)算法提高2個數(shù)量級。命題5.4HSDPA算法的復(fù)雜度為O(n),即為關(guān)于n的5.2.3基于遺傳算法的預(yù)處理方法
遺傳算法是從某一隨機產(chǎn)生的或是特定的初始群體出發(fā)(父本),進行選擇、復(fù)制、交叉、變異等,不斷地進行迭代計算,并根據(jù)每一個個體的適應(yīng)度值,優(yōu)勝劣汰,引導(dǎo)搜索過程向解逼近。遺傳算法的優(yōu)點:它直接對結(jié)構(gòu)對象進行操作,無需函數(shù)可導(dǎo)或連續(xù),具有內(nèi)在的隱并行性和較好的全局尋優(yōu)能力,它以一定的概率進行交叉和變異,采用了概率化的尋優(yōu)方法,能自動獲取搜索過程中的有關(guān)知識并用于指導(dǎo)優(yōu)化,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則。5.2.3基于遺傳算法的預(yù)處理方法
遺傳算法是從某一隨機產(chǎn)生遺傳算法的高效搜索能力可以用來進行數(shù)據(jù)的聚類預(yù)處理,即把一條具有n個屬性的記錄看作是n維空間中的一個點,數(shù)據(jù)庫中的數(shù)據(jù)記錄就成為n維空間中的一組點群,這樣對樣本的聚類問題就轉(zhuǎn)化為對點群的劃分或歸類問題。遺傳算法的高效搜索能力可以用來進行數(shù)據(jù)的聚類預(yù)處理,即把一條在用遺傳算法求解之前,有必要先對問題的解空間進行編碼。以交易數(shù)據(jù)庫為例,經(jīng)過預(yù)處理的目標(biāo)子集,由0,1形成了相應(yīng)的屬性值,所以可采用通常的二進制編碼方法,編碼長度取決于向量的維數(shù),這是一個長度固定的染色體編碼。遺傳算法中,自然選擇過程的模擬通常是采用評估函數(shù)和適應(yīng)度函數(shù)來實現(xiàn)的。在用遺傳算法求解之前,有必要先對問題的解空間進行編碼。以交易評估函數(shù)主要通過染色體優(yōu)劣的絕對值來評估,而適應(yīng)度則用來評估一個染色體相對于整個群體優(yōu)劣的相對值的大小。評估函數(shù)主要通過染色體優(yōu)劣的絕對值來評估,而適應(yīng)度則用來評估通常的遺傳算子主要有選擇、交叉和變異。
其中,選擇算子指按照一定的策略從父代中選出個體進入中間群體;交叉算子指隨機地從群體中抽取兩個個體,并按照某種交叉策略使兩個個體互相交換部分染色體碼串,形成兩個新的個體,可采用兩點交叉或多點交叉策略;變異算子指按一定的概率,改變?nèi)旧w中的某些位的值。數(shù)據(jù)預(yù)處理課件標(biāo)準(zhǔn)遺傳算法的形式化描述為
,SGA是一個八元組SGA=(C,E,P0,M,Φ,Γ,Ψ,T),其中,C為個體的編碼方法,E為個體適應(yīng)度評價函數(shù),P0為初始群體,M為群體規(guī)模,Φ
為選擇算子,Γ為交叉算子,Ψ
為變異算子,T為遺傳算法的終止條件。遺傳算法一般分為兩個階段,首先從初始群體開始,通過選擇生成中間群體,然后在中間群體上進行交叉與變異,以形成下一代的群體。標(biāo)準(zhǔn)遺傳算法的形式化描述為,SGA是一個八元組SGA=(算法5-5基于遺傳算法的特征子集選取算法
輸入:置迭代次數(shù)為0,隨機生成初始群體;輸出:優(yōu)化的特征子集,優(yōu)化的子群體。步驟:
BeginStep1置迭代次數(shù)為0,隨機生成初始群體;Step2IFT終止條件滿足
ThenEnd;Step3計算當(dāng)前群體中各個體的適應(yīng)度;Step4由各個體適應(yīng)度選擇生成中間群體;Step5以概率Pc選擇個體進行交叉,產(chǎn)生的新個體替換老個體,加入到中間群體中;Step6以概率Pm選擇個體對其某一位進行變異,產(chǎn)生新個體替換老個體,并加入到中間群體中;Step7轉(zhuǎn)Step2。End.算法5-5基于遺傳算法的特征子集選取算法5.2.4基于神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理方法
人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,簡稱ANN)是在對大腦的生理研究的基礎(chǔ)上,用模擬生物神經(jīng)元的某些基本功能元件(即人工神經(jīng)元),按各種不同的聯(lián)結(jié)方式組成的一個網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)的學(xué)習(xí)結(jié)果為目標(biāo)函數(shù),根據(jù)這個目標(biāo)函數(shù)的輸出作為分類的依據(jù)。輸入即為文本在各個特征上的各分量值。5.2.4基于神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理方法人工神經(jīng)網(wǎng)絡(luò)(arti神經(jīng)網(wǎng)絡(luò)實際上是一組連接的輸入/輸出單元,其中每一個連接都具有一定的權(quán)值。通過訓(xùn)練集來訓(xùn)練的過程就是調(diào)整這些權(quán)值的過程,使得神經(jīng)網(wǎng)絡(luò)可以正確的預(yù)測類別。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是針對訓(xùn)練例逐個進行的,所以神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集可以隨時添加,不需要重新進行訓(xùn)練就可完成網(wǎng)絡(luò)的調(diào)整。神經(jīng)網(wǎng)絡(luò)實際上是一組連接的輸入/輸出單元,其中每一個連接都具同時有實驗結(jié)果表明,在訓(xùn)練例過少的情況下,神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確率較低。因為可通過訓(xùn)練來針對特征取一定的合適的權(quán)值,神經(jīng)網(wǎng)絡(luò)可以較好地抵御噪音的干擾。
因此有必要建立“白化”機制,用規(guī)則解釋網(wǎng)絡(luò)的權(quán)值矩陣,為決策支持和數(shù)據(jù)挖掘提供說明。同時有實驗結(jié)果表明,在訓(xùn)練例過少的情況下,神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確通常有兩種解決方法:方法一,建立一個基于規(guī)則的系統(tǒng)輔助。神經(jīng)網(wǎng)絡(luò)運行的同時,將其輸入和輸出模式給基于規(guī)則的系統(tǒng),然后用反向關(guān)聯(lián)完成網(wǎng)絡(luò)的推理過程,這種方法把網(wǎng)絡(luò)的運行過程和解釋過程用兩套系統(tǒng)實現(xiàn),開銷大,不夠靈活;方法二,直接從訓(xùn)練好的網(wǎng)絡(luò)中提取(分類)規(guī)則。這是當(dāng)前數(shù)據(jù)挖掘使用得比較多的方法。通常有兩種解決方法:網(wǎng)絡(luò)中的采掘規(guī)則,主要有兩種:網(wǎng)絡(luò)結(jié)構(gòu)分解的規(guī)則提取和由神經(jīng)網(wǎng)絡(luò)的非線性映射關(guān)系提取規(guī)則。其中,網(wǎng)絡(luò)結(jié)構(gòu)分解的規(guī)則提取以神經(jīng)網(wǎng)絡(luò)的隱層結(jié)點和輸出層結(jié)點為研究對象,把整個網(wǎng)絡(luò)分解為許多單層子網(wǎng)的組合。研究較簡單的子網(wǎng),便于從中挖掘知識。網(wǎng)絡(luò)中的采掘規(guī)則,主要有兩種:對于大規(guī)模網(wǎng)絡(luò),在提取規(guī)則前,需要對網(wǎng)絡(luò)結(jié)構(gòu)進行剪枝和刪除冗余結(jié)點等預(yù)處理工作。而由神經(jīng)網(wǎng)絡(luò)的非線性映射關(guān)系提取規(guī)則直接從網(wǎng)絡(luò)輸入和輸出層數(shù)據(jù)入手,不考
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專業(yè)茶青采購協(xié)議范例一
- 個人承包車輛運輸協(xié)議合同模板
- 2025年度新能源儲能技術(shù)研發(fā)與應(yīng)用合作協(xié)議4篇
- 專業(yè)無人機航拍拍攝合同文檔2024版版B版
- 2025年度智能廠區(qū)綜合環(huán)境管理服務(wù)合同4篇
- 個人保險理賠服務(wù)合同(2024版)3篇
- 二零二五年度廠房出租合同附設(shè)備故障應(yīng)急響應(yīng)及維修服務(wù)協(xié)議3篇
- 2025年新型智能化廠房土地購置與使用權(quán)合同4篇
- 2025年新型廠房設(shè)備購置及安裝服務(wù)協(xié)議4篇
- 2025年度二零二五智能家居攤位租賃及智慧城市建設(shè)合同4篇
- 使用錯誤評估報告(可用性工程)模版
- 公司章程(二個股東模板)
- GB/T 19889.7-2005聲學(xué)建筑和建筑構(gòu)件隔聲測量第7部分:樓板撞擊聲隔聲的現(xiàn)場測量
- 世界奧林匹克數(shù)學(xué)競賽6年級試題
- 藥用植物學(xué)-課件
- 文化差異與跨文化交際課件(完整版)
- 國貨彩瞳美妝化消費趨勢洞察報告
- 云南省就業(yè)創(chuàng)業(yè)失業(yè)登記申請表
- UL_標(biāo)準(zhǔn)(1026)家用電器中文版本
- 國網(wǎng)三個項目部標(biāo)準(zhǔn)化手冊(課堂PPT)
- 快速了解陌生行業(yè)的方法論及示例PPT課件
評論
0/150
提交評論