




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)應(yīng)用一、關(guān)鍵詞和摘要關(guān)鍵詞:統(tǒng)計(jì)學(xué) 數(shù)據(jù)挖掘 知識(shí)發(fā)現(xiàn)摘要:1、數(shù)據(jù)挖掘與統(tǒng)計(jì)應(yīng)用之間關(guān)系統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有很多共同點(diǎn),但與此同時(shí)它們也有很多差異。本文討論了兩門學(xué)科的性質(zhì),重點(diǎn)論述它們的異同。數(shù)據(jù)挖掘,顧名思義就是從大量的數(shù)據(jù)中挖掘出有用的信息。DM(數(shù)據(jù)挖掘)是揭示存在于數(shù)據(jù)里的模式及數(shù)據(jù)間的關(guān)系的學(xué)科,它強(qiáng)調(diào)對(duì)大量觀測(cè)到的數(shù)據(jù)庫(kù)的處理。它是涉及數(shù)據(jù)庫(kù)管理,人工智能,機(jī)器學(xué)習(xí),模式識(shí)別,及數(shù)據(jù)可視化等學(xué)科的邊緣學(xué)科。用統(tǒng)計(jì)的觀點(diǎn)看,它可以看成是通過計(jì)算機(jī)對(duì)大量的復(fù)雜數(shù)據(jù)集的自動(dòng)探索性分析。目前對(duì)該學(xué)科的作用盡管有點(diǎn)夸大其詞,但該領(lǐng)域?qū)ι虡I(yè),工業(yè),及科學(xué)研究都有極大的影響,且
2、提供了大量的為促使新方法的發(fā)展而進(jìn)行的研究工作。盡管數(shù)據(jù)挖掘和統(tǒng)計(jì)分析之間有明顯的聯(lián)系,但迄今為止大部分的數(shù)據(jù)挖掘方法都不是產(chǎn)生于統(tǒng)計(jì)學(xué)科。這篇文章對(duì)這一現(xiàn)象作了一些解釋,并說明了為什么統(tǒng)計(jì)學(xué)家應(yīng)該關(guān)注數(shù)據(jù)挖掘。統(tǒng)計(jì)學(xué)可能會(huì)對(duì)數(shù)據(jù)挖掘產(chǎn)生很大影響,但這可能要求統(tǒng)計(jì)學(xué)家們改變他們的一些基本思路及操作原則。2、數(shù)據(jù)挖掘的發(fā)展前景隨著計(jì)算機(jī)應(yīng)用的越來越廣泛,每年都要積累大量的數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘技術(shù)在這些數(shù)據(jù)當(dāng)中我們可以找出“金子”來。數(shù)據(jù)挖掘技術(shù)主要又分成“關(guān)聯(lián)規(guī)則”,“時(shí)間序列”“聚集”,“分類”,“估值”等這幾類. 據(jù)國(guó)外專家預(yù)測(cè),在今后的510年內(nèi),隨著數(shù)據(jù)量的日益積累以及計(jì)算機(jī)的廣泛應(yīng)用,數(shù)
3、據(jù)挖掘?qū)⒃谥袊?guó)形成一個(gè)產(chǎn)業(yè)。2000年7月IDC發(fā)布了關(guān)于信息存取工具市場(chǎng)的報(bào)告,其中估計(jì)1999年的數(shù)據(jù)挖掘的市場(chǎng)大概是7.5億美元,估計(jì)在下個(gè)5年內(nèi)市場(chǎng)的年增長(zhǎng)率(Compound Annual Growth Rate)為32.4%,其中亞太地區(qū)為26.6%,并且預(yù)測(cè)此市場(chǎng)在2002年時(shí)會(huì)達(dá)到22億美元。二、簡(jiǎn)介數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)有著共同目標(biāo),但分析方法和性質(zhì)不同統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。事實(shí)上,由于它們的目標(biāo)相似,一些人(尤其是統(tǒng)計(jì)學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的分支。這是一個(gè)不切合實(shí)際的看法。因?yàn)閿?shù)據(jù)挖掘還應(yīng)用了其它領(lǐng)域的思想、工具和方法,尤其是計(jì)算機(jī)學(xué)科,例如數(shù)據(jù)庫(kù)
4、技術(shù)和機(jī)器學(xué)習(xí),而且它所關(guān)注的某些領(lǐng)域和統(tǒng)計(jì)學(xué)家所關(guān)注的有很大不同。 統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘研究目標(biāo)的重迭自然導(dǎo)致了迷惑。事實(shí)上,有時(shí)候還導(dǎo)致了反感。統(tǒng)計(jì)學(xué)有著正統(tǒng)的理論基礎(chǔ)(尤其是經(jīng)過本世紀(jì)的發(fā)展),而現(xiàn)在又出現(xiàn)了一個(gè)新的學(xué)科,有新的主人,而且聲稱要解決統(tǒng)計(jì)學(xué)家們以前認(rèn)為是他們領(lǐng)域的問題。這必然會(huì)引起關(guān)注。更多的是因?yàn)檫@門新學(xué)科有著一個(gè)吸引人的名字,勢(shì)必會(huì)引發(fā)大家的興趣和好奇。把“數(shù)據(jù)挖掘”這個(gè)術(shù)語(yǔ)所潛在的承諾和“統(tǒng)計(jì)學(xué)”作比較的話,統(tǒng)計(jì)的最初含義是“陳述事實(shí)”,以及找出枯燥的大量數(shù)據(jù)背后的有意義的信息。當(dāng)然,統(tǒng)計(jì)學(xué)的現(xiàn)代的含義已經(jīng)有很大不同的事實(shí)。而且,這門新學(xué)科同商業(yè)有特殊的關(guān)聯(lián)(盡管它還有科
5、學(xué)及其它方面的應(yīng)用)。 本文的目的是逐個(gè)考察這兩門學(xué)科的性質(zhì),區(qū)分它們的異同,并關(guān)注與數(shù)據(jù)挖掘相關(guān)聯(lián)的一些難題。首先,我們注意到“數(shù)據(jù)挖掘”對(duì)統(tǒng)計(jì)學(xué)家來說并不陌生。例如,Everitt定義它為:“僅僅是考察大量的數(shù)據(jù)驅(qū)動(dòng)的模型,從中發(fā)現(xiàn)最適合的”。統(tǒng)計(jì)學(xué)家因而會(huì)忽略對(duì)數(shù)據(jù)進(jìn)行特別的分析,因?yàn)樗麄冎捞?xì)致的研究卻難以發(fā)現(xiàn)明顯的結(jié)構(gòu)。盡管如此,事實(shí)上大量的數(shù)據(jù)可能包含不可預(yù)測(cè)的但很有價(jià)值的結(jié)構(gòu)。而這恰恰引起了注意,也是當(dāng)前數(shù)據(jù)挖掘的任務(wù)。三、統(tǒng)計(jì)學(xué)的性質(zhì)統(tǒng)計(jì)學(xué)決不是數(shù)學(xué)的分支,而是一門獨(dú)立學(xué)科試圖為統(tǒng)計(jì)學(xué)下一個(gè)太寬泛的定義是沒有意義的。盡管可能做到,但會(huì)引來很多異議。相反,我要關(guān)注統(tǒng)計(jì)學(xué)不同于數(shù)
6、據(jù)挖掘的特性。統(tǒng)計(jì)學(xué)決不是數(shù)學(xué)的分支,而是一門獨(dú)立學(xué)科統(tǒng)計(jì)學(xué)是一門比較保守的學(xué)科,目前有一種趨勢(shì)是越來越精確。當(dāng)然,這本身并不是壞事,只有越精確才能避免錯(cuò)誤,發(fā)現(xiàn)真理。但是如果過度的話則是有害的。這個(gè)保守的觀點(diǎn)源于統(tǒng)計(jì)學(xué)是數(shù)學(xué)的分支這樣一個(gè)看法,我是不同意這個(gè)觀點(diǎn)的.管統(tǒng)計(jì)學(xué)確實(shí)以數(shù)學(xué)為基礎(chǔ)(正如物理和工程也以數(shù)學(xué)為基礎(chǔ),但沒有被認(rèn)為是數(shù)學(xué)的分支),但它同其它學(xué)科還有緊密的聯(lián)系。數(shù)學(xué)背景和追求精確加強(qiáng)了這樣一個(gè)趨勢(shì):在采用一個(gè)方法之前先要證明,而不是象計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)那樣注重經(jīng)驗(yàn)。這就意味著有時(shí)候和統(tǒng)計(jì)學(xué)家關(guān)注同一問題的其它領(lǐng)域的研究者提出一個(gè)很明顯有用的方法,但它卻不能被證明(或還不能被
7、證明)。統(tǒng)計(jì)雜志傾向于發(fā)表經(jīng)過數(shù)學(xué)證明的方法而不是一些特殊方法。數(shù)據(jù)挖掘作為幾門學(xué)科的綜合,已經(jīng)從機(jī)器學(xué)習(xí)那里繼承了實(shí)驗(yàn)的態(tài)度。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是說明如果方法不能產(chǎn)生結(jié)果的話就會(huì)被放棄。統(tǒng)計(jì)分析是以樣本推斷總體,而數(shù)據(jù)挖掘使用的往往是總體數(shù)據(jù)正是統(tǒng)計(jì)文獻(xiàn)顯示了(或夸大了)統(tǒng)計(jì)的數(shù)學(xué)精確性。同時(shí)還顯示了其對(duì)推理的側(cè)重。盡管統(tǒng)計(jì)學(xué)的一些分支也側(cè)重于描述,但是瀏覽一下統(tǒng)計(jì)論文的話就會(huì)發(fā)現(xiàn)這些文獻(xiàn)的核心問題就是在觀察了樣本的情況下如何去推斷總體。當(dāng)然這也常常是數(shù)據(jù)挖掘所關(guān)注的。下面我們會(huì)提到數(shù)據(jù)挖掘的一個(gè)特定屬性就是要處理的是一個(gè)大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常
8、常得到的只是一個(gè)樣本,但是需要描述樣本取自的那個(gè)大數(shù)據(jù)集。然而,數(shù)據(jù)挖掘問題常常可以得到數(shù)據(jù)總體,例如關(guān)于一個(gè)公司的所有職工數(shù)據(jù),數(shù)據(jù)庫(kù)中的所有客戶資料,去年的所有業(yè)務(wù)。在這種情形下,推斷就沒有價(jià)值了(例如,年度業(yè)務(wù)的平均值),因?yàn)橛^測(cè)到的值也 就是估計(jì)參數(shù)。這就意味著,建立的統(tǒng)計(jì)模型可能會(huì)利用一系列概率表述(例如,一些參數(shù)接近于0,則會(huì)從模型中剔除掉),但當(dāng)總體數(shù)據(jù)可以獲得的話,在數(shù)據(jù)挖掘中則變得毫無意義。在這里,我們可以很方便的應(yīng)用評(píng)估函數(shù):針對(duì)數(shù)據(jù)的足夠的表述。事實(shí)是,常常所關(guān)注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發(fā)現(xiàn)很容易。例如,在尋找規(guī)則時(shí)常常會(huì)利用吻合度的單純
9、特性( 例如,應(yīng)用分支定理)。但當(dāng)我們應(yīng)用概率陳述時(shí)則不會(huì)得到這些特性。統(tǒng)計(jì)應(yīng)用和數(shù)據(jù)挖掘中模型的差別統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘部分交迭的第三個(gè)特性是在現(xiàn)代統(tǒng)計(jì)學(xué)中起核心作用的“模型” ?;蛟S“模型”這個(gè)術(shù)語(yǔ)更多的含義是變化。一方面,統(tǒng)計(jì)學(xué)模型是基于分析變量間的聯(lián)系,但另一方面這些模型關(guān)于數(shù)據(jù)的總體描述確實(shí)沒有道理的。關(guān)于信用卡業(yè)務(wù)的回歸模型可能會(huì)把收入作為一個(gè)獨(dú)立的變量,因?yàn)橐话阏J(rèn)為高收入會(huì)導(dǎo)致大的業(yè)務(wù)。這可能是一個(gè)理論模型(盡管基于一個(gè)不牢靠的理論)。與此相反,只需在一些可能具有解釋意義的變量基礎(chǔ)上進(jìn)行逐步的搜索,從而獲得一個(gè)有很大預(yù)測(cè)價(jià)值的模型,盡管不能作出合理的解釋。(通過數(shù)據(jù)挖掘去發(fā)現(xiàn)一個(gè)模型
10、的時(shí)候,常常關(guān)注的就是后者)。 還有其它方法可以區(qū)分統(tǒng)計(jì)模型,但在這里我將不作探討。這里我想關(guān)注的是,現(xiàn)代統(tǒng)計(jì)學(xué)是以模型為主的。而計(jì)算,模型選擇條件是次要的,只是如何建立一個(gè)好的模型。但在數(shù)據(jù)挖掘中,卻不完全是如此。在數(shù)據(jù)挖掘中,準(zhǔn)則起了核心的作用。(當(dāng)然在統(tǒng)計(jì)學(xué)中有一些以準(zhǔn)則為中心的獨(dú)立的特例。數(shù)據(jù)挖掘接觸到的大量數(shù)據(jù)中的偶然因素可以使統(tǒng)計(jì)方法失效很多情況下,數(shù)據(jù)挖掘的本質(zhì)是很偶然的發(fā)現(xiàn)非預(yù)期但很有價(jià)值的信息。這說明數(shù)據(jù)挖掘過程本質(zhì)上是實(shí)驗(yàn)性的。這和確定性的分析是不同的。(實(shí)際上,一個(gè)人是不能完全確定一個(gè)理論的,只能提供證據(jù)和不確定的證據(jù)。)確定性分析著眼于最適合的模型建立一個(gè)推薦模型,這個(gè)
11、模型也許不能很好的解釋觀測(cè)到的數(shù)據(jù)。很多,或許是大部分統(tǒng)計(jì)分析提出的是確定性的分析。然而,實(shí)驗(yàn)性的數(shù)據(jù)分析對(duì)于統(tǒng)計(jì)學(xué)并不是新生事務(wù),或許這是統(tǒng)計(jì)學(xué)家應(yīng)該考慮作為統(tǒng)計(jì)學(xué)的另一個(gè)基石,而這已經(jīng)是數(shù)據(jù)挖掘的基石。所有這些都是正確的,但事實(shí)上,數(shù)據(jù)挖掘所遇到的數(shù) 據(jù)集按統(tǒng)計(jì)標(biāo)準(zhǔn)來看都是巨大的。在這種情況下,統(tǒng)計(jì)工具可能會(huì)失效:百萬個(gè)偶然因素可能就會(huì)使其失效。統(tǒng)計(jì)分析之前需要準(zhǔn)備大量數(shù)據(jù),以期得到確定的目的;數(shù)據(jù)挖掘往往已有數(shù)據(jù)庫(kù),而目的也是不確定的如果數(shù)據(jù)挖掘的主要目的是發(fā)現(xiàn),那它就不關(guān)心統(tǒng)計(jì)學(xué)領(lǐng)域中的在回答一個(gè)特定的問題之前,如何很好的搜集數(shù)據(jù),例如實(shí)驗(yàn)設(shè)計(jì)和調(diào)查設(shè)計(jì)。數(shù)據(jù)挖掘本質(zhì)上假想數(shù)據(jù)已經(jīng)被搜
12、集好,關(guān)注的只是如何發(fā)現(xiàn)其中的秘密。從數(shù)據(jù)學(xué)習(xí)的想法已經(jīng)提出很長(zhǎng)時(shí)間了。但在忽然之間人們對(duì)數(shù)據(jù)挖掘的興趣卻變得如此強(qiáng)烈,這是為什么呢?主要原因是近來它與數(shù)據(jù)庫(kù)管理領(lǐng)域有了聯(lián)系。數(shù)據(jù),特別大量的數(shù)據(jù)保存在數(shù)據(jù)庫(kù)管理系統(tǒng)中。傳統(tǒng)的DBMS集中于在線轉(zhuǎn)換過程(OLTP n-line transaction processing);也就是數(shù)據(jù)組織的目的是存儲(chǔ)并快速恢復(fù)單個(gè)記錄。它們過去常用來記錄庫(kù)存,薪水表記錄,帳單記錄,發(fā)貨記錄,等等。最近,數(shù)據(jù)庫(kù)管理界對(duì)將數(shù)據(jù)庫(kù)管理系統(tǒng)用于決策支持越來越感興趣。四、數(shù)據(jù)挖掘的性質(zhì)什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的定義非常模糊,對(duì)它的定義取決于定義者的觀點(diǎn)和背景。如下是一些
13、DM文獻(xiàn)中的定義: 數(shù)據(jù)挖掘是一個(gè)確定數(shù)據(jù)中有效的,新的,可能有用的并且最終能被理解的模式的重要過程。-Fayyad.數(shù)據(jù)挖掘是一個(gè)從大型數(shù)據(jù)庫(kù)中提取以前未知的,可理解的,可執(zhí)行的信息并用它來進(jìn)行關(guān)鍵的商業(yè)決策的過程。-Zekulin. 數(shù)據(jù)挖掘是用在知識(shí)發(fā)現(xiàn)過程,來辯識(shí)存在于數(shù)據(jù)中的未知關(guān)系和模式的一些方法 。-Ferruzza 數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。-Jonn 數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個(gè)決策支持過程。 -Parsaye 雖然數(shù)據(jù)挖掘的這些定義有點(diǎn)不可觸摸,但在目前它已經(jīng)成為一種商業(yè)事業(yè)。如同在過去的歷次淘金熱中一樣,目標(biāo)是開發(fā)礦工。利潤(rùn)最大的是賣
14、工具給礦工,而不是干實(shí)際的開發(fā)。數(shù)據(jù)挖掘這個(gè)概念被用作一種裝備來出售計(jì)算機(jī)硬件和軟件。硬件制造商強(qiáng)調(diào)數(shù)據(jù)挖掘需要高的計(jì)算能力。必須存儲(chǔ),快速讀寫非常大的數(shù)據(jù)庫(kù),并將密集的計(jì)算方法用于這些數(shù)據(jù)。這需要大容量的磁盤空間,快速的內(nèi)置大量RAM的計(jì)算機(jī)。數(shù)據(jù)挖掘?yàn)檫@些硬件打開了新的市場(chǎng)。軟件提供者強(qiáng)調(diào)競(jìng)爭(zhēng)優(yōu)勢(shì)。你的對(duì)手使用它,你最好得跟上。同時(shí)強(qiáng)調(diào)它將增加 傳統(tǒng)的數(shù)據(jù)庫(kù)的價(jià)值。許多組織在處理存貨,帳單,會(huì)計(jì)的數(shù)據(jù)庫(kù)方面有大量的業(yè)務(wù)。這些數(shù)據(jù)庫(kù)的創(chuàng)建和維護(hù)都耗資巨大?,F(xiàn)在只需要將相對(duì)少的投資用于數(shù)據(jù)挖掘工具,就可以發(fā)現(xiàn)隱藏在這些數(shù)據(jù)中的具有極高利潤(rùn)的信息金塊。當(dāng)前數(shù)據(jù)挖掘產(chǎn)品的特點(diǎn): -迷人的圖形用戶界
15、面 .數(shù)據(jù)庫(kù)(查尋語(yǔ)言) .一套數(shù)據(jù)分析過程 -窗口形式的界面 .靈活方便的輸入 -點(diǎn)擊式按鍵-輸入對(duì)話框 -利用圖表分析 -復(fù)雜的圖形輸出 -大量數(shù)據(jù)圖 -靈活的圖形解釋 -樹,網(wǎng)絡(luò),飛行模擬 - 結(jié)果方便的處理。 這些軟件包對(duì)決策者來說就象數(shù)據(jù)挖掘?qū)<摇?數(shù)據(jù)挖掘和計(jì)算機(jī)科學(xué)的聯(lián)系當(dāng)前對(duì)數(shù)據(jù)挖掘的興趣在學(xué)術(shù)界引發(fā)了一些議題。數(shù)據(jù)挖掘作為一種商業(yè)事業(yè)看上去很可行,但它是否能被定為一種智能訓(xùn)練。當(dāng)然它和計(jì)算機(jī)科學(xué)有極重要的聯(lián)系。這些包括: .集聚體(ROLAP)的高效計(jì)算 .快速的立體(X * X)查尋 .為提高在線查尋的速度的線下預(yù)查尋 .在線查尋的并行計(jì)算 .將DBMS方法轉(zhuǎn)化為數(shù)據(jù)挖掘算
16、法。 .基于磁盤而不是RAM的實(shí)現(xiàn) .基本數(shù)據(jù)挖掘算法的并行實(shí)現(xiàn) 從統(tǒng)計(jì)數(shù)據(jù)分析的眼光我們可以問數(shù)據(jù)挖掘方法是否是智能訓(xùn)練。到目前為止,仍可以說它是,也可以說不是。數(shù)據(jù)挖掘包中廣為人知的程序來自機(jī)器學(xué)習(xí),模式識(shí)別,神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)可視化領(lǐng)域。它們強(qiáng)調(diào)看和感覺和感官性的存在。這樣看上去并不是在意具體的表現(xiàn),而是要迅速占領(lǐng)市場(chǎng)。在這個(gè)領(lǐng)域中目前大部分的研究集中在改進(jìn)當(dāng)前的機(jī)器學(xué)習(xí)方法和加速已存在的算法。然而,在將來數(shù)據(jù)挖掘幾乎可以肯定地說是一種智能訓(xùn)練。當(dāng)一種技術(shù)的效率提高了十倍,人們總要認(rèn)真地重新考慮怎樣應(yīng)用它。想一想人類從走到飛的歷史進(jìn)程,每一次提高都大約是以前的十倍,并且每一次量的提高都重新改
17、變了我們隊(duì)如何使 用交通工具的想法。Chuck Dickens(前SLAC的計(jì)算指導(dǎo))曾說到:每次計(jì)算機(jī)的能力提高十倍,我們都應(yīng)該從總體上重新思考一下我們應(yīng)該怎樣算,算什么的問題。一個(gè)相應(yīng)的說法可能是每次數(shù)據(jù)量增加十倍,我們就應(yīng)該從總體上重新考慮一下怎樣分析它。從當(dāng)前幾乎大多數(shù)使用的數(shù)據(jù)挖掘工具發(fā)明的那一段時(shí)間到現(xiàn)在,計(jì)算機(jī)的處理能力和數(shù)據(jù)量都增加了好幾個(gè)數(shù)量級(jí)。新的數(shù)據(jù)挖掘方法在將來一定會(huì)更智能更有學(xué)術(shù)性(商業(yè)性)。我們過去曾給予數(shù)據(jù)挖掘方法智能的生命力,但統(tǒng)計(jì)學(xué)作為一個(gè)學(xué)科是否應(yīng)該關(guān)心它的發(fā)展。統(tǒng)計(jì)科學(xué)中萌芽,但隨后絕大部分又被統(tǒng)計(jì)學(xué)忽略的方法領(lǐng)域數(shù)據(jù)挖掘是否也會(huì)如此?在統(tǒng)計(jì)學(xué)的歷史上就忽
18、略了許多在其它數(shù)據(jù)處理相關(guān)領(lǐng)域發(fā)展的新方法。如下是一些相關(guān)領(lǐng)域的例子。其中帶*的是那些在統(tǒng)計(jì)科學(xué)中萌芽,但隨后絕大部分又被統(tǒng)計(jì)學(xué)忽略的方法領(lǐng)域。 1 模式識(shí)別*-CS/工程 2 數(shù)據(jù)庫(kù)管理-CS/圖書館科學(xué) 3 神經(jīng)網(wǎng)絡(luò)*-心理學(xué)/CS/工程 4 機(jī)器學(xué)習(xí)*-CS/AI 5 圖形模型*(Beyes 網(wǎng))-CS/AI 6 遺傳工程-CS/工程 7 化學(xué)統(tǒng)計(jì)學(xué)*-化學(xué) 8 數(shù)據(jù)可視化*-CS/科學(xué)計(jì)算 可以肯定地說,個(gè)別的統(tǒng)計(jì)學(xué)家已經(jīng)致力于這些領(lǐng)域,但公平地說他們并未被我們的統(tǒng)計(jì)學(xué)領(lǐng)域擁抱(或者說熱情地?fù)肀В?。五?討論對(duì)數(shù)據(jù)挖掘的認(rèn)識(shí)的誤區(qū)數(shù)據(jù)挖掘有時(shí)候是一次性的實(shí)驗(yàn)。這是一個(gè)誤解。它更應(yīng)該被看
19、作是一個(gè)不斷的過程(盡管數(shù)據(jù)集時(shí)確定的)。從一個(gè)角度檢查數(shù)據(jù)可以解釋結(jié)果,以相關(guān)的觀點(diǎn)檢查可能會(huì)更接近等等。關(guān)鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。數(shù)據(jù)挖掘的本質(zhì)是發(fā)現(xiàn)非預(yù)期的模式同樣非預(yù)期的模式要以非預(yù)期的方法來發(fā)現(xiàn)。 與把數(shù)據(jù)挖掘作為一個(gè)過程的觀點(diǎn)相關(guān)聯(lián)的是認(rèn)識(shí)到結(jié)果的新穎性。許多數(shù)據(jù)挖掘的結(jié)果是我們所期望的可以回顧。然而,可以解釋這個(gè)事實(shí)并不能否定挖掘出它們的價(jià)值。沒有這些實(shí)驗(yàn),可能根本不會(huì)想到這些。實(shí)際上,只有那些可以依據(jù)過去經(jīng)驗(yàn)形成的合理的解釋的結(jié)構(gòu)才會(huì)是有價(jià)值的。 顯然在數(shù)據(jù)挖掘存在著一個(gè)潛在的機(jī)會(huì)。在大數(shù)據(jù)集中發(fā)現(xiàn)模式的可能性當(dāng)然存在,大數(shù)據(jù)集的數(shù)量與日俱增。然而
20、,也不應(yīng)就此掩蓋危險(xiǎn)。所有真正的數(shù)據(jù)集(即使那些是以完全自動(dòng)方式搜集的數(shù)據(jù))都有產(chǎn)生錯(cuò)誤的可能。關(guān)于人的數(shù)據(jù)集(例如事務(wù)和行為數(shù)據(jù))尤其有這種可能。這很好的解釋了絕大部分在數(shù)據(jù)中發(fā)現(xiàn)的“非預(yù)期的結(jié)構(gòu)”本質(zhì)上是無意義的,而是因?yàn)槠x了理想的過程。(當(dāng)然,這樣的結(jié)構(gòu)可能會(huì)是有意義的:如果數(shù)據(jù)有問題,可能會(huì)干擾搜集數(shù)據(jù)的目的,最好還是了解它們)。與此相關(guān)聯(lián)的是如何確保(和至少為事實(shí)提供支持)任何所觀察到的模式是“真實(shí)的”,它們反應(yīng)了一些潛在的結(jié)構(gòu)和關(guān)聯(lián)而不僅僅是一個(gè)特殊的數(shù)據(jù)集,由于一個(gè)隨機(jī)的樣本碰巧發(fā)生。在這里,記分方法可能是相關(guān)的,但需要更多的統(tǒng)計(jì)學(xué)家和數(shù)據(jù)挖掘工作者的研究。 數(shù)據(jù)挖掘與統(tǒng)計(jì)應(yīng)用
21、的前景也許,現(xiàn)在的統(tǒng)計(jì)學(xué)正處在一個(gè)十字路口,我們可以決定是接受還是拒絕改變。如上所說,兩種觀點(diǎn)都極富說服力。雖然觀點(diǎn)豐富,但誰也不能肯定哪一種戰(zhàn)略能保持我們領(lǐng)域的健康發(fā)展和生命力。大多數(shù)統(tǒng)計(jì)學(xué)家好象認(rèn)為統(tǒng)計(jì)學(xué)對(duì)信息科學(xué)的影響越來越小。它們也不太同意為此作些什么。站主導(dǎo)的觀點(diǎn)認(rèn)為我們有市場(chǎng)問題,我們?cè)趧e的領(lǐng)域的顧客和同事不了解我們的價(jià)值和重要性。中國(guó)的數(shù)據(jù)挖掘相對(duì)與統(tǒng)計(jì)學(xué)的發(fā)展,起步更晚,但發(fā)展更快,以spss的數(shù)據(jù)挖掘軟件clementine的銷售為例,中國(guó)目前的銷量以經(jīng)以較快的速度在增長(zhǎng)了.愿中國(guó)的統(tǒng)計(jì)應(yīng)用能先于經(jīng)濟(jì)發(fā)展與世界接軌!附:1.目前數(shù)據(jù)挖掘的主要軟件目前硬件和軟件供應(yīng)者的目的是在市場(chǎng)還未飽和前通過迅速推出數(shù)據(jù)挖掘產(chǎn)品為數(shù)據(jù)挖掘作廣告。如果一個(gè)公司為數(shù)據(jù)挖掘包投資了五萬至十萬美元,這也可能只是實(shí)驗(yàn),人們?cè)谛庐a(chǎn)品未被證實(shí)比舊產(chǎn)品具有很大優(yōu)勢(shì)之前是不會(huì)貿(mào)然購(gòu)買的。以下是一些當(dāng)前的數(shù)據(jù)挖掘產(chǎn)品: IBM: Intelligent Miner '智能礦工' Tandem: 'relational Data Miner' '關(guān)系數(shù)據(jù)礦工' AngossSoftware: 'KnowledgeSEEDER' 知識(shí)搜索者 Thinking Machines Corporation: 'DarwinTM
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年六年級(jí)下學(xué)期數(shù)學(xué)三 《反比例》教案
- 2025年婚前協(xié)議書正確模板
- 人教版八年級(jí)上冊(cè) 歷史與社會(huì) 教學(xué)設(shè)計(jì) 1.2中華早期國(guó)家與社會(huì)變革
- (高清版)DB45∕T 566-2020 汽車旅游營(yíng)地星級(jí)劃分
- 2025年衡水健康科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)審定版
- 2025年河南工業(yè)貿(mào)易職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)1套
- 期中綜合練習(xí)-三年級(jí)數(shù)學(xué)下冊(cè)(含答案)北師大版
- 2024年多媒體電腦超聲診斷儀項(xiàng)目資金籌措計(jì)劃書代可行性研究報(bào)告
- 2025年黑龍江省伊春市單招職業(yè)傾向性測(cè)試題庫(kù)1套
- 語(yǔ)文-四川省金太陽(yáng)2025屆高三2月開學(xué)考試試題和答案
- 【道 法】學(xué)會(huì)自我保護(hù)+課件-2024-2025學(xué)年統(tǒng)編版道德與法治七年級(jí)下冊(cè)
- 2025屆高考英語(yǔ)讀后續(xù)寫提分技巧+講義
- 買房協(xié)議書樣板電子版
- 河南航空港發(fā)展投資集團(tuán)有限公司2025年社會(huì)招聘題庫(kù)
- 綿陽(yáng)市高中2022級(jí)(2025屆)高三第二次診斷性考試(二診)語(yǔ)文試卷(含答案)
- 常州初三強(qiáng)基數(shù)學(xué)試卷
- 《吞咽障礙膳食營(yíng)養(yǎng)管理規(guī)范》(T-CNSS 013-2021)
- 《經(jīng)濟(jì)學(xué)的研究方法》課件
- 2024年青海省中考生物地理合卷試題(含答案解析)
- 2019譯林版高中英語(yǔ)全七冊(cè)單詞總表
- 2024年中鐵集裝箱運(yùn)輸有限責(zé)任公司招聘筆試參考題庫(kù)附帶答案詳解
評(píng)論
0/150
提交評(píng)論