




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 學(xué)術(shù)講座筆記 題 目:基于云計(jì)算的大數(shù)據(jù)挖掘 院 (系): 信息與通信學(xué)院 專(zhuān) 業(yè): 通信工程 學(xué)生姓名: 學(xué) 號(hào): 主 講 人: 史忠植 職 稱(chēng): 研究員 2012年 10 月11日隨著信息技術(shù)的發(fā)展,云計(jì)算和大數(shù)據(jù)成為信息科技最新的亮點(diǎn),云計(jì)算提供數(shù)據(jù)處理和信息共享的平臺(tái),而大數(shù)據(jù)考慮分析算法和系統(tǒng)的效率?;ヂ?lián)網(wǎng)使得信息成為數(shù)據(jù)庫(kù),搜索引擎從海量語(yǔ)料庫(kù)中發(fā)現(xiàn)知識(shí)。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電視網(wǎng)、電信網(wǎng)、數(shù)字家庭等廣泛應(yīng)用與普及,以及生命科學(xué)、天文、地理等領(lǐng)域的發(fā)展,數(shù)據(jù)量將達(dá)到Terabyte、Petabyte、甚至Exabyte級(jí)。如何快速、準(zhǔn)確、實(shí)時(shí)、方便地從如此龐大的、分散的大數(shù)據(jù)中獲
2、取所需要的知識(shí),是當(dāng)前面臨的重要問(wèn)題,是科學(xué)技術(shù)及產(chǎn)業(yè)領(lǐng)域研究的前沿課題之一。1 數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代作為一個(gè)獨(dú)立的應(yīng)用支持一個(gè)或者多個(gè)算法獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普
3、遍存在的計(jì)算模型1.1 第一代數(shù)據(jù)挖掘軟件特點(diǎn): 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法; 挖掘向量數(shù)據(jù)(vector-valued data); 數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理; 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)。缺陷:如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿(mǎn)足需求。新加坡國(guó)立大學(xué)。基于關(guān)聯(lián)規(guī)則的分類(lèi)算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類(lèi)和預(yù)測(cè)。1.2 第二代數(shù)據(jù)挖掘軟件特點(diǎn): 與數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)集成; 支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),和它們具有高性能的接口,具有高的可擴(kuò)展性; 能夠挖
4、掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集; 通過(guò)支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢(xún)語(yǔ)言增加系統(tǒng)的靈活性; 典型的系統(tǒng)如DBMiner,能通過(guò)DMQL挖掘語(yǔ)言進(jìn)行挖掘操作。缺陷:只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開(kāi)發(fā)。1.3 第三代數(shù)據(jù)挖掘軟件特點(diǎn): 和預(yù)言模型系統(tǒng)之間能夠無(wú)縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中; 由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能; 能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù)
5、,并且能夠有效地和操作型系統(tǒng)集成。缺陷:不能支持移動(dòng)環(huán)境。第三代軟件SPSS lementine以PMML的格式提供與預(yù)言模型系統(tǒng)的接口。1.4 第四代數(shù)據(jù)挖掘軟件特點(diǎn): 目前移動(dòng)計(jì)算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域; 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類(lèi)型的數(shù)據(jù)。2 云計(jì)算的特點(diǎn)云計(jì)算具有以下特點(diǎn):(1)服務(wù)器規(guī)模巨大。“云”具有相當(dāng)?shù)囊?guī)模,Google云計(jì)算已經(jīng)擁有上百萬(wàn)臺(tái)服務(wù)器,Amazon、IBM、微軟、Yahoo等的“云”均擁有50多萬(wàn)臺(tái)服務(wù)器。“云”能賦予用戶(hù)超強(qiáng)的計(jì)算能力。(2)資源虛擬化。云計(jì)
6、算支持用戶(hù)在不同地理位置、使用各種終端獲取服務(wù)。所請(qǐng)求的資源,是動(dòng)態(tài)且無(wú)形的。應(yīng)用在“云”中某處運(yùn)行,但實(shí)際上用戶(hù)不必關(guān)系它的具體位置。(3)可靠性較高。為了使用云計(jì)算更可靠,“云”采用了數(shù)據(jù)多副本容錯(cuò)等措施來(lái)保障其高可靠性的服務(wù)。(4)較強(qiáng)的通用性。由于在“云”的支撐下可以構(gòu)造出于變?nèi)f化的應(yīng)用,所以,云計(jì)算針對(duì)的是變化的應(yīng)用,而對(duì)于不同的應(yīng)用運(yùn)行可以由同一個(gè)“云”支撐。(5)可擴(kuò)展性。盡管應(yīng)用和用戶(hù)規(guī)模在不斷的增長(zhǎng)?!霸啤钡囊?guī)模也可以通過(guò)動(dòng)態(tài)伸縮而滿(mǎn)足的這些需要。(6)按需服務(wù)。云可以象自來(lái)水,電,煤氣那樣計(jì)費(fèi),因此,用戶(hù)可以按自已的需要進(jìn)行購(gòu)買(mǎi)。(7)價(jià)格低廉。因?yàn)椤霸啤笨梢杂蓸O其廉價(jià)的節(jié)
7、點(diǎn)來(lái)構(gòu)成,所以“云”無(wú)需負(fù)擔(dān)越來(lái)越高的數(shù)據(jù)中心管理成本。用戶(hù)在享受“云”的低成本優(yōu)勢(shì)的同時(shí)。傳統(tǒng)系統(tǒng)的資源利用率也因?yàn)椤霸啤钡玫搅颂岣摺? 基于云計(jì)算的數(shù)據(jù)挖掘的優(yōu)勢(shì)用云計(jì)算的方式來(lái)處理海量數(shù)據(jù)進(jìn)行挖掘的優(yōu)勢(shì)有以下三個(gè)方面:(1)由于數(shù)據(jù)挖掘處理的數(shù)據(jù)足海量的,要從海量的數(shù)據(jù)中挖掘出理解的知識(shí),大規(guī)模的數(shù)據(jù)挖掘足必須的。并且隨著互聯(lián)網(wǎng)上數(shù)據(jù)的快速增長(zhǎng),數(shù)據(jù)挖掘的任務(wù)遠(yuǎn)比搜索任務(wù)要復(fù)雜,導(dǎo)致了在挖掘過(guò)程中需要有很好的開(kāi)發(fā)環(huán)境和應(yīng)用環(huán)境。這種情況下,基于云計(jì)算的方式是比較合適的。(2)基于云計(jì)算實(shí)現(xiàn)低成本分布式并行計(jì)算環(huán)境,因此,企業(yè)的數(shù)據(jù)處理成本大大的降低,同時(shí)也不再依存于高性能的機(jī)器。(3)基
8、于云計(jì)算的數(shù)據(jù)挖掘開(kāi)發(fā)方便,屏蔽了底層。在并行化條件下。云計(jì)算能夠利用原有設(shè)備提高對(duì)大規(guī)模數(shù)據(jù)的處理能力和速度,既保證了容錯(cuò)性,也增加結(jié)點(diǎn)。4 基于云計(jì)算數(shù)據(jù)挖掘面臨的問(wèn)題和挑戰(zhàn)云計(jì)算技術(shù)雖然已經(jīng)有了很多成功的應(yīng)用。但是其技術(shù)還不成熟。云計(jì)算還處于初級(jí)階段。所以,用云計(jì)算的方式來(lái)處理數(shù)據(jù)挖掘必然還存在很多的問(wèn)題與挑戰(zhàn)。這些問(wèn)題和挑戰(zhàn)主要有:(1)基于云計(jì)算數(shù)據(jù)挖掘算法的并行性存在一些挑戰(zhàn)。用什么樣的算法來(lái)處理目前的數(shù)據(jù)挖掘,這是一個(gè)首要的問(wèn)題并不是所有算法都能夠用云計(jì)算的方式完成目前的任務(wù),我們需要選擇合適的算法。并采取適當(dāng)?shù)牟⑿胁呗?,然后才能提高并行效率。?)不確定性。數(shù)據(jù)挖掘當(dāng)中有很多不
9、確定性,之所以說(shuō)數(shù)據(jù)挖掘,實(shí)際上就是要克服不確定性帶來(lái)的影響。首先數(shù)據(jù)挖掘任務(wù)的描述具有小確定性,數(shù)據(jù)采集和預(yù)處理也是帶有很多的不確定性。(3)數(shù)據(jù)挖掘的方法和結(jié)果具有不確定性。什么樣的方法和結(jié)果是吻合目標(biāo)的?還需要在做數(shù)據(jù)挖掘過(guò)程中,把不確定性確定下來(lái)。(4)挖掘結(jié)果的評(píng)價(jià)也是不確定的。因?yàn)槊恳粋€(gè)用戶(hù)所關(guān)注的最終的挖掘目標(biāo)不一樣,這就導(dǎo)致了對(duì)挖掘結(jié)果的評(píng)價(jià)它也有不確定性。(5)軟件、服務(wù)可信方面的問(wèn)題與挑戰(zhàn)。在云計(jì)算環(huán)境下實(shí)現(xiàn)數(shù)據(jù)挖掘,就導(dǎo)致了數(shù)據(jù)挖掘云服務(wù)軟件的可信性問(wèn)題變得比較突出。首先,是服務(wù)的正確性。其次,足服務(wù)的安全性。再次,是服務(wù)的質(zhì)量。對(duì)于上面的問(wèn)題和挑戰(zhàn),有以下一些對(duì)策:(1
10、)基礎(chǔ)建設(shè)方面,要建設(shè)數(shù)據(jù)挖掘云服務(wù)的平臺(tái)。要根據(jù)個(gè)性化和多樣化而談,在云服務(wù)平臺(tái)上,爭(zhēng)業(yè)人士可以提供服務(wù),大眾和各種組織成為服務(wù)的受益方,而且這個(gè)平臺(tái)要按領(lǐng)域、行業(yè)來(lái)構(gòu)建。(2)數(shù)據(jù)挖掘云服務(wù)要依賴(lài)于虛擬化技術(shù)需要計(jì)算資源,需要自主分配和調(diào)度,虛擬化技術(shù)足數(shù)據(jù)挖掘云服務(wù)技術(shù)的支撐。(3)需求方面,對(duì)個(gè)性化、多樣化需求,需要大眾參與,有了大眾的參與個(gè)性化和多樣化的需求就能夠更好的得到滿(mǎn)足。(4)可信性方面。算法要通用,要可查,可調(diào),可視。(5)安全方面,隱私數(shù)據(jù)可以加密來(lái)保護(hù),可以有一些安全措施。史忠植:中國(guó)人工智能領(lǐng)域的開(kāi)拓者,長(zhǎng)期從事計(jì)算機(jī)科學(xué)和智能科學(xué)領(lǐng)域的研究工作。主持完成了多項(xiàng)國(guó)家重點(diǎn)科技攻關(guān)、國(guó)家973、國(guó)家863、國(guó)家自然科學(xué)基金重點(diǎn)等項(xiàng)目,發(fā)表著作14部、學(xué)術(shù)論文450多篇。曾獲國(guó)家科技進(jìn)步二等獎(jiǎng)、中國(guó)科學(xué)院科技進(jìn)步二等獎(jiǎng)、中國(guó)科學(xué)院科技進(jìn)步特等獎(jiǎng)。擔(dān)任世界科技出版社智能科學(xué)系列叢書(shū)(Series on Intelligence Science)主編,Informatics、International Journal of Computational Intelligenc
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)計(jì)質(zhì)量提升管理制度
- 診所義診項(xiàng)目管理制度
- 診所日常器械管理制度
- 試驗(yàn)檢修設(shè)備管理制度
- 財(cái)務(wù)管理稅務(wù)管理制度
- 財(cái)政往來(lái)資金管理制度
- 貨場(chǎng)出庫(kù)日常管理制度
- 貨物進(jìn)出登記管理制度
- 貨運(yùn)碼頭現(xiàn)場(chǎng)管理制度
- 2025年中國(guó)防窺膜行業(yè)市場(chǎng)全景分析及前景機(jī)遇研判報(bào)告
- 蘇州市吳江區(qū)2021-2022蘇教版五年級(jí)數(shù)學(xué)下冊(cè)期末試卷真題
- 《紅樓夢(mèng)》PPT課件(優(yōu)秀)
- 新高考英語(yǔ)讀后續(xù)寫(xiě)——故事編寫(xiě)思路
- “363生態(tài)課堂”模式及流程
- (高清版)建筑工程風(fēng)洞試驗(yàn)方法標(biāo)準(zhǔn)JGJ_T 338-2014
- 鋼構(gòu)車(chē)棚施工組織方案
- HP彩色激光打印機(jī)節(jié)能證書(shū)
- 最新煙葉儲(chǔ)存保管方法標(biāo)準(zhǔn)
- 《丹江城區(qū)普通住宅小區(qū)物業(yè)服務(wù)收費(fèi)管理辦法》
- CYD-128(環(huán)氧樹(shù)脂)MSDS
- 3船舶操作手冊(cè)
評(píng)論
0/150
提交評(píng)論