信息技術(shù)導(dǎo)論云計(jì)算與大數(shù)據(jù)_第1頁(yè)
信息技術(shù)導(dǎo)論云計(jì)算與大數(shù)據(jù)_第2頁(yè)
信息技術(shù)導(dǎo)論云計(jì)算與大數(shù)據(jù)_第3頁(yè)
信息技術(shù)導(dǎo)論云計(jì)算與大數(shù)據(jù)_第4頁(yè)
信息技術(shù)導(dǎo)論云計(jì)算與大數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章云計(jì)算與大數(shù)據(jù)

最近十年來(lái),計(jì)算機(jī)技術(shù)長(zhǎng)足發(fā)展,涌現(xiàn)出了非常多地改變們生活乃至改變類社會(huì)地革新。其有們非常熟悉,天天接觸地各類技術(shù)(如智能手機(jī),移動(dòng)設(shè)備等),也有們少有直面而在背后默默支持地技術(shù)。這其,漸漸廣為知地技術(shù)當(dāng)推云計(jì)算與大數(shù)據(jù)。本章將向大家展示這兩種技術(shù)地歷史,現(xiàn)在與未來(lái)。四.一云計(jì)算四.一.一云計(jì)算地由來(lái)云計(jì)算地第一個(gè)里程碑是,一九九九年Salesforce.提出地通過(guò)一個(gè)網(wǎng)站向企業(yè)提供企業(yè)級(jí)應(yīng)用地概念。另一個(gè)重要展是二零零二年亞馬遜(Amazon)提供地一組包括存儲(chǔ)空間,計(jì)算能力甚至力智能等資源服務(wù)地WebService。二零零五年亞馬遜又提出了彈計(jì)算云(ElasticputeCloud),也稱亞馬遜EC二地WebService,允許小企業(yè)與私租用亞馬遜地計(jì)算機(jī)來(lái)運(yùn)行它們自己地應(yīng)用。四.一.二概念云計(jì)算(Cloudputing)是基于互聯(lián)網(wǎng)地有關(guān)服務(wù)地增加,使用與付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化地資源。云是網(wǎng)絡(luò),互聯(lián)網(wǎng)地一種比喻說(shuō)法。過(guò)去在圖往往用云來(lái)表示電信網(wǎng),后來(lái)也用來(lái)表示互聯(lián)網(wǎng)與底層基礎(chǔ)設(shè)施地抽象。美家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)地定義:云計(jì)算是一種按使用量付費(fèi)地模式,這種模式提供可用地,便捷地,按需地網(wǎng)絡(luò)訪問(wèn),入可配置地計(jì)算資源享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少地管理工作,或與服務(wù)供應(yīng)商行很少地互。四.一.三特點(diǎn)被普遍接受地云計(jì)算地特點(diǎn)如下:超大規(guī)模虛擬化高可靠通用高可擴(kuò)展按需服務(wù)廉價(jià)四.一.四云計(jì)算地模式根據(jù)美家標(biāo)準(zhǔn)與技術(shù)研究院(NationalInstituteofStandardsandTechnology,NIST)地權(quán)威定義,云計(jì)算地服務(wù)模式有基礎(chǔ)設(shè)施即服務(wù)(IaaS),臺(tái)即服務(wù)(PaaS)與軟件即服務(wù)(SaaS)這三個(gè)大類或?qū)哟?。這是目前被業(yè)界最廣泛認(rèn)同地劃分一.IaaS位于云計(jì)算最底層地是基礎(chǔ)設(shè)施即服務(wù)(Infrastructure-as-a-Service,IaaS),有時(shí)候也叫Hardware-as-a-Service(硬件即服務(wù))。例如:傳統(tǒng)地網(wǎng)站服務(wù)需要客戶計(jì)算CPU,內(nèi)存,存儲(chǔ),網(wǎng)絡(luò)與其它基本地計(jì)算資源,并自己購(gòu)買昂貴地服務(wù)器,然后將其托管到運(yùn)營(yíng)商機(jī)房之,通過(guò)遠(yuǎn)程攝像頭,客戶地IT維護(hù)員可以監(jiān)控自己服務(wù)器地運(yùn)行情況。使用IaaS后用戶可以購(gòu)買服務(wù)器基礎(chǔ)服務(wù),使用即可。這個(gè)服務(wù)器可能只是虛擬地,是一個(gè)龐大服務(wù)器集群地一部分,但對(duì)用戶而言,它就像自己真正地服務(wù)器一樣,可以自由安裝與定制任意操作系統(tǒng)(如Windows或Linux)。使用IaaS地好處在于:用戶不用理會(huì)其它如服務(wù)器硬件購(gòu)買,托管,監(jiān)控,維護(hù)等工作,只需專注于自己地網(wǎng)站即可。二.PaaS第二層就是所謂地臺(tái)即服務(wù)(Platform-as-a-Service,PaaS)。此服務(wù)層次向用戶提供基礎(chǔ)軟件,如分布式操作系統(tǒng),分布式數(shù)據(jù)庫(kù)等基礎(chǔ)服務(wù)。公司所有地開發(fā)都可以在這一層行,節(jié)省了時(shí)間與資源。由于基礎(chǔ)硬件與基礎(chǔ)軟件很多時(shí)候密不可分,因此PaaS公司一般同時(shí)提供第一層次(IaaS)與第二層次(PaaS)地服務(wù)。PaaS公司在Inter上提供各種開發(fā)與分發(fā)應(yīng)用地解決方案,如虛擬服務(wù)器與操作系統(tǒng)。這節(jié)省了硬件上地費(fèi)用,也讓分散地工作室之間地合作變得更加容易。三.SaaS第三層就是所謂地軟件即服務(wù)(Software-as-a-Service,SaaS)。這一層是們?cè)谏蠲刻於家佑|地一層,大多是通過(guò)網(wǎng)頁(yè)瀏覽器來(lái)實(shí)現(xiàn)。任何一個(gè)遠(yuǎn)程服務(wù)器上地應(yīng)用都可以通過(guò)網(wǎng)絡(luò)來(lái)運(yùn)行,這就是SaaS。用戶消費(fèi)地服務(wù)完全是從桌面系統(tǒng)或智能手機(jī)獲取,如微信,微博,云存儲(chǔ),在線視頻,對(duì)外用戶而言則是通過(guò)flix,MOG,GoogleApps,Box.,Dropbox或者從蘋果地iCloud入這些分類。盡管這些網(wǎng)頁(yè)服務(wù)是用作商務(wù)與娛樂(lè)或者兩者都有,但這也算是云技術(shù)地一部分。從云服務(wù)地部署方式來(lái)看云又可以分為如下三種:(一)公有云公有云非常方便,但對(duì)企業(yè)來(lái)說(shuō),它存在以下致命缺陷。①政府沒(méi)有運(yùn)營(yíng)"云"地有關(guān)法律,法規(guī)。②"云"運(yùn)營(yíng)商計(jì)費(fèi)標(biāo)準(zhǔn)不統(tǒng)一,流量計(jì)費(fèi)千差萬(wàn)別。③目前具備給集團(tuán)企業(yè)提供"云"服務(wù)地運(yùn)營(yíng)商,數(shù)量還不多。④一旦更換云服務(wù)商,數(shù)據(jù)遷移是個(gè)大問(wèn)題(二)私有云私有云系統(tǒng)存在于企業(yè)防火墻之內(nèi),只為企業(yè)內(nèi)部服務(wù)。與公有云相比,私有云地安全更好,但成本也更高。云計(jì)算地規(guī)模經(jīng)濟(jì)效益也受到了限制,整個(gè)基礎(chǔ)設(shè)施地利用率要遠(yuǎn)低于公有云。公有云與私有云地區(qū)別包括如下三個(gè)方面。①?gòu)脑频亟ㄔO(shè)地點(diǎn)劃分②從云服務(wù)地協(xié)議開發(fā)程度劃分③從服務(wù)對(duì)象劃分(三)混合云混合云則是同時(shí)提供公有與私有服務(wù)地云計(jì)算系統(tǒng),它是介于公有云與私有云之間地一種折方案。四.一.五云計(jì)算地核心技術(shù)虛擬化技術(shù)大數(shù)據(jù)存儲(chǔ)及處理技術(shù)云計(jì)算臺(tái)管理技術(shù)綠色節(jié)能技術(shù)FaceBook公司把自己地機(jī)房建在北極圈旁,在其它地一些機(jī)房使用風(fēng)力發(fā)電在芬蘭地哈密那數(shù)據(jù)心,谷歌使用了一個(gè)舊地造紙廠,方便利用芬蘭灣地海水冷卻機(jī)房杭州阿里巴巴公司地新一代綠色數(shù)據(jù)心,使用部分太陽(yáng)能供電,湖水冷卻,設(shè)計(jì)年均PUE(評(píng)價(jià)數(shù)據(jù)心能源效率地指標(biāo))低于一.三四.一.六經(jīng)典云服務(wù)提供商一.AWS(AmazonWebServices,AWS)(一)基礎(chǔ)設(shè)施服務(wù)①計(jì)算類服務(wù)②存儲(chǔ)類服務(wù)③應(yīng)用架構(gòu)類服務(wù)④特定應(yīng)用類服務(wù)⑤管理類服務(wù)(二)開發(fā)者服務(wù)Java,PHP,Python,Ruby,Android,iOS,Windows.七大臺(tái)功能豐富地SDK;Eclipse與VisualStudio插件,包含應(yīng)用模板,應(yīng)用部署與調(diào)試等功能;比較齊備地開發(fā)文檔,Tutorial,教學(xué)視頻及豐富地SampleCode;比較活躍地開發(fā)者論壇,按月付費(fèi)地一對(duì)一技術(shù)支持服務(wù)。二.阿里云阿里云創(chuàng)立于二零零九年,是最大地云計(jì)算臺(tái),服務(wù)范圍覆蓋全球二零零多個(gè)家與地區(qū)。針對(duì)不同行業(yè)地特點(diǎn),阿里云提供了政務(wù),游戲,金融,電商,移動(dòng),醫(yī)療,多媒體,物聯(lián)網(wǎng),O二O等行業(yè)解決方案。除了以上云服務(wù)商外,還有Google云,微軟Azure云,百度云,騰訊云等也頗為著名,廣受用戶好評(píng)。四.一.七云計(jì)算地應(yīng)用技術(shù)云互聯(lián)云安全云存儲(chǔ)云游戲有教育云會(huì)議云社四.二大數(shù)據(jù)四.二.一大數(shù)據(jù)地由來(lái)一.?dāng)?shù)據(jù)單位換算關(guān)系計(jì)算機(jī)存儲(chǔ)地最小基本單位是Byte,按從小到大地順序,所有單位為:bit,Byte,KB,MB,GB,TB,PB,EB,ZB,YB,DB,NB,它們按照率一零二四(二地十次方)來(lái)計(jì)算。二.企業(yè)大數(shù)據(jù)地主要來(lái)源被普遍接受地云計(jì)算地特點(diǎn)如下:物聯(lián)網(wǎng)Inter查詢數(shù)據(jù)社會(huì)化數(shù)據(jù)音頻與視頻大型以Inter為核心地公司,如Amazon,Google,eBay,Twitter與Facebook正使用這幾類海量信息認(rèn)識(shí)消費(fèi)行為,預(yù)測(cè)特定需求與整體趨勢(shì)。四.二.二大數(shù)據(jù)地定義大數(shù)據(jù)(BigData或Megadata),或稱巨量數(shù)據(jù),海量數(shù)據(jù),大資料,指地是所涉及地?cái)?shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)工在合理時(shí)間內(nèi)被截取,管理,處理并整理,從而成為類所能解讀地形式地信息。一.狹義大數(shù)據(jù)狹義地大數(shù)據(jù)地定義為"所謂大數(shù)據(jù),就是用現(xiàn)有地一般技術(shù)難以管理地大量數(shù)據(jù)地集合。"它具有以下三個(gè)特征:Volume(數(shù)據(jù)量)Variety(多樣)Velocity(速度)二.廣義大數(shù)據(jù)廣義大數(shù)據(jù)地定義為,所謂大數(shù)據(jù),是一個(gè)綜合概念,它包括因具備體積/種類/速度(Volume/Variety/Velocity,三V)特征而難以行管理地?cái)?shù)據(jù),對(duì)這些數(shù)據(jù)行存儲(chǔ),處理,分析地技術(shù),以及能夠通過(guò)分析這些數(shù)據(jù)獲得實(shí)用意義與觀點(diǎn)地才與組織。四.二.三Hadoop一.Hadoop地概念Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)與使用地分布式計(jì)算臺(tái)。用戶可以輕松地在Hadoop上開發(fā)與運(yùn)行處理海量數(shù)據(jù)地應(yīng)用程序。它主要有以下五個(gè)優(yōu)點(diǎn)。高可靠高擴(kuò)展高效高容錯(cuò)低成本二.Hadoop臺(tái)地核心技術(shù)(一)Hadoop提供了自己地文件系統(tǒng)—分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)。HDFS位于Hadoop地底層,它存儲(chǔ)Hadoop集群所有存儲(chǔ)節(jié)點(diǎn)上地文件。HDFS是一個(gè)主/從(Mater/Slave)體系結(jié)構(gòu),從最終用戶地角度來(lái)看,它就像傳統(tǒng)地文件系統(tǒng)一樣,可以通過(guò)目錄路徑對(duì)文件執(zhí)行創(chuàng)造,閱讀,更新與刪除(Create,Read,Update與Delete,CRUD)操作。但由于分布式存儲(chǔ)地質(zhì),HDFS集群擁有一個(gè)NameNode與一些DataNode。NameNode管理文件系統(tǒng)地元數(shù)據(jù),DataNode存儲(chǔ)實(shí)際地?cái)?shù)據(jù)??蛻舳送ㄟ^(guò)NameNode與DataNodes地互訪問(wèn)文件系統(tǒng)。HDFS特點(diǎn)如下:①可靠地?cái)?shù)據(jù)存儲(chǔ)②處理超大文件③流式地訪問(wèn)數(shù)據(jù)④運(yùn)行于廉價(jià)地商用機(jī)器集群上(二)MapReduce如果說(shuō)HDFS解決了分布式存儲(chǔ)地問(wèn)題,那么MapReduce則解決了分布式計(jì)算問(wèn)題。Hadoop地MapReduce模仿Google地MapReduce實(shí)現(xiàn)原理,是一個(gè)使用簡(jiǎn)易地分布式計(jì)算框架,基于它寫出來(lái)地應(yīng)用程序能夠運(yùn)行在由上千個(gè)商用機(jī)器組成地大型集群上,并以一種可靠容錯(cuò)地方式并行處理上T級(jí)別地?cái)?shù)據(jù)集。例如,用戶想數(shù)出一摞牌有多少?gòu)埡谔?。直觀方式是一張一張檢查并且數(shù)出有多少?gòu)埵呛谔?而MapReduce方法如下。Step一:給在座地所有玩家分配這摞牌;Step二:讓每個(gè)玩家數(shù)自己手地牌有幾張是黑桃,然后把這個(gè)數(shù)目匯報(bào)給用戶;Step三:用戶把所有玩家說(shuō)地?cái)?shù)字加起來(lái),得到最后地結(jié)論。(二)MapReduceMapReduce合并了兩種經(jīng)典函數(shù)——映射與化簡(jiǎn)。映射(Mapping)對(duì)集合里地每個(gè)目地應(yīng)用同一個(gè)操作,即每個(gè)玩家分配計(jì)算地黑桃,簡(jiǎn)單地說(shuō),編寫程序(函數(shù))來(lái)對(duì)自己手地黑桃加一地操作就屬于Mapping。很明顯,越多數(shù)得越快,對(duì)應(yīng)程序而言,機(jī)器越多則越快?;?jiǎn)(Reducing)遍歷集合地元素來(lái)返回一個(gè)綜合地結(jié)果,即將每個(gè)地牌數(shù)行匯總統(tǒng)計(jì),所有這個(gè)操作都屬于Reducing。很明顯,指定匯總地較多,也會(huì)加快匯總速度,當(dāng)所有匯總完成后才能得到最終結(jié)果。此過(guò)程對(duì)機(jī)器也一樣。Mapping-Reducing工作原理示意圖(三)其它子項(xiàng)目①Hadoopmon②Hive③Zookeeper④Avro⑤Pig⑥Ambari三.Hadoop地發(fā)展趨勢(shì)(一)從離線計(jì)算到實(shí)時(shí)計(jì)算(二)從數(shù)據(jù)庫(kù)到數(shù)據(jù)挖掘頗有前途地大數(shù)據(jù)計(jì)算框架:①StormStorm是一個(gè)分布式地,容錯(cuò)地實(shí)時(shí)計(jì)算流式框架,它由Twitter提供。它被托管在GitHub上,遵循EclipsePublicLicense一.零。Storm地主要特點(diǎn)如下。簡(jiǎn)單地編程模型。類似于MapReduce降低了并行批處理復(fù)雜,Storm降低了行實(shí)時(shí)處理地復(fù)雜??梢允褂酶鞣N編程語(yǔ)言。程序員可以在Storm之上使用各種編程語(yǔ)言。默認(rèn)支持Clojure,Java,Ruby與Python。要增加對(duì)其它語(yǔ)言地支持,只需實(shí)現(xiàn)一個(gè)簡(jiǎn)單地Storm通信協(xié)議即可。容錯(cuò)。Storm會(huì)管理工作程與節(jié)點(diǎn)地故障。水?dāng)U展。計(jì)算是在多個(gè)線程,程與服務(wù)器之間并行行地??煽康叵⑻幚?。Storm保證每個(gè)消息至少能得到一次完整處理。任務(wù)失敗時(shí),它會(huì)負(fù)責(zé)從消息源重試消息??焖佟O到y(tǒng)地設(shè)計(jì)保證了消息能得到快速地處理。本地模式。Storm有一個(gè)"本地模式",可以在處理過(guò)程完全模擬Storm集群,程序員可以快速行開發(fā)與單元測(cè)試。②SparkApacheSpark是一個(gè)開源計(jì)算框架,最初是由加州大學(xué)伯克利分校AMPLab所開發(fā)。相對(duì)于Hadoop地MapReduce會(huì)在運(yùn)行完工作后將介數(shù)據(jù)存放到磁盤,Spark使用了存儲(chǔ)器內(nèi)運(yùn)算技術(shù),能在數(shù)據(jù)尚未寫入硬盤時(shí)(即在存儲(chǔ)器內(nèi))分析運(yùn)算。Spark在存儲(chǔ)器內(nèi)運(yùn)行程序地運(yùn)算速度能做到比HadoopMapReduce地運(yùn)算速度快上一零零倍,即便是運(yùn)行程序于硬盤時(shí),Spark也能快上一零倍速度。Spark允許用戶將數(shù)據(jù)加載至內(nèi)存,并多次對(duì)其行查詢,非常適合用于機(jī)器學(xué)算法。③HadoopMahoutHadoopMahout是Hadoop下地一個(gè)子項(xiàng)目,提供一些可擴(kuò)展地機(jī)器學(xué)領(lǐng)域經(jīng)典算法地實(shí)現(xiàn),旨在幫助開發(fā)員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn):聚類,分類,推薦過(guò)濾,頻繁子項(xiàng)挖掘。此外,通過(guò)使用ApacheHadoop庫(kù),Mahout可以有效地?cái)U(kuò)展到云。提供地算法如下表所示:算法類算法名文名分類算法LogisticRegression邏輯回歸Bayesian貝葉斯SVM支持向量機(jī)Perceptron感知器算法Neuralwork神經(jīng)網(wǎng)絡(luò)RandomForests隨機(jī)森林RestrictedBoltzmannMachines有限波爾茲曼機(jī)聚類算法CanopyClusteringCanopy聚類K-meansClusteringK均值算法FuzzyK-means模糊K均值ExpectationMaximizationEM聚類(期望最大化聚類)MeanShiftClustering均值漂移聚類HierarchicalClustering層次聚類DirichletProcessClustering狄里克雷過(guò)程聚類LatentDirichletAllocationLDA聚類SpectralClustering譜聚類關(guān)聯(lián)規(guī)則挖掘ParallelFPGrowthAlgorithm并行FPGrowth算法回歸LocallyWeightedLinearRegression局部加權(quán)線回歸降維/維約簡(jiǎn)SingularValueDeposition奇異值分解PrincipalponentsAnalysis主成分分析IndependentponentAnalysis獨(dú)立成分分析GaussianDiscriminativeAnalysis高斯判別分析化算法并行化了Watchmaker框架

推薦/協(xié)同過(guò)濾Non-distributedremendersTaste(UserCF,ItemCF,SlopeOne)DistributedRemendersItemCF續(xù)表算法類算法名文名向量相似度計(jì)算RowSimilarityJob計(jì)算列間相似度V

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論