單元1 -認(rèn)識大數(shù)據(jù)_第1頁
單元1 -認(rèn)識大數(shù)據(jù)_第2頁
單元1 -認(rèn)識大數(shù)據(jù)_第3頁
單元1 -認(rèn)識大數(shù)據(jù)_第4頁
單元1 -認(rèn)識大數(shù)據(jù)_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《大數(shù)據(jù)平臺運(yùn)維》課程介紹《大數(shù)據(jù)平臺運(yùn)維》課程整體介紹開設(shè)學(xué)期:大二上學(xué)期,專業(yè)核心課,64課時(shí),4學(xué)分課程主要內(nèi)容:大數(shù)據(jù)概述、Hadoop偽分布式、完全分布式部署與運(yùn)維,HDFS實(shí)現(xiàn)分布式存儲(chǔ)、MapReduce分布式計(jì)算框架應(yīng)用,Hadoop生態(tài)圈組件HBase、Hive、Spark、Flink等平臺部署與運(yùn)維相關(guān)內(nèi)容。課程教學(xué)目標(biāo):知識目標(biāo):掌握Hadoop(HDFS+MapReduce)、HBase、Hive、Spark、Flink等大數(shù)據(jù)平臺的部署和運(yùn)行維護(hù)方法。能力目標(biāo):具備分布式大數(shù)據(jù)平臺的部署能力;具備大數(shù)據(jù)平臺基礎(chǔ)運(yùn)維能力;具備大數(shù)據(jù)集群的運(yùn)行問題排查和解決的能力。素質(zhì)目標(biāo):具備良好的溝通和團(tuán)隊(duì)合作能力;具備分析與解決問題的能力;具備嚴(yán)謹(jǐn)認(rèn)真、精益求精的工匠精神、吃苦耐勞的勞動(dòng)精神?!洞髷?shù)據(jù)平臺運(yùn)維》本課程在人才培養(yǎng)方案的地位在人才培養(yǎng)方案中,本課程具有承上啟下的作用:《大數(shù)據(jù)平臺部署與運(yùn)維》課程整體介紹考核辦法:過程性考核60%+期末考試40%考核模塊考核內(nèi)容考核形式成績比例實(shí)施策略過程性考核(60%)日??记谡n堂考勤10%突出學(xué)生的課堂表現(xiàn)和職業(yè)習(xí)慣,學(xué)生的每一次課堂突出表現(xiàn)都是其作為考核加分的機(jī)會(huì),這有助于活躍課堂氣氛,激發(fā)學(xué)生的學(xué)習(xí)熱情和主動(dòng)性。課堂表現(xiàn)學(xué)習(xí)的積極主動(dòng)性、認(rèn)真程度、團(tuán)隊(duì)協(xié)作和解決問題的能力、專業(yè)學(xué)習(xí)研究能力、綜合應(yīng)用本課程專業(yè)知識能力20%階段性實(shí)驗(yàn)任務(wù)的完成情況平時(shí)上機(jī)實(shí)驗(yàn)表現(xiàn)和實(shí)驗(yàn)報(bào)告的完成情況30%突出學(xué)生學(xué)習(xí)的過程性和階段性的評價(jià),注重學(xué)生實(shí)際動(dòng)手實(shí)踐能力和解決問題能力的評價(jià),有效防止評價(jià)片面性。終結(jié)性考核(40%)本課程專業(yè)理論知識百分制考卷40%本課程知識的紙質(zhì)綜合性考核評價(jià)《大數(shù)據(jù)平臺部署與運(yùn)維》單元1大數(shù)據(jù)簡介任務(wù)1.1認(rèn)識大數(shù)據(jù)任務(wù)描述任務(wù)場景:中國古人有“結(jié)繩記事”“刻痕記數(shù)”,遠(yuǎn)古時(shí)代人們需要準(zhǔn)備石頭、樹木記載相應(yīng)的數(shù)據(jù);在公元前8000年至公元前3500年間,兩河流域有蘇美爾人的計(jì)數(shù)泥板,此時(shí)需要準(zhǔn)備泥版;而后出現(xiàn)了紙張,出現(xiàn)了文檔;信息時(shí)代有了電子表格、數(shù)據(jù)庫,各類存儲(chǔ)介質(zhì)大顯身手。當(dāng)今,在我們使用電商軟件購買商品的時(shí)候,你是否曾經(jīng)思考過,為什么每次自己瀏覽過的商品,就會(huì)出現(xiàn)在首頁推薦或者其他應(yīng)用軟件的廣告中呢?當(dāng)我們在電商軟件上瀏覽商品時(shí),軟件后臺會(huì)收集你的瀏覽記錄,包括用戶賬號、商品類別等信息。此刻,如果你是技術(shù)人員,你會(huì)如何將瀏覽數(shù)據(jù)存放起來?在傳統(tǒng)開發(fā)思維中很多人會(huì)選擇:關(guān)系型數(shù)據(jù)庫。但是一天幾百、幾千億的商品瀏覽數(shù)據(jù),主機(jī)需要多大的磁盤才能完成數(shù)據(jù)留存?關(guān)系型數(shù)據(jù)庫能處理這么多數(shù)據(jù)嗎?如何實(shí)時(shí)高效分析出用戶的瀏覽偏好?又如何實(shí)時(shí)反饋給用戶呢?本課程中我們將跟隨國內(nèi)某大型IT企業(yè)大數(shù)據(jù)服務(wù)部技術(shù)經(jīng)理和技術(shù)人員一起探索解決大數(shù)據(jù)平臺部署和運(yùn)維相關(guān)知識。讓我們打開思維,融入大數(shù)據(jù)時(shí)代!任務(wù)描述學(xué)習(xí)內(nèi)容:(1)知大數(shù)據(jù)的概念和特點(diǎn);(2)大數(shù)據(jù)的發(fā)展背景;(3)大數(shù)據(jù)技術(shù)發(fā)展歷程;(4)大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀;(5)大數(shù)據(jù)人才需求與崗位介紹;任務(wù)布置:本單元主要任務(wù)是對大數(shù)據(jù)及大數(shù)據(jù)技術(shù)有初步的了解,理解大數(shù)據(jù)的概念、大數(shù)據(jù)的發(fā)展歷程、大數(shù)據(jù)常用組件和大數(shù)據(jù)的應(yīng)用場景,樹立明確的學(xué)習(xí)目標(biāo),保持良好的學(xué)習(xí)態(tài)度,培養(yǎng)學(xué)生良好的職業(yè)定位和職業(yè)規(guī)劃能力,為后續(xù)更好的開展大數(shù)據(jù)技術(shù)學(xué)習(xí)和從事相關(guān)工作任務(wù)打下基礎(chǔ)。認(rèn)識大數(shù)據(jù)知識點(diǎn)1大數(shù)據(jù)的概念近幾年來,隨著互聯(lián)網(wǎng)及移動(dòng)互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和普及應(yīng)用,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長,大數(shù)據(jù)時(shí)代已經(jīng)來臨?。。∠旅嫖覀冇^察這么一組單位:?1970s:超大規(guī)模數(shù)據(jù)庫(VLDB)【GB=10^9字節(jié)】?21世紀(jì)初:海量數(shù)據(jù)(MassiveData)【TB=10^12字節(jié)】?2008年:Bigdata【PB=10^15字節(jié)】?現(xiàn)在實(shí)際的數(shù)據(jù)量已經(jīng)達(dá)到:ZB=10^3EB=10^6PB=10^21字節(jié)?新單位:1YB=10^3ZB=10^24字節(jié)?YB之后的單位:按順序BB、NB、DB【谷歌搜索】:Google搜索引擎包含30到500億個(gè)網(wǎng)頁。根據(jù)WebAlmanac所提供的信息,假設(shè)谷歌的年度平均頁面大小約為2.15MB,截至2021年,Google搜索引擎的數(shù)據(jù)總規(guī)模應(yīng)約為62PB?!拘吕宋⒉?020年微博第二季度月活躍用戶數(shù)達(dá)到5.23億,同比增長3700萬用戶,其中移動(dòng)端活躍用戶占月活躍用戶的94%。日活躍用戶達(dá)到2.29億,同比增加1800萬。每天微博數(shù)超過2500萬。每秒生成785條微博。知識點(diǎn)1:大數(shù)據(jù)的概念【大數(shù)據(jù)的概念-(維基百科)】一系列大規(guī)模、高復(fù)雜度的數(shù)據(jù)集合,它的規(guī)模和復(fù)雜程度已經(jīng)無法通過現(xiàn)有的數(shù)據(jù)庫管理工具或是傳統(tǒng)的數(shù)據(jù)處理應(yīng)用在合理的時(shí)間內(nèi)對其進(jìn)行獲取、管理、存儲(chǔ)、檢索、分享、傳輸、分析和可視化?!究破罩袊看髷?shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)?!敬髷?shù)據(jù)技術(shù)-(IDC)】大數(shù)據(jù)技術(shù)作為新一代技術(shù)和體系架構(gòu),將能夠利用較低的成本,通過高速捕獲,發(fā)現(xiàn)并對超大量、眾多類型的數(shù)據(jù)進(jìn)行分析,以獲得信息的價(jià)值。知識點(diǎn)1:大數(shù)據(jù)的概念大數(shù)據(jù)特點(diǎn)“4V”:知識點(diǎn)1:大數(shù)據(jù)的概念BigData格式多樣來源多樣

價(jià)值密度低據(jù)IDC預(yù)測:2025年全球數(shù)據(jù)總量將達(dá)到175ZB;中國產(chǎn)生的數(shù)據(jù)總量將達(dá)48.6ZB(澤字節(jié),簡稱ZB,1澤字節(jié)約等于10萬億億字節(jié)),占全球的27.8%;淘寶目前每天的活躍數(shù)據(jù)量已經(jīng)超過50TB,;每天超過6000萬人次訪問;每天大約要處理幾億次的用戶行為;結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化文本/音頻/圖片/視頻微博/郵件/機(jī)器日志/金融記錄/短信/通話/醫(yī)療設(shè)備/物聯(lián)網(wǎng)設(shè)備/傳感器/移動(dòng)設(shè)備-沙里淘金-為了發(fā)現(xiàn)金子,要保存全部沙子速度快響應(yīng)速度快增長速度快-1秒鐘-18個(gè)月數(shù)據(jù)量大計(jì)算量大GB->TB->PB->EB->ZB認(rèn)識大數(shù)據(jù)知識點(diǎn)2大數(shù)據(jù)的發(fā)展背景知識點(diǎn)2:大數(shù)據(jù)的發(fā)展背景大(巨)型機(jī)時(shí)代個(gè)人電腦時(shí)代互聯(lián)網(wǎng)時(shí)代云計(jì)算與大數(shù)據(jù)時(shí)代1945-19801980-19951995-20102010-計(jì)算模式發(fā)展過程中的四個(gè)時(shí)代:知識點(diǎn)2:大數(shù)據(jù)的發(fā)展背景大型機(jī)時(shí)代(1945-1980)大型計(jì)算機(jī)(巨型機(jī)) 起源于上世紀(jì)50年代。是一種超大型電子計(jì)算機(jī),具有很強(qiáng)的計(jì)算和數(shù)據(jù)處理能力。優(yōu)點(diǎn):高性能、大容量,配有多種外圍設(shè)備及豐富、高效的軟件系統(tǒng)。應(yīng)用尖端領(lǐng)域:國防,天氣預(yù)報(bào),宇宙研究等。缺點(diǎn):體積大、成本高、功耗大,需要投入大量的人力、物力和資金。知識點(diǎn)2:大數(shù)據(jù)的發(fā)展背景世界上第一臺計(jì)算機(jī):ENIAC第一臺電子計(jì)算機(jī)終于在1946年2月14日問世由17468個(gè)電子管、6萬個(gè)電阻器、1萬個(gè)電容器和6千個(gè)開關(guān)組成,重達(dá)30噸,占地160平方米,耗電174千瓦,耗資45萬美元。這臺計(jì)算機(jī)每秒只能運(yùn)行5千次加法運(yùn)算,僅相當(dāng)于一個(gè)電子數(shù)字積分計(jì)算機(jī)(ENIAC即"埃尼阿克")知識點(diǎn)2:大數(shù)據(jù)的發(fā)展背景個(gè)人電腦時(shí)代(1980-1995)優(yōu)點(diǎn):成本低、功耗低,功能全,應(yīng)用軟件豐富。PC具備良好的人機(jī)交互界面,簡單易用,對計(jì)算機(jī)技術(shù)的普及,發(fā)揮了巨大的推動(dòng)作用。缺點(diǎn):性能較差知識點(diǎn)2:大數(shù)據(jù)的發(fā)展背景互聯(lián)網(wǎng)時(shí)代(1995-2010)1992年2月美國總統(tǒng)克林頓發(fā)表的國情咨文中提出:計(jì)劃用20年時(shí)間,耗資2000~4000億美元,建設(shè)美國國家信息基礎(chǔ)結(jié)構(gòu)(NII),作為美國發(fā)展政策的重點(diǎn)和產(chǎn)業(yè)發(fā)展的基礎(chǔ),即建設(shè)信息高速公路?;ヂ?lián)網(wǎng)時(shí)代到來。知識點(diǎn)2:大數(shù)據(jù)的發(fā)展背景云計(jì)算、大數(shù)據(jù)、人工智能時(shí)代(2010-至今)最早提出“大數(shù)據(jù)”時(shí)代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。云計(jì)算設(shè)施為海量數(shù)據(jù)的存儲(chǔ)和計(jì)算提供基礎(chǔ)資源。同時(shí),大數(shù)據(jù)為人工智能的飛速發(fā)展提供數(shù)據(jù)支撐。2012年3月,我國科技部發(fā)布的“十二五國家科技計(jì)劃信息技術(shù)領(lǐng)域2013年度備選項(xiàng)目征集指南”把大數(shù)據(jù)研究列在首位。中國分別舉辦了第一屆(2011年)和第二屆(2012年)“大數(shù)據(jù)世界論壇”。IT時(shí)代周刊等舉辦了“大數(shù)據(jù)2012論壇”,中國計(jì)算機(jī)學(xué)會(huì)舉辦了“CNCC2012大數(shù)據(jù)論壇”。國家科技部,863計(jì)劃信息技術(shù)領(lǐng)域2015年備選項(xiàng)目包括超級計(jì)算機(jī)、大數(shù)據(jù)、云計(jì)算、信息安全、第五代移動(dòng)通信系統(tǒng)(5G)等。2015年8月31日,國務(wù)院正式印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》。為貫徹落實(shí)《中華人民共和國國民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要》和《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,加快實(shí)施國家大數(shù)據(jù)戰(zhàn)略,推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)健康快速發(fā)展,2017年國家工信部編制了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》;2017年十九大報(bào)告中提出要推動(dòng)大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)深度融合。知識點(diǎn)2:大數(shù)據(jù)的發(fā)展背景2020年在《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》中,大數(shù)據(jù)被正式列為新型生產(chǎn)要素。

2021《“十四五”發(fā)展規(guī)劃》中,提出完善大數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)。

2021年6月,我國正式發(fā)布《中華人民共和國數(shù)據(jù)安全法》,于2021年9月1日起正式施行?!稊?shù)據(jù)安全法》作為數(shù)據(jù)領(lǐng)域的基礎(chǔ)性法律,聚焦數(shù)據(jù)安全領(lǐng)域的風(fēng)險(xiǎn)隱患,確立了數(shù)據(jù)分類分級管理、數(shù)據(jù)安全審查、數(shù)據(jù)安全風(fēng)險(xiǎn)評估、監(jiān)測預(yù)警和應(yīng)急處置等基本制度,提升國家數(shù)據(jù)安全保障能力。

知識點(diǎn)2:大數(shù)據(jù)的發(fā)展背景認(rèn)識大數(shù)據(jù)知識點(diǎn)3大數(shù)據(jù)技術(shù)的發(fā)展歷程知識點(diǎn)3:大數(shù)據(jù)技術(shù)的發(fā)展歷程

Hadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù),如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop。

Hadoop最初是由ApacheLucene項(xiàng)目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。Hadoop源自于2002年的ApacheNutch項(xiàng)目——一個(gè)開源的網(wǎng)絡(luò)搜索引擎并且也是Lucene項(xiàng)目的一部分。在2004年,Nutch項(xiàng)目也模仿GFS開發(fā)了自己的分布式文件系統(tǒng)NDFS(NutchDistributedFileSystem),也就是HDFS的前身

2004年,谷歌公司又發(fā)表了另一篇具有深遠(yuǎn)影響的論文,闡述了MapReduce分布式編程思想

2005年,Nutch開源實(shí)現(xiàn)了谷歌的MapReduce。知識點(diǎn)3:大數(shù)據(jù)技術(shù)的發(fā)展歷程

大數(shù)據(jù)技術(shù)的體系龐大且復(fù)雜,基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布式存儲(chǔ)、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)、并行計(jì)算、可視化等各種技術(shù)范疇和不同的技術(shù)層面,例如:文件存儲(chǔ):HadoopHDFS、Tachyon、KFS離線計(jì)算:HadoopMapReduce、Spark流式、實(shí)時(shí)計(jì)算:Storm、SparkStreaming、S4、HeronK-V、NOSQL數(shù)據(jù)庫:HBase、Redis、MongoDB資源管理:YARN、Mesos日志收集:Flume、Scribe、Logstash、Kibana消息系統(tǒng):Kafka、StormMQ、ZeroMQ、RabbitMQ分布式協(xié)調(diào)服務(wù):Zookeeper集群管理與監(jiān)控:Ambari、Ganglia、Nagios、ClouderaManager數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí):Mahout、SparkMLLib數(shù)據(jù)同步:Sqoop任務(wù)調(diào)度:Oozie查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid知識點(diǎn)3:大數(shù)據(jù)技術(shù)的發(fā)展歷程Hadoop生態(tài)圈及其核心組件知識點(diǎn)3:大數(shù)據(jù)技術(shù)的發(fā)展歷程時(shí)間主流大數(shù)據(jù)技術(shù)發(fā)展歷程2003年10月Google發(fā)表GoogleFileSystem論文2004年10月Google發(fā)表了MapReduce論文2006年2月Hadoop項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS的獨(dú)立發(fā)展2006年11月Google發(fā)表了Bigtable論文,這最終激發(fā)了Hbase的創(chuàng)建2007年10月第一個(gè)Hadoop用戶組會(huì)議召開,社區(qū)貢獻(xiàn)開始急劇上升2008年1月Hadoop成為Apache頂級項(xiàng)目2008年6月Hadoop的第一個(gè)SQL框架——Hive成為了Hadoop的子項(xiàng)目2008年11月ApachePig的最初版本發(fā)布2009年10月首屆HadoopWorld大會(huì)在紐約召開2010年5月HBase脫離Hadoop項(xiàng)目,成為Apache頂級項(xiàng)目2010年9月Hive(Facebook)脫離Hadoop,成為Apache頂級項(xiàng)目2010年9月Pig脫離Hadoop,成為Apache頂級項(xiàng)目2010-2011年擴(kuò)大的Hadoop社區(qū)忙于建立大量的新組件(Crunch,Sqoop,F(xiàn)lume,Oozie等)來擴(kuò)展Hadoop的使用場景和可用性2011年1月ZooKeeper脫離Hadoop,成為Apache頂級項(xiàng)目2012年3月重要功能HDFSNameNodeHA被加入Hadoop主版本2012年8月另外一個(gè)重要的企業(yè)適用功能YARN成為Hadoop子項(xiàng)目2012年10月第一個(gè)Hadoop原生MPP查詢引擎Impala加入Hadoop生態(tài)2014年2月Spark逐漸代替MapReduce成為Hadoop的缺省執(zhí)行引擎,并成為Apache基金會(huì)頂級項(xiàng)目2017年12月繼Hadoop3.0.0的四個(gè)Alpha版本和一個(gè)Beta版本后,第一個(gè)可用的Hadoop3.0.0版本發(fā)布認(rèn)識大數(shù)據(jù)知識點(diǎn)4大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀知識點(diǎn)4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀大數(shù)據(jù)是21世紀(jì)的鉆石礦,隨著經(jīng)濟(jì)的發(fā)展和科技的進(jìn)步,大數(shù)據(jù)受到了越來越多行業(yè)的關(guān)注,應(yīng)用了大數(shù)據(jù)的行業(yè)和領(lǐng)域發(fā)展速度大幅提升,并且還大大提升了這些行業(yè)和領(lǐng)域的發(fā)展空間。大數(shù)據(jù)的應(yīng)用除了給人們的生產(chǎn)生活帶來便利之外,也有效促進(jìn)了經(jīng)濟(jì)的發(fā)揮,提升了綜合國力。大數(shù)據(jù)最聞名于互聯(lián)網(wǎng)行業(yè)的應(yīng)用,目前已經(jīng)在金融、電信、政府、醫(yī)療、能源、零售等各行各業(yè)中得到了廣泛的應(yīng)用。金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)知識點(diǎn)4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀公司具體應(yīng)用阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎,垂直商業(yè)搜索引擎。阿里的飛天大數(shù)據(jù)平臺由全球范圍的上百萬臺服務(wù)器組成集群百度HADOOP集群主要應(yīng)用日志分析,同時(shí)使用它做一些網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作。Facebook主要用于存儲(chǔ)內(nèi)部日志的拷貝,作為一個(gè)源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計(jì)。主要使用了2個(gè)集群:一個(gè)由1100臺節(jié)點(diǎn)組成的集群,包括8800核CPU(即每臺機(jī)器8核),和12000TB的原始存儲(chǔ)(即每臺機(jī)器12T硬盤),一個(gè)有300臺節(jié)點(diǎn)組成的集群,包括2400核CPU(即每臺機(jī)器8核),和3000TB的原始存儲(chǔ)(即每臺機(jī)器12T硬盤),由此基礎(chǔ)上開發(fā)了基于SQL語法的項(xiàng)目:HIVETWITTER使用HADOOP用于存儲(chǔ)微博數(shù)據(jù),日志文件和許多中間數(shù)據(jù)使用基于HADOOP構(gòu)件的Cloudera'sCDH2系統(tǒng),存儲(chǔ)壓縮后的數(shù)據(jù)文件(LZO格式)雅虎主要用于支持廣告系統(tǒng)及網(wǎng)頁搜索集群機(jī)器數(shù):

4000

個(gè)節(jié)點(diǎn)

(2*4cpuboxesw4*1TBdisk&16GBRAM)互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)技術(shù)應(yīng)用知識點(diǎn)4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀大數(shù)據(jù)挑戰(zhàn)發(fā)卡量增長迅速:2008年發(fā)卡約500萬張,2010年增加了一倍。業(yè)務(wù)數(shù)據(jù)增長迅速:隨著業(yè)務(wù)的迅猛增長,業(yè)務(wù)數(shù)據(jù)規(guī)模也線性膨脹。數(shù)據(jù)存儲(chǔ)、系統(tǒng)維護(hù)、數(shù)據(jù)有效利用都面臨巨大壓力。需求可擴(kuò)展、高性能的數(shù)據(jù)倉庫解決方案能夠?qū)崿F(xiàn)業(yè)務(wù)數(shù)據(jù)的集中和整合;可以支持多樣化和復(fù)雜化數(shù)據(jù)分析提升信用卡中心的業(yè)務(wù)效率;通過從數(shù)據(jù)倉庫提取數(shù)據(jù),改進(jìn)和推動(dòng)有針對性的營銷活動(dòng)。采用大數(shù)據(jù)方案后價(jià)值體現(xiàn)實(shí)時(shí)的商業(yè)智能可以結(jié)合實(shí)時(shí)、歷史數(shù)據(jù)進(jìn)行全局分析,風(fēng)險(xiǎn)管理部門現(xiàn)在可以每天評估客戶的行為,并決定對客戶的信用額度在同一天進(jìn)行調(diào)整;原有內(nèi)部系統(tǒng)、模型整體性能顯著提高秒級營銷Greenplum數(shù)據(jù)倉庫解決方案提供了統(tǒng)一的客戶視圖,更有針對的進(jìn)行營銷。2011年,中信銀行信用卡中心通過其數(shù)據(jù)庫營銷平臺進(jìn)行了1286個(gè)宣傳活動(dòng),每個(gè)營銷活動(dòng)配置平均時(shí)間從2周縮短到2-3天。EMCGreen-plum金融行業(yè):中信銀行信用卡中心大數(shù)據(jù)應(yīng)用知識點(diǎn)4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀

在中國移動(dòng)“大云”產(chǎn)品總體架構(gòu)中,分析型PaaS產(chǎn)品底層基于Hadoop數(shù)據(jù)存儲(chǔ)和分析平臺,在技術(shù)路線方面,選擇數(shù)據(jù)倉庫與Hadoop混搭的方式,借鑒關(guān)系型數(shù)據(jù)倉庫在傳統(tǒng)應(yīng)用支持方面以及在復(fù)雜查詢和分析方面的快速響應(yīng)能力,同時(shí)也借鑒了Hadoop的非結(jié)構(gòu)化數(shù)據(jù)處理能力以及存儲(chǔ)的低成本。屏蔽Hadoop與數(shù)據(jù)倉庫的使用細(xì)節(jié),讓用戶在使用這些數(shù)據(jù)時(shí)盡量無感知;在數(shù)據(jù)的ETL采集預(yù)處理環(huán)節(jié),盡量采用Hadoop與分布式ETL的方式,提高數(shù)據(jù)轉(zhuǎn)換效率,同時(shí)降低成本。

電信行業(yè):中國移動(dòng)的大數(shù)據(jù)應(yīng)用知識點(diǎn)4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀

2013年1月29日,住房和城鄉(xiāng)建設(shè)部公布了首批90個(gè)國家智慧城市試點(diǎn)名單,試點(diǎn)城市的公布標(biāo)志著我國智慧城市發(fā)展進(jìn)入規(guī)模推廣的階段。在目前智慧城市的發(fā)展階段,主要的應(yīng)用還處于對感知設(shè)備傳遞的信息進(jìn)行簡單處理的水平,充分認(rèn)識大數(shù)據(jù)對于智慧城市建設(shè)的關(guān)鍵作用,對于避免智慧城市建設(shè)中出現(xiàn)“重感知,輕智慧”的通病具有重要意義。

從智慧城市的體系結(jié)構(gòu)來看,由于智慧城市的基礎(chǔ)在于物聯(lián)網(wǎng)技術(shù),因此智慧城市體系架構(gòu)和物聯(lián)網(wǎng)的體系結(jié)構(gòu)相類似,也可分為四層,分別為感知層、傳輸層、平臺層、應(yīng)用層。智慧城市相對于之前數(shù)字城市概念,最大的區(qū)別在于對感知層獲取的信息進(jìn)行了智慧的處理,因此也可以認(rèn)為智慧城市是數(shù)字城市的升級版。由城市數(shù)字化到城市智慧化,關(guān)鍵是要實(shí)現(xiàn)對數(shù)字信息的智慧處理,其核心是大數(shù)據(jù)處理技術(shù)。政府:智慧城市建設(shè)的大數(shù)據(jù)應(yīng)用知識點(diǎn)4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀醫(yī)療行業(yè)產(chǎn)生的數(shù)據(jù)量主要來自于PACS影像、B超、病理分析等業(yè)務(wù)所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。人體不同部位、不同??朴跋竦臄?shù)據(jù)文件大小不一,PACS網(wǎng)絡(luò)存儲(chǔ)和傳輸要采取不同策略。面對大數(shù)據(jù),醫(yī)療行業(yè)遇到前所未有的挑戰(zhàn)和機(jī)遇。醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用場景非常多,右圖僅以臨床操作和研發(fā)為例,展示醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用場景。對于公共衛(wèi)生部門,可以通過過覆蓋全國的患者電子病歷數(shù)據(jù)庫,快速檢測傳染病,進(jìn)行全面的疫情監(jiān)測,并通過集成疾病監(jiān)測和響應(yīng)程序,快速進(jìn)行響應(yīng)。比較效果研究臨床操作臨床決策支持系統(tǒng)醫(yī)療數(shù)據(jù)透明度遠(yuǎn)程病人監(jiān)控研發(fā)預(yù)測建模提高臨床試驗(yàn)設(shè)計(jì)的統(tǒng)計(jì)工具和算法疾病模式的分析醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用知識點(diǎn)4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀能源行業(yè)大數(shù)據(jù)應(yīng)用能源行業(yè)數(shù)據(jù)特征能源勘探開發(fā)數(shù)據(jù)的類型眾多,不同類型數(shù)據(jù)包含的信息各具特點(diǎn),綜合各種數(shù)據(jù)所包含的信息才能得出地下真實(shí)的地質(zhì)狀況。能源行業(yè)面臨的大數(shù)據(jù)問題能源行業(yè)企業(yè)對大數(shù)據(jù)產(chǎn)品和解決方案的需求集中體現(xiàn)在:可擴(kuò)展存儲(chǔ)、高帶寬、可處理不同格式數(shù)據(jù)的分析方案。知識點(diǎn)4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀第一:大數(shù)據(jù)自身能夠創(chuàng)造出更多的價(jià)值。大數(shù)據(jù)相關(guān)技術(shù)緊緊圍繞數(shù)據(jù)價(jià)值化展開,數(shù)據(jù)價(jià)值化將開辟出廣大的市場空間,重點(diǎn)在于數(shù)據(jù)本身將為整個(gè)信息化社會(huì)賦能。目前在互聯(lián)網(wǎng)領(lǐng)域,大數(shù)據(jù)技術(shù)已經(jīng)得到了較為廣泛的應(yīng)用。第二:大數(shù)據(jù)推動(dòng)科技領(lǐng)域的發(fā)展。大數(shù)據(jù)的發(fā)展正在推動(dòng)科技領(lǐng)域的發(fā)展進(jìn)程,大數(shù)據(jù)的影響不僅僅體現(xiàn)在互聯(lián)網(wǎng)領(lǐng)域,也體現(xiàn)在金融、教育、醫(yī)療等諸多領(lǐng)域。在人工智能研發(fā)領(lǐng)域,大數(shù)據(jù)也起到了重要的作用,尤其在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和自然語言處理等方面,大數(shù)據(jù)正在成為智能化社會(huì)的基礎(chǔ)。第三:大數(shù)據(jù)產(chǎn)業(yè)鏈逐漸形成。經(jīng)過近些年的發(fā)展,大數(shù)據(jù)已經(jīng)初步形成了一個(gè)較為完整的產(chǎn)業(yè)鏈,包括數(shù)據(jù)采集、整理、傳輸、存儲(chǔ)、分析、呈現(xiàn)和應(yīng)用,眾多企業(yè)開始參與到大數(shù)據(jù)產(chǎn)業(yè)鏈中,并形成了一定的產(chǎn)業(yè)規(guī)模。

第四:產(chǎn)業(yè)互聯(lián)網(wǎng)將推動(dòng)大數(shù)據(jù)落地。當(dāng)前互聯(lián)網(wǎng)正在經(jīng)歷從消費(fèi)互聯(lián)網(wǎng)向產(chǎn)業(yè)互聯(lián)網(wǎng)過渡,產(chǎn)業(yè)互聯(lián)網(wǎng)將利用大數(shù)據(jù)、物聯(lián)網(wǎng)、人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論