大數(shù)據(jù)培訓課件(-29張)_第1頁
大數(shù)據(jù)培訓課件(-29張)_第2頁
大數(shù)據(jù)培訓課件(-29張)_第3頁
大數(shù)據(jù)培訓課件(-29張)_第4頁
大數(shù)據(jù)培訓課件(-29張)_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大趨勢

—BigData大趨勢*國內(nèi)大數(shù)據(jù)馬云對未來的預測,是建立在對用戶行文分析的基礎(chǔ)上?!?008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);而我們提前半年時間從詢盤上推斷出世界貿(mào)易發(fā)生變化了?!彬v訊在天津投資建立亞洲最大的數(shù)據(jù)中心;百度也在投資建立大數(shù)據(jù)處理中心;*國內(nèi)大數(shù)據(jù)馬云對未來的預測,是建立在對用戶行文分析的基礎(chǔ)上*2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研發(fā)計劃”,旨在提高和改進從海量和復雜數(shù)據(jù)中獲取知識的能力,加速美國在科學和工程領(lǐng)域發(fā)明的步伐,增強國家安全。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署,由美國國家科學基金會、能源部等6個聯(lián)邦部門共同投資。美國的大數(shù)據(jù)戰(zhàn)略*2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應用目錄*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應用目錄*facebook社交網(wǎng)絡…淘寶、ebuy電子商務…微博、Apps移動互聯(lián)…21世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡、電子商務等極大拓展了互聯(lián)網(wǎng)的邊界和應用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。互聯(lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕生:半個世紀以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念*。如今,這個概念幾乎應用到了所有人類智力與發(fā)展的領(lǐng)域中。大數(shù)據(jù)時代的背景*facebook社交網(wǎng)絡…淘寶、ebuy電子商務…微博、A*GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達到了1.8ZB。而有市場研究機構(gòu)預測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1PB

=2^50字節(jié)1EB

=2^60字節(jié)1ZB=2^70字節(jié)數(shù)據(jù)大爆炸*GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)*大數(shù)據(jù)的4V特征體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效*大數(shù)據(jù)的4V特征體量Volume多樣性Variety價值密*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應用目錄*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應用目錄*1、密不可分的大數(shù)據(jù)與云計算商業(yè)模式驅(qū)動應用需求驅(qū)動云計算本身也是大數(shù)據(jù)的一種業(yè)務模式大數(shù)據(jù)是落地的云云計算的模式是業(yè)務模式,本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲、訪問和計算。當前云計算更偏重海量存儲和計算,以及提供的云服務,運行云應用,但是缺乏盤活數(shù)據(jù)資產(chǎn)的能力,挖掘價值性信息和預測性分析,為國家、企業(yè)、個人提供決策和服務,是大數(shù)據(jù)核心議題,也是云計算的最終方向。*1、密不可分的大數(shù)據(jù)與云計算商業(yè)模式驅(qū)動應用需求驅(qū)動云計算*2、大數(shù)據(jù)不僅僅是“大”多大?至少PB級比大更重要的是數(shù)據(jù)的復雜性,有時甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價值*2、大數(shù)據(jù)不僅僅是“大”多大?比大更重要的是數(shù)據(jù)的復雜性,*4、大數(shù)據(jù)的應用不僅僅是精準營銷通過用戶行為分析實現(xiàn)精準營銷是大數(shù)據(jù)的典型應用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務領(lǐng)域具有廣闊的應用前景消費行業(yè)金融服務食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務氣象*4、大數(shù)據(jù)的應用不僅僅是精準營銷通過用戶行為分析實現(xiàn)精準營*5、管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個重大問題,真正的問題是讓大數(shù)據(jù)更有意義目前大數(shù)據(jù)管理多從架構(gòu)和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲的橫向擴展,但對非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容理解仍缺乏實質(zhì)性的突破和進展,這是實現(xiàn)大數(shù)據(jù)資源化、知識化、普適化的核心非結(jié)構(gòu)化海量信息的智能化處理:自然語言理解、多媒體內(nèi)容理解、機器學習等*5、管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個重大問*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應用目錄*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應用目錄*分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù)統(tǒng)計和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫;NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲;分布式文件系統(tǒng)等計算結(jié)果展現(xiàn):云計算;標簽云;關(guān)系圖等存儲結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲按照非結(jié)構(gòu)化存儲解決方案:Hadoop(MapReduce技術(shù))流計算(twitter的storm和yahoo!的S4)一些相關(guān)技術(shù)*分析技術(shù):存儲解決方案:一些相關(guān)技術(shù)*行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:IBM大數(shù)據(jù)提供的服務包括數(shù)據(jù)分析,文本分析,藍色云杉(混搭供電合作的網(wǎng)絡平臺);業(yè)務事件處理;IBMMashupCenter的計量,監(jiān)測,和商業(yè)化服務(MMMS)IBM的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的InfoSpherebigInsights,基于ApacheHadoop。該產(chǎn)品組合包括:打包的ApacheHadoop的軟件和服務,代號是bigInsights核心,用于開始大數(shù)據(jù)分析軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡單、直觀的提取、批注相關(guān)信息為金融,風險管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫綜合應用部門)合作目標是開發(fā)了一系列能夠提升生產(chǎn)力和提高決策速度的設(shè)備。

EMC:EMC斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個產(chǎn)品。Oracle:Oracle大數(shù)據(jù)機與OracleExalogic中間件云服務器、OracleExadata數(shù)據(jù)庫云服務器以及OracleExalytics商務智能云服務器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。大數(shù)據(jù)的應用

——企業(yè)在投入*行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:大數(shù)據(jù)的應用

*政府、金融、電信等行業(yè)投資建立大數(shù)據(jù)的處理分析手段,實現(xiàn)綜合治理、業(yè)務開拓等目標;應用到制造等更多行業(yè)。更多行業(yè)的應用*政府、金融、電信等行業(yè)投資建立大數(shù)據(jù)的處理分析手段,實現(xiàn)綜*數(shù)據(jù)的再利用:由于在信息價值鏈中的特殊位置,有些公司可能會收集到大量的數(shù)據(jù),但他們并不急需使用也不擅長再次利用這些數(shù)據(jù)。例如,移動電話運營商手機用戶的位置信息來傳輸電話信號,這對以他們來說,數(shù)據(jù)只有狹窄的技術(shù)用途。但當它被一些發(fā)布個性化位置廣告服務和促銷活動的公司再次利用時,則變得更有價值。大數(shù)據(jù)價值鏈的3大構(gòu)成:數(shù)據(jù)本身、技能與思維其中三者兼具的又谷歌公司,谷歌在剛開始收集數(shù)據(jù)的時候就已經(jīng)有多次使用數(shù)據(jù)的想法。比方說,它的街景采集車手機全球定位系統(tǒng)數(shù)據(jù)不光是為了創(chuàng)建谷歌地圖,也是為了制成全自動汽車以及谷歌眼鏡等與實景交匯的產(chǎn)品。未來,企業(yè)會依靠洞悉數(shù)據(jù)中的信息更加了解自己,也更加了解客戶?!洞髷?shù)據(jù)時代》傳統(tǒng)行業(yè)最終都會轉(zhuǎn)變?yōu)榇髷?shù)據(jù)行業(yè),無論是金融服務業(yè)、醫(yī)藥還是制造業(yè)。大數(shù)據(jù)的應用

——未來,改變一切*數(shù)據(jù)的再利用:大數(shù)據(jù)價值鏈的3大構(gòu)成:數(shù)據(jù)本身、技能與思維具體案例具體案例難點分析難點分析移動用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)移動用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)什么是hadoop開源Apache項目,靈感來源于Google的 MapReduce白皮書和Google文件系(GFS), Yahoo完成了絕大部分初始設(shè)計和開發(fā)Hadoop核心組件包括:-分布式文件系統(tǒng)-Map/Reduce–分布式計算用Java編寫運行平臺:?Linux,MacOS/X,Solaris,Windows?普通的X86硬件平臺什么是hadoop開源Apache項目,靈感來源于Goog為什么hadoop很重要非結(jié)構(gòu)化數(shù)據(jù)暴增:–估計未來5年,企業(yè)的數(shù)據(jù)將增長650%,其中80%都是非結(jié)構(gòu)化數(shù)據(jù)–比如FACEBOOK每天收集100TB的數(shù)據(jù),Twitter會有每天產(chǎn)生3500億的tweets非結(jié)構(gòu)化的數(shù)據(jù)同樣蘊藏巨大價值需要新方法利用所有數(shù)據(jù)進行業(yè)務分析–ApacheHadoop作為一個分析存儲大量數(shù)據(jù)的關(guān)鍵數(shù)據(jù)平臺出現(xiàn)為什么hadoop很重要非結(jié)構(gòu)化數(shù)據(jù)暴增:hadoop與大數(shù)據(jù)Hadoop是致力于“大數(shù)據(jù)”處理的最重要平臺之一–能夠輕松擴展到PB級別的數(shù)據(jù)存儲,處理規(guī)模–帶有高度容錯能力的并行處理架構(gòu)–基于普通的X86平臺硬件架構(gòu),硬件成本低廉–用內(nèi)置格式存儲/處理數(shù)據(jù)–基于開源項目,擁有當量的代碼來源,并且傳統(tǒng)廠商也日益重視對其的支持,它已經(jīng)成為重要的并行處理架構(gòu)標準之一hadoop與大數(shù)據(jù)Hadoop是致力于“大數(shù)據(jù)”處理的最重英特爾企業(yè)級Hadoop堆棧英特爾企業(yè)級Hadoop堆棧我現(xiàn)在做的工作——Nutch定義Nutch是一個開源的、Java實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。我現(xiàn)在做的工作——Nutch定義nutch首頁nutch首頁搜索引擎原理一、搜索引擎原理用戶用戶用戶檢索入口google百度結(jié)果排序網(wǎng)頁索引網(wǎng)頁分析網(wǎng)頁抓取互聯(lián)網(wǎng)搜索引擎技術(shù)框架圖搜索引擎原理一、搜索引擎原理用戶用戶用戶檢索入口googleNutch工作原理Nutch工作原理

謝謝

(第14講)考場作文開拓文路能力?分解層次(網(wǎng)友來稿)江蘇省鎮(zhèn)江中學陳乃香說明:本系列稿共24講,20XX年1月6日開始在資源上連載【要義解說】文章主旨確立以后,就應該恰當?shù)胤纸鈱哟危箮讉€層次構(gòu)成一個有機的整體,形成一篇完整的文章。如何分解層次主要取決于表現(xiàn)主旨的需要?!静呗越庾x】一般說來,記人敘事的文章常按時間順序分解層次,寫景狀物的文章常按時間順序、空間順序分解層次;說明文根據(jù)說明對象的特點,可按時間順序、空間順序或邏輯順序分解層次;議論文主要根據(jù)“提出問題-—分析問題——解決問題”順序來分解層次。當然,分解層次不是一層不變的固定模式,而應該富于變化。文章的層次,也常常有些外在的形式:1.小標題式。即圍繞話題把一篇文章劃分為幾個相對獨立的部分,再給它們加上一個簡潔、恰當?shù)男祟}。如《世界改變了模樣》四個小標題:壽命變“長”了、世界變“小”了、勞動變“輕”了、文明變“綠”了。2.序號式。序號式作文與小標題作文有相同的特點。序號可以是“一、二、三”,可以是“A、B、C”,也可以是“甲、乙、丙”……從全文看,序號式干凈、明快;但從題目上看,卻看不出文章內(nèi)容,只是標明了層次與部分。有時序號式作文,也適用于敘述性文章,為故事情節(jié)的展開,提供了明晰的層次。3.總分式。如高考佳作《人生也是一張答卷》。開頭:“人生就是一張答卷。它上面有選擇題、填空題、判斷題和問答題,但它又不同于一般的答卷。一般的答卷用手來書寫,人生的答卷卻要用行動來書寫?!敝黧w部分每段首句分別為:選擇題是對人生進行正確的取舍,填空題是充實自己的人生,判斷題是表明自己的人生態(tài)度,問答題是考驗自己解決問題的能力。這份“試卷”設(shè)計得合理而且實在,每個人的人生都是不同的,這就意味著這份人生試卷的“答案是豐富多彩的”。分解層次,應追求作文美學的三個價值取向:一要勻稱美。什么材料在前,什么材料在后,要合理安排;什么材料詳寫,什么材料略寫,要通盤考慮。自然段是構(gòu)成文章的基本單位,恰當劃分自然段,自然就成為分解層次的基本要求。該分段處就分段,不要老是開頭、正文、結(jié)尾“三段式”,這種老套的層次顯得呆板。二要波瀾美。文章內(nèi)容應該有張有弛,有起有伏,如波如瀾。只有這樣才能使文章起伏錯落,一波三折,吸引讀者。三要圓合美。文章的開頭與結(jié)尾要遙相照應,把開頭描寫的事物或提出的問題,在結(jié)尾處用各種方式加以深化或回答,給人首尾圓合的感覺?!纠慕馄省吭掝}:忙忙,不亦樂乎忙,是人生中一個個步驟,每個人所忙的事務不同,但是不能是碌碌無為地白忙,要忙就忙得精彩,忙得不亦樂乎。忙是問號。忙看似簡單,但其中卻大有學問。忙是人生中不可缺少的一部分,但是怎么才能忙出精彩,忙得不亦樂乎,卻并不簡單。人生如同一張地圖,我們一直在自己的地圖上行走,時不時我們眼前就出現(xiàn)一個十字路口,我們該向哪兒,面對那縱軸橫軸相交的十字路口,我們該怎樣選擇?不急,靜下心來分析一下,選擇適合自己的坐標軸才是最重要的。忙就是如此,選擇自己該忙的才能忙得有意義。忙是問號,這個問號一直提醒我們要忙得有意義,忙得不亦樂乎。忙是省略號。四季在有規(guī)律地進行著冷暖交替,大自然就一直按照這樣的規(guī)律不停地忙,人們亦如此。為自己找一個目標,為目標而不停地忙,讓這種忙一直忙下去。當目標已達成,那么再找一個目標,繼續(xù)這樣忙,就像省略號一樣,毫無休止地忙下去,翻開歷史的長卷,我們看到牛頓在忙著他的實驗;愛迪生在忙著思考;徐霞客在忙著記載游玩;李時珍在忙著編寫《本草綱目》。再看那位以筆為刀槍的充滿著朝氣與力量的文學泰斗魯迅,他正忙著用他獨有的刀和槍在不停地奮斗。忙是省略號,確定了一個目標那么就一直忙下去吧!這樣的忙一定會忙出生命靈動的色彩。忙是驚嘆號。世界上的人都在忙著自己的事,大自然亦如此,小蜜蜂在忙,以蜂蜜為回報。那么人呢?居里夫人的忙,以放射性元素的發(fā)現(xiàn)而得到了圓滿的休止符;愛因斯坦在忙,以相對論的問世而畫上了驚嘆號;李白的忙,以那豪放的詩歌而有了很大的成功;張衡的忙,因為那地動儀的問世而讓世人仰慕。每個人都應該有效率的忙,而不是整天碌碌無為地白忙。人生是有限的、短暫的,因此,每個人都應該在有限的生命里忙出屬于他的驚嘆號;都應在有限的生命里忙出他的人生精彩篇章。忙是萬物、世界、人生中都不可缺少的一部分。作為這世上最高級動物的我們,我們在忙什么呢?我們要忙得有意義,有價值,我們要忙出屬于我們的精彩。我們的忙不能永遠是問號,而應是省略號和感嘆號。忙就要忙得精彩,忙得不亦樂乎。解剖:本文將生活中的一句口頭禪“忙得不亦樂乎”機智翻新,擬作標題,亮出一道美麗的風景。并據(jù)此展開述說,讓人神清氣爽。文章開篇扣題,亮出觀點:忙,是人生中一個個步驟,不能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論