版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)與數(shù)據(jù)挖掘第二部分大數(shù)據(jù)大數(shù)據(jù)概念大數(shù)據(jù)行業(yè)應(yīng)用數(shù)據(jù)分析與挖掘大數(shù)據(jù)技術(shù)大數(shù)據(jù)體系數(shù)據(jù)的大小物理屬性的數(shù)據(jù)公斤、公里、升等信息屬性的數(shù)據(jù)位(Bit)是量度信息的基本單位,只有0、1兩種二進(jìn)制狀態(tài)。8位(bit)組成一個字節(jié)(1Byte,8bit),能夠容納一個英文字符,而一個漢字需要兩個字節(jié)(2Byte,16bit)的存儲空間。一頁書籍:10KB一張低分辨率照片:100KB一次胸透視:10MB一張CD光盤:500MB一部高質(zhì)量電影:1GB大數(shù)據(jù)何為大?—數(shù)據(jù)度量1Byte=8bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes練習(xí)題3PB=(?)GB假設(shè)《紅樓夢》含標(biāo)點87萬字(不含標(biāo)點853509字),1GB約等于(?)部紅樓夢?1TB約等于(?)部?美國國會圖書館藏書(151,785,778冊)(2011年4月:收錄數(shù)據(jù)235TB),1EB=(?)倍美國國會圖書館存儲的信息量大數(shù)據(jù)時代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時代的到來主要有以下一些原因硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)練習(xí)題促進(jìn)大數(shù)據(jù)技術(shù)到來的主要因素有那些?大數(shù)據(jù)時代的到來主要是由于網(wǎng)上的數(shù)據(jù)量大規(guī)模增加()大數(shù)據(jù)不僅是網(wǎng)絡(luò)業(yè)的未來,而且是整個社會和經(jīng)濟(jì)發(fā)展的未來。早期的大規(guī)模數(shù)據(jù)應(yīng)用文本資料的數(shù)字化將文本資料轉(zhuǎn)化成數(shù)字信息存儲,可進(jìn)行搜索,傳播。亞馬遜數(shù)字圖書館文本資料的數(shù)字化亞馬遜的數(shù)字圖書館地理方位的數(shù)字化對地理位置的數(shù)據(jù)化需要滿足一些前提條件:需要能精確地測量相關(guān)區(qū)域內(nèi)的每一塊地方;需要一套標(biāo)準(zhǔn)的標(biāo)記體系;需要收集和記錄數(shù)據(jù)的工具。簡而言之,就是地理范圍、標(biāo)準(zhǔn)、工具或者說量化、標(biāo)準(zhǔn)化、收集。只有具備了這些,才能把位置信息當(dāng)成數(shù)據(jù)來存儲和分析。莫里斯航海圖表
UPS的快速定位系統(tǒng)UPS快遞多效地利用了地理定位數(shù)據(jù)。為了使總部能及時了在車輛的位置和預(yù)防引擎故障,它的貨車上裝有傳感器、無線適配器和GPS。這些設(shè)備方便了公司監(jiān)督管理員工并優(yōu)化行車線路。UPS為貨車定制的最佳行車路徑是根據(jù)過去的行車經(jīng)驗總結(jié)而來的。設(shè)計了盡量少左轉(zhuǎn)的路線,因為左轉(zhuǎn)要求貨車在交叉路口穿過去,所以更容易出事故。而且,貨車往往需要等待一會兒才能左轉(zhuǎn),也會更耗油,因此,減少左轉(zhuǎn)使得行車的安全性和效率都得到了大幅提升。社交網(wǎng)絡(luò)的發(fā)展簡單地說,社交網(wǎng)絡(luò)是在互聯(lián)網(wǎng)上與其他人相聯(lián)系的一個平臺。社交網(wǎng)絡(luò)站點通常圍繞用戶的基本信息而運作,用戶基本信息是指有關(guān)用戶喜歡的事、不喜歡的事、興趣、愛好、學(xué)校、職業(yè)或任何其他共同點的集合。通常,這些站點提供不同級別的隱私控制。社交網(wǎng)絡(luò)的目標(biāo)是,通過一個或多個共同點將一些人相互聯(lián)系起來而建立一個群組。國外:Facebook,twitterFacebook2012年擁有大約6.29億用戶,他們通過上千億的朋友關(guān)系網(wǎng)相互連接。這個巨大的社交網(wǎng)絡(luò)覆蓋了大約10%的全球總?cè)丝?。國?nèi):新浪微博,微信,人人網(wǎng)社交網(wǎng)絡(luò)的理論基礎(chǔ)1967年,哈佛大學(xué)的心理學(xué)教授米爾格倫(1934~1984)創(chuàng)立了六度分割理論,簡單地說:“你和任何一個陌生人之間所間隔的人不會超過六個,也就是說,最多通過六個人你就能夠認(rèn)識任何一個陌生人?!卑凑樟确指衾碚?,每個個體的
社交圈都不斷放大,最后成為一個大型網(wǎng)絡(luò)。這是社會性網(wǎng)絡(luò)(Social
Networking)的早期理解。我國社交網(wǎng)絡(luò)的發(fā)展E-mail點對點人與人之間可以通過電子郵件交流BBS點對面BBS將點對點形式演變?yōu)辄c對面,降低交流成本。實現(xiàn)了個人的分散信息向可共享的聚合信息的進(jìn)步。天涯、貓撲、西祠胡同等產(chǎn)品都是BBS時代的典型企業(yè)。2006年年以前,資本主要關(guān)注BBS及博客形態(tài)的社交網(wǎng)絡(luò)產(chǎn)品,但是后期來看,這類企業(yè)的發(fā)展多不盡人意。娛樂化社交網(wǎng)絡(luò)2002年,LinkedIn成立;2003年,運用豐富的多媒體個性化空間吸引注意力的Myspace成立;2004年,復(fù)制線下真實人際關(guān)系來到線上低成本管理的Facebook成立中國社交網(wǎng)絡(luò)產(chǎn)品相也繼出現(xiàn),如2005年成立的人人網(wǎng)、2008年成立的開心網(wǎng)。微信息社交網(wǎng)絡(luò)時代
2009年8月,新浪推出微博產(chǎn)品,用戶
通過推介及自行搜索等方式構(gòu)建自己的朋友圈,這種產(chǎn)品迅速聚合了海量的用戶群,當(dāng)然也吸引了眾多業(yè)者(如騰訊、網(wǎng)易、盛大)的追隨。這種模式也再次將廣義社交網(wǎng)絡(luò)推向投資人視野。
隨著移動互聯(lián)網(wǎng)的發(fā)展,微信息社交產(chǎn)品逐漸與位置服務(wù)等移動特性相結(jié)合,相繼出現(xiàn)微信等移動客戶端產(chǎn)品。垂直社交網(wǎng)絡(luò)應(yīng)用時代
垂直社交網(wǎng)絡(luò)主要是與游戲、電子商務(wù)等相結(jié)合,是社交網(wǎng)絡(luò)探究商業(yè)模式的有利嘗試。清科研究中心預(yù)計,垂直社交將成為社交網(wǎng)絡(luò)未來發(fā)展的主要方向。根據(jù)“社交網(wǎng)絡(luò)分析之父”貝爾納多·哈柏曼(BernardoHuberman)的分析,社交網(wǎng)絡(luò)中單一主題出現(xiàn)的頻率可以用來預(yù)測很多事情,比如好萊塢的票房收入。他和一位在惠普實驗室工作的同事開發(fā)了一個程序,可以用來監(jiān)聽微博的發(fā)布頻率,基于此,他們就能預(yù)測一部電影的成敗,這往往比其他傳統(tǒng)評估預(yù)測方法還要準(zhǔn)確。網(wǎng)絡(luò)搜索技術(shù)的發(fā)展Google大數(shù)據(jù)的產(chǎn)生供應(yīng)鏈原始材料供應(yīng)商11級批發(fā)零售商1
半成品/成品供應(yīng)商1核心企業(yè)2級批發(fā)零售商1原始材料供應(yīng)商21級批發(fā)零售商1
半成品/成品供應(yīng)商22級批發(fā)零售商2…………原始采用供應(yīng)商n1級批發(fā)零售商n
半成品/成品供應(yīng)商n2級批發(fā)零售商n政府部門電信、稅務(wù)、銀行、工商、房產(chǎn)、電力、自來水等多個部門數(shù)據(jù)的集成綜合電商供應(yīng)商、客戶、商戶、物流叫車出租車、客戶商旅/票務(wù)客戶、航空公司、旅店、飯店等哪些屬于大數(shù)據(jù)的研究范疇大數(shù)據(jù)熱反映出人們在猜測追尋下一個大創(chuàng)新交通數(shù)據(jù)?社交數(shù)據(jù)?電子商務(wù)數(shù)據(jù)?供應(yīng)鏈數(shù)據(jù)?企業(yè)經(jīng)營管理數(shù)據(jù)?數(shù)據(jù)大不等于大數(shù)據(jù)現(xiàn)有設(shè)備,技術(shù),方法所能處理的不是大數(shù)據(jù)數(shù)據(jù)挖掘,精細(xì)化運營,精準(zhǔn)廣告和個性化服務(wù)推廣不是未來大數(shù)據(jù)服務(wù)商業(yè)模式的主要部分大數(shù)據(jù)的特征多樣性(Variety)數(shù)量巨大(Volume)速度快(Velocity)價值密度低(Value)大數(shù)據(jù)的描述性定義多樣性數(shù)據(jù)來源多樣性—超出一種服務(wù),一個公司,一個地區(qū)數(shù)據(jù)種類多樣性—文字,語音,圖表,圖片,視頻數(shù)據(jù)對象多樣性—個人,商業(yè),社會,自然界大數(shù)據(jù)的多樣性越高,潛在價值就越大大數(shù)據(jù)的操作定義數(shù)量以TB為基本計量單位數(shù)據(jù)間關(guān)系眾多,結(jié)構(gòu)復(fù)雜,變化多端大數(shù)據(jù)的體量越大,潛在價值就越大大數(shù)據(jù)的操作定義傳輸速度快處理的數(shù)據(jù)是TB級代替了GB級,“超大規(guī)模數(shù)據(jù)”和“海量數(shù)據(jù)”也有規(guī)模大的特點,但大數(shù)據(jù)更強(qiáng)調(diào)數(shù)據(jù)的快速動態(tài)變化,形成流式數(shù)據(jù),數(shù)據(jù)流動的速度快到難以用傳統(tǒng)的系統(tǒng)去處理。價值密度低數(shù)據(jù)量呈指數(shù)增長的同時,隱藏在海量數(shù)據(jù)的有用信息卻沒有相應(yīng)比例增長,反而使我們獲取有用信息的難度加大。以視頻為例,連續(xù)的監(jiān)控過程,可能有用的數(shù)據(jù)僅有一兩秒傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別傳統(tǒng)數(shù)據(jù)硬件條件IBM
System
x3100通過4個DIMM
插槽,實現(xiàn)512MB或1
GB/8
GB
DDR
II
667
MHz的內(nèi)存容量可掛6個500G外部存儲建立服務(wù)器矩陣后容量可增加需求:騰訊qq郵箱,騰訊宣稱有7億多注冊賬號,有3億多活躍賬號,平均每人100G空間
傳統(tǒng)數(shù)據(jù)傳統(tǒng)的數(shù)據(jù)采集來源單一,且存儲、管理和分析數(shù)據(jù)量也相對較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。傳統(tǒng)的數(shù)據(jù)處理方法是以處理器為中心,而大數(shù)據(jù)環(huán)境下,需要采取以數(shù)據(jù)為中心的模式,減少數(shù)據(jù)移動帶來的開銷。因此,傳統(tǒng)的數(shù)據(jù)處理方法,已經(jīng)不能適應(yīng)大數(shù)據(jù)的需求!傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別傳統(tǒng)數(shù)據(jù)處理結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),簡單來說就是數(shù)據(jù)庫。結(jié)合到典型場景中更容易理解,比如企業(yè)ERP、財務(wù)系統(tǒng);醫(yī)療HIS數(shù)據(jù)庫;教育一卡通;政府行政審批;其他核心數(shù)據(jù)庫等。傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別世界上跟多的是半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化是指數(shù)據(jù)的字段數(shù)量不固定,大小可變化的數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù),包括視頻、音頻、圖片、圖像、文檔、文本等形式。具體到典型案例中,像是醫(yī)療影像系統(tǒng)、教育
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術(shù)主管個人工作總結(jié)
- 開學(xué)簡短走心寄語(65句)
- 初二英語工作總結(jié)
- 年終工作總結(jié)15篇
- 某大學(xué)教學(xué)樓施工組織設(shè)計方案
- 港口自然災(zāi)害突發(fā)事件應(yīng)急預(yù)案
- 網(wǎng)絡(luò)安全崗位責(zé)任制度
- 體育館管理使用方案
- 數(shù)據(jù)分析與業(yè)務(wù)智能決策考核試卷
- 木材的防腐和防蟲處理考核試卷
- 08BJ9-1室外工程-圍墻圍欄
- 2024年全國統(tǒng)一考試高考新課標(biāo)Ⅱ卷數(shù)學(xué)試題(真題+答案)
- 美的簡單高效的管理邏輯
- 2024-2030年電壁爐行業(yè)市場現(xiàn)狀供需分析及重點企業(yè)投資評估規(guī)劃分析研究報告
- 創(chuàng)新方法論智慧樹知到期末考試答案章節(jié)答案2024年西安理工大學(xué)
- 【《離婚夫妻共有股權(quán)分割適用法律問題研究》11000字(論文)】
- 部編版四年級道德與法治上冊第5課《這些事我來做》精美課件
- 反詐防騙主題班會課件
- 新能源汽車動力系統(tǒng)優(yōu)化與控制
- 2024年鎮(zhèn)沅縣國翔國有資產(chǎn)投資管理集團(tuán)有限公司招聘筆試沖刺題(帶答案解析)
- 廣東省13市2024年高三一診考試化學(xué)試卷含解析
評論
0/150
提交評論