大數據研究綜述_第1頁
大數據研究綜述_第2頁
大數據研究綜述_第3頁
大數據研究綜述_第4頁
大數據研究綜述_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據文獻綜述隨著以博客、社交網絡、基于位置的服務LBS為代表的新型信息發(fā)布方式的不斷涌現,以及云計算、物聯網等技術的興起,數據正以前所未有的速度在不斷地增長和累積,國際數據公司(IDC)的數字宇宙研究報告稱[1]:2011年全球被創(chuàng)建和被復制的數據總量超過1.8ZB,且增長趨勢遵循新摩爾定律(全球數據量大約每兩年翻一番),預計2020年將達到35ZB.與此同時,數據復雜性也急劇增長,其多樣性、低價值密度、實時性等復雜特征日益顯著,大數據時代已經來到。學術界、產業(yè)界甚至于政府機構都已經開始密切關注大數據問題,并對其產生濃厚的興趣。一、大數據國內外發(fā)展現狀對于學術界,1989年在美國底特律召開的第11屆國際人工智能聯合會議專題討論會上,首次提出了“數據庫中的知識發(fā)現(KDD)”的概念。在1995年召開了第一屆知識發(fā)現與數據挖掘國際會議,隨著與會人員的增加,KDD國際學術成為年會。大數據的興起,主要是國際頂尖期刊《Nature》早在2008年推出了Bigdata??痆2]。計算社區(qū)聯盟(computingcommunityconsortium)在2008年發(fā)表了報告“bigdatacomputing:creatingrevolutionarybreakthroughsincommerce,scienceandsociety”[3],闡述了在數據驅動的研究背景下,解決大數據問題所需的技術以及面臨的一些挑戰(zhàn)?!秙cience》在2011年2月推出??癲ealingwithdata”[4],主要圍繞著科學研究中大數據的問題展開討論,說明大數據對于科學研究的重要性.美國一些知名的數據管理領域的專家學者則從專業(yè)的研究角度出發(fā),聯合發(fā)布了一份白皮書《challengesandopportunitieswithbigdata》[5]。該白皮書從學術的角度出發(fā)介紹了大數據的產生,分析了大數據的處理流程,并提出大數據所面臨的若干挑戰(zhàn)。全球知名的咨詢公司麥肯錫(McKinsey)2011年6月份發(fā)布了一份關于大數據的詳盡報告“bigdata:thenextfrontierforinnovation,competiton,andproductivity”[6],對大數據的影響、關鍵技術和應用領域等都進行了詳盡的分析。進入2012年以來,大數據的關注度與日俱增1月份的達沃斯世界經濟論壇上,大數據是主題之一,該次會議還特別針對大數據發(fā)布了報告“bigdata,bigcompat:newpossibilitiesforinternationaldevelopment”[7],探討了新的數據產生方式下,如何更好地利用數據來產生良好的社會效益.該報告重點關注了個人產生的移動數據與其他數據的融合與利用.3月份美國奧巴馬政府發(fā)布了“大數據研究和發(fā)展倡議”[8](bigdataresearchanddevelopmentinitiative),投資2億以上美元,正式啟動“大數據發(fā)展計劃”.計劃在科學研究、環(huán)境、生物醫(yī)學等領域利用大數據技術進行突破.奧巴馬政府的這一計劃被視為美國政府繼信息高速公路計劃之后在信息科學領域的又一重大舉措.與此同時,聯合國一個名為“globalpulse”的倡議項目在今年5月發(fā)布報告“bigdatafordevelopment:challengesoropportunities”[9],該報告主要闡述大數據時代各國特別是發(fā)展中國家在面臨數據洪流(datadeluge)的情況下所遇到的機遇與挑戰(zhàn),同時還對大數據的應用進行了初步的解讀.《紐約時報》的文章“theageofbigdata”[10]。則通過主流媒體的宣傳使普通民眾開始意識到大數據的存在,以及大數據對于人們日常生活的影響。在產業(yè)界,經濟利益成為主要的推動力,IBM、ORACLE、微軟、谷歌、亞馬遜、Facebook、Teradata、EMC、惠普等跨國巨頭也因大數據技術的發(fā)展而更加具有競爭力[11]。僅2009年一年,谷歌公司通過大數據業(yè)務對美國經濟貢獻540億美元;2005年以來,IBM投資160億美元進行30多次與大數據相關的收購,使業(yè)績穩(wěn)定高速增長,2012年,IBM股價每股突破200美元大關,3年內翻了3番;eBay通過數據挖掘精確計算出廣告中每個關鍵字帶來的回報,2007年以來,廣告費降低了99%,同時頂級賣家占總銷售額的百分比上升至32%;2011年,Facebook首次公開新數據處理分析平臺PUMA,通過對數據多處理環(huán)節(jié)區(qū)分優(yōu)化,相比之前單純采用Hadoop和Hive進行處理的技術,數據分析周期從2天降到10秒以內,效率提高數萬倍。與國外相比,我國大數據的發(fā)展還稍落后。我國國家自然科學基金于1993年首次支持對數據挖掘領域的研究項目。1999年,在北京召開第三屆亞太地區(qū)知識發(fā)現與數據挖掘國際會議(PAKDD),收到論文158篇。2011年,第十五屆PAKDD在深圳舉辦,會議就數據挖掘、知識發(fā)現、人工智能、機器學習等相關領域的主題進行交流討論,反響熱烈。2012年5月,香山科學會議組織了以“大數據科學與工程——一門新興的交叉學科?”為主題的第424次學術討論會,來自國內外35個單位橫跨IT、經濟、管理、社會、生物等多個不同學科領域的43位專家代表參會,并就大數據的理論與工程技術研究、應用方向以及大數據研究的組織方式與資源支持形式等重要問題進行了深入討論。6月,中國計算機學會青年計算機科技論壇(CCFYOCSEF)舉辦了“大數據時代,智謀未來”學術報告會,決定成立大數據專家委員會,就大數據時代的數據挖掘、體系架構理論、大數據安全、大數據平臺開發(fā)與大數據現實案例進行了全面的討論。2012年10月,成立了首個專門研究大數據應用和發(fā)展的學術咨詢組織--中國通信學會大數據專家委員會,推動了我國大數據的科研與發(fā)展。2012年11月,“Hadoop與大數據技術大會”以“大數據共享與開放技術”為主題,總結了八個熱點問題:數據科學與大數據的學科邊界、數據計算的基本模式與范式、大數據的作用力和變換反對、大數據特性與數據態(tài)、大數據安全和隱私問題、大數據對IT技術架構的挑戰(zhàn)、大數據的生態(tài)環(huán)境問題以及大數據的應用及產業(yè)鏈。大會還成立了“大數據共享聯盟”,旨在搜集大數據、展示大數據、促進大數據的研究與開發(fā)。在產業(yè)界,國內主要以百度、騰訊、華為、淘寶、中國移動等企業(yè)為首的大數據布局與商業(yè)活動。百度作為中國最大的搜索引擎,在中國和中文互聯網領域各項排行中不是最大就是最多。2012年,百度日均抓取約10億網頁,處理超過100PB(1PB=1024TB)的數據。過去10年,百度網頁搜索庫已從500萬猛增到了500億個頁面。從公開的材料看,百度的大數據戰(zhàn)略往往與云計算綁定在一起,強調大數據儲存與處理能力。2011年8月,百度宣布將用三年的時間建立一個全國最大的數據中心,并且主打“綠色”。通過對大數據流量的把握,百度經過設計,降低設備能耗、減少服務器、日間側重商業(yè)業(yè)務、夜間側重數據業(yè)務,從而讓“百度的單體十萬臺服務器的數據中心,PUE每降低0.1,一年就可為百度節(jié)省上千萬元的成本。”騰訊自稱“目前中國最大的互聯網綜合服務提供商之一,也是中國服務用戶最多的互聯網企業(yè)之一”,擁有超過7.52億QQ即時通訊活躍賬戶,1億微信用戶、4.25億微博用戶和超過1億的視頻用戶。在積累了個人用戶多方面的海量數據后,2012年騰訊提出了“大數據營銷”的概念。騰訊網總編輯陳菊紅表示“將從這些海量數據中挖掘、分辨出用戶的行為模式、興趣偏好等,打造專屬于每個人的智慧門戶?!彬v訊不僅在各大產品線中都設置了數據挖掘團隊,還在和一些第三方數據挖掘公司、營銷公司展開合作洽談,充分挖掘用戶在網上的行為、關系、UGC(用戶產生的內容)等數據,“通過合理的方法找到對企業(yè)有幫助的數據,并且將營銷預算合理的分配在為數眾多的數據來源平臺上”,從而提高營銷效率。2011年4月騰訊追加在天津的數據中心建設投資,欲建立亞洲最大的數據儲備處理中心。相比中國用戶最多的兩家互聯網企業(yè),淘寶在大數據方面的舉措絲毫不遜色,因為幾乎所有淘寶業(yè)務都依賴淘寶數據庫。每天大約有6000萬用戶登錄淘寶網,約20億頁面瀏覽量(PV)。淘寶所使用的OceanBase分布式數據庫,在基準數據和增量數據基礎上,實現不同部門對數千億條記錄、數百TB數據上的跨行跨表事務共同完成,并支持每天4000~5000萬的更新操作。早在2009年淘寶便自建大型數據庫,并通過對全國淘寶購買數據的挖掘發(fā)布了2011年淘寶中國地圖,對其掌握的大量用戶交易數據進行了形象的展示。在利用大數據為提高用戶購物體驗的旗號下,淘寶根據長尾原理充分利用大數據挖掘技術,建設開放平臺,提供各種增值服務。中國移動作為中國最大的移動通訊運營商,截至2012年4月底,中國移動用戶數已經達到6.7億。同時,中國移動正在謀求從移動運營商的管道角色向客戶端制造和云端服務兩個方向發(fā)展。而大數據業(yè)務的投入,為此提供了機遇。2011年第四季度中國移動先后與內蒙古自治區(qū)和黑龍江省簽署合作協議,在呼和浩特、哈爾濱建設全國規(guī)模最大、技術最先進、能耗最低定在成都建立西部最大數據中心,完成了其在國內數據中心的三大數據基地布局。通過對國內外學術期刊SCI與SSCI檢索研究中發(fā)現,目前國外對大數據的研究主要集中在如何進行大數據的存儲、處理、分析以及管理的技術及軟件的應用上,而關于大數據與管理科學的結合幾乎很少,國內學者對大數據的研究主要集中大數據的商業(yè)模式的探討、大數據分析處理技術、大數據的應用領域等,而對關于大數據與云計算結合的研究幾乎處于理論摸索階段。二、大數據的國內外研究綜述對于大數據的定義,學術界和產業(yè)界目前尚未形成公認的準確定義。維基百科的定義[12]:大數據指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業(yè)經營決策目的的信息。麥肯錫的定義[13]:大數據是指無法在一定時間內用傳統(tǒng)數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。權威IT研究將大數據定義為“在一個或多個維度上超出傳統(tǒng)信息技術的處理能力的極端信息管理和處理問題”[14]。美國國家科學基金會(NSF)則將大數據定義為“由科學儀器、傳感設備、互聯網交易、電子郵件、音視頻軟件、網絡點擊流等多種數據源生成的大規(guī)模、多元化、復雜、長期的分布式數據集”[15]。研究機構Gartner的定義:大數據是指需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。無論是哪一種定義,我們可以看出,均體現了大數據具有的四種特性:數據體量巨大(Volume)、數據種類繁多(Varity)、流動速度快(Velocity)、價值密度低(Value)。其實,對于大數據的4V特征其不僅僅是海量數據,更追求的是實時性、動態(tài)性、全貌性。1.關于大數據的商業(yè)模式方面的研究“假如我們有了一個數據預報臺,就像為企業(yè)裝上了一個GPS和雷達,企業(yè)的出海將會更有把握?!瘪R云在2012年網商大會上的演講中形象地表示了數據的重要性。在麥肯錫發(fā)布《大數據:創(chuàng)新、競爭和生產力的下一個前沿領域》報告之后,大數據的商業(yè)價值迅速受到銀行、零售等行業(yè)的關注。如今,銀行業(yè)中的實時欺詐監(jiān)測和風險管理、電信業(yè)的客戶細分和業(yè)務波動分析、醫(yī)療業(yè)中的疾病診斷和分析、零售業(yè)的價格優(yōu)化和購買分析等已經開始應用大數據分析的結果,大數據已經開始創(chuàng)造著價值。目前從管理學的角度應用大數據技術以支持商業(yè)分析和決策,已經成為商學院教育的熱點方向。國家自然科學基金委員馮芷艷從商務管理在大數據背景下所面臨的時代挑戰(zhàn)出發(fā),給出了社會化的價值創(chuàng)造、網絡化的企業(yè)運作、實時化的市場洞察三個重要研究視角。同時,描述了社會化網絡環(huán)境中的行為機理與社會資本結構、企業(yè)網絡生態(tài)系統(tǒng)及其協同共生機制、大數據環(huán)境下的顧客洞察與市場營銷策略、基于大數據的商業(yè)模式創(chuàng)新等研究方向[16]。此外國內學者陳曉霞對大數據業(yè)務的商業(yè)模式進行了探討,通過對大數據產業(yè)鏈自底向下的三層構成提出了基于大數據的六種商業(yè)模式[17],(第一層是企業(yè)內部交易數據和企業(yè)外部的用戶行為數據、物聯網數據等,這一層次的主要任務是數據的采集、存儲和傳輸等工作;第二層次是信息層,去粗取精,提煉后形成價值密度更高的信息,這一層可以產生諸如數據包銷售、租賃等業(yè)務模式,也會誕生一批靠搜集各類數據為主業(yè)的公司,如區(qū)域數據提供商;第三個層次是知識層,對于知識的利用需要人工介入以外,主要還需要融合行業(yè)信息。)主要包括租售數據模式、租售信息模式、數字媒體模式、數據使能模式、數據空間出租模式、大數據技術提供商模式。就產業(yè)界而言,騰云天下數據挖掘總監(jiān)張夏天雖然大數據目前在國內還處于初級階段,但是商業(yè)價值已經顯現出來。首先,手中握有數據的公司如同站在金礦上,基于數據交易即可產生很好的效益;其次,基于數據挖掘會有很多商業(yè)模式誕生,定位角度不同,或側重數據分析。比如幫企業(yè)做內部數據挖掘,或側重優(yōu)化,幫企業(yè)更精準找到用戶,降低營銷成本,提高企業(yè)銷售率,增加利潤。百分點的聯合創(chuàng)始人蘇萌表示,未來,數據可能成為最大的交易商品。大數據的價值是通過數據共享、交叉復用后獲取最大的數據價值。在他看來,未來大數據將會如基礎設施一樣,有數據提供方、管理者、監(jiān)管者,數據的交叉復用將大數據變成一大產業(yè)。目前,百分點所做的就是通過分析用戶在網絡上的消費行為數據,幫助電商企業(yè)實現“千人千面”精準營銷。據了解,作為全球最大的中文搜索引擎,百度已經覆蓋5億中國網民,擁有千億級用戶行為數據,在分析消費者行為與對接企業(yè)營銷階段需求方面,已經構建起相對完善的商業(yè)產品布局和藍圖。2.關于大數據分析處理的研究基于社交網絡、移動互聯、電子商務、物聯網等諸多應用領域,數據量正在以極快的速度增長,包括結構化的、半結構化的和非結構化的數據,其規(guī)模或復雜程度超出了常用傳統(tǒng)數據庫和軟件技術所能管理和處理的數據集范圍大數據廣泛存在,如企業(yè)數據、統(tǒng)計數據、科學數據、醫(yī)療數據、互聯網數據、移動數據、物聯網數據,等等,并且各行各業(yè)都可得益于大數據的應用按其應用類型,可將大數據分為海量交易數據(企業(yè)OLTP應用)、海量交互數據(社網、傳感器、GPS、Web信息)和海量處理數據(企業(yè)OLAP應用)這3類為了分析和利用這些龐大的數據資源,必須依賴有效的數據分析技術和數據管理系統(tǒng)。目前,Hadoop是最為流行的大數據處理平臺。Hadoop最先是DougCtting模仿GFS,MapReduce實現的一個云計算開源平臺,后貢獻給Apache.Hadoop已經發(fā)展成為包括文件系統(tǒng)(HDFS)、數據庫(HBase、Cassandra)、數據處理(MapReduce)等功能模塊在內的完整生態(tài)系統(tǒng)。對Hadoop改進并將其應用于各種場景的大數據處理已經成為新的研究熱點。主要的研究成果集中在對Hadoop平臺性能的改進、高效的查詢處理、索引構建和使用、在Hadoop之上構建數據倉庫、Hadoop和數據庫系統(tǒng)的連接、數據挖掘、推薦系統(tǒng)等。國內學者王珊、王會舉等人通過提出了大數據分析平臺應具備的特性(高度可擴展性、高性能、高度容錯性、支持異構環(huán)境、較低的分析延遲等特性),分析了并行數據庫、MapReduce技術、并行數據庫和MapReduce技術的混合架構優(yōu)勢及不足。該團隊提出了另一種思路,從數據的組織和查詢的執(zhí)行兩個核心層次入手,融合關系數據庫和MapReduce兩種技術,設計高性能的可擴展的抽象數據倉庫查詢處理框架.該框架在支持高度可擴展的同時,又具有關系數據庫的性能[18]。團隊嘗試過兩個研究方向:(1)借鑒MapReduce的思想,使OLAP查詢的處理能像MapReduce一樣高度可擴(LinearDB原型);(2)利用關系數據庫的技術,使MapReduce在處理OLAP查詢時,逼近關系數據庫的性能(Dumbo原型)。周傲英等人提出基于MapReduce的列存儲數據的連接優(yōu)化方法,極大地加快了連接的速度[19].除此之外,NoSQL是目前云環(huán)境下支持海量數據管理的新模式,NoSQL是指那些非關系型的、分布式的、不保證遵循ACID原則的數據存儲系統(tǒng)。典型的NoSQL產品有Google的BigTable[20]、基于HadoopHDFS[21]的HBase[22]、Amazon的Dynamo[23]等。國內學者申德榮等人提出了基于key-value數據模型的NoSQL數據管理系統(tǒng),解決了傳統(tǒng)數據管理系統(tǒng)不具有的可擴展性、彈性、容錯性等問題,提高了海量數據管理的效率[24]。國外學者DittrichJ等人,研究了非侵入式的MapReduce性能提升技術,包括特洛伊索引(Trojanindex)和分區(qū)數據并置co-partition,即把需要連接的數據分區(qū)保存到同一個節(jié)點或者在網絡拓撲上接近的節(jié)點,以加快數據分區(qū)之間的Join操作)技術等[25]。IuMY等人通過對MapReduce執(zhí)行函數的分析,對MapReduce查詢進行改寫,充分利用SQL數據庫的索引、聚集函數等功能,提高MapReduce函數的執(zhí)行效率[26]。研究了MapReduce架構下面向日志處理的連接操作的性能,在100個節(jié)點組成的Hadoop集群上進行若干連接技術的性能研究,包括標準的重新分區(qū)連接方法(standardrepartitionjoin)、改進的重新分區(qū)連接方法(improvedrepartitionjoin)、直接連接方法(directedjoin)、廣播連接方法(broadcastjoin)、半連接(semi-join)、基于分片的半連接(per-splitsemi-join)等,為不同應用場景下使用不同的連接技術提供了參考在產業(yè)界,大數據在美國也是很前沿的技術,OperaSolutionss公司2008年轉向大數據服務,目前是典型的大數據融合服務性公司,他本身不擁有數據,通過購買或者搜集用戶的行為信息為客戶的商業(yè)決策提供精準的信息,并協助客戶設計新產品。SAS公司是全球商業(yè)智能和分析軟件與服務領袖。全球50000多家企業(yè)都在通過SAS軟件對數據進行深入挖掘,幫助企業(yè)更快、更準確地進行業(yè)務決策。SAS在綜合的企業(yè)智能平臺內提供一流的數據整合、存儲、分析和商業(yè)智能應用。國內企業(yè)在大數據處理技術上呈現良好勢頭,主要以華為、阿里巴巴、百度為首。華為提供了基于x86服務器的SmartVision大數據處理解決方案[11],催生數據基礎架構的革新,。在“2012華為云計算大會”上,推出了OceanStorMVX大數據存儲解決方案[12],存儲系統(tǒng)是融合了Scale-outNAS、Scale-outDatabase和Scale-outBackup,實現存儲、分析、備份多位一體,面向大數據存儲的集群存儲系統(tǒng)。3、關于大數據的應用領域2012年6~9月份的時候,IBM公商業(yè)價值研究院和牛津大學賽德商學院聯合開展研究,針對大數據的應用,對全球95個國家、26個行業(yè)、1144名企業(yè)高管和專業(yè)人士做了調研。結果顯示,在全球各行各業(yè)中,企業(yè)高管都意識到自身需要更多地了解大數據、使用大數據。提到大數據的應用,首先必須提到的就是阿里巴巴的金融微貸業(yè)務,阿里金融拿到金融執(zhí)照短短幾年時間,到2012年6月份其微貸企業(yè)已經達到12.9萬家企業(yè),貸款總額260億萬元,到2012年年底其服務的微小企業(yè)已經超過20萬家。阿里金融利用網上的客戶信用數據與行為數據,建立網絡數據模型及信用體系。借此給每一個商鋪、每一個店家做信用等級的評分,根據這個評分阿里金融去發(fā)放微貸,從500塊錢到100萬不等,并開發(fā)了很多業(yè)務產品,包括訂單貸款、信用貸款等等。阿里金融打破了銀行的傳統(tǒng)做法,不需要抵押,不需要擔保,只依賴于大數據,通過大數據應用和業(yè)務創(chuàng)新,改變了一個行業(yè),改變了游戲規(guī)則。大數據目前在全球已經用于各行各業(yè),主要包括金融服務業(yè)、銀行業(yè)、計算機行業(yè)、國內外的咨詢公司、電商企業(yè)、零售業(yè)等等。下面主要從四個方面闡述大數據在不同行業(yè)較成功的應用。一是從傳感器、網絡日志、網上點擊流實時采集下來,制定一些業(yè)務規(guī)則,實時滿足業(yè)務規(guī)則的東西摘錄出來,實時判斷。比如某人在一天中打通了20個電話,但不到2分鐘就掛斷了,這個電話可能是欺詐電話,這就是業(yè)務規(guī)則,當下一個電話的數據流發(fā)生時,就會自動判斷,這個是一個異常的話單,是一個欺詐的單位,這在電信企業(yè)中已經應用了。銀行也一樣,開展了信用卡的實時監(jiān)測。另外一種手段是內容計算。傳統(tǒng)處理都是數據庫表格的方式,而現在要處理內容。一是社交媒體跟輿情的分析。首先,從微博、社交媒體中把需要的文檔、文章,通過爬蟲從網上爬下來,放在非結構化的數據平臺中,對內容進行分詞、句法分析、情感分析,同時做一些關系實體的識別,通過這些內容、關系分析企業(yè)聲譽度、品牌、服務質量,跟蹤產品評價和市場動態(tài),做企業(yè)層面輿情的監(jiān)控。二是利用360度全景客戶視圖開展營銷、銷售。傳統(tǒng)的客戶視圖基于客戶在本企業(yè)的交易數據,但是新的技術手段出現后,很多企業(yè)考慮全景的客戶視圖,除了企業(yè)本身的交易數據以外,把客戶在社交網絡上、媒體、交互數據上的一些信息集成起來,和原來傳統(tǒng)的數據集中在一起,做全景的客戶視圖,全面了解客戶。目前在銀行、電信行業(yè),很多企業(yè)都在做這個事情。360度全景視圖怎么做?利用外部的社交網絡數據,對客戶社交網絡進行畫像,對客戶在網絡上的信息進行歸類,有些是客戶的評價討論,有些是客戶的傾向性信息,還有客戶情緒的信息、行為的數據,全面整合,對客戶進行網絡的畫像?;谶@個畫像,企業(yè)可以實現微觀的客戶細分、營銷活動管理、信譽風險的評估以及競爭對手的分析。三是通過大數據開展關聯企業(yè)、交易對手風險暴露分析和事件監(jiān)測。將交易所、證監(jiān)會、銀監(jiān)會、安全部門、公安部門的監(jiān)管文件,以及新聞、出版物、社交媒體數據爬下來,刻畫企業(yè)的社交網絡圖,實時展示企業(yè)與外界的聯系。四是客戶的信用風險評估。比如花旗銀行本身掌握客戶的很多交易的數據,同時也會采集客戶的一些外部信息,以及交易對手信息、市場信息、新聞評論,并且把這些數據關聯起來。當客戶貸款時,系統(tǒng)通過模型能自動判斷貸款利率(因為美國的利率是浮動的,這個利率會給信貸員提供參考)。這與阿里金融異曲同工。這方面的應用還有很多,比如保險公司獲取客戶體檢的信息以及病歷,從而判斷客戶大概得了什么病,應該用什么藥,并把這些結論提供給醫(yī)生做實時參考。4、大數據與云計算結合的研究云計算受到學術界和工業(yè)界的熱捧,隨后,大數據橫空出世,更是炙手可熱,經常有人把大數據和云計算相提并論。大數據與云計算確實有一些相同之處。它們都是為數據存儲和處理服務的,都需要占用大量的存儲和計算資源,而且大數據用到的海量數據存儲技術、海量數據管理技術、MapReduce等并行處理技術也都是云計算的關鍵技術。但是,大數據與云計算也有很多方面的差異。云計算的目的是通過互聯網更好地調用、擴展和管理計算及存儲資源和能力,以節(jié)省企業(yè)的IT部署成本,其處理對象是IT資源、處理能力和各種應用。云計算從根本上改變了企業(yè)的IT架構,產業(yè)發(fā)展的主要推動力量是存儲及計算設備的生產廠商和擁有計算及存儲資源的企業(yè)。而大數據的目的是充分挖掘海量數據中的信息,發(fā)現數據中的價值,其處理對象是各種數據。大數據使得企業(yè)從“業(yè)務驅動”轉變?yōu)椤皵祿寗印保瑥亩淖兞似髽I(yè)的業(yè)務架構,其直接受益者不是IT部門,而是業(yè)務部門或企業(yè)CEO,產業(yè)發(fā)展的主要推動力量是從事數據存儲與處理的軟件廠商和擁有大量數據的企業(yè)。學者余從國認為云計算和大數據實際上是工具與用途的關系,即云計算為大數據提供了有力的工具和途徑,大數據為云計算提供了很有價值的用武之地[]。大數據若與云計算相結合,將相得益彰,互相都能發(fā)揮最大的優(yōu)勢。云計算能為大數據提供強大的存儲和計算能力,更加迅速地處理大數據的豐富信息,并更方便地提供服務;而來自大數據的業(yè)務需求,能為云計算的落地找到更多更好的實際應用。評述:大數據是指一般的軟件工具難以捕捉、管理和分析的大容量數據,一般以“太字節(jié)”為單位,大數據之“大”,并不僅僅在于“容量之大”,更大的意義在于:通過對海量數據的交換、整合和分析,發(fā)現新的知識,創(chuàng)造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發(fā)展”。大數據大數據作為一種重要的戰(zhàn)略資產,已經不同程度地滲透到每個行業(yè)領域和部門,其深度應用不僅有助于企業(yè)經營活動,還有利于推動國民經濟發(fā)展。目前,關于大數據的存儲處理技術研究中有6種數據管理技術普遍被關注,即分布式存儲與計算、內存數據庫技術、列式數據庫技術、云數據庫、NoSQL、移動數據庫技術。其中分布式存儲與計算受關注度最高。參考文獻:GantzJ,ReinselD.2011DigitalUniverseStudy:ExtractingValuefromChaos[M].IDCGo-to-MarketService,2011.Nature.BigData[EB/OL].[2012-10-02]./new/special/bigdata/index.htmlBryantRE,KatzRH,LazowskaED.Big-Datacomputing:Creatingrevolutionarybreakthroughsincommerce,science,andsociety[R].[2012-10-02]./ccc/docs/init/Big_Data.PdfScinece.Specicalonlinecollection:Dealingwithdata[EB/OL].[2012-10-02]./site/special/data/,2011AgrawalD,BernsteinP,BertinoE,etal.Challengesandopportunitieswithbigdata-AcommunitywhitepaperdevelopedbyleadingresearchersacrosstheUnitedStates[R/OL].[2012-10-02],/ccc/docs/init/bigdatawhitepaper.pdfManyikaJ,ChuiM,BrownB,etal.Biddata:Thenextfrontierforinnovation,competion,andproductivity[R/OL].[2012-10-02].http://www.M/Insights/MGI/Research/Technology_and_Innovation

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論