大數(shù)據(jù)論文分析_第1頁
大數(shù)據(jù)論文分析_第2頁
大數(shù)據(jù)論文分析_第3頁
大數(shù)據(jù)論文分析_第4頁
大數(shù)據(jù)論文分析_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)論文分析隨著數(shù)據(jù)化時代的到來,對于人類如何處理分析數(shù)據(jù)提出了就巨大的疑問。在醫(yī)療,經(jīng)濟(jì),通信等一些行業(yè)上已經(jīng)開始了比較廣泛的應(yīng)用。2014巴西世界杯于7月14日凌晨落下帷幕,德國戰(zhàn)車1:0戰(zhàn)勝阿根廷,第四次捧起大力神杯。與往屆世界杯不同的是:數(shù)據(jù)分析成為巴西世界杯賽事外的精彩看點(diǎn)。伴隨賽場上球員的奮力角逐,大數(shù)據(jù)也在全力演繹世界杯背后的分析故事。一向以嚴(yán)謹(jǐn)著稱的德國隊(duì)引入專門處理大數(shù)據(jù)的足球解決方案,進(jìn)行比賽數(shù)據(jù)分析,優(yōu)化球隊(duì)配置,并通過分析對手?jǐn)?shù)據(jù)找到比賽的“制敵”方式;谷歌、微軟、Opta等通過大數(shù)據(jù)分析預(yù)測賽果......大數(shù)據(jù),不僅成為賽場上的“第12人”,也在某種程度上充當(dāng)了世界杯的"預(yù)言帝"。大數(shù)據(jù)分析邂逅世界杯,是大數(shù)據(jù)時代的必然發(fā)生,而大數(shù)據(jù)分析也將在未來改變我們生活的方方面面。由此可以看出大數(shù)據(jù)分離我們的生活并不遙遠(yuǎn),目前,大企業(yè)是最早采用大數(shù)據(jù)分析的,往往從個別部門開始使用大數(shù)據(jù)分析工具。我們每一個人都是數(shù)據(jù)的生產(chǎn)者。在美國,一些農(nóng)場主——他們有GPS定位設(shè)備,他們的的農(nóng)業(yè)機(jī)械設(shè)備也提供了大量數(shù)據(jù),通過對這些數(shù)據(jù)的分析可以知道土壤肥力和濕度提高農(nóng)業(yè)的生產(chǎn)率。美國作為當(dāng)今世界上唯一的超級大國,他們的大數(shù)據(jù)分析業(yè)務(wù)發(fā)展比中國早了兩年,許多集群規(guī)模已經(jīng)達(dá)到了上千個節(jié)點(diǎn),而中國只有十幾個。中國大數(shù)據(jù)分析的案例我最早接觸的是網(wǎng)絡(luò)視頻公司愛奇藝的應(yīng)用,它們利用互聯(lián)網(wǎng)收集信息的便利,研究客戶在觀看視頻時播放,暫停,跳過等功能鍵的使用次數(shù)頻率,從而得知客戶愛觀看的視頻片段繼而推出了既不影響劇情又沒有過多大家不愛看的章節(jié),一時間廣受歡迎。但是大數(shù)據(jù)分析在為人們帶來便利的同時也存在許多風(fēng)險,相信大家對于不久前美國情報部門人員斯諾登披露的美國情報監(jiān)控項(xiàng)目記憶深刻。美國利用其掌握的大量數(shù)據(jù)信息對喜多美國公民進(jìn)行監(jiān)控。而大數(shù)據(jù)分析其信息量巨大,如何保證期被合理利用與保護(hù)依然是分析公司面臨的大問題。大數(shù)據(jù)分析的應(yīng)用和發(fā)展前景大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)可以概括為4個V,數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型多(Variety)、真實(shí)性(Veracity)。大數(shù)據(jù)作為時下最火熱的IT行業(yè)的詞匯,隨之而來的數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)據(jù)的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點(diǎn)。隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)分析也應(yīng)運(yùn)而生。大數(shù)據(jù)應(yīng)用與案例分析1.大數(shù)據(jù)應(yīng)用案例之:醫(yī)療行業(yè)SetonHealthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測的首個客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過大數(shù)據(jù)處理,更好地分析病人的信息。在加拿大多倫多的一家醫(yī)院,針對早產(chǎn)嬰兒,每秒鐘有超過3000次的數(shù)據(jù)讀取。通過這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對性地采取措施,避免早產(chǎn)嬰兒夭折。它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過社交網(wǎng)絡(luò)來收集數(shù)據(jù)的健康類App。也許未來數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經(jīng)代謝完成會自動提醒你再次服藥。2.大數(shù)據(jù)應(yīng)用案例之:能源行業(yè)智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當(dāng)你的太陽能有多余電的時候還可以買回來。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來的這些數(shù)據(jù)可以用來預(yù)測客戶的用電習(xí)慣等,從而推斷出在未來2~3個月時間里,整個電網(wǎng)大概需要多少電。有了這個預(yù)測后,就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣,如果提前買就會比較便宜,買現(xiàn)貨就比較貴。通過這個預(yù)測后,可以降低采購成本。數(shù)據(jù)化生存IT行業(yè)的“指數(shù)效應(yīng)”威力驚人,比如,IT的基石芯片行業(yè)有個摩爾定律,每18個月芯片上集成的晶體管數(shù)會翻番,由此會帶來一系列指數(shù)式連鎖反應(yīng)——CPU的性能翻番,芯片的成本折半,功耗也會折半。這也就是大家為什么看到電子產(chǎn)品快速降價的根本原因。市場調(diào)研公司IDC認(rèn)為,大數(shù)據(jù)行業(yè)也有“摩爾定律”。英特爾中國研究院院長吳甘沙非常認(rèn)同這個說法,他曾是英特爾中國研究院首位“首席工程師”,主持大數(shù)據(jù)研究?!叭绻f摩爾定律是我們所在的指數(shù)社會的基因,那么大數(shù)據(jù)就是指數(shù)社會的蛋白質(zhì)?!眳歉噬痴f。有人說大數(shù)據(jù)是新的原材料、新的原油、新的資產(chǎn),甚至是新的貨幣,而吳甘沙認(rèn)為,人類現(xiàn)在的生存就是一場數(shù)據(jù)化生存。人類社會的各類設(shè)備在不停地感知、傳輸、存儲數(shù)據(jù)。今天,人們認(rèn)為谷歌可能是最大的數(shù)據(jù)擁有者之一,但按照指數(shù)增長規(guī)律,到2020年,一年所產(chǎn)生的數(shù)據(jù)將是1000個今天的谷歌或10000個百度。“我們看到數(shù)據(jù)和計(jì)算能力在過去15年間一直呈現(xiàn)指數(shù)級增長,這種增長給我們帶來了根本性變化——不能再看單獨(dú)的數(shù)據(jù),而是把全部數(shù)據(jù)放在一起來考慮,來描繪出對人、企業(yè)或是業(yè)務(wù)的高清晰圖像?!贝髷?shù)據(jù)之父DougCutting說,“這件事是一個革命性、階段性的變化?!盌ougCutting是開源技術(shù)世界中一個很具影響力的人物,他打造了目前在云計(jì)算和大數(shù)據(jù)領(lǐng)域里如日中天的開源技術(shù)Hadoop。他是Apache基金會主席,也是大數(shù)據(jù)平臺企業(yè)Cloudera的首席技術(shù)官。大量、快速增長的數(shù)據(jù)需要實(shí)時儲存、整合和分析,過去的IT架構(gòu)已經(jīng)無法應(yīng)付,這就促成了一種名為Hadoop開源新架構(gòu)的誕生,這是個可以無限擴(kuò)容的分布式計(jì)算結(jié)構(gòu)。在這個無限擴(kuò)容開放式架構(gòu)的發(fā)展大勢下,IT業(yè)界才倡導(dǎo)了“軟件定義基礎(chǔ)設(shè)施”的趨勢,把計(jì)算、存儲和網(wǎng)絡(luò)做成開放式的標(biāo)準(zhǔn)模塊,降低設(shè)施的門檻;在基礎(chǔ)設(shè)施之上,推動開放、可信數(shù)據(jù)處理平臺Hadoop;在此之上,推動整個生態(tài)圈的創(chuàng)新,實(shí)現(xiàn)各類分析應(yīng)用,把高級分析功能平民化,使得它能邁入主流市場,實(shí)現(xiàn)規(guī)模經(jīng)濟(jì)。數(shù)據(jù)咖啡館騰訊高級副總裁湯道生曾請教歐洲信息哲學(xué)創(chuàng)始人、牛津大學(xué)教授LucianoFloridi一個困擾騰訊大數(shù)據(jù)應(yīng)用的問題——數(shù)據(jù)如何互聯(lián)互通,這對于發(fā)揮數(shù)據(jù)的價值至關(guān)重要?,F(xiàn)在,數(shù)據(jù)已成為各個組織的商業(yè)資產(chǎn),數(shù)據(jù)交換成為一個挑戰(zhàn)。Luciano以人類早先對石油資源的應(yīng)對方式進(jìn)行類比:挪威當(dāng)年建立了復(fù)雜的綜合體系去處理自然資源,從而讓整個人群受益。現(xiàn)在,政府和手握數(shù)據(jù)的企業(yè)也有責(zé)任去摸索一個綜合體系,把數(shù)據(jù)的價值擴(kuò)大到廣泛的人群。在英特爾,吳甘沙他們也正在開展“數(shù)據(jù)安全流通以及定價”這樣的研究。英特爾有一個研究平臺,叫做“數(shù)據(jù)咖啡館”,意思是希望這個平臺能像咖啡館那樣起到“匯聚”作用,匯聚不同領(lǐng)域、不同企業(yè)的數(shù)據(jù),一起來產(chǎn)生新的價值。這里面需要大量的核心技術(shù),例如,頂層的多方安全計(jì)算、數(shù)據(jù)審計(jì)及定價等。英特爾與美國癌癥研究機(jī)構(gòu)開展合作。癌癥是一個典型的長尾病癥。過去50年來,癌癥的治愈率僅僅提升了約8%,這是因?yàn)檠芯繖C(jī)構(gòu)擁有的基因組樣本太少了。如果通過“數(shù)據(jù)咖啡館”把基因組樣本聚合起來,就能期待癌癥技術(shù)獲得突破。而聚合就需要數(shù)據(jù)交易。某種程度上,目前的數(shù)據(jù)是論斤按兩來交易的,因?yàn)閿?shù)據(jù)的價格很難衡量與預(yù)測?!霸谶@樣一種數(shù)據(jù)不易定價的情況下,我們的理念是先用起來,在使用過程中去發(fā)現(xiàn)它的價值?!眳歉噬痴f。在英特爾宏大的愿景中,希望在2020年之前,一天之內(nèi)能完成三件事:對病人進(jìn)行全基因組測序,鎖定癌癥的相關(guān)基因,形成個性化的用藥以及修復(fù)方案?,F(xiàn)在癌癥很難治愈的原因是新藥更新速度趕不上癌細(xì)胞的變化速度,有了大數(shù)據(jù)技術(shù),癌癥治愈率將指日可待。數(shù)據(jù)交易只是英特爾在大數(shù)據(jù)研究上的重要方向之一。英特爾的其他重要研究領(lǐng)域還涵蓋兩個重要領(lǐng)域:數(shù)據(jù)與機(jī)器的關(guān)系——什么樣的可擴(kuò)展架構(gòu)能更好地存儲和處理數(shù)據(jù);人和數(shù)據(jù)之間的關(guān)系——什么樣的分析工具能增強(qiáng)人的分析能力。以往,在英特爾,1~3年的事由產(chǎn)品部門來做,3~5年的由英特爾研究院來做,5~8年的與大學(xué)合作研究。但在這樣一個不可預(yù)測的時代下,英特爾把對“大數(shù)據(jù)”的研發(fā)周期進(jìn)一步縮短,與大學(xué)合作研究的技術(shù)也希望盡快推向市場,像Spark、集成了數(shù)據(jù)分析及交換的Datahub,內(nèi)存數(shù)據(jù)庫H-Store、可視化、深度學(xué)習(xí)(Deeplearning)等。大數(shù)據(jù)之星今年3月,英特爾以7.4億美元收購了Cloudera18%的股份,成為Cloudera的戰(zhàn)略投資者。一家IT巨頭的高管評論說:“英特爾占領(lǐng)了大數(shù)據(jù)領(lǐng)域的制高點(diǎn)?!盋loudera是一家在大數(shù)據(jù)領(lǐng)域起著關(guān)鍵作用的創(chuàng)新企業(yè)。它由來自Facebook、谷歌、雅虎和甲骨文的高管和工程師在2008年創(chuàng)建,其商業(yè)模式類似Linux領(lǐng)域的開源軟件企業(yè)紅帽公司(RedHat)。Cloudera中國專區(qū)>>>開源技術(shù)的開發(fā)類似今天互聯(lián)網(wǎng)世界的眾籌模式——成千上萬背景不同的技術(shù)愛好者聚集在一個“開源社區(qū)”中,一起創(chuàng)造一個他們熱愛的軟件技術(shù),人們可以自由使用。在此過程中,紅帽創(chuàng)造了一種名為“訂閱”的商業(yè)模式,它基于開源社區(qū)的軟件,通過更多測試和驗(yàn)證,開發(fā)出更穩(wěn)定、更易用的“企業(yè)版”。用戶可以免費(fèi)使用它,但如果需要技術(shù)支持和咨詢服務(wù)就要付費(fèi)。Cloudera仿照紅帽模式,提供企業(yè)級Hadoop平臺的服務(wù)。如今,Cloudera已經(jīng)帶頭形成全球最大的大數(shù)據(jù)生態(tài)鏈,有1200個合作伙伴。在美國,每天70%的智能手機(jī)數(shù)據(jù)都是在Cloudera平臺上進(jìn)行處理的。同時,Cloudera對新興大數(shù)據(jù)領(lǐng)域進(jìn)行普及,在全球培訓(xùn)了5萬多名Hadoop專家。9月,Cloudera落戶中國。苗凱翔成為其在中國的第一個員工,擔(dān)任該公司中國區(qū)副總裁。之前,他在英特爾負(fù)責(zé)大數(shù)據(jù)業(yè)務(wù),參與了中國第一個Hadoop項(xiàng)目——2011年中國移動的通話詳單查詢項(xiàng)目。苗凱翔發(fā)現(xiàn),美國的大數(shù)據(jù)業(yè)務(wù)發(fā)展要比中國早兩年,美國很多集群規(guī)模都已是上千個節(jié)點(diǎn),中國才幾十個,他預(yù)計(jì)明年中國企業(yè)會部署更大的集群?!爸袊钠髽I(yè),如運(yùn)營商、銀行在大數(shù)據(jù)的規(guī)劃上越來越務(wù)實(shí),設(shè)想也越來越大。目前他們要先想清楚大數(shù)據(jù)的商業(yè)價值?!泵鐒P翔說,“還要考慮清楚用大數(shù)據(jù)的目的是節(jié)省成本,還是創(chuàng)造價值,這是大數(shù)據(jù)的兩個主題。”苗凱翔用全球最大在線支付公司的實(shí)踐來說明大數(shù)據(jù)的意義。這家企業(yè)本來用小型機(jī)做數(shù)據(jù)存儲,在備份系統(tǒng)建設(shè)中,如果使用同樣的小型機(jī),一套就要上千萬美元,太昂貴。最后,它們購買了Hadoop平臺。Hadoop已經(jīng)足夠穩(wěn)定、容量非常龐大,成本只是小型機(jī)的幾十分之一甚至幾百份之一,可以為企業(yè)節(jié)省可觀的成本。這是企業(yè)使用大數(shù)據(jù)技術(shù)的第一步。之后,這家企業(yè)又基于Hadoop平臺開展新業(yè)務(wù),例如,給自己的客戶提供各種報表,僅這項(xiàng)業(yè)務(wù)就為企業(yè)創(chuàng)造了百億美元的銷售額。Hadoop非常復(fù)雜,苗凱翔認(rèn)為,Cloudera的意義是能在中國把它構(gòu)架起來、跑起來。他希望把Cloudera在金融、電信、零售、制造、政府和醫(yī)療領(lǐng)域的實(shí)踐帶到中國。伴隨Cloudera在中國落地,其全球性合作伙伴Oracle、HP、DELL、SAS等會與Cloudera有更多在中國的合作。同時,它也在找尋本土合作伙伴,像博康智能這樣在一個細(xì)分市場做得出色的系統(tǒng)集成商。明年第一季度,Cloudera也會在中國開展培訓(xùn)業(yè)務(wù)。目前,苗凱翔團(tuán)隊(duì)在與中國客戶溝通,探討Cloudera在中國的商業(yè)模式。未來之路近些年,DougCutting一直推進(jìn)Hadoop在企業(yè)級市場的實(shí)踐。讓他欣慰的是Hadoop在各行業(yè)中開展的實(shí)踐。讓他印象最深的是一家信用卡公司。之前,這家企業(yè)檢驗(yàn)欺詐行為需要3個月,當(dāng)它采用Hadoop分析過往5年的交易歷史后,發(fā)現(xiàn)了一個欺詐模式,這個模式在多年中會連續(xù)出現(xiàn)。于是,這家信用卡公司采用了Hadoop技術(shù),不僅節(jié)省了很多成本,效果也非常好。DougCutting也曾拜訪過一家位于亞特蘭大的兒童醫(yī)院。在醫(yī)院的一間急診室中,有幾十個早產(chǎn)兒。嬰兒身上有很多監(jiān)測器,醫(yī)護(hù)人員可以通過屏幕來看這些數(shù)據(jù)。一開始,這些數(shù)據(jù)隨時就被扔掉了。后來,人們把數(shù)據(jù)從那些老式電腦中取出來,存儲起來并進(jìn)行分析。他們發(fā)現(xiàn),為了檢測孩子的身體狀況,護(hù)士每天都要在孩子腳底扎針取血,一開始孩子們會哭,過了幾天他們就不哭了。可是,當(dāng)人們看到這些數(shù)據(jù)時會發(fā)現(xiàn),實(shí)際上,在扎針取血后30分鐘內(nèi),嬰兒的心跳和呼吸都特別快,他們非常緊張,這對他們的健康不利。這幫助醫(yī)護(hù)人員了解了很多情況,并改進(jìn)了他們對嬰兒的護(hù)理。“我們看到越來越多的行業(yè),正在利用大數(shù)據(jù)分析來提升業(yè)績?!盌ougCutting說,“這些企業(yè)并不僅局限于高科技產(chǎn)業(yè),它們還來自其他行業(yè),比如采礦業(yè)、交通業(yè)。”目前,大企業(yè)是最早采用大數(shù)據(jù)分析平臺的,DougCutting觀察到,這些企業(yè)通常是從個別部門開始使用Hadoop,然后擴(kuò)展到其他部門。DougCutting認(rèn)為,未來會有越來越多的中小企業(yè)使用Hadoop。在美國,一些小型農(nóng)場主甚至農(nóng)民,現(xiàn)在也是大數(shù)據(jù)的生產(chǎn)者——他們有GPS定位設(shè)備,他們的拖拉機(jī)和其他機(jī)械設(shè)備也收集了大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論