大數(shù)據(jù)時代電子商務(wù)的挑戰(zhàn)與機遇研究畢業(yè)設(shè)計論文_第1頁
大數(shù)據(jù)時代電子商務(wù)的挑戰(zhàn)與機遇研究畢業(yè)設(shè)計論文_第2頁
大數(shù)據(jù)時代電子商務(wù)的挑戰(zhàn)與機遇研究畢業(yè)設(shè)計論文_第3頁
大數(shù)據(jù)時代電子商務(wù)的挑戰(zhàn)與機遇研究畢業(yè)設(shè)計論文_第4頁
大數(shù)據(jù)時代電子商務(wù)的挑戰(zhàn)與機遇研究畢業(yè)設(shè)計論文_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、目 錄 TOC o 1-4 h z u HYPERLINK l _Toc385840419 摘要 PAGEREF _Toc385840419 h 1 HYPERLINK l _Toc385840420 Abstract PAGEREF _Toc385840420 h II HYPERLINK l _Toc385840421 第1章 緒論 PAGEREF _Toc385840421 h 1 HYPERLINK l _Toc385840422 選題背景與意義 PAGEREF _Toc385840422 h 1 HYPERLINK l _Toc385840423 電子商務(wù)的發(fā)展現(xiàn)狀 PAGEREF

2、_Toc385840423 h 2 HYPERLINK l _Toc385840424 我國電子商務(wù)的發(fā)展階段 PAGEREF _Toc385840424 h 3 HYPERLINK l _Toc385840425 電子商務(wù)的PC互聯(lián)時代 PAGEREF _Toc385840425 h 3 HYPERLINK l _Toc385840426 電子商務(wù)的移動互聯(lián)時代 PAGEREF _Toc385840426 h 4 HYPERLINK l _Toc385840427 電子商務(wù)的大數(shù)據(jù)時代 PAGEREF _Toc385840427 h 4 HYPERLINK l _Toc385840428 1

3、.4研究方法與主要研究內(nèi)容 PAGEREF _Toc385840428 h 5 HYPERLINK l _Toc385840429 第2章 電子商務(wù)的大數(shù)據(jù)時代 PAGEREF _Toc385840429 h 6 HYPERLINK l _Toc385840430 電子商務(wù)大數(shù)據(jù)時代概述 PAGEREF _Toc385840430 h 6 HYPERLINK l _Toc385840431 電子商務(wù)大數(shù)據(jù)時代的特點 PAGEREF _Toc385840431 h 8 HYPERLINK l _Toc385840432 數(shù)據(jù)量大 PAGEREF _Toc385840432 h 8 HYPERLI

4、NK l _Toc385840433 數(shù)據(jù)類型多樣 PAGEREF _Toc385840433 h 9 HYPERLINK l _Toc385840434 數(shù)據(jù)處理速度快 PAGEREF _Toc385840434 h 10 HYPERLINK l _Toc385840435 數(shù)據(jù)價值密度低 PAGEREF _Toc385840435 h 10 HYPERLINK l _Toc385840436 電子商務(wù)大數(shù)據(jù)時代的SWOT分析 PAGEREF _Toc385840436 h 11 HYPERLINK l _Toc385840437 優(yōu)勢分析 PAGEREF _Toc385840437 h 1

5、1 HYPERLINK l _Toc385840438 劣勢分析 PAGEREF _Toc385840438 h 12 HYPERLINK l _Toc385840439 機會分析 PAGEREF _Toc385840439 h 12 HYPERLINK l _Toc385840440 威脅分析 PAGEREF _Toc385840440 h 13 HYPERLINK l _Toc385840441 電子商務(wù)大數(shù)據(jù)時代的發(fā)展前景 PAGEREF _Toc385840441 h 13 HYPERLINK l _Toc385840442 第3章 電子商務(wù)大數(shù)據(jù)時代面對的問題與挑戰(zhàn) PAGEREF

6、_Toc385840442 h 16 HYPERLINK l _Toc385840443 3.1 企業(yè)對大數(shù)據(jù)的認(rèn)知程度 PAGEREF _Toc385840443 h 16 HYPERLINK l _Toc385840444 競爭情報系統(tǒng)的數(shù)據(jù)處理能力 PAGEREF _Toc385840444 h 17 HYPERLINK l _Toc385840445 競爭情報體系組織模式 PAGEREF _Toc385840445 h 18 HYPERLINK l _Toc385840446 相應(yīng)的問題解決方案分析 PAGEREF _Toc385840446 h 18 HYPERLINK l _Toc

7、385840447 第4章 電子商務(wù)大數(shù)據(jù)時代的機遇 PAGEREF _Toc385840447 h 20 HYPERLINK l _Toc385840448 重構(gòu)精準(zhǔn)營銷模式 PAGEREF _Toc385840448 h 20 HYPERLINK l _Toc385840449 大數(shù)據(jù)時代電商IT基礎(chǔ)設(shè)施的變革 PAGEREF _Toc385840449 h 22 HYPERLINK l _Toc385840450 大數(shù)據(jù)處理模式 PAGEREF _Toc385840450 h 22 HYPERLINK l _Toc385840451 信息檢索服務(wù)的強大性 PAGEREF _Toc3858

8、40451 h 24 HYPERLINK l _Toc385840452 處理能力快速性 PAGEREF _Toc385840452 h 25 HYPERLINK l _Toc385840453 數(shù)據(jù)分析的精準(zhǔn)性 PAGEREF _Toc385840453 h 25 HYPERLINK l _Toc385840454 信息的安全服務(wù) PAGEREF _Toc385840454 h 25 HYPERLINK l _Toc385840455 第5章 阿里巴巴電子商務(wù)大數(shù)據(jù)時代實證分析 PAGEREF _Toc385840455 h 27 HYPERLINK l _Toc385840456 阿里大數(shù)

9、據(jù)信息采集與推送 PAGEREF _Toc385840456 h 27 HYPERLINK l _Toc385840457 阿里大數(shù)據(jù)戰(zhàn)略發(fā)展歷程 PAGEREF _Toc385840457 h 28 HYPERLINK l _Toc385840458 數(shù)據(jù)產(chǎn)品戰(zhàn)略 PAGEREF _Toc385840458 h 28 HYPERLINK l _Toc385840459 數(shù)據(jù)平臺戰(zhàn)略 PAGEREF _Toc385840459 h 28 HYPERLINK l _Toc385840460 阿里大數(shù)據(jù)戰(zhàn)略存在的安全隱患及解決對策 PAGEREF _Toc385840460 h 29 HYPERL

10、INK l _Toc385840461 結(jié)束語 PAGEREF _Toc385840461 h 30 HYPERLINK l _Toc385840462 致謝 PAGEREF _Toc385840462 h 31 HYPERLINK l _Toc385840463 參考文獻 PAGEREF _Toc385840463 h 32第1章 緒論根據(jù)IDC機構(gòu)的定義,“大數(shù)據(jù)”是指為了更經(jīng)濟、更有效地從高頻率、大容量、不同結(jié)構(gòu)類型的數(shù)據(jù)中獲取有價值的信息而設(shè)計的新一代架構(gòu)技術(shù),人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展創(chuàng)新。十年之前,電影天下無賊中的經(jīng)典對白“21世紀(jì)什么

11、最貴?人才”被人們爭相傳頌;十年之后,這個問題的答案與時俱進地變?yōu)楫?dāng)前市場熱點數(shù)據(jù)!當(dāng)然,此數(shù)據(jù)已非傳統(tǒng)意義的數(shù)據(jù),而是海量、爆發(fā)式增長的“大數(shù)據(jù)”。作為繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)的又一次顛覆性技術(shù)浪潮,大數(shù)據(jù)被人們視為智慧城市的源泉、精準(zhǔn)營銷的根基,其與傳統(tǒng)BI究竟有何區(qū)別?未來企業(yè)應(yīng)該如何挖掘海量數(shù)據(jù)背后的潛在價值?自2009年以來,從IBM、甲骨文到谷歌、亞馬遜、Face book,從IDC、Gartner到麥肯錫、普華永道、埃森哲,從紐約時報到福布斯、財富周刊,從科學(xué)、自然雜志到MIT斯隆管理評論產(chǎn)業(yè)巨頭的實踐探索、連篇累牘的新聞報道,令“大數(shù)據(jù)”概念深入人心。顧名思義,“大數(shù)據(jù)”的

12、精髓在于“大”,其不僅說明數(shù)據(jù)的數(shù)量龐大,還意味著數(shù)據(jù)種類繁多、結(jié)構(gòu)復(fù)雜,變化速度飛快。大數(shù)據(jù)呈現(xiàn)三種特性:Volume(極多的數(shù)據(jù)量)、Velocity(極快的處理速度)、Variety(極繁的數(shù)據(jù)種類)。Volume指的是數(shù)據(jù)量龐大。如今有許多企業(yè)已面臨單日數(shù)據(jù)量以數(shù)十、數(shù)百TB(萬億字節(jié),1TB=1024GB)的速度增加,而近幾年累加的總數(shù)據(jù)量也達到了PB(1000個TB)甚至EB(一百萬個TB)等級,這樣的數(shù)據(jù)量令傳統(tǒng)的數(shù)據(jù)庫不堪重負。Velocity指企業(yè)數(shù)據(jù)增加的速度越來越快。諸如移動“大數(shù)據(jù)”成就“智慧營銷”產(chǎn)業(yè)聚焦Estate Focus、社交網(wǎng)絡(luò)的廣泛應(yīng)用,使得數(shù)據(jù)增加的速度

13、比傳統(tǒng)的應(yīng)用程式快了很多,而在數(shù)據(jù)迅猛增生的背后,處理、分析的能力和速度必須緊跟其后加以完善。Variety則是指數(shù)據(jù)的多樣性、復(fù)雜性。一方面,互聯(lián)網(wǎng)在產(chǎn)生文字資訊的同時,也不斷產(chǎn)出與以往不同的數(shù)據(jù):照片、視頻、微博等;另一方面,IT遍及工作生活的每個角落,各種各樣的傳感器、監(jiān)控器也不斷產(chǎn)生新的數(shù)據(jù),各種機器資訊數(shù)據(jù)的形式日趨復(fù)雜多樣,從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù)不斷轉(zhuǎn)化,催生了對大數(shù)據(jù)技術(shù)的強烈需求。當(dāng)前,從搜索引擎、社交網(wǎng)絡(luò)的普及,到“人手一機”的智能移動終端應(yīng)用,全球互聯(lián)網(wǎng)上的信息總量正以每年30%50%的增速不斷爆漲。人們每天在Facebook分享幾億條內(nèi)容,在Twitter轉(zhuǎn)發(fā)15TB

14、信息,在淘寶瀏覽十億條店鋪、商品,創(chuàng)造上億的成交、收藏紀(jì)錄及3000多萬條傳感器資訊IDC發(fā)布的數(shù)字宇宙研究報告顯示,2011年全球創(chuàng)造的信息數(shù)量達到1800EB,如果把這些數(shù)據(jù)刻錄到CD碟片中,這些碟片可環(huán)繞地球30圈。而目前這個數(shù)字還在以每年50%的速度增長,到2020年,全球每年產(chǎn)生的數(shù)字信息將達到40ZB(1ZB=1024EB),估計是地球上所有沙粒數(shù)量的57倍?!霸诖髷?shù)據(jù)時代,信息將呈爆發(fā)式增長,而數(shù)據(jù)價值密度非常低,找到有價值的數(shù)據(jù)如同大海撈針,通過怎樣的產(chǎn)品平臺和方式提煉數(shù)據(jù)價值,是關(guān)乎公共事業(yè)發(fā)展和企業(yè)生存的大計,值得大家從戰(zhàn)略角度去思索”在2012年百度世界營銷分論壇上,百度

15、商業(yè)產(chǎn)品與技術(shù)執(zhí)行總監(jiān)鄭子斌關(guān)于“大數(shù)據(jù)”時代的見解,贏得了產(chǎn)業(yè)界的廣泛認(rèn)同。電子商務(wù)的發(fā)展現(xiàn)狀隨著電子商務(wù)的發(fā)展,企業(yè)開始應(yīng)用“虛擬購物”手段在眾多購物場所開展逼近現(xiàn)實的市場研究,以期借助電腦系統(tǒng)在信息處理方面的優(yōu)勢,用靈活、科學(xué)的方法去觀察和分析消費行為,加速市場研究過程。根據(jù)哈佛商學(xué)院研究人員對多種產(chǎn)品銷售的分析。“虛擬購物”能獲得較為可靠、準(zhǔn)確的市場信息,其記錄數(shù)據(jù)與實際購物數(shù)據(jù)之間的相關(guān)系數(shù)大多在90%以上。由此看來,“虛擬購物”能夠克服傳統(tǒng)市場研究手段的缺點,對企業(yè)營銷大有裨益。但電子商務(wù)對營銷的影響并不局限在市場研究的范圍內(nèi)?;ヂ?lián)網(wǎng)是一個國際性的開放系統(tǒng),企業(yè)一旦涉足其中,就要面

16、對世界各國的潛在顧客即訪問者,于是自覺或不覺地成為進行國際營銷的國際性企業(yè)。這就促使企業(yè)特別是以往針對本地市場的中小企業(yè)去考慮更為復(fù)雜的營銷戰(zhàn)略問題。根據(jù)目前對“在線購物”所進行的研究,企業(yè)與顧客在互聯(lián)網(wǎng)上的交易一般是起源于顧客對企業(yè)或產(chǎn)品、服務(wù)的尋找,即對互聯(lián)網(wǎng)上相關(guān)企業(yè)或產(chǎn)品、服務(wù)信息的瀏覽或訪問。這與以往市場交易的起始方向似正相反,從而帶來營銷及相應(yīng)經(jīng)營規(guī)則的重大改變:其一,根據(jù)顧客的訪問信息,企業(yè)可以更明確地界定潛在市場。營銷的重點,是最大限度地令訪問者成為消費者,該項工作也可望因企業(yè)在互聯(lián)網(wǎng)上對多媒體展示內(nèi)容的巧妙運用而達到很高的成功率;其二,在顧客對企業(yè)的訪問過程中,雙方在互聯(lián)網(wǎng)上

17、必然產(chǎn)生交互作用,企業(yè)因此及時獲得顧客對其產(chǎn)品、服務(wù)的信息反饋。當(dāng)這些信息被輸入先進的生產(chǎn)經(jīng)營系統(tǒng)時,就可以用批量處理的效率去提供滿足不同顧客需求的產(chǎn)品、服務(wù),實現(xiàn)比批量生產(chǎn)更勝一籌的批量個人化。從一定意義上講,電子商務(wù)的國際化發(fā)展,預(yù)示著未來企業(yè)經(jīng)營革命的方向。電子商務(wù)也對企業(yè)管理產(chǎn)生影響。在企業(yè)內(nèi)部管理方面,管理人員以往注重對企業(yè)施加充分的控制以完成效率目標(biāo)。組織結(jié)構(gòu)的設(shè)立和辦公、生產(chǎn)經(jīng)營場所的界定,使管理者得以結(jié)合等級制進行現(xiàn)場管理控制,控制的主要對象之一,是可以觀測到的員工行為。此時企業(yè)的經(jīng)營效率將更多地取決于組織內(nèi)部的合作溝通情況,而合作溝通又與組織成員之間的信任程度密切相關(guān)。類似的

18、情況也出現(xiàn)在企業(yè)間及企業(yè)外部管理方面。由于外聯(lián)網(wǎng)的出現(xiàn),多個企業(yè)得以共享國際化、專業(yè)化程度高、靈活性強、反應(yīng)速度快等好處。但是在外聯(lián)網(wǎng)這種松散的“虛擬”聯(lián)盟體系中,一個企業(yè)很難對其伙伴企業(yè)施加那些在合資合作企業(yè)和一般戰(zhàn)略聯(lián)盟中行之有效的控制手段,整個外聯(lián)網(wǎng)運作的成敗主要取決于各成員企業(yè)之間的相互信任和溝通。然而對于在電子商務(wù)方面起步較晚的發(fā)展中國家如中國及其企業(yè)來說,這一機遇同時也是嚴(yán)峻的挑戰(zhàn)。實際上,發(fā)達國家的企業(yè)在應(yīng)用電子商務(wù)以后,經(jīng)營過程的資源處理活動相對減少,信息處理活動相對增加;能源應(yīng)用相對減少,知識應(yīng)用相對增加。這種向信息、知識密集型經(jīng)營轉(zhuǎn)換的直接結(jié)果,是越來越多的行業(yè)出現(xiàn)了類似于

19、“馬太效應(yīng)”的報酬遞增竟?fàn)帣C制。從這個角度看,電子商務(wù)有可能像過去二三百年間對發(fā)端于西方國家的許多重大技術(shù)進步的應(yīng)用那樣,在推動人類物質(zhì)文明進步的同時,也導(dǎo)致發(fā)達國家與發(fā)展中國家之間在經(jīng)濟發(fā)展和企業(yè)經(jīng)營等方面差距的進一步擴大。 HYPERLINK l _Toc23367 電子商務(wù)的PC互聯(lián)時代電子商務(wù)的起源可以追溯到互聯(lián)網(wǎng)(Internet)和電子數(shù)據(jù)交換的出現(xiàn)。前者為電子商務(wù)的推廣應(yīng)用奠定了基礎(chǔ);后者是電子商務(wù)的初始應(yīng)用方式,至今仍是電子商務(wù)的重要組成部分。60年代末期,美國國防部高級項目管理處建立了聯(lián)接美國各大學(xué)與國防工業(yè)合同商之間的電腦網(wǎng)絡(luò)ARPANE,繼而開發(fā)了該網(wǎng)絡(luò)的標(biāo)準(zhǔn)通訊協(xié)議TC

20、P/IP。至80年代中期,美國國家科學(xué)基金會利用ARPANET的模式形成了自己的電腦網(wǎng)絡(luò)NSFNE,并逐漸與ARpA NET合并。與此同時,諸如Usenet、ll TNET,經(jīng)由各自的電腦系統(tǒng)以共用的交易標(biāo)準(zhǔn)進行商業(yè)信息的交換,這就是電子數(shù)據(jù)交換。70年代中期,美國運輸行業(yè)制定了T l)cc交易標(biāo)準(zhǔn),率先應(yīng)用這一先進的商務(wù)手段。其后美國國家標(biāo)準(zhǔn)局在T l)CC的基礎(chǔ)上制定了ANslX12交易標(biāo)準(zhǔn),并負責(zé)對增值網(wǎng)的合格認(rèn)證工作,促進了電子數(shù)據(jù)交換在多個產(chǎn)業(yè)部門的應(yīng)用。近年來,電子數(shù)據(jù)交換的管道進一步從私人線路和增值網(wǎng)擴展到互聯(lián)網(wǎng)上。用戶急劇增多。據(jù)估計,目前全美使用電子數(shù)據(jù)交換的企業(yè)已經(jīng)超過5萬

21、家,到2000年時將達20萬家左右,其應(yīng)用前景由此可見一斑。1993年9月,美國克林頓政府發(fā)布規(guī)劃信息高速公路的行動綱領(lǐng),將電子商務(wù)、遠程教學(xué)、電子醫(yī)療列為三大信息支柱項目,一系列旨在加速信息高速公路建設(shè)的公共政策也相繼出臺,這對推廣電子商務(wù)的應(yīng)用有很大的幫助。與此同時,www服務(wù)器及相關(guān)技術(shù)的出現(xiàn),為企業(yè)提供了在互聯(lián)網(wǎng)上傳輸內(nèi)容豐富、栩栩如生的多媒體信息的手段,從而得以在網(wǎng)絡(luò)上開展內(nèi)外部經(jīng)營管理活動,如生產(chǎn)經(jīng)營管理、人力資源管理、財務(wù)管理、營銷、咨詢服務(wù)等。企業(yè)界和一般消費者對新一代基于互聯(lián)網(wǎng)信息技術(shù)的逐步接受,也成為電子商務(wù)應(yīng)用的另一種不容忽視的推動力。目前電子商務(wù)的內(nèi)容已經(jīng)十分廣泛,覆蓋

22、企業(yè)經(jīng)營的許多個方面。電子商務(wù)的一般框架可圖示如下:圖1電子商務(wù)的概念框架電子商務(wù)的移動互聯(lián)時代移動互聯(lián)網(wǎng)是一個全國性的、以寬帶IP為技術(shù)核心的,可同時提供語音、 、數(shù)據(jù)、圖像、多媒體等高品質(zhì)電信服務(wù)的新一代開放的電信基礎(chǔ)網(wǎng)絡(luò)。簡單地說,移動互聯(lián)網(wǎng)能讓用戶在移動中通過移動設(shè)備(如 、iPod等移動終端)隨時、隨地訪問Internet、獲取信息,進行商務(wù)、娛樂等各種網(wǎng)絡(luò)服務(wù)。終端、網(wǎng)絡(luò)與應(yīng)用是移動互聯(lián)網(wǎng)的3個要素。正是由于中國3G網(wǎng)絡(luò)的投入運營,iPhone、Android等智能 終端以及應(yīng)用平臺的出現(xiàn),才使得移動互聯(lián)網(wǎng)得以如此迅猛地發(fā)展。中國目前約有8.4億的 用戶、3.02億的 網(wǎng)民,新興且

23、前景光明的移動互聯(lián)網(wǎng)成為眾企業(yè)垂涎的蛋糕。諸如新浪微博、街旁、米聊等,甚至是開心網(wǎng)、優(yōu)酷也都紛紛推出自己的 客戶端。中國社會化媒體幾乎都可以從國外找到原型,從You tube到優(yōu)酷、土豆,從Twitter到新浪、騰訊微博,以及各種消費點評、問答百科、位置服務(wù)等,這些媒體為普通用戶提供了極大的互動交流空間。隨著中國的互聯(lián)網(wǎng)產(chǎn)業(yè)進入一個持續(xù)、快速、穩(wěn)定的發(fā)展時期,豐富多彩的互聯(lián)網(wǎng)應(yīng)用已成為國人生活中必不可少的部分。移動互聯(lián)網(wǎng)應(yīng)用繽紛多彩,娛樂、商務(wù)、信息服務(wù)等各種各樣應(yīng)用開始滲入人們的基本生活。 電視、視頻通話、 音樂下載、 游戲、 IM、移動搜索、移動支付等移動數(shù)據(jù)業(yè)務(wù)開始帶給用戶新的體驗。電子

24、商務(wù)的大數(shù)據(jù)時代大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。業(yè)界將其特點歸結(jié)為4VVolume(數(shù)據(jù)體量巨大)、Velocity(數(shù)據(jù)類型繁多)、Variety(價值密度低)、Veracity(處理速度快)。與傳統(tǒng)數(shù)據(jù)相比較,大數(shù)據(jù)包含數(shù)據(jù)交換、互聯(lián)、質(zhì)量、安全等數(shù)據(jù)體系建設(shè)以及建設(shè)上層數(shù)據(jù)應(yīng)用的整個生態(tài)圈。在大數(shù)據(jù)時代浪潮中,時間每過去3分鐘,全球?qū)a(chǎn)生6.12億封郵件,6000萬張照片,將會有18.3萬小時的音樂被下載,有76.4個視頻在優(yōu)酷被上傳,有14.

25、1萬個程序在蘋果商店被使用,支付寶上將產(chǎn)生4400萬人民幣的交易額。這種爆炸性增長的數(shù)據(jù)量對于企業(yè)發(fā)展來說,是一筆取之不盡、用之不竭的財富。阿里巴巴、京東商城等眾多網(wǎng)絡(luò)巨頭正因為看中了這座金礦,紛紛提出將數(shù)據(jù)作為未來發(fā)展的重要戰(zhàn)略之一。2013年,電商的競爭很大程度上就是大數(shù)據(jù)的競爭,大數(shù)據(jù)將貫穿整個電商的業(yè)務(wù)流程,成為公司核心競爭力。目前,大數(shù)據(jù)在現(xiàn)實世界中已有著非常廣泛的分布和應(yīng)用,包括醫(yī)療信息、視頻監(jiān)控、移動設(shè)備、智能設(shè)備、非傳統(tǒng)IT設(shè)備、傳統(tǒng)IT信息的非傳統(tǒng)應(yīng)用以及特定行業(yè)需求等。 HYPERLINK l _Toc24543 近年來,伴隨著互聯(lián)網(wǎng)、3S技術(shù)(GPS、GIS、RS)、以及

26、智能 的迅速發(fā)展,人文社會科學(xué)領(lǐng)域的研究數(shù)據(jù)獲取與處理已經(jīng)出現(xiàn)了新的趨向。主要包括:利用軟件對網(wǎng)絡(luò)數(shù)據(jù)進行挖掘;利用GPS或LBS設(shè)備,結(jié)合GIS或網(wǎng)絡(luò)日志來采集與分析居民行為數(shù)據(jù);利用網(wǎng)絡(luò)地圖對獲取的數(shù)據(jù)進行可視化開發(fā)。這些技術(shù)可以作為大數(shù)據(jù)時代城市時空間行為研究數(shù)據(jù)的重要來源,將有利于擴大研究的范圍,并增加研究結(jié)果的精確性。網(wǎng)絡(luò)數(shù)據(jù)挖掘是計算機科學(xué)研究的重要內(nèi)容,包括內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用挖掘3種類型。其中,內(nèi)容挖掘是對網(wǎng)頁文本和媒體數(shù)據(jù)的獲取,用于研究用戶活動狀態(tài)和特征;結(jié)構(gòu)挖掘是對網(wǎng)頁鏈接結(jié)構(gòu)進行分析,用于評估網(wǎng)頁的資源量;使用挖掘則是通過挖掘網(wǎng)頁訪問的日志記錄,以便提供個性化的產(chǎn)品

27、和服務(wù)以此來研究電子商務(wù)的大數(shù)據(jù)時代。 HYPERLINK l _Toc30878 第2章 電子商務(wù)的大數(shù)據(jù)時代近年來,以互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電信網(wǎng)、廣電網(wǎng)、無線寬帶網(wǎng)為基礎(chǔ)的智慧城市建設(shè)帶來了數(shù)據(jù)量的爆發(fā)式增長,“大數(shù)據(jù)”像血液一樣遍布智慧交通、智慧醫(yī)療、智慧生活、智慧營銷等城市生活的方方面面,并推動社會職能部門及企業(yè)決策者們從“經(jīng)驗治理”向“科學(xué)治理”轉(zhuǎn)型。如何挖掘海量數(shù)據(jù)的潛在價值,為城市治理、市民生活、企業(yè)營銷提供可靠的決策建議,是智慧城市發(fā)展所面臨的重要課題,亦是企業(yè)在未來市場競爭中搶占先機的關(guān)鍵。電子商務(wù)大數(shù)據(jù)時代概述“大數(shù)據(jù)”時代(“Age of Big Data”)這一說法的流行得

28、力于全球知名咨詢公司麥肯錫的倡導(dǎo),英國牛津大學(xué)教授維克托邁爾舍恩伯格更在其大數(shù)據(jù)時代:生活、工作和思維的改變中大聲疾呼,斷言一個史無前例的大數(shù)據(jù)時代已經(jīng)來臨!“大數(shù)據(jù)”(“Big data”)顯然并不是一個嚴(yán)格的學(xué)理性概念,而更多地是一個描述性話語。所謂大數(shù)據(jù),也就是大型數(shù)據(jù)集,一般在10TB規(guī)模左右。多個數(shù)據(jù)集一整合,就會形成PB級,甚至以E、Z等為計量單位的數(shù)據(jù)量。過去幾年全世界產(chǎn)生的數(shù)據(jù)量甚至超過了歷史上4萬年來產(chǎn)生的數(shù)據(jù)量的總和。這種激增的數(shù)據(jù)量勢必突破傳統(tǒng)常規(guī)軟件的信息處理能力極限。大數(shù)據(jù)的說法正是在與傳統(tǒng)數(shù)據(jù)庫的比照中形成的,也注定只能是一個暫時性的權(quán)宜說法。隨著信息技術(shù)的進一步發(fā)

29、展,更大的數(shù)據(jù)集合會不斷出現(xiàn),今日所謂的“大數(shù)據(jù)”勢必相形見絀。IT業(yè)界通常將大數(shù)據(jù)的特征概括為四個“V”:體量(volumes)巨、類別(variety)多、速度(Velocity)快、價值(Value)大。大數(shù)據(jù)之大首先是指體量大。大數(shù)據(jù)和傳統(tǒng)所說的數(shù)據(jù)庫有所不同。誕生在20世紀(jì)70年代的傳統(tǒng)數(shù)據(jù)庫是小型的、單一的、孤立的,基于小范圍的抽樣樣本統(tǒng)計。而大數(shù)據(jù)則要求窮盡一切相關(guān)樣本,搜集盡可能全面的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)集擁有的不是支離破碎的割裂數(shù)據(jù),不是數(shù)據(jù)片段,而是完整的數(shù)據(jù)。數(shù)據(jù)的海量與數(shù)據(jù)的完整性使大數(shù)據(jù)有著傳統(tǒng)的數(shù)據(jù)庫無法比擬的信息優(yōu)勢。大數(shù)據(jù)之大還在于氣魄大、境界大。大數(shù)據(jù)的來源也有

30、別于傳統(tǒng)的數(shù)據(jù)庫,顯示出了跨領(lǐng)域、跨門類、多類別的整合氣魄和越界意識,如果說非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)一直沒有被納入經(jīng)典數(shù)據(jù)庫技術(shù)SQL的視野,那么大數(shù)據(jù)的數(shù)據(jù)則源自多種數(shù)據(jù)源,是一種綜合數(shù)據(jù),兼收并蓄了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等各種類別和格式的數(shù)據(jù),尤其是包含了大量的視頻音頻數(shù)據(jù)。這使其信息占有量和信息復(fù)雜度為傳統(tǒng)數(shù)據(jù)庫所無法比擬。這些海量數(shù)據(jù)本身就會凸顯以往不為人們注意的事物的多方面的關(guān)聯(lián)性,因此這種數(shù)據(jù)更能顯示出多方面的信息內(nèi)涵,信息質(zhì)量更為優(yōu)化,信息意味更為繁復(fù)。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫的差異還在于它并不是一個整齊排列,有著固定層次結(jié)構(gòu)、劃一技術(shù)標(biāo)準(zhǔn)、反饋遲滯后延的物態(tài)化的實體

31、,而是一個靈活、越界、即時、交互、綜合的動態(tài)過程,可以在瞬間完成信息分析,形成數(shù)據(jù)圖譜,滿足社會各界人士的實時性需求。大數(shù)據(jù)之大更在于處理信息的手筆大。大數(shù)據(jù)的要害不在于數(shù)據(jù)存儲技術(shù)的升級躍進,大數(shù)據(jù)的“大”不是指存儲和備份的數(shù)據(jù)大,在根本上它是指處理數(shù)據(jù)所使用的模式“大”。大數(shù)據(jù)在今天的時代里儼然成為了一種新的產(chǎn)業(yè)資源,通過盡力搜集整理全面數(shù)據(jù)、完整數(shù)據(jù)、綜合數(shù)據(jù)并對數(shù)據(jù)進行深度智能分析和建模,可以顯示出各種事物的潛在關(guān)聯(lián),挖掘出各種以往不為人知的相關(guān)性,判斷事物發(fā)生的概率,預(yù)測事物變化的走向,預(yù)見某種社會趨勢,從而使魚龍混雜的信息在大數(shù)據(jù)時代的社會管理、商業(yè)營銷、產(chǎn)業(yè)開發(fā)、文化創(chuàng)意、醫(yī)療保

32、健等方面更能發(fā)揮見微知著的預(yù)見性價值,據(jù)此各行各業(yè)都可以有的放矢地制定新策略,成就新創(chuàng)意,開發(fā)新產(chǎn)品,推出新業(yè)務(wù)。雖然早在1980年著名未來學(xué)家阿爾文托夫勒在其第三次浪潮一書中已經(jīng)提到“大數(shù)據(jù)”一詞。在20世紀(jì)90年代,“數(shù)據(jù)倉庫之父”比爾伊蒙(Bill In mon)更明確提出了“大數(shù)據(jù)”的概念。但在當(dāng)時“大數(shù)據(jù)”的說法并沒有引起世人的高度關(guān)注。最近幾年大數(shù)據(jù)一說不脛而走,顯然與信息量的持續(xù)攀升、大數(shù)據(jù)的俯拾即是、云計算的大量運用息息相關(guān)。一夜之間,人類儼然進入了一個全新的“大數(shù)據(jù)”時代。實際上,大數(shù)據(jù)時代的到來早有征兆。20世紀(jì)80、90年代所謂的信息爆炸可謂是今日的大數(shù)據(jù)潮流的先聲。只不

33、過,目前物聯(lián)網(wǎng)、移動通訊、互聯(lián)網(wǎng)每時每刻都在不斷滋生潮水般的海量數(shù)據(jù),人類的信息數(shù)據(jù)在以幾何指數(shù)形式激增。根據(jù)市場調(diào)研公司IDC的報告,全球信息總量每過兩年就會增長一倍。據(jù)統(tǒng)計,1分鐘內(nèi),微博網(wǎng)站推特上新發(fā)信息超過10萬條,臉譜上的瀏覽量超過600萬,蘋果應(yīng)用商店下載次數(shù)以萬計,淘寶可賣出幾萬件商品,百度能產(chǎn)生百萬次搜索記錄。而以往的數(shù)字化信息存儲和處理能力嚴(yán)重限制了信息的采集、存儲量。這些TB級、PB級海量數(shù)據(jù)的存儲、挖掘、處理、分析、利用對于以往時代來說是不可想象的。在過去,存儲的主要是模擬數(shù)據(jù),報紙、書籍、圖片、磁帶等媒介是信息存儲的主要載體,甚至在2000年的時候,數(shù)字存儲信息仍只占全

34、球數(shù)據(jù)量的四分之一;當(dāng)時,另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上。P23數(shù)據(jù)處理技術(shù)和處理能力的局限使大量在交通、醫(yī)療、商業(yè)、管理中產(chǎn)生的數(shù)據(jù)資料都難以得到長期有效的存儲。直到MPP、MapReduce、Hadoop平臺、云計算等新的數(shù)據(jù)處理技術(shù)誕生后,海量的大數(shù)據(jù)才被深度挖掘。處理,顯示出了前所未有的價值。但大數(shù)據(jù)潮流的深層根源顯然還是利潤最大化的商業(yè)沖動,大數(shù)據(jù)產(chǎn)業(yè)說到底不過是數(shù)字經(jīng)濟、知識經(jīng)濟的最新形態(tài),這也是“大數(shù)據(jù)”這個為管理咨詢公司、經(jīng)濟學(xué)家、IT界巨頭歡欣鼓舞的概念招人質(zhì)疑的重要原因。但是商業(yè)化潮流既可能導(dǎo)致文化的沙化、社會的急功近利、商業(yè)的唯利是圖,

35、也會成為文化創(chuàng)新的不竭動力,開啟知識創(chuàng)造的新天地和新境界。事實上,正是近年來數(shù)字化領(lǐng)域的商業(yè)逐利沖動驅(qū)使商家不斷改換思路,升級設(shè)備,實現(xiàn)數(shù)字技術(shù)創(chuàng)新,提升數(shù)字服務(wù)水準(zhǔn),開辟新的產(chǎn)業(yè)領(lǐng)域,開發(fā)新的文化產(chǎn)品,開創(chuàng)了蔚為潮流的大數(shù)據(jù)產(chǎn)業(yè),也開啟了有別于互聯(lián)網(wǎng)時代的“數(shù)字化生存“的新境界。2.2電子商務(wù)大數(shù)據(jù)時代的特點大數(shù)據(jù)是一個較為抽象的概念,正如信息學(xué)領(lǐng)域大多數(shù)新興概念,大數(shù)據(jù)至今尚無確切、統(tǒng)一的定義。在維基百科中關(guān)于大數(shù)據(jù)的定義為:大數(shù)據(jù)是指利用常用軟件工具來獲取、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。個人認(rèn)為,這并不是一個精確的定義,因為無法確定常用軟件工具的范圍,可容忍時間也是個概略

36、的描述。IDC在對大數(shù)據(jù)作出的定義為:大數(shù)據(jù)一般會涉及2種或2種以上數(shù)據(jù)形式。它要收集超過100TB的數(shù)據(jù),并且是高速、實時數(shù)據(jù)流;或者是從小數(shù)據(jù)開始,但數(shù)據(jù)每年會增長60%以上。這個定義給出了量化標(biāo)準(zhǔn),但只強調(diào)數(shù)據(jù)量大,種類多,增長快等數(shù)據(jù)本身的特征。研究機構(gòu)Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。這也是一個描述性的定義,在對數(shù)據(jù)描述的基礎(chǔ)上加入了處理此類數(shù)據(jù)的一些特征,用這些特征來描述大數(shù)據(jù)。當(dāng)前,較為統(tǒng)一的認(rèn)識是大數(shù)據(jù)有四個基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)

37、據(jù)要求處理速度快(Velocity),數(shù)據(jù)價值密度低(Value),即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。大數(shù)據(jù)的概念與“海量數(shù)據(jù)”不同,后者只強調(diào)數(shù)據(jù)的量,而大數(shù)據(jù)不僅用來描述大量的數(shù)據(jù),還更進一步指出數(shù)據(jù)的復(fù)雜形式、數(shù)據(jù)的快速時間特性以及對數(shù)據(jù)的分析、處理等專業(yè)化處理,最終獲得有價值信息的能力。數(shù)據(jù)量大大數(shù)據(jù)聚合在一起的數(shù)據(jù)量是非常大的,根據(jù)IDC的定義至少要有超過100TB的可供分析的數(shù)據(jù),數(shù)據(jù)量大是大數(shù)據(jù)的基本屬性。導(dǎo)致數(shù)據(jù)規(guī)模激增的原因有很多,首先是隨著互聯(lián)網(wǎng)絡(luò)的廣泛應(yīng)用,使用網(wǎng)絡(luò)的人、企業(yè)、機構(gòu)增多,數(shù)據(jù)獲取、分享變得相對容易,以前,只有少量的機構(gòu)可以通過調(diào)查、

38、取樣的方法獲取數(shù)據(jù),同時發(fā)布數(shù)據(jù)的機構(gòu)也很有限,人們難以短期內(nèi)獲取大量的數(shù)據(jù),而現(xiàn)在用戶可以通過網(wǎng)絡(luò)非常方便的獲取數(shù)據(jù),同時用戶在有意的分享和無意的點擊、瀏覽都可以快速的提供大量數(shù)據(jù);其次是隨著各種傳感器數(shù)據(jù)獲取能力的大幅提高,使得人們獲取的數(shù)據(jù)越來越接近原始事物本身,描述同一事物的數(shù)據(jù)量激增。早期的單位化數(shù)據(jù),對原始事物進行了一定程度的抽象,數(shù)據(jù)維度低,數(shù)據(jù)類型簡單,多采用表格的形式來收集、存儲、整理,數(shù)據(jù)的單位、量綱和意義基本統(tǒng)一,存儲、處理的只是數(shù)值而已,因此數(shù)據(jù)量有限,增長速度慢而隨著應(yīng)用的發(fā)展,數(shù)據(jù)維度越來越高,描述相同事物所需的數(shù)據(jù)量越來越大。以當(dāng)前最為普遍的網(wǎng)絡(luò)數(shù)據(jù)為例,早期網(wǎng)絡(luò)

39、上的數(shù)據(jù)以文本和一維的音頻為主,維度低,單位數(shù)據(jù)量小。近年來,圖像、視頻等二維數(shù)據(jù)大規(guī)模涌現(xiàn),而隨著三維掃描設(shè)備以及Kinect等動作捕捉設(shè)備的普及,數(shù)據(jù)越來越接近真實的世界,數(shù)據(jù)的描述能力不斷增強,而數(shù)據(jù)量本身必將以幾何級數(shù)增長。此外,數(shù)據(jù)量大還體現(xiàn)在人們處理數(shù)據(jù)的方法和理念發(fā)生了根本的改變。早期,人們對事物的認(rèn)知受限于獲取、分析數(shù)據(jù)的能力,一直利用采樣的方法,以少量的數(shù)據(jù)來近似的描述事物的全貌,樣本的數(shù)量可以根據(jù)數(shù)據(jù)獲取、處理能力來設(shè)定。不管事物多么復(fù)雜,通過采樣得到部分樣本,數(shù)據(jù)規(guī)模變小,就可以利用當(dāng)時的技術(shù)手段來進行數(shù)據(jù)管理和分析,如何通過正確的采樣方法以最小的數(shù)據(jù)量盡可能分析整體屬性

40、成了當(dāng)時的重要問題。隨著技術(shù)的發(fā)展,樣本數(shù)目逐漸逼近原始的總體數(shù)據(jù),且在某些特定的應(yīng)用領(lǐng)域,采樣數(shù)據(jù)可能遠不能描述整個事物,可能丟掉大量重要細節(jié),甚至可能得到完全相反的結(jié)論,因此,當(dāng)今有直接處理所有數(shù)據(jù)而不是只考慮采樣數(shù)據(jù)的的趨勢。使用所有的數(shù)據(jù)可以帶來更高的精確性,從更多的細節(jié)來解釋事物屬性,同時必然使得要處理數(shù)據(jù)量顯著增多。2.2.2數(shù)據(jù)類型多樣數(shù)據(jù)類型繁多,復(fù)雜多變是大數(shù)據(jù)的重要特性。以往的數(shù)據(jù)盡管數(shù)量龐大,但通常是事先定義好的結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是將事物向便于人類和計算機存儲、處理、查詢的方向抽象的結(jié)果,結(jié)構(gòu)化在抽象的過程中,忽略一些在特定的應(yīng)用下可以不考慮的細節(jié),抽取了有用的信息。

41、處理此類結(jié)構(gòu)化數(shù)據(jù),只需事先分析好數(shù)據(jù)的意義以數(shù)據(jù)間的相關(guān)屬性,構(gòu)造表結(jié)構(gòu)來表示數(shù)據(jù)的屬性,數(shù)據(jù)都以表格的形式保存在數(shù)據(jù)庫中,數(shù)據(jù)格式統(tǒng)一,以后不管再產(chǎn)生多少數(shù)據(jù),只需根據(jù)其屬性,將數(shù)據(jù)存儲在合適的位置,就可以方便的處理、查詢,一般不需要為新增的數(shù)據(jù)顯著的更改數(shù)據(jù)聚集、處理、查詢方法,限制數(shù)據(jù)處理能力的只是運算速度和存儲空間。這種關(guān)注結(jié)構(gòu)化信息,強調(diào)大眾化、標(biāo)準(zhǔn)化的屬性使得處理傳統(tǒng)數(shù)據(jù)的復(fù)雜程度一般呈線性增長,新增的數(shù)據(jù)可以通過常規(guī)的技術(shù)手段處理。而隨著互聯(lián)網(wǎng)絡(luò)與傳感器的飛速發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量涌現(xiàn),非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的結(jié)構(gòu)屬性,難以用表結(jié)構(gòu)來表示,在記錄數(shù)據(jù)數(shù)值的同時還需要存儲數(shù)據(jù)的結(jié)構(gòu)

42、,增加了數(shù)據(jù)存儲、處理的難度。而時下在網(wǎng)絡(luò)上流動著的數(shù)據(jù)大部分是非結(jié)構(gòu)化數(shù)據(jù),人們上網(wǎng)不只是看看新聞,發(fā)送文字郵件,還會上傳下載照片、視頻、發(fā)送微博等非結(jié)構(gòu)化數(shù)據(jù),同時,遍及工作、生活中各個角落的傳感器也時刻不斷的產(chǎn)生各種半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),這些結(jié)構(gòu)復(fù)雜,種類多樣,同時規(guī)模又很大的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)逐漸成為主流數(shù)據(jù)。如上所述,非結(jié)構(gòu)化數(shù)據(jù)量已占到數(shù)據(jù)總量的75%以上,且非結(jié)構(gòu)化數(shù)據(jù)的增長速度比結(jié)構(gòu)化數(shù)據(jù)快10倍到50倍。在數(shù)據(jù)激增的同時,新的數(shù)據(jù)類型層出不窮,已經(jīng)很難用一種或幾種規(guī)定的模式來表征日趨復(fù)雜、多樣的數(shù)據(jù)形式,這樣的數(shù)據(jù)已經(jīng)不能用傳統(tǒng)的數(shù)據(jù)庫表格來整齊的排列、表示。大數(shù)據(jù)正是

43、在這樣的背景下產(chǎn)生的,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)處理最大的不同就是重點關(guān)注非結(jié)構(gòu)化信息,大數(shù)據(jù)關(guān)注包含大量細節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù),強調(diào)小眾化,體驗化的特性使得傳統(tǒng)的數(shù)據(jù)處理方式面臨巨大的挑戰(zhàn)。數(shù)據(jù)處理速度快要求數(shù)據(jù)的快速處理,是大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一。隨著各種傳感器和互聯(lián)網(wǎng)絡(luò)等信息獲取、傳播技術(shù)的飛速發(fā)展普及,數(shù)據(jù)的產(chǎn)生、發(fā)布越來越容易,產(chǎn)生數(shù)據(jù)的途徑增多,個人甚至成為了數(shù)據(jù)產(chǎn)生的主體之一,數(shù)據(jù)呈爆炸的形式快速增長,新數(shù)據(jù)不斷涌現(xiàn),快速增長的數(shù)據(jù)量要求數(shù)據(jù)處理的速度也要相應(yīng)的提升,才能使得大量的數(shù)據(jù)得到有效的利用,否則不斷激增的數(shù)據(jù)不但不能為解決問題帶來優(yōu)勢,反而成了快速解決問題的負

44、擔(dān)。同時,數(shù)據(jù)不是靜止不動的,而是在互聯(lián)網(wǎng)絡(luò)中不斷流動,且通常這樣的數(shù)據(jù)的價值是隨著時間的推移而迅速降低的,如果數(shù)據(jù)尚未得到有效的處理,就失去了價值,大量的數(shù)據(jù)就沒有意義。此外,在許多應(yīng)用中要求能夠?qū)崟r處理新增的大量數(shù)據(jù),比如有大量在線交互的電子商務(wù)應(yīng)用,就具有很強的時效性,大數(shù)據(jù)以數(shù)據(jù)流的形式產(chǎn)生、快速流動、迅速消失,且數(shù)據(jù)流量通常不是平穩(wěn)的,會在某些特定的時段突然激增,數(shù)據(jù)的涌現(xiàn)特征明顯,而用戶對于數(shù)據(jù)的響應(yīng)時間通常非常敏感,心理學(xué)實驗證實,從用戶體驗的角度,瞬間(moment,3秒鐘)是可以容忍的最大極限,對于大數(shù)據(jù)應(yīng)用而言,很多情況下都必須要在1秒鐘或者瞬間內(nèi)形成結(jié)果,否則處理結(jié)果就是

45、過時和無效的,這種情況下,大數(shù)據(jù)要求快速、持續(xù)的實時處理。對不斷激增的海量數(shù)據(jù)數(shù)據(jù)的實時處理要求,是大數(shù)據(jù)與傳統(tǒng)海量數(shù)據(jù)處理技術(shù)的關(guān)鍵差別之一。數(shù)據(jù)價值密度低數(shù)據(jù)價值密度低是大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的重要屬性。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),依據(jù)特定的應(yīng)用,對事物進行了相應(yīng)的抽象,每一條數(shù)據(jù)都包含該應(yīng)用需要考量的信息,而大數(shù)據(jù)為了獲取事物的全部細節(jié),不對事物進行抽象、歸納等處理,直接采用原始的數(shù)據(jù),保留了數(shù)據(jù)的原貌,且通常不對數(shù)據(jù)進行采樣,直接采用全體數(shù)據(jù),由于減少了采樣和抽象,呈現(xiàn)所有數(shù)據(jù)和全部細節(jié)信息,可以分析更多的信息,但也引入了大量沒有意義的信息,甚至是錯誤的信息,因此相對于特定的應(yīng)用,大數(shù)據(jù)關(guān)注的

46、非結(jié)構(gòu)化數(shù)據(jù)的價值密度偏低,以當(dāng)前廣泛應(yīng)用的監(jiān)控視頻為例,在連續(xù)不間斷監(jiān)控過程中,大量的視頻數(shù)據(jù)被存儲下來,許多數(shù)據(jù)可能是無用,對于某一特定的應(yīng)用,比如獲取犯罪嫌疑人的體貌特征,有效的視頻數(shù)據(jù)可能僅僅有一兩秒,大量不相關(guān)的視頻信息增加了獲取這有效的一兩秒數(shù)據(jù)的難度。但是大數(shù)據(jù)的數(shù)據(jù)密度低是指相對于特定的應(yīng)用,有效的信息相對于數(shù)據(jù)整體是偏少的,信息有效與否也是相對的,對于某些應(yīng)用是無效的信息對于另外一些應(yīng)用則成為最關(guān)鍵的信息,數(shù)據(jù)的價值也是相對的,有時一條微不足道的細節(jié)數(shù)據(jù)可能造成巨大的影響,比如網(wǎng)絡(luò)中的一條幾十個字符的微博,就可能通過轉(zhuǎn)發(fā)而快速擴散,導(dǎo)致相關(guān)的信息大量涌現(xiàn),其價值不可估量。因此

47、為了保證對于新產(chǎn)生的應(yīng)用有足夠的有效信息,通常必須保存所有數(shù)據(jù),這樣就使得一方面是數(shù)據(jù)的絕對數(shù)量激增,一方面是數(shù)據(jù)包含有效信息量的比例不斷減少,數(shù)據(jù)價值密度偏低。電子商務(wù)大數(shù)據(jù)時代的SWOT分析優(yōu)勢分析1、資源優(yōu)勢對檔案館而言,其最大的優(yōu)勢在于所擁有的資源。首先,檔案館信息資源總量龐大且增長迅速。2008年,全國各級國家檔案館共保存檔案1.93億卷,較上年增加1769萬卷,增幅達10%,而到2011年各級國家檔案館館藏已達3.3億卷,到2020年各級國家檔案館館藏將達到6億多卷。其次,檔案館數(shù)據(jù)資源種類繁多。在檔案館的數(shù)據(jù)資源中,既有數(shù)字化的紙質(zhì)檔案、接收進館的電子文件、音視頻檔案等,也有用戶

48、利用信息、服務(wù)數(shù)據(jù)等數(shù)據(jù)資源。再次,檔案館數(shù)據(jù)資源價值很高。與其它數(shù)據(jù)資源等相比,“檔案是一種最真實、最可靠、最具權(quán)威性與憑證性的原生信息資源”,這就使得數(shù)據(jù)洪流時代檔案的價值與作用更加凸顯。2、行業(yè)領(lǐng)先首先,各級國家檔案館是集中統(tǒng)一保管黨和國家檔案的科學(xué)文化事業(yè)機構(gòu),是永久保管檔案的基地,是社會各界利用檔案史料的中心。作為一種機構(gòu)性存在與制度性安排,檔案館的公共性、服務(wù)性、公平性、永久性等特征,使得檔案館成為人們心目中最系統(tǒng)、最值得信賴的數(shù)據(jù)資源庫。大數(shù)據(jù)時代,檔案館維護和傳承記憶的功能將更加重要,構(gòu)建一個“基于互聯(lián)網(wǎng)的,以檔案數(shù)字資源為主體,以文本、圖片、音頻、視頻等為形式,為中華民族集體

49、記憶的建構(gòu)和傳承提供文獻支撐的中國記憶數(shù)字將成為檔案人新的目標(biāo)與使命。其次,檔案館在數(shù)據(jù)處理上具有豐富的經(jīng)驗。考察數(shù)據(jù)生命周期,涉及到數(shù)據(jù)生成、采集、傳輸、處理、分析、應(yīng)用等階段,而這也恰恰是檔案館熟悉的業(yè)務(wù)范疇。因此,檔案館可以通過模擬或借鑒傳統(tǒng)檔案處理的整套業(yè)務(wù)規(guī)范或流程來指導(dǎo)大數(shù)據(jù)的處理,“對知識規(guī)范性控制的思想和技術(shù)方法恰巧在大數(shù)據(jù)領(lǐng)域有了用武之地”。劣勢分析1、認(rèn)識問題作為一個檔案大國,幾千年檔案工作的歷史積淀在我國形成了豐富多彩的檔案文化,也形成了一套獨特的檔案思維模式。大數(shù)據(jù)時代,有可能出現(xiàn)兩種認(rèn)識問題:一是沒有大數(shù)據(jù)意識,即無視大數(shù)據(jù)時代的來臨,采取固守原狀的鴕鳥政策,這將使檔

50、案館失去未來的發(fā)展機會,甚至?xí)ゴ嬖诘囊饬x。二是泛大數(shù)據(jù)化,即不加鑒別地收集保存數(shù)據(jù),從而使檔案館陷入數(shù)據(jù)沼澤,進而喪失自己的特色,顯然這也是檔案館無法承受的。因此,大數(shù)據(jù)背景下,科學(xué)認(rèn)識大數(shù)據(jù)的內(nèi)涵,合理地選擇切入點,將是檔案館在大數(shù)據(jù)時代立足的首要問題,而這或許也是檔案館最難解決的一個問題。2、人才瓶頸在檔案事業(yè)快速發(fā)展的今天,我國的檔案人才隊伍建設(shè)卻不盡如人意。一是專業(yè)人才不足。以2006年為例,全國各?。ǔ_灣外)、自治區(qū)、直轄市各級檔案館中具備博士學(xué)位且畢業(yè)于檔案學(xué)專業(yè)的工作人員為零,具備碩士學(xué)位且畢業(yè)于檔案學(xué)專業(yè)的工作人員只有26人,具備學(xué)士學(xué)位且畢業(yè)于檔案學(xué)專業(yè)的工作人員只有1

51、598人。二是信息技術(shù)人才的匱乏?!按髷?shù)據(jù)泡沫如果現(xiàn)在存在的話,恐怕并非數(shù)據(jù)的作用被過分夸大,而主要是由于真正具備資質(zhì)的數(shù)據(jù)科學(xué)家數(shù)量不足導(dǎo)致的。”據(jù)統(tǒng)計,到2018年美國將面臨150萬個掌握大數(shù)據(jù)應(yīng)用分析方法的技術(shù)經(jīng)理和分析師缺口,另缺14萬至19萬具有“深度分析”經(jīng)驗的工作者。從目前來看,大數(shù)據(jù)成功的案例無不是特定的項目,例如“啤酒與尿布”,因此,現(xiàn)階段檔案館人員最需要的是懂得用戶的需求,因為數(shù)據(jù)越大,用戶的個性需求就越多樣,服務(wù)切口就越小。毫無疑問,這需要檔案人員擁有極強的洞察能力。機會分析1、需求旺盛隨著信息環(huán)境的變化和社會檔案意識的覺醒,用戶的檔案信息需求層面不斷加深,需求領(lǐng)域也不斷

52、拓展。首先,精品化的信息需求與專業(yè)化的知識服務(wù)要求。隨著社會檔案意識的增強,“用戶關(guān)注的已不再是簡單的獲取文獻,而是如何從繁雜的信息環(huán)境中捕獲和析取解決所面臨問題的信息內(nèi)容,并將這些信息融化或重組為相應(yīng)的知識或解決方案”。其次,個性化的信息需求與互動式的信息服務(wù)要求。隨著用戶信息素養(yǎng)的不斷提高,檔案用戶已從信息服務(wù)的“被動接受者”轉(zhuǎn)換為“主動選擇者”,他們更希望獲得一種為自己量身定做的個性化信息服務(wù)。同時,用戶在獲取信息的過程中,希望能與館員進行人際交流與相互溝通,從而獲取文化的熏陶、思想的碰撞及心靈的浸潤。2、政策導(dǎo)向2010年國家檔案局?jǐn)?shù)字檔案館建設(shè)指南頒布,提出運用多種技術(shù)手段“采集具有

53、重要保存價值的各類數(shù)字信息,進行資源整合”、“對數(shù)字檔案信息進行深度挖掘,開展增值服務(wù)”、“開展檔案利用訪問量統(tǒng)計、分布分析、輿情分析等工作”。2012年楊冬權(quán)在全國檔案局館長會議上講話指出,要在新的起點上進一步推進檔案信息化,即從過去以技術(shù)為主導(dǎo)向以服務(wù)為主導(dǎo)轉(zhuǎn)變,從注重應(yīng)用信息技術(shù)向注重檔案內(nèi)容信息化轉(zhuǎn)變,樹立“內(nèi)容為王”的觀念,建設(shè)以服務(wù)為主導(dǎo)的檔案信息化體系。這些政策性文件及講話,將為大數(shù)據(jù)在檔案館中的應(yīng)用帶來更多的政策支持,也為大數(shù)據(jù)時代檔案館的發(fā)展帶來更多機遇。威脅分析1、信息安全大數(shù)據(jù)時代,數(shù)據(jù)量之大、數(shù)據(jù)種類之多、對數(shù)據(jù)處理速度與時間之快,都對傳統(tǒng)的檔案館安全體系造成極大沖擊。

54、從基礎(chǔ)技術(shù)角度而言,當(dāng)前檔案館廣泛應(yīng)用的關(guān)系型數(shù)據(jù)庫(SQL)技術(shù),經(jīng)過長期實踐與完善,在維護數(shù)據(jù)安全方面已經(jīng)設(shè)置了嚴(yán)格的訪問控制和隱私管理工具,而大數(shù)據(jù)依托的基礎(chǔ)技術(shù)是非關(guān)系型數(shù)據(jù)庫(No SQL),其在成熟度和可訪問性方面都不如傳統(tǒng)數(shù)據(jù)庫技術(shù)。從核心價值角度而言,大數(shù)據(jù)的關(guān)鍵在于信息爆炸時代對數(shù)據(jù)價值的再挖掘。然而,數(shù)據(jù)分析技術(shù)的發(fā)展,對國家安全及用戶隱私產(chǎn)生了極大威脅,數(shù)據(jù)持有人可以從歷史數(shù)據(jù)中推測判斷出行為人的下一步動作個人行動軌跡、行為軌跡,甚至思維軌跡。2、用戶流失大數(shù)據(jù)時代,檔案館面臨著網(wǎng)絡(luò)、圖書館及信息服務(wù)公司等的競爭,用戶流失是不爭的事實。以網(wǎng)絡(luò)為例,網(wǎng)絡(luò)信息資源的豐富使用戶

55、足不出戶就可以獲取所需的信息,用戶對檔案館的穩(wěn)定性與忠誠度下降。據(jù)統(tǒng)計,“超過90%的用戶在查找信息時,會首選搜索引擎,搜索已經(jīng)成為公眾獲取信息的代名詞”。因此,數(shù)字化時代,檔案館如何實現(xiàn)“數(shù)據(jù)化生存”,將是不得不慎重考慮的難題。2.4電子商務(wù)大數(shù)據(jù)時代的發(fā)展前景20年后互聯(lián)網(wǎng)發(fā)生的巨大的變化,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)大大拓展了互聯(lián)網(wǎng)的疆界和應(yīng)用領(lǐng)域。我們在享受便利的同時,也無償貢獻了自己的“行蹤”。現(xiàn)在互聯(lián)網(wǎng)不但知道對面是一只狗,還知道這只狗喜歡什么食物、幾點出去遛彎,幾點回窩睡覺。我們不得不接受這個現(xiàn)實,每個人在互聯(lián)網(wǎng)進入到大數(shù)據(jù)時代,都將是透明性存在。在物理世界中,許多行為是“人似秋

56、鴻有來信,事如春夢了無痕”。但在互聯(lián)網(wǎng)上卻是“處處行跡處處痕”。任何行為,皆有前兆。要買商品,必先瀏覽,對比,詢價;要搞活動,必先征集、討論、策劃;互聯(lián)網(wǎng)上恰恰保留了大量的前兆性的數(shù)據(jù),通過對這些數(shù)據(jù)的收集和分析,互聯(lián)網(wǎng)企業(yè)具備了預(yù)判物理世界中,人類未來行為的能力。收集分析海量的各種類型的數(shù)據(jù),并快速獲取影響未來的信息的能力,這就是大數(shù)據(jù)技術(shù)的魅力。事實上大數(shù)據(jù)的來源非常廣泛,天上的衛(wèi)星、地上汽車、埋在土壤里面的各類傳感器,無時無刻不在生成大量的數(shù)據(jù)。這些數(shù)據(jù)如果綜合利用,產(chǎn)生的社會價值和經(jīng)濟價值將是難以估量的。第一篇報告大數(shù)據(jù)時代即將到來,之所以用時代這個詞作為標(biāo)題,是因為大數(shù)據(jù)是歷史上首個

57、可以預(yù)測人類短期行為的技術(shù)。未來的不確定性,是人類產(chǎn)生恐懼的根源之一,也是各類組織最為頭痛的問題。大數(shù)據(jù)技術(shù)技術(shù)讓我們看到解決未來預(yù)測問題的一絲曙光。 “08年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);而我們提前半年時間從詢盤上推斷出世界貿(mào)易發(fā)生變化了?!蓖ǔ6裕I家在采購商品前,會比較多家供應(yīng)商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計數(shù)據(jù)中,就是查詢點擊的數(shù)量和購買點擊的數(shù)量會保持一個相對的數(shù)值。統(tǒng)計歷史上所有買家、賣家的詢價和成交的數(shù)據(jù),可以形成詢盤指數(shù)和成交指數(shù)。這兩個指數(shù)是強相關(guān)的。詢盤指數(shù)是前兆性的,前期詢盤指數(shù)活躍,就會保證后期一定的

58、成交量。所以當(dāng)馬云觀察到詢盤指數(shù)異乎尋常的下降,自然就可以推測未來成交量的萎縮。這種統(tǒng)計和分析,如果缺少大數(shù)據(jù)技術(shù)的支持,是難以完成的。這次事件,馬云提前呼吁、幫助成千上萬的中小制造商準(zhǔn)備過冬糧,從而贏得了崇高的聲譽。 推動大數(shù)據(jù)技術(shù)在各行業(yè)普及的原動力,來自于企業(yè)改善自身經(jīng)營水平、提升經(jīng)營效率的需要。長期以來,困擾企業(yè)最大的難題就是“如何更加了解他的客戶”。索尼公司的創(chuàng)始人出井伸之解釋索尼衰落的根本原因時,說了一段發(fā)人深省的話:“新一代基于互聯(lián)網(wǎng)DNA企業(yè)的核心能力在于利用新模式和新技術(shù)更加貼近消費者、深刻理解需求、高效分析信息并做出預(yù)判,所有傳統(tǒng)的產(chǎn)品公司都只能淪為這種新型用戶平臺級公司的

59、附庸,其衰落不是管理能扭轉(zhuǎn)的?;ヂ?lián)網(wǎng)的魅力就是the power of low end”。這句話有兩層含義。第一,傳統(tǒng)企業(yè)衰落的根本原因在于難以貼近消費者,難以了解消費者的真正的需求。第二,互聯(lián)網(wǎng)公司強項恰恰是天然的貼近消費者,了解消費者。傳統(tǒng)企業(yè)必然嫁接互聯(lián)網(wǎng)企業(yè)的DNA,否則必將淪為互聯(lián)網(wǎng)企業(yè)的附庸。 這一輪的變革,事關(guān)絕大多數(shù)企業(yè)的命運??梢钥吹?,用大數(shù)據(jù)這個視角,可以察企業(yè)的興衰。第一,對大數(shù)據(jù)不關(guān)心,不了解。必步索尼的后塵;第二,擁有大量的數(shù)據(jù),并善加運用的公司,必將贏得未來。時代變了,判斷企業(yè)價值的標(biāo)準(zhǔn)、判斷軟件價值的標(biāo)準(zhǔn)也變了。我們判斷軟件價值的標(biāo)準(zhǔn)是它所協(xié)助管理的數(shù)據(jù)的規(guī)模和活

60、性。我們判斷公司價值的標(biāo)準(zhǔn)是其擁有數(shù)據(jù)的規(guī)模、活性,以及收集、運用數(shù)據(jù)的能力。圍繞數(shù)據(jù)和最終用戶,我們觀察到計算機行業(yè)的發(fā)展有三大趨勢:第一應(yīng)用軟件一定會泛互聯(lián)網(wǎng)化。第二,行業(yè)會垂直整合。越靠近終端用戶的公司,在產(chǎn)業(yè)鏈上將擁有更大的發(fā)言權(quán)。第三,數(shù)據(jù)將成為資產(chǎn)。泛互聯(lián)網(wǎng)化是收集數(shù)據(jù)的重要渠道,沒有泛互聯(lián)網(wǎng)化的應(yīng)用軟件,公司就難以獲得用戶的行為數(shù)據(jù);行業(yè)垂直整合趨勢在數(shù)據(jù)運用層面,通過搜集大量的用戶數(shù)據(jù),更貼近用戶,更理解用戶,為其提供更適當(dāng)?shù)姆?wù);數(shù)據(jù)成為資產(chǎn)更強調(diào)數(shù)據(jù)的戰(zhàn)略意義。 HYPERLINK l _Toc22365 第3章 電子商務(wù)大數(shù)據(jù)時代面對的問題與挑戰(zhàn)大數(shù)據(jù)作為新興產(chǎn)業(yè)熱點,在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論