版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)發(fā)展現(xiàn)況與趨勢(shì)日 期:2016年6月22日單 位:貴陽(yáng)大數(shù)據(jù)交易所報(bào)告人:專 業(yè):信息管理碩士主 修:數(shù)據(jù)挖掘、決策支持經(jīng) 歷:從事富士康集團(tuán)大數(shù)據(jù)業(yè)務(wù)15年內(nèi)容項(xiàng)次主題內(nèi)容重點(diǎn)報(bào)告時(shí)間1預(yù)備知識(shí)認(rèn)識(shí)數(shù)據(jù)與目的5分鐘2智能生活(1)視頻5分鐘3數(shù)據(jù)與生活案例學(xué)習(xí)30分鐘4認(rèn)識(shí)大數(shù)據(jù)大數(shù)據(jù)的前世今生大數(shù)據(jù)的定義中國(guó)大數(shù)據(jù)30分鐘5從貴陽(yáng)大數(shù)據(jù)交易所看貴陽(yáng)大數(shù)據(jù)頂層設(shè)計(jì)大數(shù)據(jù)交易所貴陽(yáng)大數(shù)據(jù)布局大數(shù)據(jù)交易所視頻30分鐘6大數(shù)據(jù)技術(shù)簡(jiǎn)介數(shù)據(jù)挖掘方法論30分鐘7創(chuàng)意思考方法分享5分鐘8智能生活(2)視頻5分鐘9互動(dòng)交流10分鐘預(yù)備知識(shí)(1/2)知識(shí)就是力量:人腦獲取的的信息進(jìn)行系統(tǒng)化的提煉、研究
2、和分析,進(jìn)而形成知識(shí)。信息就是能量:通過(guò)人腦次級(jí)思維活動(dòng),實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的篩選、加工、創(chuàng)造,進(jìn)而產(chǎn)生有意義的數(shù)據(jù)。數(shù)據(jù)就是變量:未經(jīng)組織的數(shù)字、詞語(yǔ)、聲音、圖像的紀(jì)錄,可以來(lái)自測(cè)量?jī)x器的實(shí)時(shí)記錄,也可以來(lái)自人的知識(shí)。數(shù)據(jù)信息知識(shí)人類思維邏輯演進(jìn)人類思維范式演進(jìn)(摘自塊數(shù)據(jù)2.0一書(shū))知識(shí)、信息與數(shù)據(jù)的雙向演進(jìn)預(yù)備知識(shí)(2/2)數(shù)據(jù)的終極目的決策支持預(yù)測(cè)優(yōu)化增加效益防范風(fēng)險(xiǎn)(目的)(方法)(目標(biāo))智能生活(1)-視頻5分鐘數(shù)據(jù)與生活保險(xiǎn)業(yè)地產(chǎn)行業(yè)零售行業(yè)物流行業(yè)政府治理思路:透過(guò)(大)數(shù)據(jù)在生活中的應(yīng)用,進(jìn)而了解大數(shù)據(jù)的型態(tài)、樣式、影響與效益客戶屬性養(yǎng)車APP移動(dòng)APP家庭成員商旅人群航空延誤險(xiǎn)
3、旅游天氣險(xiǎn)手機(jī)被盜險(xiǎn)行李遺失險(xiǎn)專屬理財(cái)保險(xiǎn)壽險(xiǎn)養(yǎng)老險(xiǎn)教育險(xiǎn)高端客群(保險(xiǎn)公司)創(chuàng)新保險(xiǎn)產(chǎn)品提升精算水平增加利潤(rùn)率提高投資收益稀有客群寵物險(xiǎn)美甲險(xiǎn)珠寶險(xiǎn)保險(xiǎn)行業(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景旅游業(yè)信息航空業(yè)信息醫(yī)療信息其他外部信息保險(xiǎn)大數(shù)據(jù)源發(fā)掘設(shè)計(jì)提供發(fā)掘設(shè)計(jì)提供發(fā)掘設(shè)計(jì)提供獲得分析分析位置信息1.常住人口2.年齡3.職業(yè)4.收入5.消費(fèi)6.APP活躍程度7.其他土地價(jià)值土地投資成本地產(chǎn)開(kāi)發(fā)風(fēng)險(xiǎn)案例:(身分)一家主要開(kāi)發(fā)三線城市地產(chǎn)著名的房地產(chǎn)商。(事前)一次進(jìn)入到一個(gè)城市時(shí),當(dāng)?shù)卣浅g迎,并拿出了一個(gè)擁有30萬(wàn)戶籍人口的土地讓房地產(chǎn)公司進(jìn)行開(kāi)發(fā)。(事中)房地產(chǎn)商開(kāi)發(fā)完之后,發(fā)現(xiàn)房子賣出去很少,同30萬(wàn)戶
4、籍人口的需求完全不在一個(gè)數(shù)量級(jí)上,房子積壓了不少,造成了較大損失。(原因)房地產(chǎn)商很困惑,究竟是什么原因?qū)е铝朔孔訙N,經(jīng)過(guò)一段時(shí)間的調(diào)研,地產(chǎn)公司發(fā)現(xiàn):1、30萬(wàn)戶籍人口中有一半以上在其他城市工作2、并且未來(lái)不會(huì)回來(lái)購(gòu)買住房,其開(kāi)發(fā)地塊的常住人口住房購(gòu)買需求較低,相當(dāng)于10萬(wàn)戶籍人口的需求。(事后)地產(chǎn)商按照30萬(wàn)人口需求開(kāi)發(fā)的住宅小區(qū),很難在當(dāng)?shù)囟唐趦?nèi)賣出去。本次房地產(chǎn)投資損失較大,導(dǎo)致房地產(chǎn)商從當(dāng)?shù)胤慨a(chǎn)市場(chǎng)退出。地產(chǎn)行業(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景居住人口數(shù)進(jìn)入人口數(shù)活動(dòng)規(guī)律發(fā)現(xiàn)降低設(shè)計(jì)提升商鋪位置服務(wù)內(nèi)容產(chǎn)品類型動(dòng)線設(shè)計(jì)客流量消費(fèi)額服務(wù)體驗(yàn)生活愛(ài)好年齡分布消費(fèi)熱點(diǎn)客戶基本信息客戶購(gòu)物紀(jì)錄購(gòu)買喜好熱門(mén)
5、商品流行趨勢(shì)時(shí)間周期商品組合改善動(dòng)線貨架布置推薦客戶潛在需求商品精細(xì)化生產(chǎn)提升效率優(yōu)化資源零售行業(yè)比較有名氣的大數(shù)據(jù)案例就是沃爾瑪?shù)钠【坪湍虿嫉墓适?,以及Target通過(guò)向年輕女孩寄送尿布廣告而告知其父親,女孩懷孕的故事。天貓和京東,已經(jīng)通過(guò)客戶的購(gòu)買習(xí)慣,將客戶日常需要的商品例如尿不濕,衛(wèi)生紙,衣服等商品依據(jù)客戶購(gòu)買習(xí)慣事先進(jìn)行準(zhǔn)備。當(dāng)客戶剛剛下單,商品就會(huì)在24小時(shí)內(nèi)或者30分鐘內(nèi)送到客戶門(mén)口,提高了客戶體驗(yàn),讓客戶連后悔等時(shí)間都沒(méi)有。零售行業(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景優(yōu)化產(chǎn)品設(shè)計(jì)庫(kù)存管理生產(chǎn)計(jì)劃配置資源提升30%業(yè)績(jī)供應(yīng)鏈物流行業(yè)規(guī)模5萬(wàn)億最后一公里物流3萬(wàn)億元利潤(rùn)率30%下降20%中國(guó)的物流產(chǎn)業(yè)規(guī)
6、模大概有5萬(wàn)億左右,其中公里物流市場(chǎng)大概有3萬(wàn)億左右。物流行業(yè)的整體凈利潤(rùn)從過(guò)去的30%以上降低到了20%左右,并且下降的趨勢(shì)明顯。全國(guó)物流網(wǎng)路各個(gè)節(jié)點(diǎn)的運(yùn)貨需求和運(yùn)力降低貨車的返程空載率,降低超載率,減少重復(fù)路線運(yùn)輸,降低小規(guī)模運(yùn)輸比例建立基于地理位置和產(chǎn)業(yè)鏈的物流港口實(shí)現(xiàn)貨物和運(yùn)力的實(shí)時(shí)配比,提高物流行業(yè)的運(yùn)輸效率及時(shí)了解各個(gè)路線貨物運(yùn)送需求提升10%(約5000億)收入大數(shù)據(jù)手段物流行業(yè)大數(shù)據(jù)應(yīng)用場(chǎng)景返程空載重復(fù)運(yùn)輸小規(guī)模運(yùn)輸傳統(tǒng)管理改善大數(shù)據(jù)提升政府治理能力意義重大國(guó)務(wù)院發(fā)布了促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要中提到,將建立“用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”的管理機(jī)制。1、揭示出與
7、傳統(tǒng)不同或難以展現(xiàn)的關(guān)聯(lián),增強(qiáng)政府決策的科學(xué)性2、提高政府監(jiān)管市場(chǎng)、建立公平競(jìng)爭(zhēng)環(huán)境的能力3、增強(qiáng)公共管理和服務(wù)能力,達(dá)到個(gè)性化和精準(zhǔn)化服務(wù)的要求4、提升污染監(jiān)控和環(huán)境保護(hù)成效,推進(jìn)生態(tài)文明建設(shè)5、提高政府監(jiān)管市場(chǎng)、建立公平競(jìng)爭(zhēng)環(huán)境的能力大數(shù)據(jù)提升政府治理能力意義重大單位上海交通綜合信息平臺(tái)方式集成道路傳感系統(tǒng)、出租車GPS系統(tǒng)、居民手機(jī)信號(hào)遷移、實(shí)時(shí)視頻采集等多系統(tǒng)信息成效用以分析交通狀況,增強(qiáng)交通管控措施的準(zhǔn)確性和時(shí)效性,并提高了交通基礎(chǔ)設(shè)施建設(shè)的科學(xué)決策水平。政府治理大數(shù)據(jù)應(yīng)用場(chǎng)景(1/5)意義:揭示出與傳統(tǒng)不同或難以展現(xiàn)的關(guān)聯(lián),增強(qiáng)政府決策的科學(xué)性單位北京,企業(yè)與監(jiān)管部門(mén)合作上海的公共
8、信用信息服務(wù)平臺(tái)方式利用互聯(lián)網(wǎng)和金融行業(yè)數(shù)據(jù)歸集包括法人和自然人監(jiān)管、執(zhí)法、審批、資質(zhì)等1200多個(gè)信息事項(xiàng)、3億多條數(shù)據(jù)成效打擊非法集資、違法違規(guī)交易供部門(mén)監(jiān)管和信息主體查詢政府治理大數(shù)據(jù)應(yīng)用場(chǎng)景(2/5)意義:提高政府監(jiān)管市場(chǎng)、建立公平競(jìng)爭(zhēng)環(huán)境的能力單位上海申康醫(yī)聯(lián)工程上海民政局方式已完整收集38家三級(jí)甲等醫(yī)院數(shù)據(jù),目前又?jǐn)U大收集范圍,包括來(lái)自上海、廣州、武漢等城市和20多個(gè)地級(jí)市的近1億就診人群,形成國(guó)際上最大的電子健康檔案信息庫(kù)和PB級(jí)的醫(yī)學(xué)影像檔案庫(kù)通過(guò)居民經(jīng)濟(jì)狀況核對(duì)系統(tǒng)成效完成17.4萬(wàn)余戶次申請(qǐng)家庭的經(jīng)濟(jì)狀況核對(duì),檢出1.7萬(wàn)不合規(guī)戶,節(jié)約公共財(cái)政19億元。政府治理大數(shù)據(jù)應(yīng)用場(chǎng)
9、景(3/5)意義:提高政府監(jiān)管市場(chǎng)、建立公平競(jìng)爭(zhēng)環(huán)境的能力單位北京公眾與環(huán)境研究中心方式采用匯總政府公布和志愿者收集數(shù)據(jù)等方式,制作了5大類13個(gè)子類的環(huán)境污染海量數(shù)據(jù)庫(kù)成效直觀展示各地各流域的環(huán)境質(zhì)量和污染排放數(shù)據(jù),還列出近15萬(wàn)家企業(yè)的環(huán)境監(jiān)管記錄,在監(jiān)控污染狀況、監(jiān)督企業(yè)整改等方面發(fā)揮了重要作用。政府治理大數(shù)據(jù)應(yīng)用場(chǎng)景(4/5)意義:提升污染監(jiān)控和環(huán)境保護(hù)成效,推進(jìn)生態(tài)文明建設(shè)單位廣州市黃埔區(qū)重慶方式面向社區(qū)整合大數(shù)據(jù)應(yīng)用,實(shí)現(xiàn)“數(shù)據(jù)到樓、一圖搞掂、一按全知、實(shí)時(shí)追蹤、系統(tǒng)整合、條塊融合、現(xiàn)場(chǎng)直播、問(wèn)效于民”基于大數(shù)據(jù)的電子車牌技術(shù)為公安機(jī)關(guān)采集辦案信息700多萬(wàn)條成效排查糾紛隱患7.2
10、萬(wàn)宗,就地化解率達(dá)98%,將很多社會(huì)矛盾化解于基層。實(shí)時(shí)支持交通管理預(yù)防暴恐事件的能力政府治理大數(shù)據(jù)應(yīng)用場(chǎng)景(5/5)意義:提高政府監(jiān)管市場(chǎng)、建立公平競(jìng)爭(zhēng)環(huán)境的能力經(jīng)由上述案例認(rèn)識(shí),是否可以列舉咱們自身經(jīng)歷(或感受)到的大數(shù)據(jù)應(yīng)用?大數(shù)據(jù)的前世今生1890年1943年1989年1997年2007年2008年2010年2011年2012年2014年由赫爾曼*霍勒瑞斯發(fā)明的可以由機(jī)器處理的穿孔卡片,突破傳統(tǒng)人口普查的困難,該設(shè)備讓美國(guó)用一年的時(shí)間就完成了原本用8年的人口普查活動(dòng),在全球范圍引發(fā)數(shù)據(jù)處理新紀(jì)元。英國(guó) “二戰(zhàn)”期間開(kāi)發(fā)能大規(guī)模數(shù)據(jù)處理的機(jī)器,并使用了第一臺(tái)可編程的電子計(jì)算機(jī)進(jìn)行運(yùn)算,以
11、每秒5 000字符的速度讀卡,破譯德軍部隊(duì)前方信息密碼,幫助盟軍成功登陸諾曼第。英國(guó)計(jì)算機(jī)科學(xué)家蒂姆*博納斯*李開(kāi)創(chuàng)了一個(gè)叫“萬(wàn)維網(wǎng)”的超文本系統(tǒng),在全球范圍內(nèi)利用互聯(lián)網(wǎng)實(shí)現(xiàn)信息共享。美國(guó)宇航局研究員邁克爾和大衛(wèi)首次使用“大數(shù)據(jù)”這一語(yǔ)數(shù)來(lái)描述20世紀(jì)90年代面臨的數(shù)據(jù)挑戰(zhàn)。數(shù)據(jù)集之大,通常超出了主存儲(chǔ)器、本地磁盤(pán)的存儲(chǔ)能力,甚至遠(yuǎn)超磁盤(pán)的承載能力,故而稱之為“大數(shù)據(jù)問(wèn)題”?!按髷?shù)據(jù)”一詞開(kāi)始在技術(shù)圈內(nèi)出現(xiàn)。連線雜志發(fā)表文章闡述了數(shù)據(jù)泛濫帶來(lái)的機(jī)遇和挑戰(zhàn),稱大數(shù)據(jù)是“Petabtye(拍字節(jié))時(shí)代”的開(kāi)端。計(jì)算機(jī)社區(qū)聯(lián)盟作為最早提出大數(shù)據(jù)概念的機(jī)構(gòu),發(fā)表大數(shù)據(jù)計(jì)算:在商務(wù)、科學(xué)和社會(huì)領(lǐng)域創(chuàng)建革
12、命性突破白皮書(shū),提出“大數(shù)據(jù)真正作用的是新用途和新見(jiàn)解,而非數(shù)據(jù)本身”。肯尼斯.庫(kù)克爾在經(jīng)濟(jì)學(xué)人上發(fā)表大數(shù)據(jù)專題報(bào)告:數(shù)據(jù),無(wú)所不在的數(shù)據(jù)。他在報(bào)告中提到:“世界上有著無(wú)法想象的巨量數(shù)字信息,并以極快的速度增長(zhǎng)?!睅?kù)克爾因此成為最早洞見(jiàn)大數(shù)據(jù)時(shí)代趨勢(shì)的數(shù)據(jù)科學(xué)家之一。IBM的“沃森”超級(jí)計(jì)算機(jī)每秒可掃描并分析4TB(4太字節(jié),約2億頁(yè)文字量)的數(shù)據(jù)量,并在美國(guó)著名智力競(jìng)賽節(jié)目危險(xiǎn)邊緣上擊敗兩名人類選手而奪冠,紐約時(shí)報(bào)將這一刻稱為“大數(shù)據(jù)計(jì)算的勝利”。瑞士達(dá)沃斯召開(kāi)的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,會(huì)上發(fā)布的報(bào)告大數(shù)據(jù),大影響宣稱,數(shù)據(jù)已經(jīng)成為一種新的資產(chǎn)類別,就像貨幣或黃金一樣。世界經(jīng)濟(jì)論壇
13、以“大數(shù)據(jù)的回報(bào)與風(fēng)險(xiǎn)”為主題發(fā)布全球信息技術(shù)報(bào)告(第13版),美國(guó)白宮發(fā)布2014年全球“大數(shù)據(jù)”白皮書(shū)研究報(bào)告大數(shù)據(jù):抓住機(jī)遇、保存價(jià)值鑒古知今:大數(shù)據(jù)的前世今生大數(shù)據(jù)定義大數(shù)據(jù)的定義最早是源自于企業(yè)而非學(xué)術(shù)機(jī)構(gòu)至目前為止,對(duì)大數(shù)據(jù)概念的討論也尚未停止。學(xué)術(shù)界、產(chǎn)業(yè)界及政府機(jī)構(gòu)都從自身領(lǐng)域、立場(chǎng)出發(fā)進(jìn)行不同的界定。至今大數(shù)據(jù)的定義可由四個(gè)角度進(jìn)行認(rèn)識(shí):1、技術(shù)分析角度2、大數(shù)據(jù)應(yīng)用價(jià)值角度3、大數(shù)據(jù)自身特征角度4、大數(shù)據(jù)對(duì)社會(huì)發(fā)展影響角度。大數(shù)據(jù)定義(1/4):技術(shù)分析角度【內(nèi)容】關(guān)注的是對(duì)海量、復(fù)雜數(shù)據(jù)進(jìn)行分析處理,從而獲得信息和知識(shí)的技術(shù)手段【提出者】麥肯錫就認(rèn)為,大數(shù)據(jù)是大小超出常規(guī)
14、數(shù)據(jù)庫(kù)工具的獲取、儲(chǔ)存、管理和分析能力的數(shù)據(jù)集,也指無(wú)法采用傳統(tǒng)流程、工具處理或分析的信息,迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集,數(shù)量級(jí)不一定要超過(guò)特定的數(shù)據(jù)存儲(chǔ)容量值。維基百科認(rèn)為,大數(shù)據(jù)是指無(wú)法再合理時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。數(shù)據(jù)集成軟件商納斯達(dá)克則認(rèn)為,大數(shù)據(jù)包括海量數(shù)據(jù)和復(fù)雜數(shù)據(jù)類型,其規(guī)模超過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行管理和處理的能力【內(nèi)容】強(qiáng)調(diào)的是大數(shù)據(jù)的應(yīng)用,關(guān)注的是從數(shù)據(jù)中獲取有價(jià)值的信息和知識(shí),最終目的是建立商業(yè)方面的競(jìng)爭(zhēng)優(yōu)勢(shì)甚至是創(chuàng)新商業(yè)模式。【提出者】高德納咨詢公司認(rèn)為,大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和
15、多樣化的信息資產(chǎn)。維克托邁爾舍恩伯格認(rèn)為,大數(shù)據(jù)時(shí)代的來(lái)臨使得人類第一次有機(jī)會(huì)和條件在非常多的領(lǐng)域和非常深入的層次獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),深入探索現(xiàn)實(shí)世界的規(guī)律,獲取過(guò)去不可能獲取的知識(shí),得到過(guò)去無(wú)法企及的商機(jī)。哈佛大學(xué)訪問(wèn)學(xué)者徐晉在大數(shù)據(jù)經(jīng)濟(jì)學(xué)中指出,大數(shù)據(jù)是指存在價(jià)值關(guān)聯(lián)的海量數(shù)據(jù)。大數(shù)據(jù)的本質(zhì)是社會(huì)經(jīng)濟(jì)的離散化解構(gòu)與全息化重構(gòu),表現(xiàn)為行業(yè)海量數(shù)據(jù)的關(guān)系從量變到質(zhì)變的轉(zhuǎn)換(深度挖掘)。趙國(guó)棟、易歡歡等在大數(shù)據(jù)時(shí)代的歷史機(jī)遇一書(shū)中指出,大數(shù)據(jù)是在多樣的或者大量的數(shù)據(jù)中迅速獲取信息的能力。大數(shù)據(jù)定義(2/4):大數(shù)據(jù)應(yīng)用價(jià)值角度【內(nèi)容】是從大數(shù)據(jù)本身特質(zhì)和特點(diǎn)對(duì)大數(shù)據(jù)進(jìn)行界定。
16、又可分為定量與定性角度說(shuō)明?!咎岢稣摺?、從量的角度:百度百科認(rèn)為,大數(shù)據(jù)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到頡取、管理、處理并整理成為有助于企業(yè)經(jīng)營(yíng)決策的資訊。大數(shù)據(jù)科學(xué)家約翰*勞瑟認(rèn)為,大數(shù)據(jù)就是任何超過(guò)了一臺(tái)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。2、從性質(zhì)的角度:高德納咨詢公司分析師道格蘭尼首次提出大數(shù)據(jù)的3V特征,即高速增長(zhǎng)的數(shù)據(jù)體量(Volume),高速進(jìn)出的數(shù)據(jù)運(yùn)動(dòng)(Velocity),高度異質(zhì)的數(shù)據(jù)種類(Variety)。在此基礎(chǔ)上,麥肯錫公司提出了大數(shù)據(jù)具有4V的特征,即:數(shù)據(jù)容量大(Volume)、數(shù)據(jù)類型繁多(Variety)、商業(yè)價(jià)
17、值高(Value)、處理速度快(Velocity)。大數(shù)據(jù)定義(3/4):大數(shù)據(jù)自身特征角度【內(nèi)容】強(qiáng)調(diào)大數(shù)據(jù)對(duì)人類社會(huì)生產(chǎn)生活方式、思維范式等產(chǎn)生的重大影響,認(rèn)為大數(shù)據(jù)開(kāi)啟了人類發(fā)展的新階段,并且認(rèn)為這種范式的影響是持久而深遠(yuǎn)的?!咎岢稣摺烤S克托。邁爾-恩格教授提出,”大數(shù)據(jù)”所代表的是當(dāng)今社會(huì)所獨(dú)有的一種新型的能力以一種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品及服務(wù),或深刻的洞見(jiàn)。中國(guó)工程院院士李國(guó)杰認(rèn)為,理解大數(shù)據(jù)需要上升到文化和認(rèn)識(shí)論的高度。數(shù)據(jù)文化的本質(zhì)是尊重客觀的實(shí)事求是,重視數(shù)據(jù)就是強(qiáng)調(diào)用事實(shí)說(shuō)話,按理性思維的科學(xué)精神。大數(shù)據(jù)定義(4/4):大數(shù)據(jù)對(duì)社會(huì)發(fā)展影
18、響角度中國(guó)的大數(shù)據(jù)戰(zhàn)略2015年8月,促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的頒布,成為推動(dòng)中國(guó)大數(shù)據(jù)發(fā)展的重要頂層設(shè)計(jì)和戰(zhàn)略部署。黨的十八屆五中全會(huì)提出實(shí)施“國(guó)家大數(shù)據(jù)戰(zhàn)略”,標(biāo)志著大數(shù)據(jù)戰(zhàn)略正式上升為國(guó)家戰(zhàn)略。2016年3月,中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要,明確提出要把大數(shù)據(jù)作為國(guó)家的基礎(chǔ)性戰(zhàn)略資源。促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要對(duì)大數(shù)據(jù)進(jìn)行了全新界定,即“大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價(jià)值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對(duì)數(shù)量巨大、來(lái)源分散、格式多樣的數(shù)據(jù)進(jìn)行采集、存儲(chǔ)和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)”。這是國(guó)家層面對(duì)大數(shù)據(jù)最具權(quán)
19、威的官方解讀。這一新的定義,蘊(yùn)含著大數(shù)據(jù)時(shí)代的三個(gè)基本特征,即新模式、新技術(shù)、新業(yè)態(tài)。科學(xué)認(rèn)識(shí)這些特征可以幫助我們?nèi)ヌ綄ご髷?shù)據(jù)帶來(lái)的變化以及這些變化是如何發(fā)生的,這正是發(fā)現(xiàn)大數(shù)據(jù)的本質(zhì)的過(guò)程。中國(guó)大數(shù)據(jù)的定義新模式:核心是新的思維范式。大數(shù)據(jù)不僅是一場(chǎng)技術(shù)革命,更是一場(chǎng)思維的革命。大數(shù)據(jù)思維范式的關(guān)鍵轉(zhuǎn)變?cè)谟趶娜四X思維到電腦思維再到云腦思維的轉(zhuǎn)變,這種思維具有以下特點(diǎn):一是總體性,伴隨著數(shù)據(jù)在采集、存儲(chǔ)、分析等相關(guān)技術(shù)上的突破,對(duì)于數(shù)據(jù)的獲取實(shí)現(xiàn)了從樣本數(shù)據(jù)到全體數(shù)據(jù)的轉(zhuǎn)變。二是容錯(cuò)性,精確性是小數(shù)據(jù)時(shí)代的產(chǎn)物,當(dāng)數(shù)據(jù)量無(wú)限大時(shí),絕對(duì)的精準(zhǔn)不再是數(shù)據(jù)追求的主要目標(biāo)。三是相關(guān)性,也就是人們只需知
20、道“是什么”,而不用知道“為什么”。四是智能性,只能是大數(shù)據(jù)時(shí)代的顯著特征,思維方式從自然思維向只能思維轉(zhuǎn)變,不斷提升機(jī)器設(shè)備或系統(tǒng)設(shè)置的社會(huì)計(jì)算能力和智能化水平,從而獲得具有洞察力和新價(jià)值的數(shù)據(jù),甚至類似于人類的智能。中國(guó)大數(shù)據(jù)的定義新技術(shù):核心是新的信息技術(shù)。大數(shù)據(jù)本身是什么并不重要,重要的是大數(shù)據(jù)背后蘊(yùn)含的價(jià)值所帶來(lái)的影響。大數(shù)據(jù)具有“容量大、類型多、存取速度快、應(yīng)用價(jià)值高”和“數(shù)據(jù)巨大、來(lái)源分散、格式多樣”的特征,大數(shù)據(jù)的價(jià)值在于應(yīng)用,必須依靠全新的處理方式,即新的數(shù)據(jù)采集技術(shù)、數(shù)據(jù)存儲(chǔ)技術(shù)和拘束關(guān)聯(lián)分析技術(shù),從根本上解決“數(shù)據(jù)從哪里來(lái)、數(shù)據(jù)放在哪里、數(shù)據(jù)如何使用”這三大問(wèn)題,實(shí)現(xiàn)通過(guò)
21、數(shù)據(jù)發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值、提升新能力的目標(biāo)。中國(guó)大數(shù)據(jù)的定義(1/3)新業(yè)態(tài):核心是新的服務(wù)業(yè)態(tài)。大數(shù)據(jù)帶來(lái)社會(huì)生產(chǎn)要素的開(kāi)放共享、集約整合、協(xié)同開(kāi)發(fā)和高效使用,改變了傳統(tǒng)的生產(chǎn)方式和經(jīng)濟(jì)運(yùn)行機(jī)制,持續(xù)激發(fā)商業(yè)模式創(chuàng)新,不斷催生新業(yè)態(tài)。這種新業(yè)態(tài)以新的服務(wù)業(yè)態(tài)為核心,通過(guò)大數(shù)據(jù)驅(qū)動(dòng)傳統(tǒng)服務(wù)模式或商業(yè)模式的再創(chuàng)新。大數(shù)據(jù)在重構(gòu)未來(lái)經(jīng)濟(jì)格局的同時(shí),也將對(duì)傳統(tǒng)的社會(huì)關(guān)系帶來(lái)重構(gòu)。中國(guó)大數(shù)據(jù)的定義(2/3)從貴陽(yáng)大數(shù)據(jù)交易所看貴陽(yáng)大數(shù)據(jù)頂層設(shè)計(jì)宏觀微觀政府企業(yè)國(guó)資控股的交易平臺(tái),接受政府監(jiān)督與監(jiān)管,因此具有公信力的,經(jīng)市場(chǎng)供需進(jìn)行數(shù)據(jù)資產(chǎn)現(xiàn)貨價(jià)值發(fā)現(xiàn),獲得鑒價(jià)憑證(703項(xiàng)目)后,可編入資產(chǎn)負(fù)債表,
22、進(jìn)而影響企業(yè)股價(jià)和融資能力。觀察市場(chǎng)使用本身數(shù)據(jù)情況,發(fā)現(xiàn)新藍(lán)海。大數(shù)據(jù)交易所為開(kāi)放數(shù)據(jù)重要渠道之一。交易所以企業(yè)市場(chǎng)化運(yùn)作,利用政府無(wú)償數(shù)據(jù)孵化與建立大數(shù)據(jù)交易生態(tài)圈大數(shù)據(jù)交易所為政府開(kāi)放數(shù)據(jù)與市場(chǎng)應(yīng)用的最后一哩路,政府可透過(guò)大數(shù)據(jù)交易所獲得市場(chǎng)對(duì)開(kāi)放數(shù)據(jù)的需求,進(jìn)而做為數(shù)據(jù)開(kāi)放的參考與依據(jù)透過(guò)大數(shù)據(jù)交易所有償購(gòu)回與政府治理有關(guān)數(shù)據(jù)產(chǎn)品(發(fā)揮拉動(dòng)市場(chǎng)的力量)與提升政府治理能力內(nèi)部經(jīng)營(yíng)使用指導(dǎo)決策優(yōu)化管理不得違反國(guó)家安全、社會(huì)安全、商業(yè)隱私、個(gè)人安全等相關(guān)法律。貴陽(yáng)大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)商聯(lián)盟:行業(yè)自律機(jī)制,確保會(huì)員資質(zhì),引領(lǐng)行業(yè)產(chǎn)生數(shù)據(jù)交易的法令法規(guī)、標(biāo)準(zhǔn)。陳剛市委書(shū)記6號(hào):利用大數(shù)據(jù)進(jìn)行政府治理
23、7號(hào):打造大數(shù)據(jù)產(chǎn)業(yè)鏈8號(hào):利用大數(shù)據(jù)進(jìn)行民生服務(wù)9號(hào):引進(jìn)高端產(chǎn)業(yè)產(chǎn)生大數(shù)據(jù)博士北京中關(guān)村項(xiàng)目參與北京朝陽(yáng)區(qū)區(qū)長(zhǎng)頂層設(shè)計(jì)戰(zhàn)略布局任務(wù)與目的交易模式交易底線大數(shù)據(jù)交易所在貴陽(yáng)大數(shù)據(jù)產(chǎn)業(yè)戰(zhàn)略布局中的位置交易所(702)貴陽(yáng)大數(shù)據(jù)發(fā)展1、策劃國(guó)家級(jí)的大數(shù)據(jù)交易平臺(tái)(系統(tǒng))2、參與國(guó)家數(shù)據(jù)與數(shù)據(jù)交易標(biāo)準(zhǔn)的制定2.1國(guó)家大數(shù)據(jù)交易標(biāo)準(zhǔn)2.2大數(shù)據(jù)行業(yè)應(yīng)用2.3大數(shù)據(jù)安全標(biāo)準(zhǔn)2.4大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)3、策劃互聯(lián)網(wǎng)金融+移動(dòng)金融+眾籌金融+大數(shù)據(jù)金融+大數(shù)據(jù)資產(chǎn)評(píng)估的整合4、大數(shù)據(jù)發(fā)展應(yīng)用促進(jìn)條例5、政府開(kāi)放數(shù)據(jù)推動(dòng)(省級(jí):云上貴州、貴陽(yáng)市政務(wù)數(shù)據(jù)交換平臺(tái)+開(kāi)放平臺(tái)+交易平臺(tái)(交易所負(fù)責(zé))6、交管孵化器對(duì)外開(kāi)
24、放7、貴州獲批建設(shè)全國(guó)首個(gè)國(guó)家級(jí)大數(shù)據(jù)綜合實(shí)驗(yàn)區(qū)重點(diǎn),進(jìn)行7項(xiàng)試驗(yàn)8、數(shù)據(jù)鐵籠9、黨建紅云8、舉辦國(guó)際級(jí)的數(shù)博會(huì).9、舉辦國(guó)際級(jí)的大數(shù)據(jù)交易商聯(lián)盟層級(jí)政策名稱重點(diǎn)補(bǔ)充國(guó)家中共十八屆五中全會(huì)的“十三五”規(guī)劃建議實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源開(kāi)放共享。國(guó)家國(guó)務(wù)院促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要開(kāi)展區(qū)域試點(diǎn),推進(jìn)貴州等大數(shù)據(jù)綜合試驗(yàn)區(qū)建設(shè),促進(jìn)區(qū)域性大數(shù)據(jù)基礎(chǔ)設(shè)施的整合和數(shù)據(jù)資源的匯聚應(yīng)用。貴州是此文件中唯一出現(xiàn)的省分名稱國(guó)家國(guó)家發(fā)改委、工信部、中央網(wǎng)信辦批覆同意貴州獲批建設(shè)全國(guó)首個(gè)國(guó)家級(jí)大數(shù)據(jù)綜合實(shí)驗(yàn)區(qū)1.開(kāi)展數(shù)據(jù)資源共享開(kāi)放試驗(yàn)。2.開(kāi)展數(shù)據(jù)中心整合利用試驗(yàn)。3.開(kāi)展大數(shù)據(jù)創(chuàng)新應(yīng)用試驗(yàn)。4.開(kāi)展大數(shù)據(jù)產(chǎn)
25、業(yè)聚集試驗(yàn)。5.開(kāi)展大數(shù)據(jù)資源流通試驗(yàn)。6.開(kāi)展大數(shù)據(jù)國(guó)際合作試驗(yàn)。7.開(kāi)展大數(shù)據(jù)制度創(chuàng)新試驗(yàn)。貴州省中共貴州省委第十一屆六次全會(huì)“十三五”期間貴州要突出抓好大數(shù)據(jù)、大扶貧兩大戰(zhàn)略行動(dòng)。貴州省貴州省大數(shù)據(jù)發(fā)展應(yīng)用促進(jìn)條例第18條描述培育數(shù)據(jù)交易市場(chǎng),規(guī)范交易行為與不得損害國(guó)家、社會(huì)、個(gè)人合法利益第19條鼓勵(lì)和引導(dǎo)數(shù)據(jù)交易當(dāng)事人在依法設(shè)立的數(shù)據(jù)交易機(jī)構(gòu)進(jìn)行數(shù)據(jù)交易國(guó)家與地方政府政策重點(diǎn)Farecast & ITA Software2006年,微軟以1.1億美元的價(jià)格購(gòu)買了埃齊奧尼的大數(shù)據(jù)公司Farecast(主打技術(shù)是依靠機(jī)票銷售數(shù)據(jù)預(yù)測(cè)機(jī)票價(jià)格)。然而時(shí)隔兩年后,谷歌以7億美元的價(jià)格購(gòu)買了為F
26、arecast提供數(shù)據(jù)的ITA Software公司。TheWeather Company2015年10月28日,IBM公司宣布20億美金收購(gòu),通過(guò)整合IBM行業(yè)領(lǐng)先的大數(shù)據(jù)和分析能力,以及The Weather的科學(xué)專業(yè)性和基于云計(jì)算的天氣數(shù)據(jù)發(fā)布系統(tǒng),來(lái)給企業(yè)帶來(lái)實(shí)時(shí)的天氣分析信息,幫助他們更好地進(jìn)行決策。美國(guó)氣象局大數(shù)據(jù)價(jià)值凸顯美國(guó)1970年公開(kāi)了氣象數(shù)據(jù)。美國(guó)國(guó)內(nèi)圍繞這一項(xiàng)政府?dāng)?shù)據(jù)的資源,產(chǎn)生了將近300家新創(chuàng)企業(yè),并延伸出數(shù)據(jù)清洗、分析、挖掘、數(shù)據(jù)應(yīng)用等業(yè)態(tài),直到現(xiàn)在,每年圍繞這一業(yè)態(tài)產(chǎn)生的經(jīng)濟(jì)價(jià)值高達(dá)300億美元。大數(shù)據(jù)成為資產(chǎn)云時(shí)代交易資產(chǎn)價(jià)值云應(yīng)用創(chuàng)造大數(shù)據(jù)價(jià)值云計(jì)算形成大數(shù)據(jù)
27、處理能力結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)云存儲(chǔ)增加數(shù)據(jù)廣度和深度貴陽(yáng)大數(shù)據(jù)交易所介紹視頻10分鐘大數(shù)據(jù)技術(shù)簡(jiǎn)介【數(shù)據(jù)采集】ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后載入到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)?!緮?shù)據(jù)存取】關(guān)系數(shù)據(jù)庫(kù)、NOSQL、SQL等。【基礎(chǔ)架構(gòu)】云存儲(chǔ)、分散式文件存儲(chǔ)等?!緮?shù)據(jù)處理】自然語(yǔ)言處理(NLP,Natural Language Processing)是研究人與電腦交互的語(yǔ)言問(wèn)題的一門(mén)學(xué)科。處理自然語(yǔ)言的關(guān)鍵是要讓電腦“理解”自然語(yǔ)言,所以自然語(yǔ)言處理又叫做自然語(yǔ)言理
28、解(NLU,Natural Language Understanding),也稱為計(jì)算語(yǔ)言學(xué)(Computational Linguistics。一方面它是語(yǔ)言資訊處理的一個(gè)分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一?!窘y(tǒng)計(jì)分析】假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡(jiǎn)單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因數(shù)分析、聚類分析、主成分分析、因數(shù)分析、快速聚類法與聚類法、判別分析、對(duì)應(yīng)分析、多元對(duì)應(yīng)分析(最優(yōu)尺度分析)
29、、bootstrap技術(shù)等等。【數(shù)據(jù)挖掘】分類 (Classification)、估計(jì)(Estimation)、預(yù)測(cè)(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)【模型預(yù)測(cè)】預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模模擬?!窘Y(jié)果呈現(xiàn)】云計(jì)算、標(biāo)簽云、關(guān)系圖等。大數(shù)據(jù)技術(shù)數(shù)據(jù)采礦是用來(lái)將數(shù)據(jù)中隱藏的資訊挖掘出來(lái),所以使用了許多統(tǒng)計(jì)分析與Modeling 的方法,到數(shù)
30、據(jù)中尋找有用的特征(Patterns)以及關(guān)連性(Relationships)。數(shù)據(jù)采礦(Data Mining)的介紹這些模式有兩種用處:第一,了解數(shù)據(jù)的特征與關(guān)系可以提供你做決策所需要的資訊。譬如Association Model可以幫助超級(jí)市場(chǎng)或百貨店規(guī)畫(huà)如何擺設(shè)貨品。第二,數(shù)據(jù)的特征可以幫助你做預(yù)測(cè)。例如你可以從一份郵寄名單預(yù)測(cè)出哪些客戶最可能對(duì)你的推銷做回應(yīng),所以你可以只對(duì)特定的對(duì)象做郵購(gòu)?fù)其N,而不必浪費(fèi)許多印刷費(fèi)郵寄費(fèi)而只得到很少的回應(yīng)。 一般而言,Data Mining功能可包含下列五項(xiàng)功能:分類(classification) 推估(estimation) 預(yù)測(cè)(predict
31、ion) 關(guān)聯(lián)分組(affinity grouping)同質(zhì)分組(clustering)數(shù)據(jù)采礦的功能 數(shù)據(jù)采礦的”分類”功能功能說(shuō)明按照分析對(duì)象的屬性分門(mén)別類加以定義,建立類組(class)。例如將信用申請(qǐng)者的風(fēng)險(xiǎn)屬性,區(qū)分為高度風(fēng)險(xiǎn)申請(qǐng)者,中度風(fēng)險(xiǎn)申請(qǐng)者及低度風(fēng)險(xiǎn)申請(qǐng)者。技巧使用的技巧有決策樹(shù)(decision tree),記憶基礎(chǔ)推理(memory - based reasoning)等。數(shù)據(jù)采礦的”推理”功能功能說(shuō)明根據(jù)既有連續(xù)性數(shù)值之相關(guān)屬性數(shù)據(jù),以獲致某一屬性未知之值。例如按照信用申請(qǐng)者之教育程度、行為別來(lái)推估其信用卡消費(fèi)量。技巧使用的技巧包括統(tǒng)計(jì)方法上之相關(guān)分析、回歸分析及類神經(jīng)
32、網(wǎng)路方法。數(shù)據(jù)采礦的”預(yù)測(cè)”功能功能說(shuō)明根據(jù)對(duì)象屬性之過(guò)去觀察值來(lái)推估該屬性未來(lái)之值。例如例如由顧客過(guò)去之刷卡消費(fèi)量預(yù)測(cè)其未來(lái)之刷卡消費(fèi)量。技巧使用的技巧包括回歸分析、時(shí)間數(shù)列分析及類神經(jīng)網(wǎng)路方法。功能說(shuō)明從所有物件決定那些相關(guān)物件應(yīng)該放在一起。例如超市中相關(guān)之盥洗用品(牙刷、牙膏、牙線),放在同一間貨架上。技巧在客戶行銷系統(tǒng)上,此種功能系用來(lái)確認(rèn)交叉銷售(cross selling)的機(jī)會(huì)以設(shè)計(jì)出吸引人的產(chǎn)品群組。數(shù)據(jù)采礦的”關(guān)聯(lián)分組”功能數(shù)據(jù)采礦的”同質(zhì)分組”功能功能說(shuō)明將異質(zhì)母體中區(qū)隔為較具同質(zhì)性之群組(clusters)。例如同質(zhì)分組相當(dāng)于行銷術(shù)語(yǔ)中的區(qū)隔化(segmentation)
33、,但是,假定事先未對(duì)于區(qū)隔加以定義,而數(shù)據(jù)中自然產(chǎn)生區(qū)隔。技巧使用的技巧包括k-means法及agglomeration法。 實(shí)踐數(shù)據(jù)采礦功能的技術(shù):算法群集算法Clustering決策樹(shù)Decision Trees時(shí)間序列Time Series時(shí)序群集Sequence Clustering關(guān)聯(lián)規(guī)則Association貝氏決策定理Nave Bayes類神經(jīng)網(wǎng)路Neural Net線性回歸Linear Regression羅吉斯回歸Logistic Regression決策樹(shù)(Decision Trees)利用一系列規(guī)則劃分,建立樹(shù)狀圖,可用于分類和預(yù)測(cè)。常用的演算法有CART、CHAID、I
34、D3、C4.5、C5.0等。它的目標(biāo)為找出數(shù)據(jù)中以前未知的相似群體,在許許多多的分析中,剛開(kāi)始都運(yùn)用到群集偵測(cè)技術(shù),以作為研究的開(kāi)端。這個(gè)技術(shù)涵蓋范圍相當(dāng)廣泛,包含基因演算法、類神經(jīng)網(wǎng)路、統(tǒng)計(jì)學(xué)中的群集分析都有這個(gè)功能。群集算法(Clustering)時(shí)間序列(Time Series)也叫時(shí)間數(shù)列、歷史復(fù)數(shù)或動(dòng)態(tài)數(shù)列。它是將某種統(tǒng)計(jì)指標(biāo)的數(shù)值,按時(shí)間先后順序排到所形成的數(shù)列。根據(jù)時(shí)間序列所反映出來(lái)的發(fā)展過(guò)程、方向和趨勢(shì),進(jìn)行類推或延伸,藉以預(yù)測(cè)下一段時(shí)間或以后若干年內(nèi)可能達(dá)到的水平。關(guān)聯(lián)規(guī)則(Association)又稱關(guān)聯(lián)規(guī)則,是數(shù)據(jù)挖掘的一個(gè)重要課題,用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之
35、間的相關(guān)關(guān)系。關(guān)聯(lián)規(guī)則一個(gè)經(jīng)典的實(shí)例是購(gòu)物籃分析(Market Basket Analysis)。超市對(duì)顧客的購(gòu)買記錄數(shù)據(jù)庫(kù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,可以發(fā)現(xiàn)顧客的購(gòu)買習(xí)慣,例如,購(gòu)買產(chǎn)品X的同時(shí)也購(gòu)買產(chǎn)品Y,于是,超市就可以調(diào)整貨架的布局,比如將X產(chǎn)品和Y產(chǎn)品放在一起,增進(jìn)銷量。正如大多數(shù)數(shù)據(jù)挖掘技術(shù)一樣,關(guān)聯(lián)規(guī)則的任務(wù)在于減少潛在的大量雜亂無(wú)章的數(shù)據(jù),使之成為少量的易于觀察理解的靜態(tài)數(shù)據(jù)。關(guān)聯(lián)式規(guī)則多不考慮項(xiàng)目的次序,而僅考慮其組合。時(shí)序群集(Sequence Clustering)Sequence Discovery與Association關(guān)系很密切,所不同的是 Sequence Cluster
36、ing中相關(guān)的 Item是以時(shí)間區(qū)分開(kāi)來(lái)(例如:如果做了 X手術(shù),則 Y病菌在手術(shù)后感染的機(jī)率是 45%。又例如:如果 A股票在某一天上漲12%,而且當(dāng)天股市加權(quán)指數(shù)下降,則 B股票在兩天之內(nèi)上漲的機(jī)率是 68%)。羅吉斯回歸分析(Logistic Analysis)當(dāng)區(qū)別分析中群體不符合常態(tài)分配假設(shè)時(shí),羅吉斯回歸分析是一個(gè)很好的替代方法。羅吉斯回歸分析并非預(yù)測(cè)事件(event)是否發(fā)生,而是預(yù)測(cè)該事件的機(jī)率。它將引數(shù)與因變數(shù)的關(guān)系假定是S行的形狀,當(dāng)引數(shù)很小時(shí),機(jī)率值接近為零;當(dāng)引數(shù)值慢慢增加時(shí),機(jī)率值沿著曲線增加,增加到一定程度時(shí),曲線協(xié)率開(kāi)始減小,故機(jī)率值介于0與1之間。神經(jīng)網(wǎng)路(Neu
37、ral Net)模擬人的神經(jīng)元功能,經(jīng)過(guò)輸入層,隱藏層,輸出層等,對(duì)數(shù)據(jù)進(jìn)行調(diào)整,計(jì)算,最后得到結(jié)果,用于分類和回歸。類神經(jīng)網(wǎng)路是以重復(fù)學(xué)習(xí)的方法,將一串例子交與學(xué)習(xí),使其歸納出一足以區(qū)分的樣式。若面對(duì)新的例證,神經(jīng)網(wǎng)路即可根據(jù)其過(guò)去學(xué)習(xí)的成果歸納后,推導(dǎo)出新的結(jié)果,乃屬于機(jī)器學(xué)習(xí)的一種。數(shù)據(jù)采擷的相關(guān)問(wèn)題也可采類神經(jīng)學(xué)習(xí)的方式,其學(xué)習(xí)效果十分正確并可做預(yù)測(cè)功能。 所謂就是指因變數(shù)和自變數(shù)之間的關(guān)系是直線型的?;貧w分析預(yù)測(cè)法中最簡(jiǎn)單和最常用的是線性回歸預(yù)測(cè)法。 是對(duì)客觀事物數(shù)量依存關(guān)系的分析是數(shù)理統(tǒng)計(jì)中的一個(gè)常用的方法是處理多個(gè)變數(shù)之間相互關(guān)系的一種數(shù)學(xué)方法線性回歸模型是機(jī)率論中的一個(gè)結(jié)論,它
38、跟隨機(jī)變數(shù)的條件機(jī)率以及邊緣機(jī)率分布有關(guān)。通常,事件A在事件B(發(fā)生)的條件下的機(jī)率,與事件B在事件A的條件下的機(jī)率是不一樣的;然而,這兩者是有確定的關(guān)系,貝氏定理就是這種關(guān)系的陳述。貝氏定理(Bayes theorem)項(xiàng)次問(wèn)題類型適用技術(shù)(方法)舉例1預(yù)測(cè)離散屬性1.1決策樹(shù)演算法(Decision Trees )1.2貝氏機(jī)率分類演算法(Naive Bayes )1.3群集演算法(Clustering )1.4類神經(jīng)網(wǎng)路演算法(Neural Network)1.a將潛在買家清單中的客戶標(biāo)幟為較佳或較差的潛在客戶。1.b計(jì)算伺服器在未來(lái)6個(gè)月內(nèi)失敗的機(jī)率。 1.c分類病人結(jié)果并探索相關(guān)因素
39、。2預(yù)測(cè)連續(xù)屬性2.1決策樹(shù)演算法(Decision Trees )2.2時(shí)間序列演算法(Time Series)2.3線性回歸演算法(Linear Regression)2.a預(yù)測(cè)下一個(gè)年度的銷售。 2.b根據(jù)過(guò)去歷史和季節(jié)性趨勢(shì)來(lái)預(yù)測(cè)網(wǎng)站訪客。 2.c根據(jù)人口統(tǒng)計(jì)產(chǎn)生風(fēng)險(xiǎn)分?jǐn)?shù)。3預(yù)測(cè)順序3.1時(shí)序群集演算法(Sequence Clustering)3.a執(zhí)行公司網(wǎng)站的點(diǎn)選流分析。 3.b分析導(dǎo)致伺服器失敗的因素。 3.c擷取及分析看診期間的活動(dòng)順序,制定出以一般活動(dòng)為主的最佳作法。4在交易中尋找通用項(xiàng)目的群組4.1關(guān)聯(lián)分析演算法(Association )4.2決策樹(shù)演算法(Decisio
40、n Trees)4.a使用購(gòu)物籃分析來(lái)決定產(chǎn)品位置。 4.b向客戶建議其他可購(gòu)買的產(chǎn)品。 4.c分析參加某事件之訪客的調(diào)查數(shù)據(jù),以找出相互關(guān)聯(lián)的活動(dòng)或攤位,并規(guī)劃未來(lái)的活動(dòng)。5尋找相似項(xiàng)目的群組5.1群集演算法(Clustering)5.2時(shí)序群集演算法(Sequence Clustering )5.a根據(jù)人口統(tǒng)計(jì)和行為等屬性,建立病患風(fēng)險(xiǎn)評(píng)估群組。 5.b依瀏覽及購(gòu)買模式來(lái)分析使用者。 5.c識(shí)別具有類似使用特性的伺服器。問(wèn)題類型與方法選定SPSS和NCR在1996年為克萊斯勒做數(shù)據(jù)采礦時(shí)所訂定,區(qū)分六大步驟:1.商業(yè)理解(Business Understanding)2.數(shù)據(jù)理解(Data
41、 Understanding)3.數(shù)據(jù)預(yù)備(Data Preparation)4.塑模(Modeling)5.評(píng)估(Evaluation)6.部署(或布署) (Deployment)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM)(CRoss-IndustryStandardProcess forDataMining )一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生命周期包含六個(gè)階段。這六個(gè)階段的順序是不固定的,我們經(jīng)常需要前后調(diào)整這些階段。最初的階段集中在理解項(xiàng)目目標(biāo)和從業(yè)務(wù)的角度理解需求,同時(shí)將這個(gè)知識(shí)轉(zhuǎn)化為數(shù)據(jù)挖掘問(wèn)題的定義和完成目標(biāo)的初步計(jì)劃。 側(cè)重點(diǎn):數(shù)據(jù)采礦的重心在于如何從數(shù)據(jù)中挖掘出知識(shí)以獲取商業(yè)利潤(rùn),因此整個(gè)數(shù)據(jù)采礦的核心必頇環(huán)繞在商業(yè)問(wèn)題上,而不似學(xué)術(shù)實(shí)驗(yàn)室僅專注于演算法的推導(dǎo)與程式撰寫(xiě)。資訊單位與使用者單位間的溝通配合法規(guī)以及外在環(huán)境應(yīng)變而改變既有的建模程序成功的數(shù)據(jù)采礦顧問(wèn)必頇同時(shí)具有三大專業(yè),分別是算法與統(tǒng)計(jì)、數(shù)據(jù)庫(kù)與資訊平臺(tái)、產(chǎn)業(yè)專業(yè)知識(shí),三者缺一不可業(yè)務(wù)理解(Business Understanding)側(cè)重點(diǎn):運(yùn)用基礎(chǔ)統(tǒng)計(jì)以提升數(shù)據(jù)分析人員對(duì)數(shù)據(jù)的熟悉度,并同時(shí)驗(yàn)證數(shù)據(jù)的品質(zhì)分析數(shù)據(jù)的迷思:車流量與脈搏錯(cuò)誤的取樣會(huì)導(dǎo)致錯(cuò)誤的結(jié)論必頇透過(guò)跟案例間比較才能夠真
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年航空租賃項(xiàng)目發(fā)展計(jì)劃
- 一年級(jí)小學(xué)生150字簡(jiǎn)短日記
- 滬教版小學(xué)一年級(jí)數(shù)學(xué)作業(yè)訓(xùn)練題及答案
- 2024年銠膦絡(luò)合催化劑BC-2-007合作協(xié)議書(shū)
- Tetraconazole-Standard-生命科學(xué)試劑-MCE
- 3 3 汽化和液化 教學(xué)設(shè)計(jì) 人教版物理八年級(jí)上冊(cè)
- Talopeptin-生命科學(xué)試劑-MCE
- 2024-2025學(xué)年新教材高中化學(xué)第2章元素與物質(zhì)世界第1節(jié)第1課時(shí)元素與物質(zhì)的關(guān)系物質(zhì)的分類學(xué)案魯科版必修1
- 四年級(jí)數(shù)學(xué)下冊(cè)四三角形認(rèn)識(shí)三角形說(shuō)課稿西師大版
- 五年級(jí)語(yǔ)文楚才杯尋找一崇雨獲獎(jiǎng)作文
- 精神病服藥自我管理
- 茶園新區(qū)規(guī)劃方案圖
- 2024年操作工技能考核考試-干燥工筆試歷年真題薈萃含答案
- 2021年公開(kāi)選拔團(tuán)委副書(shū)記專業(yè)知識(shí)試題及答案
- 舞蹈專業(yè)大學(xué)生生涯發(fā)展
- 第一單元-青春時(shí)光(大單元教學(xué)設(shè)計(jì))-七年級(jí)道德與法治下冊(cè)同步備課系列(部編版)
- 本科生畢業(yè)論文寫(xiě)作指導(dǎo)93590課件
- JC/T 547-2017 陶瓷磚膠粘劑
- 網(wǎng)絡(luò)安全 100mw光伏并網(wǎng)電站電氣系統(tǒng)設(shè)計(jì)
- 《國(guó)際中文教育概論》課件全套 第1-12章 從對(duì)外漢語(yǔ)教學(xué)到國(guó)際中文教育- 國(guó)際中文教育前瞻
- 招標(biāo)投標(biāo)從業(yè)人員知識(shí)競(jìng)賽試題(試題及答案1-200題)
評(píng)論
0/150
提交評(píng)論