大數(shù)據(jù)分析與挖掘課件.ppt_第1頁
大數(shù)據(jù)分析與挖掘課件.ppt_第2頁
大數(shù)據(jù)分析與挖掘課件.ppt_第3頁
大數(shù)據(jù)分析與挖掘課件.ppt_第4頁
大數(shù)據(jù)分析與挖掘課件.ppt_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析與挖掘 大數(shù)據(jù)與數(shù)據(jù)挖掘 課程的背景 2 中國大數(shù)據(jù)發(fā)展調(diào)查報告 2018年 2017年中國大數(shù)據(jù)產(chǎn)業(yè)總體規(guī)模為4700億元人民幣 同比增長30 預(yù)計2018 2020年增速將保持在30 以上 大部分企業(yè)均已意識到數(shù)據(jù)分析對企業(yè)發(fā)展的重要性 近四成的企業(yè)已經(jīng)應(yīng)用了大數(shù)據(jù) 與2016年相比上升4 5 金融等領(lǐng)域大數(shù)據(jù)應(yīng)用增加趨勢較為明顯 企業(yè)應(yīng)用大數(shù)據(jù)所帶來的主要效果包括實現(xiàn)智能決策 提升運營效率和改善風(fēng)險管理 3 我們身邊的大數(shù)據(jù) 4 百度地圖的定位數(shù)據(jù) 對大數(shù)據(jù)的初步認(rèn)識 1 除夕夜哈爾濱遷徙地圖 三十多年來 我國春運大軍從1億多人次到36億人次春運的最熱現(xiàn)象是逆向過年 即老人們到孩子工作的地方過年 6 對大數(shù)據(jù)的初步認(rèn)識 2 大數(shù)據(jù)與交通擁堵 7 一卡通大量使用 乘客出行的海量數(shù)據(jù)預(yù)埋傳感器 收集車流量 客流量信息衛(wèi)星地圖數(shù)據(jù)對道路交通情況進(jìn)行分析出租車提供實時數(shù)據(jù) 了解主要道路的路況智能手機(jī)使用地圖應(yīng)用 分析出實時的道路交通擁堵狀況 出行流動趨勢或特定區(qū)域的人員聚集程度 對大數(shù)據(jù)的初步認(rèn)識 3 大數(shù)據(jù)分析電信詐騙 根據(jù)2015年的統(tǒng)計數(shù)據(jù) 我國公民個人信息泄露數(shù)量已經(jīng)達(dá)到40億條左右 剛?cè)×送ㄖ獣陀兄鷮W(xué)金詐騙電話剛買了房就有無數(shù)裝修公司的電話 8 大數(shù)據(jù)的基本特征 9 用4個V來總結(jié) Volume Variety Value和Velocity數(shù)據(jù)體量大 從TB級別 躍升到PB數(shù)據(jù)多樣性 多為非結(jié)構(gòu)型數(shù)據(jù) 如網(wǎng)絡(luò)日志 視頻 圖片 地理位置信息價值密度低 以視頻為例 連續(xù)不間斷監(jiān)控過程中 可能有用的數(shù)據(jù)僅僅有一兩秒速度快 產(chǎn)生了大量的高速動態(tài)數(shù)據(jù)流 對數(shù)據(jù)流的實時分析與處理要求不斷增加 數(shù)據(jù)處理的越及時 產(chǎn)生的價值越大 10 大數(shù)據(jù)基本特征的第五個V Veracity數(shù)據(jù)的不確定性 數(shù)據(jù)挖掘 DataMining 11 概念從大量數(shù)據(jù)中抽取出 隱含的 有潛在用途的 未知的 人們可以理解的 有價值的信息和模式的過程 這些新發(fā)現(xiàn)的規(guī)律 模式 信息和概念具有潛在使用價值 數(shù)據(jù)挖掘背后的大數(shù)據(jù)思維 尋找特效藥 科學(xué)家們通常需要分析疾病產(chǎn)生的原因 尋找能夠消除這些原因的物質(zhì) 然后合成新藥 是一個非常漫長的過程 而且費用非常高 有了大數(shù)據(jù) 尋找特效藥的方法就和過去有所不同了 斯坦福大學(xué)醫(yī)學(xué)院發(fā)現(xiàn) 原來用于治療心臟病的某種藥物對治療某種胃病特別有效 這種方法 實際上依靠的并非因果關(guān)系 而是一種強關(guān)聯(lián)關(guān)系 即A藥對B病有效 至于為什么有效 接下來3年的研究工作實際上就是在反過來尋找原因 這種先有結(jié)果再反推原因的做法 和過去通過因果關(guān)系推導(dǎo)出結(jié)果的做法截然相反 無疑 這樣的做法會比較快 當(dāng)然 前提是有足夠多的數(shù)據(jù)支持 12 在大數(shù)據(jù)時代 我們能夠得益于一種新的思維方法 從大量的數(shù)據(jù)中直接找到答案 即使不知道原因 數(shù)據(jù)挖掘背后的大數(shù)據(jù)思維 在數(shù)據(jù)挖掘的思想中 知識的學(xué)習(xí)是不需要通過具體問題的專業(yè)知識建模 這其實是模擬了人的原始學(xué)習(xí)過程 比如你要預(yù)測一個人跑100米要多久時間 可以根據(jù)之前了解的他這樣體型的人跑100米用的多少時間做一個估計 而不會使用牛頓定律來算 13 數(shù)據(jù)挖掘 DataMining一般流程 14 數(shù)據(jù)挖掘 DataMining功能 關(guān)聯(lián)規(guī)則分類與預(yù)測聚類分析 15 數(shù)據(jù)挖掘 DataMining關(guān)聯(lián)規(guī)則 16 關(guān)聯(lián)規(guī)則 零售業(yè)應(yīng)用 幾十年來 大型零售商塔吉特收集了海量的數(shù)據(jù) 記錄了每一位經(jīng)常光顧其各分店的顧客數(shù)據(jù) 發(fā)現(xiàn)女客戶會在懷孕四個月左右 大量購買無香味乳液 由此挖掘出25項與懷孕高度相關(guān)的商品 制作 懷孕預(yù)測 指數(shù) 推算出預(yù)產(chǎn)期后 就能搶先一步 將孕婦裝 嬰兒床等折扣券寄給客戶 在接下來的幾年中會根據(jù)嬰兒的生長周期定期給這些顧客推送相關(guān)產(chǎn)品 使這些客戶形成長期的忠誠度 17 數(shù)據(jù)挖掘 DataMining分類與預(yù)測 18 數(shù)據(jù)挖掘分類與預(yù)測金融創(chuàng)新產(chǎn)品設(shè)計 19 數(shù)據(jù)挖掘 DataMining時間序列分析 20 數(shù)據(jù)挖掘 DataMining時間序列分析 時間序列預(yù)測即以時間序列所能反映的社會經(jīng)濟(jì)現(xiàn)象的發(fā)展過程和規(guī)律性 進(jìn)行引伸外推 預(yù)測其發(fā)展趨勢的方法 簡單來說就是從已知事件測定未知事件 時間序列數(shù)據(jù)的趨勢變動可分為以下四點 趨勢性 周期性 隨機(jī)性 綜合性預(yù)測時一般設(shè)法過濾除去不規(guī)則變動 突出反映趨勢性和周期性變動 21 數(shù)據(jù)挖掘 DataMining聚類分析 22 數(shù)據(jù)挖掘 DataMining社交網(wǎng)絡(luò) 輿情分析 23 社交網(wǎng)絡(luò)的分析 社交網(wǎng)絡(luò)中社區(qū)圈子的識別社交網(wǎng)絡(luò)中人物影響力的計算信息在社交網(wǎng)絡(luò)上的傳播模型虛假信息和機(jī)器人賬號的識別基于社交網(wǎng)絡(luò)信息對股市 大選以及傳染病的預(yù)測社交網(wǎng)絡(luò)的分析和研究是一個交叉領(lǐng)域的學(xué)科通常會利用社會學(xué) 心理學(xué)甚至是醫(yī)學(xué)上的基本結(jié)論和原理作為指導(dǎo)通過人工智能領(lǐng)域中使用的機(jī)器學(xué)習(xí) 圖論等算法對社交網(wǎng)絡(luò)中的群體行為和未來的趨勢進(jìn)行模擬和預(yù)測 24 大數(shù)據(jù)帶給數(shù)據(jù)挖掘的 25 神經(jīng)網(wǎng)絡(luò)在幾十年前就有了因為他們需要大量的 訓(xùn)練 對早期研究者來說 想要獲得不錯效果的最小量訓(xùn)練都遠(yuǎn)遠(yuǎn)超過計算能力和能提供的數(shù)據(jù)的大小團(tuán)隊通過在網(wǎng)絡(luò)圍棋對戰(zhàn)平臺上最強人類對手 百萬級的對弈落子去訓(xùn)練 數(shù)據(jù)挖掘 DataMining大數(shù)據(jù)管理與挖掘案例 隨著我們通過電話 信用卡 電子商務(wù) 互聯(lián)網(wǎng)和電子郵件留下更多的生活痕跡 大數(shù)據(jù)不斷增長的商業(yè)影響也在如下時刻表現(xiàn)出來 你搜索飛往哈爾濱的航班 然后便看到網(wǎng)站上出現(xiàn)了當(dāng)?shù)刭e館的打折信息你光顧的商店在對顧客行為進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)上獲取最大化的利潤用算法預(yù)測人們購票需求 航空公司以不可預(yù)知的方式調(diào)整價格智能手機(jī)的應(yīng)用識別到你的位置 因此你收到附近餐廳的服務(wù)信息 26 數(shù)據(jù)挖掘 DataMining大數(shù)據(jù)管理與挖掘案例 27 麻省理工學(xué)院創(chuàng)建了一個計算機(jī)模型來分析心臟病病患丟棄的心電圖數(shù)據(jù)他們利用數(shù)據(jù)挖掘在海量的數(shù)據(jù)中篩選 發(fā)現(xiàn)心電圖中出現(xiàn)三類異常者一年內(nèi)死于第二次心臟病發(fā)作的機(jī)率比未出現(xiàn)者高一至二倍這種新方法能夠識別出更多的 無法通過現(xiàn)有的風(fēng)險篩查被探查出的高危病人 數(shù)據(jù)挖掘 DataMining大數(shù)據(jù)管理與挖掘案例 大約20個NBA球隊使用了IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件AdvancedScout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合系統(tǒng)分析顯示兩個后衛(wèi)哈德衛(wèi)和伯蘭 紹在前兩場中被評為 17分但當(dāng)哈德衛(wèi)與替補后衛(wèi)阿姆斯創(chuàng)組合時 魔術(shù)隊得分為正14分魔術(shù)隊增加了阿姆斯創(chuàng)的上場時間 此著果然見效 AdvancedScout是一個數(shù)據(jù)分析工具 每一場比賽的事件都被統(tǒng)計分類 按得分 助攻 失誤等等 時間標(biāo)記讓教練非常容易地通過搜索NBA比賽的錄像來理解統(tǒng)計發(fā)現(xiàn)的含義 28 數(shù)據(jù)挖掘 DataMining大數(shù)據(jù)管理與挖掘案例 頭腦里的大數(shù)據(jù) 人類連接組項目是一項雄心勃勃地試圖繪制出不同腦區(qū)之間相互作用的計劃 項目使用三種磁共振造影觀察腦的結(jié)構(gòu) 功能和連接 數(shù)據(jù)收集工作完成之時 連接組獲得大約100萬G數(shù)據(jù) 如果區(qū)域A和區(qū)域B自發(fā)地以每秒18個周期的頻率產(chǎn)生腦波 說明它們處于同一網(wǎng)絡(luò)中 將利用整個大腦中的這些關(guān)聯(lián)數(shù)據(jù)創(chuàng)建一個表現(xiàn)出腦中的每一個點如何與其他每一個點關(guān)聯(lián)的矩陣 29 大數(shù)據(jù)挖掘風(fēng)險個人隱私泄露 通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論