數(shù)據(jù)可視化基礎(chǔ)數(shù)據(jù)科學(xué)課件_第1頁
數(shù)據(jù)可視化基礎(chǔ)數(shù)據(jù)科學(xué)課件_第2頁
數(shù)據(jù)可視化基礎(chǔ)數(shù)據(jù)科學(xué)課件_第3頁
數(shù)據(jù)可視化基礎(chǔ)數(shù)據(jù)科學(xué)課件_第4頁
數(shù)據(jù)可視化基礎(chǔ)數(shù)據(jù)科學(xué)課件_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)可視化基礎(chǔ)

數(shù)據(jù)科學(xué)內(nèi)容提綱大數(shù)據(jù)時(shí)代數(shù)據(jù)科學(xué)簡(jiǎn)介大數(shù)據(jù)的案例大數(shù)據(jù)用來定義那些大小超出常用軟件工具在可承受的運(yùn)行時(shí)間內(nèi)進(jìn)行數(shù)據(jù)捕獲、管理和處理的能力的數(shù)據(jù)集。大數(shù)據(jù)的定義與特性大數(shù)據(jù)的3V特性2009年,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(NIST)幫助發(fā)表了一

篇題為“控制數(shù)據(jù)的力量”的報(bào)告,對(duì)

大數(shù)據(jù)研發(fā)計(jì)劃的開展有許多影響。2011年,總統(tǒng)科技顧問委員會(huì)(PCAST)

提出增加美國(guó)在大數(shù)據(jù)研發(fā)方面投入的

建議,同時(shí)成立大數(shù)據(jù)高層指導(dǎo)小組。2012年3月29日奧巴馬政府公布了“大數(shù)據(jù)研發(fā)計(jì)劃”(BigDataResearchandDevelopmentInitiative)美國(guó)政府的大數(shù)據(jù)計(jì)劃國(guó)防部(DoD)自然語言處理(MachineReading)視覺智能(Mind’sEye)安全云(MissionOrientedResilientClouds)對(duì)加密數(shù)據(jù)的編程計(jì)算(PROCEED)對(duì)視頻和圖像的檢索和分析工具(VIRAT)CINDER計(jì)劃Insight計(jì)劃美國(guó)政府的大數(shù)據(jù)計(jì)劃國(guó)土安全部(DHS)可視化數(shù)據(jù)分析(CVADA)能源部

(DOE)ASCR計(jì)劃,提供數(shù)據(jù)管理,可視化和數(shù)據(jù)分析的社區(qū),包括數(shù)字化保存和社區(qū)訪問生物和環(huán)境研究計(jì)劃(BER)

系統(tǒng)生物學(xué)知識(shí)庫(Kbase)美國(guó)核數(shù)據(jù)計(jì)劃(USNDP)NASA全球地球觀測(cè)系統(tǒng)(GEOSS)行星數(shù)據(jù)系統(tǒng)(PDS)美國(guó)政府的大數(shù)據(jù)計(jì)劃衛(wèi)生和人類服務(wù)部(HHS)生物傳感2.0計(jì)劃癌癥成像存檔(TCIA)癌癥基因組圖譜(TCGA)傳染病代理研究模型(MIDAS)人口研究數(shù)據(jù)共享(DSDR)計(jì)算神經(jīng)科學(xué)的合作研究(CRCNS)食品藥品監(jiān)督管理局(FDA)虛擬實(shí)驗(yàn)室環(huán)境(VLE)計(jì)劃國(guó)家安全局(NSA)情報(bào)共同體(IC)計(jì)劃美國(guó)政府的大數(shù)據(jù)計(jì)劃美國(guó)國(guó)家自然基金委(NSF)開發(fā)、整合一套一體化的數(shù)據(jù)工具和先進(jìn)的基礎(chǔ)設(shè)施方案以支持科學(xué)和教育。美國(guó)國(guó)家衛(wèi)生研究院(NIH)TheStructuralGenomicsInitiative,通過發(fā)現(xiàn),分析和傳播蛋白質(zhì)的三維結(jié)構(gòu),RNA和其他生物大分子結(jié)構(gòu),展現(xiàn)生物的多樣性,以促進(jìn)在生物學(xué),農(nóng)業(yè)和醫(yī)藥的基本認(rèn)識(shí)和應(yīng)用。美國(guó)地質(zhì)調(diào)查局(USGS)利用龐大的數(shù)據(jù)集、先進(jìn)的計(jì)算能力和協(xié)作工具,提高對(duì)一些地球問題的認(rèn)識(shí),如氣候變化,地震的復(fù)發(fā)率。美國(guó)政府的大數(shù)據(jù)計(jì)劃2011年由國(guó)防部高級(jí)研究計(jì)劃局(DARPA)提出。投資:3500萬美元。該項(xiàng)目旨在發(fā)現(xiàn)和防止內(nèi)部威脅。系統(tǒng)預(yù)期輸出對(duì)象是反間諜機(jī)構(gòu)。同時(shí)可以用于解決大規(guī)模數(shù)據(jù)集的異常檢測(cè)和特征化,用于商業(yè)融資等其他領(lǐng)域。核心技術(shù)由喬治亞理工學(xué)院高性能計(jì)算團(tuán)隊(duì)研發(fā)。多尺度異常檢測(cè)(ADAMS)解決目前情報(bào),監(jiān)視和偵察系統(tǒng)的不足,進(jìn)行自動(dòng)化和人機(jī)集成推理,使得能夠提前對(duì)時(shí)間敏感的更大潛在威脅進(jìn)行分析開發(fā)新的方法來檢測(cè)軍事計(jì)算機(jī)網(wǎng)絡(luò)與網(wǎng)絡(luò)間諜活動(dòng)Insight計(jì)劃國(guó)防部高級(jí)研究計(jì)劃局(DARPA)今年提出開始XDATA計(jì)劃。將在四年里擬投資每年2500萬美元。開發(fā)用于分析大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算技術(shù)和軟件工具。提出的挑戰(zhàn):開發(fā)可擴(kuò)展的算法處理分布式數(shù)據(jù)中不完整存儲(chǔ)的數(shù)據(jù)。研發(fā)有效的人機(jī)交互工具促進(jìn)在各種各樣的任務(wù)中快速分析并反饋?zhàn)钪匾囊曈X信息。XDATA計(jì)劃高級(jí)科學(xué)計(jì)算研究辦公室(ASCR)提出。DAX是一個(gè)為推動(dòng)百萬兆級(jí)計(jì)算所需的數(shù)據(jù)分析和可視化算法提供細(xì)粒度并發(fā)支持的工具包?;締卧菍?shí)現(xiàn)一個(gè)網(wǎng)格里元素行為的函數(shù)。每個(gè)函數(shù)只能訪問傳遞和調(diào)用的元素,避免了內(nèi)存沖突從而實(shí)現(xiàn)無限數(shù)量的線程并發(fā)。執(zhí)行器遍歷網(wǎng)格所有元素,調(diào)用一個(gè)或多個(gè)函數(shù)處理無差別功能的元素并收集每個(gè)元素的值。DAX計(jì)劃病人報(bào)告結(jié)果測(cè)量信息系統(tǒng)2002年5月,國(guó)家衛(wèi)生研究所召開多個(gè)會(huì)議為21世紀(jì)的醫(yī)學(xué)研究制定了發(fā)展路線并提出了NIH共同基金。為支持重要項(xiàng)目之一的慢性疾病病人臨床研究動(dòng)態(tài)評(píng)估,由NIH共同基金提出了合作項(xiàng)目PROMIS。PROMIS是一個(gè)高度可靠,有效,靈活,準(zhǔn)確,反應(yīng)病人健康狀況的評(píng)估工具系統(tǒng)。核心資源是評(píng)估中心:提供工具和數(shù)據(jù)庫,以幫助研究人員收集,存儲(chǔ),分析病人的健康狀況有關(guān)的數(shù)據(jù)。PROMIS計(jì)劃NASA提出的地球科學(xué)數(shù)據(jù)和信息系統(tǒng)研制計(jì)劃主要目標(biāo):處理、存儲(chǔ)與分發(fā)地球科學(xué)衛(wèi)星數(shù)據(jù)。提供用于方便管理地球科學(xué)數(shù)據(jù)的工具。促進(jìn)地球科學(xué)數(shù)據(jù)的跨學(xué)科使用。通過國(guó)際之間地球觀測(cè)數(shù)據(jù)的共享和整合,推動(dòng)地球系統(tǒng)科學(xué),滿足氣候和環(huán)境變化的挑戰(zhàn)。有12個(gè)數(shù)據(jù)中心,14個(gè)科學(xué)研究處理系統(tǒng)以及26個(gè)合作伙伴為項(xiàng)目提供支持。EOSDIS計(jì)劃美國(guó)“大數(shù)據(jù)計(jì)劃”特點(diǎn)應(yīng)用單位提出,應(yīng)用單位主導(dǎo)有非常明確的應(yīng)用需求,要求解決實(shí)際問題應(yīng)用單位完全掌握大數(shù)據(jù)資源高校參與關(guān)鍵技術(shù)研究我國(guó)高校面臨的挑戰(zhàn)不掌握大數(shù)據(jù)來源很難得到真正的實(shí)際需求無能力建設(shè)試驗(yàn)環(huán)境不能提供足夠的人力資源大數(shù)據(jù)計(jì)劃特點(diǎn)總結(jié)及高校面臨的挑戰(zhàn)提取、轉(zhuǎn)換、加載(ETL)商業(yè)智能分析數(shù)據(jù)產(chǎn)品數(shù)據(jù)準(zhǔn)備-復(fù)雜化語法錯(cuò)誤語義錯(cuò)誤缺失值異常檢測(cè)再歸一化編碼降維整合數(shù)據(jù)準(zhǔn)備-語法和語義錯(cuò)誤利用:日志!維護(hù)一個(gè)記載錯(cuò)誤記錄的文件盡可能多地捕捉出錯(cuò)地方的狀態(tài)能夠幫助確定數(shù)據(jù)源的錯(cuò)誤對(duì)于文本格式,人來檢查是可能的對(duì)于二進(jìn)制格式,使用16進(jìn)制編輯器進(jìn)行語法或語義變化,或者檢查數(shù)據(jù)源是否有錯(cuò)?涉及到其他記錄和數(shù)據(jù)源的限制是十分難查的數(shù)據(jù)準(zhǔn)備-擴(kuò)展性問題已有的數(shù)據(jù)和需要的數(shù)據(jù)均是動(dòng)態(tài)的目標(biāo)數(shù)據(jù)質(zhì)量是一個(gè)過程經(jīng)常會(huì)在分析數(shù)據(jù)是發(fā)現(xiàn)問題修復(fù)找到的錯(cuò)誤會(huì)是極耗資源或不可能的容錯(cuò)保留初始數(shù)據(jù)能夠?qū)⒐ぷ髁鞯碾A段回滾允許以前工作的重用數(shù)據(jù)準(zhǔn)備-擴(kuò)展性問題工作流元數(shù)據(jù)管理現(xiàn)在正在運(yùn)行什么?自動(dòng)源捕獲對(duì)工作流進(jìn)行版本編號(hào)工作流進(jìn)度估計(jì)必須向下流進(jìn)程通信工作流單元重用在復(fù)合時(shí):常用工作流庫在執(zhí)行時(shí):消除工作流常見任務(wù)的冗余數(shù)據(jù)表現(xiàn)數(shù)據(jù)表現(xiàn)概覽圖表單變量雙變量其他圖表的選擇設(shè)計(jì)的考慮表格圖表顏色活板印刷數(shù)據(jù)表現(xiàn)-例子圖信息圖表格圖表信息窗介紹文檔視頻應(yīng)用程序數(shù)據(jù)表現(xiàn)

圖數(shù)據(jù)表現(xiàn)

圖數(shù)據(jù)表現(xiàn)

圖數(shù)據(jù)表現(xiàn)

圖數(shù)據(jù)表現(xiàn)

信息圖數(shù)據(jù)表現(xiàn)

信息圖數(shù)據(jù)表現(xiàn)

信息圖數(shù)據(jù)表現(xiàn)

信息圖數(shù)據(jù)表現(xiàn)

表格數(shù)據(jù)表現(xiàn)

圖表數(shù)據(jù)表現(xiàn)

信息窗數(shù)據(jù)表現(xiàn)

信息窗數(shù)據(jù)表現(xiàn)

信息窗數(shù)據(jù)表現(xiàn)

圖像設(shè)計(jì)的考慮

表格和圖表減少圖表垃圾/表格垃圾;增加數(shù)據(jù)墨水比認(rèn)知的限制:限制一次展示的物體數(shù)量顏色顏色模式對(duì)比、強(qiáng)調(diào)與公司一致6大格式塔原則:接近、相似、圈圍、封閉、連續(xù)、連接(proximity,similarity,enclosure,closure,continuity,connection)數(shù)據(jù)產(chǎn)品不要只關(guān)注“思想”你構(gòu)建了數(shù)據(jù)集你構(gòu)建了信息窗你構(gòu)建了實(shí)驗(yàn)平臺(tái)其他你可以構(gòu)建的事搜索廣告定位垃圾檢測(cè)內(nèi)容推薦Facebook大數(shù)據(jù)案例潛在的朋友提綱推薦誰?靜態(tài),離線預(yù)測(cè)動(dòng)態(tài),在線重排序性能/熱身你可能認(rèn)識(shí)的人前1~2個(gè)推薦會(huì)直接顯示在Faceboook的主頁上查看所有鏈接會(huì)使用戶看到更多的推薦很多的好友都是直接在主頁而不是“查看所有”頁面被添加的‘Xing’某個(gè)用戶把某人永遠(yuǎn)地從列表里刪除在未來的推薦中取消掉占了Facebook中朋友中的很大一部分內(nèi)容幫助用戶在FB上找到好友推薦已經(jīng)在很多應(yīng)用中得到了證明Amazon、NetFlix等都有復(fù)雜的系統(tǒng)和他們一樣,我們可以通過作出優(yōu)秀的推薦來增加我們對(duì)用戶的價(jià)值有更多好友的用戶更頻繁地使用網(wǎng)站,從中也得到更多不像那些系統(tǒng)(協(xié)同過濾)我們必須要考慮社交背景好友統(tǒng)計(jì)大約每天有兩億的頁面互訪26%直接來自于PYMK的貢獻(xiàn)(點(diǎn)擊PYMK添加鏈接)另外14%是間接引起的新用戶(注冊(cè)帳號(hào)不超過兩周)每天要連接4千萬28%直接通過PYMK,總共為42%沒有“你可能認(rèn)識(shí)的人”(PYMK)時(shí)很多人可能都無法被他人所發(fā)現(xiàn)被從PYMK上移除的新用戶在6周以后會(huì)少27%的好友如何推薦大部分的友誼來自于朋友的朋友(FriendofFriend,F-F)以前的工作表明FoF(2跳)的友誼比多余3跳的友誼要多五倍以上FB上92%的新朋友關(guān)系從實(shí)際的角度來看,做比F-F更深入的工作是不可能的了一般用戶平均有超過130個(gè)好友130×130=17KFoFs130^2=2.2MFoFoFs特殊的用戶會(huì)有大約5000個(gè)好友推薦朋友的朋友問題陳述:給定一個(gè)源用戶,找到最佳的朋友的朋友推薦給他挑戰(zhàn):一個(gè)典型的用戶會(huì)有成百上千的FoFs(平均為40K,有一部分人會(huì)達(dá)到800K!)哪些特性可以幫助我們從中進(jìn)行選擇我們?nèi)绾谓Y(jié)合網(wǎng)絡(luò)和人口特性共同好友

系統(tǒng)概覽系統(tǒng)檢測(cè)所有的FoFs產(chǎn)生前100位候選人列表存儲(chǔ)評(píng)分并且使用簡(jiǎn)便易得的數(shù)據(jù)來預(yù)測(cè)實(shí)時(shí)的CTRs候選人被重新排序并且在每次訪問時(shí)展示結(jié)果被反饋到系統(tǒng)并保留實(shí)時(shí)模型依賴于輸出分?jǐn)?shù),并進(jìn)行在線訓(xùn)練來保證CTR預(yù)測(cè)的準(zhǔn)確性進(jìn)行靜態(tài)預(yù)測(cè)使用傳統(tǒng)機(jī)器學(xué)習(xí)對(duì)一個(gè)用戶u,考慮所有的FoFsw1,…,wk對(duì)每一對(duì)(u,wj)生成一系列特性共同好友,很久以前的共同好友,新的共同好友等也結(jié)合u和wj各自的特性年齡、性別、國(guó)家、總的朋友、在FB的時(shí)間等我們使用袋裝決策樹(許多決策樹的平均)訓(xùn)練集來自于以前的PYMK只訓(xùn)練“firstimpression”或主頁好友的好友特性兩類特性帶權(quán)的共同好友(MFs)實(shí)際的MFs、帶時(shí)間權(quán)重的MFs、有向的MFs、帶強(qiáng)度權(quán)的MFs、推遲的MFs個(gè)人特點(diǎn)年齡、國(guó)家、FB年齡、性別、朋友數(shù)由于用戶平均有40K個(gè)FoFs,這些必須在每臺(tái)機(jī)器上進(jìn)行冗余備份而不是共享用于預(yù)測(cè)的最重要特性時(shí)間流逝的共同好友源用戶的國(guó)籍和FB年齡好友數(shù)目特性選擇首要特性1.時(shí)間權(quán)重,有向共同好友2.國(guó)家(u)某些國(guó)家的用戶相比于其他國(guó)家的用戶更傾向于使用某些特性3.從u到v的帶權(quán)重邊來自于信息訂閱的權(quán)重粗略地暗示了聯(lián)系的強(qiáng)度4和5是其他的共同好友權(quán)重,其他重要特性是U的度,V的度以及U的年齡巨大的代價(jià)用戶平均有40K個(gè)FoFs共有超過500M的用戶40K×500M=20T多臺(tái)擁有72G內(nèi)存的機(jī)器(40臺(tái))每臺(tái)機(jī)器都存了社交圖的一部分在內(nèi)存中(對(duì)單臺(tái)機(jī)器來說太大了)即便如此,我們至少要在2天中才能算出新的推薦為了保證對(duì)新用戶進(jìn)行最佳的推薦,我們會(huì)為他們進(jìn)行更多的計(jì)算推薦生成社交圖被40臺(tái)機(jī)器所共享包括邊上的注釋:創(chuàng)建時(shí)間、方向,權(quán)重請(qǐng)求會(huì)直接送到有用戶好友列表的機(jī)器這臺(tái)機(jī)器分割好友列表并且向其他機(jī)器請(qǐng)求FoFs結(jié)果被匯總并排序前100位被返回推薦生成使用了4臺(tái)機(jī)器的簡(jiǎn)單例子4號(hào)用戶請(qǐng)求PYMK4號(hào)用戶和5,6,7,13,26,31,121等用戶是好友向其他機(jī)器請(qǐng)求FoFs(本地的機(jī)器也一樣被請(qǐng)求)請(qǐng)求包括去權(quán)重(如時(shí)間)每個(gè)FoF的特征向量被聚集14:2,18,8117:2,53,12123:2,0,0提高效率和內(nèi)存利用率為每個(gè)用戶都運(yùn)行40K個(gè)FOFs的決策樹評(píng)價(jià)是不可能的使用啟發(fā)式方法來縮小范圍通過共同好友特性建立logistic模型來選擇出前1K使用線性時(shí)間排N算法來找到截止(不是nlogn排序)僅在前1K上運(yùn)行完全決策樹算法不想使用網(wǎng)絡(luò)來獲得年齡、性別等信息從前1000用戶中選擇出前100只有那些人才能被展示為了保證多樣性,會(huì)暫時(shí)不推薦已經(jīng)向用戶推薦了4次以上的好友每次都展示最好的推薦為了優(yōu)化推薦,我們?cè)诿看瓮扑]以后都再次重排決策模型只能每?jī)商爝\(yùn)行一次他們?yōu)槊總€(gè)用戶對(duì)(u,wi)輸出一個(gè)評(píng)分不能為每次推薦進(jìn)行過多的運(yùn)算,但是可以適量運(yùn)算簡(jiǎn)單特性在每次推薦的時(shí)候都存在(u,wi)的分?jǐn)?shù),對(duì)(u,wi)的推薦次數(shù),U的朋友數(shù),wi的朋友數(shù)將可獲得的信息和評(píng)分相結(jié)合并通過Logistics模型來進(jìn)行重排通過Logistics回歸進(jìn)行重排簡(jiǎn)單logistics回歸模型進(jìn)行CTRs預(yù)測(cè)的表現(xiàn)良好對(duì)某個(gè)推薦給定特性F1、F2、F3預(yù)測(cè)CTR=logistics(C0+C1*F1+C2*F2+…)從兩方面來提高質(zhì)量不要不斷重復(fù)某個(gè)推薦,展示過往的最佳推薦如果用戶從來都不用PYMK,就停止推薦通過Logistics回歸進(jìn)行重排簡(jiǎn)單logistics回歸模型進(jìn)行CTRs預(yù)測(cè)的表現(xiàn)良好對(duì)某個(gè)推薦給定特性F1、F2、F3預(yù)測(cè)CTR=logistics(C0+C1*F1+C2*F2+…)從兩方面來提高質(zhì)量不要不斷重復(fù)某個(gè)推薦,展示過往的最佳推薦如果用戶從來都不用PYMK,就停止推薦實(shí)現(xiàn)簡(jiǎn)單,很多的軟件可以被用來學(xué)習(xí)參數(shù)使用用戶歷史數(shù)據(jù)來個(gè)個(gè)性化推薦能獲得巨大的效果提升機(jī)器學(xué)習(xí)挑戰(zhàn)對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論