版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章基礎(chǔ)理論內(nèi)容簡介數(shù)據(jù)科學(xué)中的基礎(chǔ)知識(shí)圖1-1(1)數(shù)據(jù)科學(xué)的基礎(chǔ)理論目錄目錄圖1-1(2)數(shù)據(jù)科學(xué)的基礎(chǔ)理論學(xué)習(xí)目的了解數(shù)據(jù)的含義、數(shù)據(jù)中存在主要矛盾、數(shù)據(jù)模型的層次及數(shù)據(jù)分類的維度;數(shù)據(jù)科學(xué)項(xiàng)目的基本流程和主要角色;理解大數(shù)據(jù)的內(nèi)涵與特征、大數(shù)據(jù)時(shí)代的新理念與新術(shù)語、數(shù)據(jù)科學(xué)家的主要角色和常用工具;掌握數(shù)據(jù)科學(xué)的基礎(chǔ)知識(shí)以及數(shù)據(jù)科學(xué)家的主要能力要求;熟練掌握結(jié)合讀者自己所在專業(yè)領(lǐng)域中常用的數(shù)據(jù)科學(xué)方法、技術(shù)與工具學(xué)習(xí)目的目錄目錄圖1-1(2)數(shù)據(jù)科學(xué)的基礎(chǔ)理論1.1數(shù)據(jù)在數(shù)據(jù)科學(xué)中,各種符號(hào)(如字符、數(shù)字等)的組合、語音、圖形、圖像、動(dòng)畫、視頻、多媒體和富媒體等統(tǒng)稱為數(shù)據(jù)(Data)。1.1數(shù)據(jù)圖1-2“數(shù)據(jù)”不等同于“數(shù)值”1.1數(shù)據(jù)(1)“數(shù)據(jù)”與“信息”、“知識(shí)”和“智慧”等概念之間存在一定的區(qū)別與聯(lián)系。1.1數(shù)據(jù)圖1-3DIKW金字塔1.1數(shù)據(jù)(2)數(shù)據(jù)規(guī)模與利用率之間的矛盾日益凸顯。一方面,數(shù)據(jù)規(guī)模的“存量”和“增量”在快速增長。IDC曾估計(jì)2013年全球數(shù)據(jù)總量大約為4.4ZB,而2020年將增長至40ZB,人均達(dá)到5.2TB紐約證券交易所:4~5TB/天Illumina的HiSeq2000測(cè)序儀:1TB/天Facebook:7PB/月;大型強(qiáng)子對(duì)撞機(jī)(LargeHadronCollider):30PB/年InternetArchive項(xiàng)目已存儲(chǔ)大約18.5PB的數(shù)據(jù)。另一方面,我們?nèi)狈?duì)“大數(shù)據(jù)”的開發(fā)利用能力。1.1數(shù)據(jù)1.1數(shù)據(jù)1.1數(shù)據(jù)圖1-4數(shù)據(jù)存儲(chǔ)容量單位1.1.1數(shù)據(jù)模型1.1數(shù)據(jù)圖1-5數(shù)據(jù)模型的層次1.1.1數(shù)據(jù)模型數(shù)據(jù)的異構(gòu)性問題專用格式與特定應(yīng)用程序(及開發(fā)語言)相關(guān)docx,pptx,class等通用格式與特定應(yīng)用程序(及開發(fā)語言)無關(guān)的關(guān)系(二維表/矩陣)、CSV(CommaSeparatedValue)、JSON(JavaScriptObjectNotation)、XML(ExtensibleMarkupLanguage)、RDF(ResourceDescriptionFramework)和OWL(WebOntologyLanguage)等。1.1數(shù)據(jù)1.1.2數(shù)據(jù)維度1.1數(shù)據(jù)圖1-6數(shù)據(jù)的維度1.1.2數(shù)據(jù)維度1.1數(shù)據(jù)表1-1結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)的區(qū)別與聯(lián)系1.1.2數(shù)據(jù)維度1.1數(shù)據(jù)圖1-7數(shù)據(jù)的加工程度1.1.2數(shù)據(jù)維度1.1數(shù)據(jù)圖1-8數(shù)據(jù)的封裝目錄目錄圖1-1數(shù)據(jù)科學(xué)的基礎(chǔ)理論圖1-1(2)數(shù)據(jù)科學(xué)的基礎(chǔ)理論1.2.1內(nèi)涵與特征1.2大數(shù)據(jù)表1-2不同學(xué)科對(duì)術(shù)語“大數(shù)據(jù)”的理解不同1.2.1內(nèi)涵與特征1.2大數(shù)據(jù)圖1-9大數(shù)據(jù)的特征1.2.2大數(shù)據(jù)時(shí)代的新理念1.2大數(shù)據(jù)圖1-10大數(shù)據(jù)時(shí)代的10大變化1.2.2大數(shù)據(jù)時(shí)代的新理念1.2大數(shù)據(jù)圖1-11某學(xué)生的科學(xué)研究思維分析1.2.2大數(shù)據(jù)時(shí)代的新理念1.2大數(shù)據(jù)圖1-12傳統(tǒng)思維與大數(shù)據(jù)思維的比較1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語1.2大數(shù)據(jù)圖1-13大數(shù)據(jù)時(shí)代的一些重要概念1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語數(shù)據(jù)化(Datafication)Google眼睛正在數(shù)據(jù)化人們視覺活動(dòng)Twitter正在數(shù)據(jù)化人們的思想動(dòng)態(tài)Linkedin正在數(shù)據(jù)化人們的社會(huì)關(guān)系1.2大數(shù)據(jù)1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語1.2大數(shù)據(jù)圖1-14數(shù)據(jù)柔術(shù)(DataJiu-Jitsu)1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語數(shù)據(jù)改寫(DataMunging)數(shù)據(jù)的解析(parsing)、提煉(scraping)、格式化(formatting)和形式化(formalization)處理與一般數(shù)據(jù)處理不同的是,數(shù)據(jù)再加工強(qiáng)調(diào)的是數(shù)據(jù)加工過程中的創(chuàng)造力和想象力1.2大數(shù)據(jù)1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語數(shù)據(jù)打磨(DataWrangling)
將“原始數(shù)據(jù)”轉(zhuǎn)換為“一次數(shù)據(jù)”(或“二次數(shù)據(jù)”)的過程1.2大數(shù)據(jù)1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語數(shù)據(jù)洞見(DataInsights)
發(fā)現(xiàn)數(shù)據(jù)背后的信息、知識(shí)和智慧以及找到“被淹沒在海量數(shù)據(jù)中的未知數(shù)據(jù)”與數(shù)據(jù)挖掘不同的是,數(shù)據(jù)科學(xué)項(xiàng)目的成果可以直接用于決策支持1.2大數(shù)據(jù)1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語數(shù)據(jù)分析式思維模式(Data-AnalyticThinking)數(shù)據(jù)分析思維模式與傳統(tǒng)思維模式不同前者,主要從“數(shù)據(jù)”入手,最終改變“業(yè)務(wù)”;后者從“業(yè)務(wù)”或“決策”等要素入手,最終改變“數(shù)據(jù)”1.2大數(shù)據(jù)1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語數(shù)據(jù)驅(qū)動(dòng)(Data-driven)1.2大數(shù)據(jù)圖1-16常用的驅(qū)動(dòng)方式1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語數(shù)據(jù)分析式思維模式(Data-AnalyticThinking)數(shù)據(jù)分析思維模式與傳統(tǒng)思維模式不同1.2大數(shù)據(jù)圖1-15數(shù)據(jù)分析的層次1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語數(shù)據(jù)密集型(Data-Intensive)應(yīng)用1.2大數(shù)據(jù)圖1-17計(jì)算密集型應(yīng)用與數(shù)據(jù)密集型應(yīng)用的區(qū)別1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語數(shù)據(jù)空間(DataSpace)主體主體相關(guān)性主體可控性1.2大數(shù)據(jù)1.2.3大數(shù)據(jù)時(shí)代的新術(shù)語關(guān)聯(lián)數(shù)據(jù)(LindedData) 采用URI(UniformResourceIdentifier,統(tǒng)一資源標(biāo)識(shí)符)技術(shù)統(tǒng)一標(biāo)識(shí)事物;通過HTTPURI訪問URI標(biāo)識(shí);當(dāng)URI被訪問時(shí),采用RDF(ResourceDescriptionFramework,資源描述框架)和SPARQL(SimpleProtocolandRDFQueryLanguage)標(biāo)準(zhǔn),提供有用信息;提供信息時(shí),也提供指向其他事物的URI,以便發(fā)現(xiàn)更多事物。1.2大數(shù)據(jù)目錄目錄圖1-1數(shù)據(jù)科學(xué)的基礎(chǔ)理論圖1-1(2)數(shù)據(jù)科學(xué)的基礎(chǔ)理論1.3數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)(DataScience)是指以數(shù)據(jù)為中心的科學(xué),可以從以4個(gè)方面理解“數(shù)據(jù)為中心的科學(xué)”的含義:(1/4)是一門將“現(xiàn)實(shí)世界”映射到“數(shù)據(jù)世界”之后,在“數(shù)據(jù)層次”上研究“現(xiàn)實(shí)世界”的問題,并根據(jù)“數(shù)據(jù)世界”的分析結(jié)果,對(duì)“現(xiàn)實(shí)世界”進(jìn)行預(yù)測(cè)、洞見、解釋或決策的新興科學(xué)1.3數(shù)據(jù)科學(xué)1.3數(shù)據(jù)科學(xué)(續(xù))數(shù)據(jù)科學(xué)(DataScience)是指以數(shù)據(jù)為中心的科學(xué),可以從以4個(gè)方面理解“數(shù)據(jù)為中心的科學(xué)”的含義:(2/4)是一門以“數(shù)據(jù)”,尤其是“大數(shù)據(jù)”為研究對(duì)象,并以數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等為理論基礎(chǔ),主要研究數(shù)據(jù)預(yù)處理、數(shù)據(jù)管理、數(shù)據(jù)計(jì)算等活動(dòng)的交叉性學(xué)科1.3數(shù)據(jù)科學(xué)1.3數(shù)據(jù)科學(xué)(續(xù))數(shù)據(jù)科學(xué)(DataScience)是指以數(shù)據(jù)為中心的科學(xué),可以從以4個(gè)方面理解“數(shù)據(jù)為中心的科學(xué)”的含義:(3/4)是一門以實(shí)現(xiàn)“從數(shù)據(jù)到信息”、“從數(shù)據(jù)到知識(shí)”和(或)“從數(shù)據(jù)到智慧”的轉(zhuǎn)化為主要研究目的的,以“數(shù)據(jù)驅(qū)動(dòng)”、“數(shù)據(jù)業(yè)務(wù)化”、“數(shù)據(jù)洞見”、“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”為主要研究任務(wù)的獨(dú)立學(xué)科1.3數(shù)據(jù)科學(xué)1.3數(shù)據(jù)科學(xué)(續(xù))數(shù)據(jù)科學(xué)(DataScience)是指以數(shù)據(jù)為中心的科學(xué),可以從以4個(gè)方面理解“數(shù)據(jù)為中心的科學(xué)”的含義:(4/4)是一門以“數(shù)據(jù)時(shí)代”,尤其是“大數(shù)據(jù)時(shí)代”面臨的新挑戰(zhàn)、新機(jī)會(huì)、新思維和新方法為核心內(nèi)容的,包括新的理論、方法、模型、技術(shù)、平臺(tái)、工具、應(yīng)用和最佳實(shí)踐在內(nèi)的一整套知識(shí)體系1.3數(shù)據(jù)科學(xué)1.3數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)的主要里程碑:1974年,PeterNaur的專著ConciseSurveyofComputerMethods中首次出現(xiàn)術(shù)語“數(shù)據(jù)科學(xué)”,數(shù)據(jù)科學(xué)首次出現(xiàn)在“學(xué)術(shù)專著”中2001年,當(dāng)時(shí)在貝爾實(shí)驗(yàn)室工作的WilliamS.Cleveland在期刊InternationalStatisticalReview發(fā)表了題為“DataScience:anActionPlanforExpandingtheTechnicalAreasoftheFieldofStatistics”的論文,首次在學(xué)術(shù)論文中專門探討了數(shù)據(jù)科學(xué)1.3數(shù)據(jù)科學(xué)1.3數(shù)據(jù)科學(xué)2003年,ICSU(TheInternationalCouncilforScience)的CODATA(theCommitteeonDataforScienceandTechnology)第一本以“數(shù)據(jù)科學(xué)”為命名的學(xué)術(shù)期刊TheDataScienceJournal2009年,TroySadkowsky等在LinkedIn上組建了第一個(gè)數(shù)據(jù)科學(xué)家群TheDataScientistsGroup2010年,DrewConway提出了第一個(gè)揭示數(shù)據(jù)科學(xué)理論基礎(chǔ)的維恩圖——TheDataScienceVennDiagram1.3數(shù)據(jù)科學(xué)1.3數(shù)據(jù)科學(xué)2011年,PatilDJ出版了專著Buildingdatascienceteams,系統(tǒng)討論了如何組建數(shù)據(jù)科學(xué)家團(tuán)隊(duì)問題2012年,數(shù)據(jù)科學(xué)應(yīng)用于美國總統(tǒng)大選的預(yù)測(cè)工作,受到廣泛關(guān)注;DavenportTH和PatilDJ在HarvardBusinessReview上發(fā)表了題目為Datascientist的論文;SchuttR在哥倫比亞大學(xué)(ColumbiaUniversity)開設(shè)建設(shè)第一門數(shù)據(jù)科學(xué)課程《IntroductiontoDataScience》
1.3數(shù)據(jù)科學(xué)1.3數(shù)據(jù)科學(xué)2013年MattmannCA在Nature上發(fā)表題目為Computing:Avisionfordatascience的論文DharV在CommunicationsoftheACM上發(fā)表論文DatascienceandpredictionProvostF和FawcettT出版了專著DataScienceforBusiness:Whatyouneedtoknowaboutdatamininganddata-analyticthinkingMayer-Sch?nbergerV和CukierK出版了專著Bigdata:ARevolutionThatWillTransformHowWeLive,Work,andThinkSchuttR和O'NeilC出版專著DoingDataScience1.3數(shù)據(jù)科學(xué)1.3數(shù)據(jù)科學(xué)2014年,ZumelN,MountJ,PorzakJ等出版了專著PracticaldatasciencewithR,較系統(tǒng)地介紹了如何運(yùn)用R開展數(shù)據(jù)科學(xué)工作2016年,中國人民大學(xué)朝樂門老師出版了中國第一部系統(tǒng)闡述數(shù)據(jù)科學(xué)原理、方法與技術(shù)的專著——《數(shù)據(jù)科學(xué)》1.3數(shù)據(jù)科學(xué)1.3.1研究目的大數(shù)據(jù)及其變化規(guī)律的揭示從數(shù)據(jù)到智慧的轉(zhuǎn)化數(shù)據(jù)洞見(DataInsights)數(shù)據(jù)業(yè)務(wù)化數(shù)據(jù)驅(qū)動(dòng)型決策支持?jǐn)?shù)據(jù)產(chǎn)品的研發(fā)數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)1.3數(shù)據(jù)科學(xué)1.3.1研究目的1.3數(shù)據(jù)科學(xué)圖1-18DIKUW模型1.3.2理論基礎(chǔ)1.3數(shù)據(jù)科學(xué)圖1-19數(shù)據(jù)科學(xué)的理論基礎(chǔ)1.3.2理論基礎(chǔ)“數(shù)學(xué)與統(tǒng)計(jì)知識(shí)”是數(shù)據(jù)科學(xué)的主要理論基礎(chǔ)之一,但是,數(shù)據(jù)科學(xué)與(傳統(tǒng))數(shù)學(xué)和統(tǒng)計(jì)學(xué)有區(qū)別的,主要體現(xiàn)在以下4個(gè)方面:(1/4)數(shù)據(jù)學(xué)科中的“數(shù)據(jù)”并不僅僅是“數(shù)值”。數(shù)據(jù)科學(xué)中“數(shù)據(jù)”并不等同于“數(shù)值”,參見本章圖1-2(2/4)數(shù)據(jù)科學(xué)中的“計(jì)算”并不僅僅是加/減/乘/除等“數(shù)學(xué)計(jì)算”,而包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型1.3數(shù)據(jù)科學(xué)1.3.2理論基礎(chǔ)(續(xù))“數(shù)學(xué)與統(tǒng)計(jì)知識(shí)”是數(shù)據(jù)科學(xué)的主要理論基礎(chǔ)之一,但是,數(shù)據(jù)科學(xué)與(傳統(tǒng))數(shù)學(xué)和統(tǒng)計(jì)學(xué)有區(qū)別的,主要體現(xiàn)在以下4個(gè)方面:(3/4)數(shù)據(jù)科學(xué)關(guān)注的不是“單一學(xué)科”的問題,超出了數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)等單一學(xué)科的研究范疇,進(jìn)而涉及多個(gè)學(xué)科(統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等)的研究范疇,更加強(qiáng)調(diào)的是跨學(xué)科視角(4/4)數(shù)據(jù)科學(xué)并不僅僅是“理論研究”,更不是純“領(lǐng)域?qū)崉?wù)知識(shí)”,更關(guān)注和強(qiáng)調(diào)的是二者的結(jié)合1.3數(shù)據(jù)科學(xué)1.3.2理論基礎(chǔ)“黑客精神與技能”是數(shù)據(jù)科學(xué)家的主要精神追求和技能要求——大膽創(chuàng)新、喜歡挑戰(zhàn)、追求完美和不斷改進(jìn),如:史蒂夫?利維(StevenLevy)在Hackers:HeroesoftheComputerRevolution中指出了“黑客道德準(zhǔn)則(TheHackerEthic)”:通往電腦的路不止一條所有的信息都應(yīng)當(dāng)是免費(fèi)和共享一定要打破電腦集權(quán)在電腦上創(chuàng)造的是藝術(shù)和美計(jì)算機(jī)將使生活更加美好1.3數(shù)據(jù)科學(xué)1.3.2理論基礎(chǔ)“領(lǐng)域?qū)崉?wù)知識(shí)”是對(duì)數(shù)據(jù)科學(xué)家的特殊要求不僅需要掌握數(shù)學(xué)與統(tǒng)計(jì)知識(shí)以及具備黑客精神與技能而且還需要精通某一個(gè)特定領(lǐng)域的實(shí)務(wù)知識(shí)與經(jīng)驗(yàn)。1.3數(shù)據(jù)科學(xué)1.3.3研究內(nèi)容1.3數(shù)據(jù)科學(xué)圖1-20數(shù)據(jù)科學(xué)的主要內(nèi)容1.3.3研究內(nèi)容1.3數(shù)據(jù)科學(xué)圖1-22數(shù)據(jù)科學(xué)的基本流程1.3.3研究內(nèi)容1.3數(shù)據(jù)科學(xué)圖1-21數(shù)據(jù)科學(xué)的基礎(chǔ)理論與理論基礎(chǔ)的關(guān)系1.3.5主要原則1.3數(shù)據(jù)科學(xué)圖1-23數(shù)據(jù)科學(xué)的10大原則1.3.6典型應(yīng)用1.3數(shù)據(jù)科學(xué)目錄目錄圖1-1數(shù)據(jù)科學(xué)的基礎(chǔ)理論圖1-1(2)數(shù)據(jù)科學(xué)的基礎(chǔ)理論1.4數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)家是將“現(xiàn)實(shí)世界中的問題”映射或轉(zhuǎn)換為“數(shù)據(jù)世界中的問題”之后,主要采用數(shù)據(jù)科學(xué)的理念、原則、理論、方法、技術(shù)、工具,通過將數(shù)據(jù),尤其是大數(shù)據(jù)轉(zhuǎn)換為知識(shí)和智慧的過程,為解決“現(xiàn)實(shí)世界中問題”提供直接指導(dǎo)、依據(jù)或參考的高級(jí)專家。1.4數(shù)據(jù)科學(xué)家1.4.1主要任務(wù)數(shù)據(jù)科學(xué)家的主要任務(wù):制定組織機(jī)構(gòu)的數(shù)據(jù)戰(zhàn)略提出“好問題”定義和驗(yàn)證研究假設(shè),并完成對(duì)應(yīng)實(shí)驗(yàn)設(shè)計(jì)機(jī)器學(xué)習(xí)算法和統(tǒng)計(jì)模型進(jìn)行數(shù)據(jù)探索型分析完成數(shù)據(jù)預(yù)處理工作實(shí)現(xiàn)數(shù)據(jù)洞見研發(fā)數(shù)據(jù)產(chǎn)品可視化數(shù)據(jù)或數(shù)據(jù)的故事化描述1.4數(shù)據(jù)科學(xué)家1.4.2能力要求數(shù)據(jù)科學(xué)家的主要能力要求:具備創(chuàng)新意識(shí)、獨(dú)特的視角及不斷進(jìn)取的精神喜歡團(tuán)隊(duì)合作與協(xié)同工作掌握數(shù)據(jù)科學(xué)的理論基礎(chǔ)——統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化學(xué)會(huì)數(shù)據(jù)科學(xué)的基礎(chǔ)理論,尤其是其主要理念、原則、理論和方法熟練掌握數(shù)據(jù)科學(xué)中常用的技術(shù)與工具積累參與數(shù)據(jù)科學(xué)項(xiàng)目的經(jīng)驗(yàn),包括編程經(jīng)驗(yàn)和統(tǒng)計(jì)分析經(jīng)驗(yàn)靈活運(yùn)用領(lǐng)域?qū)崉?wù)知識(shí)與經(jīng)驗(yàn)擁有數(shù)據(jù)產(chǎn)品的研發(fā)能力1.4數(shù)據(jù)科學(xué)家1.4.2能力要求1.4數(shù)據(jù)科學(xué)家表1-3某位數(shù)據(jù)科學(xué)家的畫像(Profile)1.4.3常用工具數(shù)據(jù)科學(xué)家常用的工具:R、Python、Clojure、Haskell、Scala等數(shù)據(jù)科學(xué)語言工具NoSQL、MongoDB、Couchbase、Cassandra等NoSQL工具SQL、RDMS、DW、OLAP等傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫工具HadoopHDFS&MapReduce、Spark、Storm等支持大數(shù)據(jù)計(jì)算的工具HBase、Pig、Hive、Impala、Cascalog等支持大數(shù)據(jù)管理、存儲(chǔ)和查詢的工具1.4數(shù)據(jù)科學(xué)家1.4.3常用工具(續(xù))數(shù)據(jù)科學(xué)家常用的工具:Webscraper、FlumeAvro、Sqoop、Hume等支持?jǐn)?shù)據(jù)采集、聚合或傳遞的工具Weka、Knime、RapidMiner、SciPy、Pandas等支持?jǐn)?shù)據(jù)挖掘的工具ggplot2、D3.js、Tableu、Shiny、Flare、Gephi等支持?jǐn)?shù)據(jù)可視化的工具SAS、SPSS、Matlab等數(shù)據(jù)統(tǒng)計(jì)分析工具1.4數(shù)據(jù)科學(xué)家1.4.4團(tuán)隊(duì)工作1.4數(shù)據(jù)科學(xué)家1-24數(shù)據(jù)科學(xué)家團(tuán)隊(duì)目錄目錄圖1-1數(shù)據(jù)科學(xué)的基礎(chǔ)理論1.5.1角色定義1.5數(shù)據(jù)科學(xué)項(xiàng)目表1-4數(shù)據(jù)科學(xué)項(xiàng)目中的主要角色及其任務(wù)1.5.2基本流程1.4數(shù)據(jù)科學(xué)項(xiàng)目圖1-25數(shù)據(jù)科學(xué)項(xiàng)目的基本流程目錄目錄圖1-1數(shù)據(jù)科學(xué)的基礎(chǔ)理論圖1-1(2)數(shù)據(jù)科學(xué)的基礎(chǔ)理論1.6 應(yīng)用案例【例1.1】數(shù)據(jù)科學(xué)與2012年美國總統(tǒng)大選(1)團(tuán)隊(duì)構(gòu)建——競(jìng)選團(tuán)隊(duì)高級(jí)助理數(shù)據(jù)科學(xué)家:(雷伊德?加尼(RayidGhani)數(shù)據(jù)分析團(tuán)隊(duì)(數(shù)據(jù)工程師):人數(shù)規(guī)模甚至達(dá)到了2008年競(jìng)選時(shí)數(shù)據(jù)分析部門的5倍團(tuán)隊(duì)發(fā)言人:本拉-波爾特(BenLaBolt)等1.6應(yīng)用案例1.6 應(yīng)用案例【例1.1】數(shù)據(jù)科學(xué)與2012年美國總統(tǒng)大選(2)數(shù)據(jù)洞見——喬治?克魯尼效應(yīng)注意到了喬治?克魯尼(GeorgeClooney)效應(yīng)復(fù)制“克魯尼效應(yīng)”與奧巴馬在帕克位于紐約的WestVillage豪宅共進(jìn)晚餐的“競(jìng)爭(zhēng)”帕克粉絲群體的特征——喜歡競(jìng)賽、小型聚會(huì)和名人1.6應(yīng)用案例1.6 應(yīng)用案例【例1.1】數(shù)據(jù)科學(xué)與2012年美國總統(tǒng)大選(3)數(shù)據(jù)預(yù)處理——整合數(shù)據(jù)資源2008年競(jìng)選的經(jīng)驗(yàn)與教訓(xùn)在總統(tǒng)競(jìng)選前的18個(gè)月,競(jìng)選團(tuán)隊(duì)就創(chuàng)建了一個(gè)龐大系統(tǒng),此系統(tǒng)可以將民調(diào)者、注資者、工作人員、消費(fèi)者、社交媒體以及“搖擺州”主要的民主黨投票人的信息進(jìn)行整合允許數(shù)據(jù)分析團(tuán)隊(duì)進(jìn)行一些測(cè)試1.6應(yīng)用案例1.6 應(yīng)用案例【例1.1】數(shù)據(jù)科學(xué)與2012年美國總統(tǒng)大選(4)數(shù)據(jù)的資產(chǎn)化管理——嚴(yán)格的保密工作數(shù)據(jù)分析項(xiàng)目以代碼命名,比如Narwhal、Dreamcatcher等;2012年11月4日,奧巴馬競(jìng)選團(tuán)隊(duì)的多位高級(jí)顧問同意向《時(shí)代》雜志介紹他們的工作,但提出了兩個(gè)前提條件1.6應(yīng)用案例1.6 應(yīng)用案例【例1.1】數(shù)據(jù)科學(xué)與2012年美國總統(tǒng)大選(5)數(shù)據(jù)業(yè)務(wù)化——籌集資金2008年大選中曾退訂競(jìng)選電子郵件的那部分人群是他們的首要游說目標(biāo),競(jìng)選戰(zhàn)略家們甚至為特定人群制訂了相應(yīng)測(cè)試截至2012年8月,奧巴馬團(tuán)隊(duì)中的每個(gè)人都認(rèn)為他們無法達(dá)到10億美金的籌資目標(biāo)參加了“快速捐贈(zèng)計(jì)劃(QuickDonateProgram)”的人所捐獻(xiàn)的資金是其他捐獻(xiàn)者的4倍,所以這一計(jì)劃在后期被大力推廣1.6應(yīng)用案例1.6 應(yīng)用案例【例1.1】數(shù)據(jù)科學(xué)與2012年美國總統(tǒng)大選(6)基于數(shù)據(jù)的決策——結(jié)果預(yù)測(cè)“每天晚上大約都會(huì)試運(yùn)行一次大約66000人次的大選,并在第二天上午模擬出結(jié)果以幫助我們了解奧巴馬在部分地區(qū)獲勝的可能,從而可以有針對(duì)性地分配資源?!薄霸谶^去1個(gè)月,數(shù)據(jù)分析團(tuán)隊(duì)在俄亥俄州就獲得了約2.9萬人的投票數(shù)據(jù),接近1%的總體選民數(shù)?!保旱谝淮坞娨曓q論結(jié)束時(shí),數(shù)據(jù)分析團(tuán)隊(duì)立即知道哪些選民改變了自己的態(tài)度,哪些選民仍堅(jiān)持自己的選擇奧巴馬競(jìng)選團(tuán)隊(duì)分析出,大部分俄亥俄州的搖擺選民原本并非奧巴馬的支持者,只是在(當(dāng)年)9月羅姆尼競(jìng)選出現(xiàn)失誤后才開始支持奧巴馬。1.6應(yīng)用案例1.6 應(yīng)用案例【例1.1】數(shù)據(jù)科學(xué)與2012年美國總統(tǒng)大選(7)DIKUW模型的應(yīng)用——第二戰(zhàn)場(chǎng)首次利用Facebook等社交網(wǎng)絡(luò)進(jìn)行大規(guī)模的游說在4月23日的電視劇《混亂之子》(SonsofAnarchy)、《行尸走肉》(TheWalkingDead)和《Don'tTrusttheB—-inApt.23》中就出現(xiàn)了奧巴馬的競(jìng)選廣告。然而,此前的競(jìng)選廣告通常只會(huì)出現(xiàn)在本地新聞節(jié)目中。“(相對(duì)于2008年的競(jìng)選)我們?cè)陔娨暽系膹V告購買效率提升了14%,因此,我們能夠確保與搖擺選民產(chǎn)生交流?!?012年8月,奧巴馬決定在知名社交新聞網(wǎng)站Reddit上回答問題“那個(gè)一幫人坐在房間里抽著雪并嘟囔著“我們一直都會(huì)購買《60分鐘》廣告”的日子已經(jīng)一去不復(fù)返了。政界的大數(shù)據(jù)時(shí)代已經(jīng)到來。”1.6應(yīng)用案例1.6 應(yīng)用案例【例1.2】R語言與貝爾實(shí)驗(yàn)室的數(shù)據(jù)科學(xué)研究貝爾實(shí)驗(yàn)室(BellLabs)已獲得2500項(xiàng)專利,平均每個(gè)工作日獲得3項(xiàng)多專利該實(shí)驗(yàn)室研究人員還曾榮獲諾貝爾獎(jiǎng)8項(xiàng)、圖靈獎(jiǎng)3項(xiàng)、美國國家科學(xué)獎(jiǎng)(U.S.NationalMedalofScience)12項(xiàng)等2001年貝爾實(shí)驗(yàn)室工作的WilliamS.Cleveland在InternationalStatisticalReview發(fā)表了題目為“DataScience:anActionPlanforExpandingtheTechnicalAreasoftheFieldofStatistics”的論文1.6應(yīng)用案例1.6 應(yīng)用案例1.6應(yīng)用案例圖1-27貝爾實(shí)驗(yàn)室發(fā)布的招聘信息(節(jié)選)1.6 應(yīng)用案例【例1.2】R語言與貝爾實(shí)驗(yàn)室的數(shù)據(jù)科學(xué)研究高維數(shù)據(jù)的可視化探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)JohnTukey等于1979年研發(fā)出了S語言R語言是S語言的一個(gè)分支或一種具體實(shí)現(xiàn)。1.6應(yīng)用案例小結(jié)學(xué)術(shù)期刊TheDataScienceJournal(ISSN1683-1470)DataScienceandEngineering(ISSN:2364-1185)InternationalJournalofDataScienceandAnalytics(ISSN:2364-415X)InternationalJournalofDataScienceTheDataScienceJournal小結(jié)小結(jié)國際會(huì)議IEEEDSAA(IEEEInternationalConferenceonDataScienceandAdvancedAnalytics)ACMIKDDCODS(ACMIndiaSIGKDDConferenceonDataSciences)ICDSE(InternationalConferenceonDataScienceandEngineering)ICDS(TheInternationalConferenceonDataScience)Unstructureddatasciencepop-up小結(jié)小結(jié)研究機(jī)構(gòu)倫敦帝國學(xué)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度智能倉儲(chǔ)車間自動(dòng)化解決方案承包合同4篇
- 大理石踢腳線施工方案
- 基于光學(xué)超材料的結(jié)構(gòu)色顯示及動(dòng)態(tài)調(diào)控
- 初一上晉江統(tǒng)考數(shù)學(xué)試卷
- 2025年度綠化苗木品種研發(fā)與推廣合作合同4篇
- 2025年度廠房通風(fēng)空調(diào)系統(tǒng)安裝合同文本4篇
- 基礎(chǔ)鋼筋的施工方案
- 宋代審美意趣在現(xiàn)代鄉(xiāng)村景觀中的應(yīng)用
- 2025建設(shè)科技攻關(guān)項(xiàng)目合同
- 山東省2025年度設(shè)備租賃合同租賃期限
- 電纜擠塑操作手冊(cè)
- 浙江寧波鄞州區(qū)市級(jí)名校2025屆中考生物全真模擬試卷含解析
- IATF16949基礎(chǔ)知識(shí)培訓(xùn)教材
- 【MOOC】大學(xué)生創(chuàng)新創(chuàng)業(yè)知能訓(xùn)練與指導(dǎo)-西北農(nóng)林科技大學(xué) 中國大學(xué)慕課MOOC答案
- 勞務(wù)派遣公司員工考核方案
- 基礎(chǔ)生態(tài)學(xué)-7種內(nèi)種間關(guān)系
- 2024年光伏農(nóng)田出租合同范本
- 《阻燃材料與技術(shù)》課件 第3講 阻燃基本理論
- 2024-2030年中國黃鱔市市場(chǎng)供需現(xiàn)狀與營銷渠道分析報(bào)告
- 招標(biāo)監(jiān)督報(bào)告
- 項(xiàng)目立項(xiàng)申請(qǐng)書
評(píng)論
0/150
提交評(píng)論