大數(shù)據(jù)技術概論_第1頁
大數(shù)據(jù)技術概論_第2頁
大數(shù)據(jù)技術概論_第3頁
大數(shù)據(jù)技術概論_第4頁
大數(shù)據(jù)技術概論_第5頁
已閱讀5頁,還剩272頁未讀, 繼續(xù)免費閱讀

付費閱讀全文

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

高等學校大數(shù)據(jù)技術與應用規(guī)劃教材

大數(shù)據(jù)技術概論

陳明編著

文前(調(diào)版).indd12019-1-910:57:37

內(nèi)容簡介

大數(shù)據(jù)技術是一個面向?qū)嶋H應用的技術。從大數(shù)據(jù)中獲取有價值信息是大數(shù)據(jù)技術的精

髓。本書概括性介紹了數(shù)據(jù)科學與大數(shù)據(jù)技術的主要內(nèi)容。全書分為9章,主要包括概述、

大數(shù)據(jù)處理平臺、大數(shù)據(jù)獲取與存儲管理技術、大數(shù)據(jù)抽取技術、大數(shù)據(jù)清洗技術、大數(shù)據(jù)

去噪與標準化、大數(shù)據(jù)約簡與集成技術、大數(shù)據(jù)分析與挖掘技術、大數(shù)據(jù)分析結果解釋與展現(xiàn)。

本書在內(nèi)容上,注重基本概念、基本方法介紹,實例豐富、語言精練、邏輯層次清晰,

適合作為大學“數(shù)據(jù)科學與大數(shù)據(jù)技術”專業(yè)和相近專業(yè)的教材,也可以作為科技人員的參

考書。

圖書在版編目(CIP)數(shù)據(jù)

大數(shù)據(jù)技術概論/陳明編著.—北京:中國鐵道

出版社,2019.1

高等學校大數(shù)據(jù)技術與應用規(guī)劃教材

ISBN978-7-113-24818-5

Ⅰ.①大…Ⅱ.①陳…Ⅲ.①數(shù)據(jù)處理-高等學校-

教材Ⅳ.①TP274

中國版本圖書館CIP數(shù)據(jù)核字(2018)第178257號

書名:大數(shù)據(jù)技術概論

作者:陳明編著

策劃:秦緒好讀者熱線:(010)63550836

責任編輯:秦緒好

封面設計:鄭春鵬

責任校對:張玉華

責任印制:郭向偉

出版發(fā)行:中國鐵道出版社(100054,北京市西城區(qū)右安門西街8號)

網(wǎng)址:/51eds/

印刷:北京銘成印刷有限公司

版次:2019年1月第1版2019年1月第1次印刷

開本:850mm×1168mm1/16?印張:17.25字數(shù):456千

書號:ISBN978-7-113-24818-5

定價:52.00元

版權所有侵權必究

凡購買鐵道版圖書,如有印制質(zhì)量問題,請與本社教材圖書營銷部聯(lián)系調(diào)換。電話:(010)63550836

打擊盜版舉報電話:(010)51873659

文前(調(diào)版).indd22019-1-1014:07:45

PREFACE前言

大數(shù)據(jù)技術與應用展現(xiàn)出銳不可當?shù)膹姶笊Γ茖W界與企業(yè)界對其寄予厚望。

大數(shù)據(jù)成為繼20世紀末、21世紀初互聯(lián)網(wǎng)蓬勃發(fā)展以來的又一輪IT工業(yè)革命。

大數(shù)據(jù)技術是指經(jīng)過數(shù)據(jù)獲取、清洗、集成、挖掘、分析與結果解釋,從各種類型

的巨量數(shù)據(jù)中快速獲得有價值信息的全部技術。大數(shù)據(jù)技術的精髓是從大數(shù)據(jù)中產(chǎn)生新

見解、識別復雜關系和做出越來越精準的預測。

大數(shù)據(jù)技術是現(xiàn)代科學與技術發(fā)展,尤其是計算機科學技術發(fā)展的重要成果和結晶,

是科學發(fā)展史的又一個新的里程碑。大數(shù)據(jù)的出現(xiàn)對計算機許多領域提出了挑戰(zhàn)與沖擊,

推動了計算機科學技術的發(fā)展。

大數(shù)據(jù)技術的出現(xiàn)凝集了多學科的研究成果,是一門多學科的交叉融合技術,隨著

科學技術的發(fā)展,大數(shù)據(jù)技術發(fā)展更為迅速,應用更為深入與廣泛,并凸顯其巨大潛力

和應用價值。

本書系統(tǒng)地介紹了大數(shù)據(jù)技術的核心內(nèi)容,對大數(shù)據(jù)處理周期的各部分的模型和方

法做了概括性介紹,而且基于應用的角度介紹了當下流行的Hadoop、Storm和Spark大

數(shù)據(jù)處理平臺,為將大數(shù)據(jù)處理周期中的處理方法在這些平臺上實現(xiàn)建立了基礎。本書

主要內(nèi)容說明如下。

第1章為概述,主要包括數(shù)據(jù)科學、大數(shù)據(jù)的生態(tài)環(huán)境、大數(shù)據(jù)的概念、大數(shù)據(jù)的

性質(zhì)、大數(shù)據(jù)處理周期和科學研究范式;第2章為大數(shù)據(jù)處理平臺,主要包括Hadoop

大數(shù)據(jù)處理平臺、Storm大數(shù)據(jù)處理平臺和Spark大數(shù)據(jù)處理平臺;第3章為大數(shù)據(jù)獲

取與存儲管理技術,主要包括大數(shù)據(jù)獲取、領域數(shù)據(jù)、網(wǎng)站數(shù)據(jù)、網(wǎng)絡爬蟲、大數(shù)據(jù)存儲、

大數(shù)據(jù)的存儲管理技術、NewSQL和NoSQL、分布式文件系統(tǒng)、虛擬存儲技術和云存

儲技術;第4章為大數(shù)據(jù)抽取技術,主要包括大數(shù)據(jù)抽取技術概述、增量數(shù)據(jù)抽取技術、

文前(調(diào)版).indd32019-1-910:57:38

非結構化數(shù)據(jù)抽取和基于Hadoop平臺的數(shù)據(jù)抽??;第5章為大數(shù)據(jù)清洗技術,主要包

括數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗、不完整數(shù)據(jù)清洗、異常數(shù)據(jù)清洗、重復數(shù)據(jù)清洗、文本清洗和

數(shù)據(jù)清洗的實現(xiàn);第6章為大數(shù)據(jù)去噪與標準化,主要包括基本的數(shù)據(jù)轉換方法、數(shù)據(jù)

平滑技術、數(shù)據(jù)規(guī)范化和數(shù)據(jù)泛化;第7章為大數(shù)據(jù)約簡與集成技術,主要包括數(shù)據(jù)約

簡概述、特征約簡、樣本約簡、數(shù)據(jù)立方體聚集、維約簡屬性子集選擇算法、數(shù)據(jù)壓縮、

數(shù)值約簡、數(shù)據(jù)集成的概念與相關問題、數(shù)據(jù)遷移、數(shù)據(jù)集成模式、數(shù)據(jù)集成系統(tǒng)和數(shù)

據(jù)聚類集成;第8章為大數(shù)據(jù)分析與挖掘技術,主要包括大數(shù)據(jù)分析概述、統(tǒng)計分析方法、

數(shù)據(jù)挖掘理論基礎、關聯(lián)規(guī)則挖掘、分類方法、聚類方法、序列模式挖掘、非結構化文

本數(shù)據(jù)挖掘和基于MapReduce的分析與挖掘?qū)嵗?;?章為大數(shù)據(jù)分析結果解釋與展現(xiàn),

主要包括數(shù)據(jù)分析結果解釋、數(shù)據(jù)的基本展現(xiàn)方式、大數(shù)據(jù)可視化、大數(shù)據(jù)可視分析和

數(shù)據(jù)可視化實現(xiàn)。

本書在結構上為積木狀,各章內(nèi)容均為獨立、注重概念性與方法性論述。出于篇幅

考慮,書中所提及理論結果沒有給出證明,如需要可以查閱相關文獻。由于作者水平有

限,書中不足之處在所難免,敬請讀者批評指正。

2018年10月

文前(調(diào)版).indd42019-1-910:57:38

CONTENTS目錄

第1章概述11.5.1大數(shù)據(jù)處理全過程14

1.1數(shù)據(jù)科學21.5.2大數(shù)據(jù)技術的特征15

1.1.1數(shù)據(jù)科學的產(chǎn)生與發(fā)展21.5.3大數(shù)據(jù)的一些熱點技術17

1.1.2數(shù)據(jù)科學的相關術語21.6科學研究范式18

1.1.3數(shù)據(jù)科學的主要內(nèi)容31.6.1科學研究范式的產(chǎn)生與發(fā)展18

1.1.4數(shù)據(jù)科學的研究過程與體系1.6.2數(shù)據(jù)密集型科學研究第四范式19

框架4小結23

1.1.5數(shù)據(jù)科學、數(shù)據(jù)技術與數(shù)據(jù)第2章大數(shù)據(jù)處理平臺24

工程6

2.1Hadoop大數(shù)據(jù)處理平臺24

1.1.6大數(shù)據(jù)問題6

2.1.1離線計算概述25

1.2大數(shù)據(jù)的生態(tài)環(huán)境7

2.1.2MapReduce分布編程模型26

1.2.1互聯(lián)網(wǎng)世界7

2.1.3基于Hadoop的分布計算27

1.2.2物理世界9

2.1.4MapReduce程序設計分析31

1.3大數(shù)據(jù)的概念9

2.1.5Hadoop環(huán)境部署與程序運行36

1.3.1數(shù)據(jù)容量10

2.2Storm大數(shù)據(jù)處理平臺42

1.3.2數(shù)據(jù)類型11

2.2.1流式數(shù)據(jù)的概念與特征43

1.3.3價值密度11

2.2.2大數(shù)據(jù)的計算模式45

1.3.4速度11

2.2.3流式數(shù)據(jù)處理技術的應用46

1.3.5真實性11

2.2.4流式計算的系統(tǒng)架構50

1.4大數(shù)據(jù)的性質(zhì)11

2.2.5Storm流處理過程52

1.4.1非結構性12

2.2.6單詞計數(shù)topology56

1.4.2不完備性13

2.3Spark大數(shù)據(jù)處理平臺58

1.4.3時效性13

2.3.1交互式處理系統(tǒng)的問題58

1.4.4安全性13

2.3.2Scala編程語言簡介58

1.4.5可靠性13

2.3.3Spark的主要特點59

1.5大數(shù)據(jù)處理周期13

文前(調(diào)版).indd12019-1-910:57:38

2大數(shù)據(jù)技術概論

2.3.4軟件棧603.4.7分布式爬蟲的系統(tǒng)結構82

2.3.5核心概念613.5大數(shù)據(jù)存儲84

2.3.6彈性分布式數(shù)據(jù)集RDD623.5.1大數(shù)據(jù)存儲模型84

2.3.7單詞計數(shù)實例分析663.5.2大數(shù)據(jù)存儲問題84

小結673.5.3大數(shù)據(jù)存儲方式85

3.6大數(shù)據(jù)存儲管理技術86

第3章大數(shù)據(jù)獲取與存儲管理技術68

3.6.1數(shù)據(jù)容量問題86

3.1大數(shù)據(jù)獲取69

3.6.2大圖數(shù)據(jù)87

3.1.1大數(shù)據(jù)獲取的挑戰(zhàn)69

3.6.3數(shù)據(jù)存儲管理88

3.1.2傳統(tǒng)的數(shù)據(jù)獲取與大數(shù)據(jù)獲取的

3.7NoSQL和NewSQL89

區(qū)別69

3.7.1NoSQL90

3.2領域數(shù)據(jù)70

3.7.2NewSQL數(shù)據(jù)庫93

3.2.1文本數(shù)據(jù)70

3.7.3不同數(shù)據(jù)庫架構混合應用模式93

3.2.2語音數(shù)據(jù)71

3.8分布式文件系統(tǒng)94

3.2.3圖片數(shù)據(jù)71

3.8.1評價指標94

3.2.4攝像頭視頻數(shù)據(jù)71

3.8.2HDFS文件系統(tǒng)95

3.2.5圖像數(shù)字化數(shù)據(jù)71

3.8.3NFS文件系統(tǒng)96

3.2.6圖形數(shù)字化數(shù)據(jù)71

3.9虛擬存儲技術97

3.2.7空間數(shù)據(jù)72

3.9.1虛擬存儲的特點98

3.3網(wǎng)站數(shù)據(jù)72

3.9.2虛擬存儲的應用98

3.3.1網(wǎng)站內(nèi)部數(shù)據(jù)73

3.10云存儲技術99

3.3.2網(wǎng)站外部數(shù)據(jù)73

3.10.1云存儲原理99

3.3.3移動網(wǎng)站數(shù)據(jù)73

3.10.2網(wǎng)絡結構99

3.4網(wǎng)絡爬蟲73

3.10.3云的分類99

3.4.1網(wǎng)絡爬蟲的工作過程74

小結100

3.4.2通用網(wǎng)絡爬蟲74

3.4.3聚焦網(wǎng)絡爬蟲77第4章大數(shù)據(jù)抽取技術101

3.4.4數(shù)據(jù)抓取目標的定義794.1大數(shù)據(jù)抽取技術概述101

3.4.5網(wǎng)頁分析算法804.1.1數(shù)據(jù)抽取的定義102

3.4.6更新策略814.1.2數(shù)據(jù)映射與數(shù)據(jù)遷移102

文前(調(diào)版).indd22019-1-910:57:38

目??錄3

4.1.3數(shù)據(jù)抽取程序1035.2.1基本方法121

4.1.4抽取、轉換和加載1035.2.2基于k-NN近鄰缺失數(shù)據(jù)的

4.1.5數(shù)據(jù)抽取方式104填充算法123

4.2增量數(shù)據(jù)抽取技術1045.3異常數(shù)據(jù)清洗124

4.2.1增量抽取的特點與策略1055.3.1異常值產(chǎn)生的原因125

4.2.2基于觸發(fā)器的增量抽取5.3.2統(tǒng)計方法125

方式1055.3.3基于鄰近度的離群點檢測126

4.2.3基于時間戳的增量抽取5.4重復數(shù)據(jù)清洗127

方式1055.4.1使用字段相似度識別重復值

4.2.4全表刪除插入方式106算法127

4.2.5全表比對抽取方式1065.4.2搜索引擎快速去重算法128

4.2.6日志表方式1075.5文本清洗128

4.2.7系統(tǒng)日志分析方式1075.5.1字符串匹配算法129

4.2.8各種數(shù)據(jù)抽取機制的比較5.5.2文本相似度度量131

與分析1075.5.3文檔去重算法135

4.3非結構化數(shù)據(jù)抽取1095.6數(shù)據(jù)清洗的實現(xiàn)135

4.3.1非結構化數(shù)據(jù)類型1095.6.1數(shù)據(jù)清洗的步驟135

4.3.2非結構化數(shù)據(jù)模型1095.6.2基于MapReduce的大數(shù)據(jù)

4.3.3非結構化數(shù)據(jù)組織111去重136

4.3.4純文本抽取通用程序庫112小結138

4.4基于Hadoop平臺的數(shù)據(jù)抽取113

第6章大數(shù)據(jù)去噪與標準化139

小結114

6.1基本的數(shù)據(jù)轉換方法139

第5章大數(shù)據(jù)清洗技術1156.1.1對數(shù)轉換139

5.1數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗1156.1.2平方根轉換140

5.1.1數(shù)據(jù)質(zhì)量1166.1.3平方轉換140

5.1.2數(shù)據(jù)質(zhì)量提高技術1186.1.4倒數(shù)變換140

5.1.3數(shù)據(jù)清洗算法的標準1206.2數(shù)據(jù)平滑技術140

5.1.4數(shù)據(jù)清洗的過程與模型1206.2.1移動平均法141

5.2不完整數(shù)據(jù)清洗1216.2.2指數(shù)平滑法142

文前(調(diào)版).indd32019-1-910:57:38

4大數(shù)據(jù)技術概論

6.2.3分箱平滑法1467.6.1逐步向前選擇屬性159

6.3數(shù)據(jù)規(guī)范化1487.6.2逐步向后刪除屬性159

6.3.1最小-最大規(guī)范化方法1487.6.3混合式選擇159

6.3.2z分數(shù)規(guī)范化方法1497.6.4判定樹歸納159

6.3.3小數(shù)定標規(guī)范化方法1497.7數(shù)據(jù)壓縮160

6.4數(shù)據(jù)泛化處理1507.7.1離散小波變換方法160

6.4.1空間數(shù)據(jù)支配泛化算法1507.7.2主成分分析壓縮方法161

6.4.2非空間數(shù)據(jù)支配泛化方法1517.8數(shù)值約簡162

6.4.3統(tǒng)計信息網(wǎng)格方法1517.8.1有參數(shù)值約簡162

小結1517.8.2無參數(shù)值約簡162

7.9數(shù)據(jù)集成的概念與相關問題163

第7章大數(shù)據(jù)約簡與集成技術152

7.9.1數(shù)據(jù)集成的核心問題165

7.1數(shù)據(jù)約簡概述153

7.9.2數(shù)據(jù)集成的分類166

7.1.1數(shù)據(jù)約簡定義153

7.10數(shù)據(jù)遷移168

7.1.2數(shù)據(jù)約簡方式153

7.10.1在組織內(nèi)部移動數(shù)據(jù)169

7.2特征約簡153

7.10.2非結構化數(shù)據(jù)集成169

7.2.1特征提取154

7.10.3將處理移動到數(shù)據(jù)端170

7.2.2特征選擇154

7.11數(shù)據(jù)集成模式171

7.3樣本約簡155

7.11.1聯(lián)邦數(shù)據(jù)庫集成模式171

7.3.1簡單隨機抽樣155

7.11.2中間件集成模式172

7.3.2系統(tǒng)抽樣155

7.11.3數(shù)據(jù)倉庫集成模式173

7.3.3分層抽樣155

7.12數(shù)據(jù)集成系統(tǒng)173

7.4數(shù)據(jù)立方體聚集155

7.12.1全局模式174

7.4.1多維性156

7.12.2語義映射175

7.4.2數(shù)據(jù)聚集156

7.12.3查詢重寫175

7.5維約簡157

7.13數(shù)據(jù)聚類集成175

7.5.1維約簡的目的157

7.13.1數(shù)據(jù)聚類集成概述175

7.5.2維約簡的基本策略158

7.13.2高維數(shù)據(jù)聚類集成176

7.5.3維約簡的分類158

小結178

7.6屬性子集選擇算法159

文前(調(diào)版).indd42019-1-910:57:39

目??錄5

第8章大數(shù)據(jù)分析與挖掘技術1798.7.1時間序列預測的常用方法229

8.1大數(shù)據(jù)分析概述1808.7.2序列模式挖掘230

8.1.1大數(shù)據(jù)分析的類型1808.8非結構化文本數(shù)據(jù)挖掘231

8.1.2數(shù)字特征1828.8.1用戶反饋文本232

8.1.3統(tǒng)計方法論1848.8.2用戶反饋文本挖掘的一般

8.1.4模型與構建186過程232

文本的自然語言處理

8.1.5R語言1868.8.3234

基于的分析與挖掘

8.2統(tǒng)計分析方法1888.9MapReduce

實例

8.2.1基本方法188235

大數(shù)據(jù)平均值計算

8.2.2常用分析方法1948.9.1235

大數(shù)據(jù)排序

8.3數(shù)據(jù)挖掘理論基礎2118.9.2236

倒排索引

8.3.1數(shù)據(jù)挖掘是面向應用的技術2118.9.3237

小結

8.3.2數(shù)據(jù)挖掘的理論基礎212241

8.3.3基于數(shù)據(jù)存儲方式的數(shù)據(jù)第9章大數(shù)據(jù)分析結果解釋與展現(xiàn)242

挖掘2129.1數(shù)據(jù)分析結果解釋的目的與內(nèi)容243

8.4關聯(lián)規(guī)則挖掘2149.1.1解釋的目的243

8.4.1頻繁項目集生成算法2159.1.2檢查和驗證假設243

8.4.2關聯(lián)規(guī)則挖掘質(zhì)量2179.1.3追蹤分析過程244

8.5分類方法2189.2數(shù)據(jù)的基本展現(xiàn)方式245

8.5.1基于距離的分類算法2199.2.1基于時間變化的可視化展現(xiàn)245

8.5.2KNN算法的MapReduce9.2.2由大及小的可視化展現(xiàn)245

實現(xiàn)2209.2.3由小及大的可視化展現(xiàn)246

8.5.3決策樹分類方法2209.2.4突出對比的可視化展現(xiàn)246

8.6聚類方法2239.2.5地域空間可視化展現(xiàn)246

8.6.1聚類定義與分類2239.2.6概念可視化展現(xiàn)248

8.6.2距離與相似性的度量2259.2.7氣泡圖可視化展現(xiàn)248

8.6.3劃分聚類方法2269.2.8注重交叉點的數(shù)據(jù)可視化

8.6.4層次聚類方法228展現(xiàn)248

8.7序列模式挖掘與文本數(shù)據(jù)挖掘2299.2.9剖析原因的數(shù)據(jù)可視化展現(xiàn)248

文前(調(diào)版).indd52019-1-910:57:39

6大數(shù)據(jù)技術概論

9.2.10描繪出異常值的可視化9.4大數(shù)據(jù)可視分析253

展現(xiàn)2499.4.1可視分析的理論基礎254

9.3大數(shù)據(jù)可視化2499.4.2大數(shù)據(jù)可視分析技術257

9.3.1文本可視化2499.5數(shù)據(jù)可視化實現(xiàn)260

9.3.2網(wǎng)絡(圖)可視化250小結262

9.3.3時空數(shù)據(jù)可視化252

參考文獻263

9.3.4多維數(shù)據(jù)可視化252

文前(調(diào)版).indd62019-1-910:57:39

第1章概??述

主要內(nèi)容

數(shù)據(jù)科學數(shù)據(jù)科學的產(chǎn)生與發(fā)展

數(shù)據(jù)科學的相關術語

數(shù)據(jù)科學的主要內(nèi)容

數(shù)據(jù)科學的研究過程與體系框架

數(shù)據(jù)科學、數(shù)據(jù)技術與數(shù)據(jù)工程

大數(shù)據(jù)問題

大數(shù)據(jù)的生態(tài)環(huán)境互聯(lián)網(wǎng)世界

物理世界

大數(shù)據(jù)的概念數(shù)據(jù)容量

數(shù)據(jù)類型

價值密度

速度

真實性

大數(shù)據(jù)的性質(zhì)非結構性

不完備性

時效性

安全性

可靠性

大數(shù)據(jù)處理周期大數(shù)據(jù)處理全過程

大數(shù)據(jù)技術的特征

大數(shù)據(jù)的一些熱點技術

科學研究范式科學研究范式的產(chǎn)生與發(fā)展

數(shù)據(jù)密集型科學研究第四范式

計算機科學是算法與算法變換的科學,數(shù)據(jù)科學研究范圍更為廣泛。數(shù)據(jù)科學不僅可以推

動數(shù)學、計算機科學、統(tǒng)計學、天體信息學、生物信息學、計算社會學等學科的發(fā)展,而且能

夠大力推動產(chǎn)業(yè)發(fā)展與進步。

01-04(調(diào)版).indd12019-1-910:57:45

2大數(shù)據(jù)技術概論

1.1數(shù)?據(jù)?科?學

數(shù)據(jù)科學是關于數(shù)據(jù)的科學,基于數(shù)據(jù)的廣泛性和多樣性研究數(shù)據(jù)的共性。數(shù)據(jù)科學是研

究探索CYBER空間中數(shù)據(jù)界的理論、方法和技術。

1.1.1數(shù)據(jù)科學的產(chǎn)生與發(fā)展

掃一掃

數(shù)據(jù)科學產(chǎn)生于20世紀60年代。1974年,彼得·諾爾出版了《計算機方法的簡明調(diào)查》,

其中將數(shù)據(jù)科學定義為“處理數(shù)據(jù)的科學,一旦數(shù)據(jù)與其代表事物的關系被建立起來,將為其

他領域與科學提供借鑒”。1996年在日本召開的“數(shù)據(jù)科學、分類和相關方法”會議上,將

數(shù)據(jù)科學作為會議的主題詞。2001年美國統(tǒng)計學教授威廉·S·克利夫蘭發(fā)表了《數(shù)據(jù)科學:拓展統(tǒng)

數(shù)據(jù)分析計學的技術領域的行動計劃》,首次將數(shù)據(jù)科學作為一個單獨的學科,并把數(shù)據(jù)科學定義從統(tǒng)計

應運而生

學領域擴展到以數(shù)據(jù)作為計算對象,進而奠定了數(shù)據(jù)科學的理論基礎。

1.1.2數(shù)據(jù)科學的相關術語

1.CYBER空間

CYBER空間意譯為異次元空間、多維信息空間、計算機空間、網(wǎng)絡空間等。其本意是指

以計算機技術、現(xiàn)代通信網(wǎng)絡技術、虛擬現(xiàn)實技術等信息技術的綜合運用為基礎,以知識和信

息為內(nèi)容的新型空間,是人類運用知識創(chuàng)造的人工世界,是一種用于知識交流的虛擬空間。信

息化是一個數(shù)據(jù)生產(chǎn)的過程,是將現(xiàn)實世界中的事物和現(xiàn)象以數(shù)據(jù)的形式存儲到CYBER空間

中。數(shù)據(jù)記錄了人類的行為,包括工作、生活和社會的發(fā)展,是自然和生命的一種表示形式。

2.數(shù)據(jù)爆炸

數(shù)據(jù)快速大量地產(chǎn)生并存儲在CYBER空間中的現(xiàn)象稱為數(shù)據(jù)爆炸,數(shù)據(jù)爆炸在CYBER

空間中形成數(shù)據(jù)自然界。數(shù)據(jù)是CYBER空間中的唯一存在,需要研究和探索CYBER空間中

數(shù)據(jù)的規(guī)律和現(xiàn)象。探索CYBER空間中數(shù)據(jù)的規(guī)律和現(xiàn)象是探索宇宙規(guī)律、探索生命規(guī)律、

尋找人類行為規(guī)律、尋找社會發(fā)展規(guī)律的一種重要手段。

3.數(shù)據(jù)科學的定義

數(shù)據(jù)科學是關于數(shù)據(jù)的科學或者研究數(shù)據(jù)的科學,是探索CYBER空間中數(shù)據(jù)界奧秘的理

論、方法和技術,研究的對象是數(shù)據(jù)界中的數(shù)據(jù)。與自然科學和社會科學不同,數(shù)據(jù)科學的研

究對象是CYBER空間數(shù)據(jù)。數(shù)據(jù)科學主要包括兩方面:一是研究數(shù)據(jù)本身,以科學的方法研

究數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律;二是用數(shù)據(jù)的方法研究科學,為自然

科學和社會科學研究提供一種新的方法,稱為科學研究的數(shù)據(jù)方法,其目的在于揭示自然界和

人類行為現(xiàn)象和規(guī)律。

4.數(shù)據(jù)科學的方法和技術

數(shù)據(jù)科學采用收集數(shù)據(jù)的形式,進行開放式分析,不做預先假定。在許多數(shù)據(jù)科學項目中,

首先要瀏覽原始數(shù)據(jù),形成一個假定,然后基于假定進行調(diào)查確認。數(shù)據(jù)科學的關鍵概念是:

數(shù)據(jù)科學是一個經(jīng)驗科學,直接基于數(shù)據(jù)進行科學處理。數(shù)據(jù)科學已經(jīng)有一些方法和技術,例

如:數(shù)據(jù)獲取、數(shù)據(jù)存儲與管理、數(shù)據(jù)安全、數(shù)據(jù)分析、可視化等。

數(shù)據(jù)科學不僅完成分析,而且涉及整個端到端的生命周期,數(shù)據(jù)系統(tǒng)本質(zhì)上是用于研發(fā)真

實世界理解模型的科學設備。這就表明必須深刻理解數(shù)據(jù)的來源、數(shù)據(jù)轉換的適用性和準確性、

01-04(調(diào)版).indd22019-1-910:57:45

第1章概??述3

轉換算法和過程之間的相互作用,以及數(shù)據(jù)存儲機制。這個端到端概覽的角色能夠確保所有事

物都能夠正確執(zhí)行,從而探索數(shù)據(jù)、創(chuàng)建并驗證各項科學假設。

1.1.3數(shù)據(jù)科學的主要內(nèi)容

數(shù)據(jù)科學的主要內(nèi)容包括基礎理論和數(shù)據(jù)預處理、數(shù)據(jù)計算、數(shù)據(jù)管理等。其中,基礎理

論包括概念、理論、方法、技術和工具等。數(shù)據(jù)科學的理論基礎是統(tǒng)計學、機器學習、數(shù)據(jù)可

視化及領域?qū)崉罩R與經(jīng)驗等,如圖1-1所示。數(shù)據(jù)科學學科建立,需要完成知識結構、課程

設置和專業(yè)設置等學科體系建設,探討數(shù)據(jù)科學與自然科學和社會科學之間的關系,以及數(shù)據(jù)

科學與計算機科學和信息科學之間的關系等。

??乘???????????

?

?

??

??

???????????

?

?

??

??????д?????????乚???????偠

??

圖1-1數(shù)據(jù)科學的內(nèi)容

1.基礎理論

觀察和邏輯推理是科學的基礎,數(shù)據(jù)科學中主要采用觀察方法與數(shù)據(jù)推理的理論和方法,

包括數(shù)據(jù)的存在性、數(shù)據(jù)測度、時間、數(shù)據(jù)代數(shù)、數(shù)據(jù)分類、數(shù)據(jù)相似性與簇論等。

2.實驗方法與邏輯推理方法

需要建立數(shù)據(jù)科學的實驗方法,需要提出科學假說和建立理論體系,并通過這些實驗方法

和理論體系進行數(shù)據(jù)科學的研究,從而掌握數(shù)據(jù)的各種類型、狀態(tài)、屬性、變化形式和變化規(guī)

律,揭示自然界和人類行為現(xiàn)象和規(guī)律。

3.領域數(shù)據(jù)學

將數(shù)據(jù)科學的理論和方法廣泛應用,開發(fā)出專門的理論、技術和方法,從而形成專門領域

的數(shù)據(jù)科學,例如:腦數(shù)據(jù)學、行為數(shù)據(jù)學、生物數(shù)據(jù)學、氣象數(shù)據(jù)學、金融數(shù)據(jù)學和地理數(shù)

據(jù)學等。

4.數(shù)據(jù)資源的開發(fā)方法和技術

數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,具有巨大的價值,越來越凸顯其重要性,是繼石油、煤炭、

礦產(chǎn)等傳統(tǒng)資源之后的最重要的資源之一。人類的社會、政治和經(jīng)濟都將依賴于數(shù)據(jù)資源,而

石油、煤炭、礦產(chǎn)等傳統(tǒng)資源的勘探、開采、運輸、加工、產(chǎn)品銷售等也都依賴于數(shù)據(jù)資源,

離開了數(shù)據(jù)資源,將無法開展與完成這些工作。

其中,理論基礎是在數(shù)據(jù)科學的邊界之外。

01-04(調(diào)版).indd32019-1-910:57:46

4大數(shù)據(jù)技術概論

1.1.4數(shù)據(jù)科學的研究過程與體系框架

1.數(shù)據(jù)科學的研究過程

①數(shù)據(jù)集獲取與存儲。常用的數(shù)據(jù)類型有表格、點集、時間序列、圖像、視頻、網(wǎng)頁和

網(wǎng)絡數(shù)據(jù)等。獲取的數(shù)據(jù)存于數(shù)據(jù)庫系統(tǒng)中。

②數(shù)據(jù)的預處理。通過數(shù)據(jù)抽取、清洗、去噪與標準化、約簡和集成,獲得達到一定質(zhì)

量要求的數(shù)據(jù)。

掃一掃

③數(shù)據(jù)分析與挖掘。以科學的方法進行數(shù)據(jù)

?????

分析,進而發(fā)現(xiàn)整體特性。數(shù)據(jù)分析的基本假設是?????

??ㄝ

觀察到的數(shù)據(jù)都是基于某個模型產(chǎn)生,通過數(shù)據(jù)分

???????

析找出這個模型。數(shù)據(jù)分析的主要困難是數(shù)據(jù)維數(shù)????

數(shù)據(jù)分析的高,為此,需要降低算法的復雜度和應用分布式計

????

一些問題???д????

算。通過數(shù)據(jù)分析與挖掘,發(fā)現(xiàn)數(shù)據(jù)規(guī)律。????

④感知化與可視化數(shù)據(jù)分析結果。

????

掃一掃2.數(shù)據(jù)科學的構成????????

數(shù)據(jù)科學主要是計算機科學、數(shù)學與統(tǒng)計學知

???

識以及行業(yè)經(jīng)驗的交集。乘????

???

將數(shù)據(jù)科學進一步細化為如圖1-2所示12個

主要領域。

數(shù)據(jù)科學的圖1-2數(shù)據(jù)科學的主要領域

組成要素3.數(shù)據(jù)科學的體系框架

數(shù)據(jù)科學的體系框架如圖1-3所示。圖1-3的上部分描述了數(shù)據(jù)的內(nèi)容,下部分是數(shù)據(jù)科

學基礎描述。

??????

?

?????????

??????????????????

???????偠?????

?????????????

?????????к?????

?????????????

?????????????

圖1-3數(shù)據(jù)科學的體系框架

數(shù)據(jù)科學主要研究從數(shù)據(jù)中獲取信息與知識、認識自然和行為,促進了科學與產(chǎn)業(yè)之間關

01-04(調(diào)版).indd4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論