




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)技術(shù)及應(yīng)用
BigDataTechnologyandApplicationCONCENTS目錄第1章大數(shù)據(jù)技術(shù)概述第2章大數(shù)據(jù)采集與預(yù)處理第3章大數(shù)據(jù)存儲(chǔ)技術(shù)第4章大數(shù)據(jù)分析挖掘-分類第5章大數(shù)據(jù)分析挖掘-回歸CONCENTS目錄第6章大數(shù)據(jù)分析挖掘-聚類第7章大數(shù)據(jù)分析挖掘-關(guān)聯(lián)規(guī)則第8章大數(shù)據(jù)可視化技術(shù)第9章電信行業(yè)大數(shù)據(jù)應(yīng)用第10章其他行業(yè)大數(shù)據(jù)應(yīng)用cont.第1章大數(shù)據(jù)技術(shù)概述
大數(shù)據(jù)應(yīng)用010203主要內(nèi)容大數(shù)據(jù)技術(shù)
什么是大數(shù)據(jù)01020304大數(shù)據(jù)是指大小超出傳統(tǒng)數(shù)據(jù)庫(kù)工具的獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集?!溈襄a新一代的技術(shù)與架構(gòu)體系,它被設(shè)計(jì)用于在成本可承受的條件下,通過高速采集、發(fā)現(xiàn)和/或分析等手段,從海量、多樣化的數(shù)據(jù)中提取經(jīng)濟(jì)價(jià)值。—IDC大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)?!狦artner大數(shù)據(jù)是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行獲取、管理和處理的數(shù)據(jù)集?!S基百科什么是大數(shù)據(jù)?1如何理解大數(shù)據(jù)?從數(shù)據(jù)自身特征如何理解大數(shù)據(jù)?從數(shù)據(jù)處理方法
傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)不能適應(yīng)大數(shù)據(jù)處理的需求,需要根據(jù)大數(shù)據(jù)的特點(diǎn),對(duì)傳統(tǒng)的常規(guī)數(shù)據(jù)處理技術(shù)進(jìn)行變革,形成適用于大數(shù)據(jù)發(fā)展的全新體系架構(gòu),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的獲取、存儲(chǔ)、管理和分析。如何理解大數(shù)據(jù)?從人類認(rèn)知方式
大數(shù)據(jù)與三個(gè)重大的思維轉(zhuǎn)變有關(guān):首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本;其次,樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性;最后,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。——ViktorMayer-Sch?nberger大數(shù)據(jù)技術(shù)2數(shù)據(jù)采集系統(tǒng)日志
幾乎所有的數(shù)字設(shè)備在運(yùn)行過程中,都會(huì)將有關(guān)自身運(yùn)行的信息記錄到日志文件中。日志數(shù)據(jù)包含豐富的信息,具有很高的實(shí)用價(jià)值。網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)
綜合運(yùn)用網(wǎng)絡(luò)爬蟲、分詞系統(tǒng)、任務(wù)與索引系統(tǒng)等技術(shù),從互聯(lián)網(wǎng)海量信息中獲取非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)采集傳感器采集
在信息時(shí)代,傳感器已經(jīng)成為人類生產(chǎn)、生活、科研等活動(dòng)中的重要工具,源源不斷地向人類提供宏觀與微觀的各種信息。數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)規(guī)約去除噪聲數(shù)據(jù),合并或清除重復(fù)數(shù)據(jù),糾正或刪除錯(cuò)誤數(shù)據(jù),處理缺失數(shù)據(jù),糾正數(shù)據(jù)中的不一致性。整合來自不同數(shù)據(jù)源的數(shù)據(jù),存放在統(tǒng)一的數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)中,包括模式集成、冗余數(shù)據(jù)集成、數(shù)據(jù)值沖突的檢測(cè)與處理等。對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,將數(shù)據(jù)轉(zhuǎn)化成適合挖掘的形式。在不損害挖掘結(jié)果準(zhǔn)確性的前提下,通過有效的數(shù)據(jù)采樣和屬性選擇,縮小數(shù)據(jù)集的規(guī)模,提高數(shù)據(jù)挖掘的效率。數(shù)據(jù)存儲(chǔ)與管理分布式文件系統(tǒng)
大數(shù)據(jù)存儲(chǔ)管理中最基礎(chǔ)、最核心的組成部分。目前常用的有Hadoop分布式文件系統(tǒng)(HDFS)、Google分布式文件系統(tǒng)(GFS,已演化成Colossus系統(tǒng))、淘寶文件系統(tǒng)(TFS)等。數(shù)據(jù)存儲(chǔ)與管理分布式數(shù)據(jù)庫(kù)
構(gòu)建于分布式文件系統(tǒng)之上,用于實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)管理和快速查詢。分為傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)和新型數(shù)據(jù)庫(kù)(NewSQL)。
關(guān)系型數(shù)據(jù)庫(kù)技術(shù)成熟,代表產(chǎn)品有Oracle、SQLServer和MySQL。NoSQL數(shù)據(jù)庫(kù)具有自由靈活的數(shù)據(jù)模型,適宜存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),而且擴(kuò)展方便。NewSQL是一類新型的分布式關(guān)系數(shù)據(jù)庫(kù),融合了NoSQL和傳統(tǒng)數(shù)據(jù)庫(kù)的特點(diǎn)。數(shù)據(jù)分析與挖掘機(jī)器學(xué)習(xí)使計(jì)算機(jī)模擬人類的學(xué)習(xí)行為,從而自動(dòng)發(fā)現(xiàn)和獲取新知識(shí)新技能,并通過經(jīng)驗(yàn)知識(shí)改善自身的性能。分為監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)和半監(jiān)督式學(xué)習(xí)。統(tǒng)計(jì)分析以概率論為基礎(chǔ),對(duì)大量隨機(jī)數(shù)據(jù)進(jìn)行收集、整理、建模,從而推斷出其中存在的統(tǒng)計(jì)規(guī)律性。數(shù)據(jù)挖掘從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)展現(xiàn)與可視化科學(xué)可視化
主要面向科學(xué)實(shí)驗(yàn)與工程測(cè)量數(shù)據(jù),利用計(jì)算機(jī)圖形學(xué)和圖像處理等技術(shù),將具有空間幾何特征的數(shù)據(jù)中所蘊(yùn)含的時(shí)空現(xiàn)象和規(guī)律通過三維、動(dòng)態(tài)模擬等方式表現(xiàn)出來。信息可視化
主要面向沒有明顯幾何屬性和空間特征的數(shù)據(jù),綜合運(yùn)用計(jì)算機(jī)圖形學(xué)、視覺設(shè)計(jì)、人機(jī)交互、心理學(xué)等學(xué)科中的技術(shù)和理論,用可視化的形式展現(xiàn)抽象數(shù)據(jù)中隱藏的特征、關(guān)系和模式等。大數(shù)據(jù)應(yīng)用3政府管理市場(chǎng)監(jiān)管社會(huì)管理政府?dāng)?shù)據(jù)開放與社會(huì)創(chuàng)新工業(yè)領(lǐng)域研發(fā)設(shè)計(jì)環(huán)節(jié)生產(chǎn)制造環(huán)節(jié)市場(chǎng)營(yíng)銷環(huán)節(jié)售后服務(wù)環(huán)節(jié)商業(yè)領(lǐng)域金融行業(yè)零售行業(yè)物流行業(yè)廣告業(yè)……公共服務(wù)電信行業(yè)交通管理
醫(yī)療衛(wèi)生
教育行業(yè)
環(huán)境保護(hù)……習(xí)題1.1什么是大數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 粒缺患者宣教調(diào)查問卷(護(hù)士版)
- 2025年衛(wèi)浴柜行業(yè)投資分析:衛(wèi)浴柜行業(yè)投資前景廣闊
- 2025年互聯(lián)網(wǎng)發(fā)展趨勢(shì):數(shù)字化助力鄉(xiāng)村振興的數(shù)據(jù)洞察
- 山東省棗莊市市中區(qū)2024-2025學(xué)年高二上學(xué)期期末階段性質(zhì)量監(jiān)測(cè)數(shù)學(xué)試題(解析版)
- 2025年中考語文名著閱讀考點(diǎn)演練《艾青詩(shī)選》:如何讀詩(shī)(九年級(jí)上) 答案版
- 綠化帶恢復(fù)施工方案
- 2025年簡(jiǎn)單護(hù)理面試題及答案
- 低密度脂蛋白3.62膽固醇6.27脂蛋白499
- cause的用法歸納與總結(jié)
- 4年級(jí)上冊(cè)第四單元英語人教點(diǎn)讀
- 《祖父的園子》PPT課件【精美版】
- 2023年安徽審計(jì)職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)及答案解析
- LS/T 3311-2017花生醬
- 蘇教版二年級(jí)科學(xué)下冊(cè)第10課《認(rèn)識(shí)工具》教案(定稿)
- GB/T 40262-2021金屬鍍膜織物金屬層結(jié)合力的測(cè)定膠帶法
- GB/T 3279-2009彈簧鋼熱軋鋼板
- GB/T 16823.3-2010緊固件扭矩-夾緊力試驗(yàn)
- 應(yīng)用文寫作-第四章公務(wù)文書(請(qǐng)示報(bào)告)課件
- Premiere-視頻剪輯操作-課件
- 麻醉藥理學(xué)阿片類鎮(zhèn)痛藥PPT
- 新湘版小學(xué)科學(xué)四年級(jí)下冊(cè)教案(全冊(cè))
評(píng)論
0/150
提交評(píng)論