版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)技術(shù)1. 什么是數(shù)據(jù)挖掘,什么是機(jī)器學(xué)習(xí):什么是機(jī)器學(xué)習(xí)關(guān)注的問題:計算機(jī)程序如何隨著經(jīng)驗積累自動提高性能;研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能;通過輸入和輸出,來訓(xùn)練一個模型。2.大數(shù)據(jù)分析系統(tǒng)層次結(jié)構(gòu):應(yīng)用層、算法層、系統(tǒng)軟件層、基礎(chǔ)設(shè)施層3.傳統(tǒng)的機(jī)器學(xué)習(xí)流程預(yù)處理-特征提取-特征選擇-再到推理-預(yù)測或者識別。手工地選取特征是一件非常費力、啟發(fā)式(需要專業(yè)知識)的方法,如果數(shù)據(jù)被很好的表達(dá)成了特征,通常線性模型就能達(dá)到滿意的精度。4. 大數(shù)據(jù)分析的主要思想方法4.1三個思維上的轉(zhuǎn)變關(guān)注全集(不是隨機(jī)樣本而是全體數(shù)
2、據(jù)):面臨大規(guī)模數(shù)據(jù)時,依賴于采樣分析;統(tǒng)計學(xué)習(xí)的目的用盡可能少的數(shù)據(jù)來證實盡可能重大的發(fā)現(xiàn);大數(shù)據(jù)是指不用隨機(jī)分析這樣的捷徑,而是采用大部分或全體數(shù)據(jù)。關(guān)注概率(不是精確性而是概率):大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效關(guān)注關(guān)系(不是因果關(guān)系而是相關(guān)關(guān)系):建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心,相關(guān)關(guān)系的核心是量化兩個數(shù)據(jù)值之間的數(shù)理關(guān)系,關(guān)聯(lián)物是預(yù)測的關(guān)鍵。4.2數(shù)據(jù)創(chuàng)新的思維方式可量化是數(shù)據(jù)的核心特征(將所有可能與不可能的信息數(shù)據(jù)化);挖掘數(shù)據(jù)潛在的價值是數(shù)據(jù)創(chuàng)新的核心;三類最有價值的信息:位置信息、信令信息以及網(wǎng)管和日志。數(shù)據(jù)混搭為創(chuàng)造新應(yīng)用提供了重要支持。數(shù)據(jù)墳?zāi)梗禾峁?/p>
3、數(shù)據(jù)服務(wù),其他人都比我聰明!數(shù)據(jù)廢氣:是用戶在線交互的副產(chǎn)品,包括了瀏覽的頁面,停留了多久,鼠標(biāo)光標(biāo)停留的位置、輸入的信息。4.3大數(shù)據(jù)分析的要素大數(shù)據(jù)“價值鏈”構(gòu)成:數(shù)據(jù)、技術(shù)與需求(思維);數(shù)據(jù)的價值在于正確的解讀。5.數(shù)據(jù)化與數(shù)字化的區(qū)別數(shù)據(jù)化:將現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^程;數(shù)字化:將模擬數(shù)據(jù)轉(zhuǎn)換成使用0、1表示的二進(jìn)制碼的過程6.基于協(xié)同過濾的推薦機(jī)制基于協(xié)同過濾的推薦(這種機(jī)制是現(xiàn)今應(yīng)用最為廣泛的推薦機(jī)制)基于模型的推薦(svm、聚類、潛在語義分析、貝葉斯網(wǎng)絡(luò)、線性回歸、邏輯回歸)余弦距離(又稱余弦相似度):表示是否有相同的傾向歐幾里得距離(又稱歐幾里得相似度):表示絕對的
4、距離這種推薦方法的優(yōu)缺點:它不需要對物品或者用戶進(jìn)行嚴(yán)格的建模,而且不要求物品的描述是機(jī)器可理解的;推薦是開放的,可以共用他人的經(jīng)驗,很好的支持用戶發(fā)現(xiàn)潛在的興趣偏好。數(shù)據(jù)稀疏性問題,大量的用戶只是評價了一小部分的項目,而大多數(shù)的項目是沒有進(jìn)行評分;冷啟動問題,新物品和新用戶依賴于用戶歷史偏好數(shù)據(jù)的多少和準(zhǔn)確性,一些特殊品味的用戶不能給予很好的推薦。7.機(jī)器學(xué)習(xí):構(gòu)建復(fù)雜系統(tǒng)的可能方法/途徑機(jī)器學(xué)習(xí)使用場景的核心三要素:存在潛在模式、不容易列出規(guī)則并編程實現(xiàn)、有歷史的數(shù)據(jù)8. 機(jī)器學(xué)習(xí)的基礎(chǔ)算法之pla算法和pocket算法(貪心pla)感知器線性二維分類器,都屬于二分類算法二者的區(qū)別:迭代過
5、程有所不同,結(jié)束條件有所不同;證明了線性可分的情況下是pla和pocket可以收斂。9. 機(jī)器為什么能學(xué)習(xí)學(xué)習(xí)過程被分解為兩個問題:能否確保eout(g) 與 ein(g) 足夠相似?能否使 ein(g) 足夠?。恳?guī)模較大的n,有限的dvc,較低的ein條件下,學(xué)習(xí)是可能的。切入點:利用具體特征的,基于有監(jiān)督方式的,批量學(xué)習(xí)的分析,進(jìn)行二分類預(yù)測。10. vc維:11. 噪聲的種類:12. 誤差函數(shù)(損失函數(shù))13. 給出數(shù)據(jù)計算誤差14. 線性回歸算法:簡單并且有效的方法,典型公式線性回歸的誤差函數(shù):使得各點到目標(biāo)線/平面的平均距離最??!15. 線性回歸重點算法部分:16. 線性分類與線性回
6、歸的區(qū)別:17. 過擬合:原因:模型復(fù)雜太高,噪聲,數(shù)據(jù)量規(guī)模有限。解決方案:使用簡單的模型,數(shù)據(jù)清洗(整形),正則化,驗證。18. 正則化 19. 分布式文件系統(tǒng):一種通過網(wǎng)絡(luò)實現(xiàn)文件在多臺主機(jī)上進(jìn)行分布式存儲的文件系統(tǒng);分布式文件系統(tǒng)一般采用c/s模式,客戶端以特定的通信協(xié)議通過網(wǎng)絡(luò)與服務(wù)器建立連接,提出文件訪問請求;客戶端和服務(wù)器可以通過設(shè)置訪問權(quán)限來限制請求方對底層數(shù)據(jù)存儲塊的訪問。20. 計算機(jī)集群結(jié)構(gòu):分布式文件系統(tǒng)把文件分布存儲到多個計算機(jī)節(jié)點上,成千上萬的計算機(jī)節(jié)點構(gòu)成計算機(jī)集群。與之前使用多個處理器和專用高級硬件的并行化處理裝置不同的是,目前的分布式文件系統(tǒng)所采用的計算機(jī)集群
7、都是由普通硬件構(gòu)成的,因此大大降低了硬件上的開銷。21. 分布式文件系統(tǒng)的結(jié)構(gòu):分布式文件系統(tǒng)在物理結(jié)構(gòu)上是由計算機(jī)集群中的多個節(jié)點構(gòu)成,這些節(jié)點分為兩類,一類叫“主節(jié)點”(masternode)或者也被稱為“名稱結(jié)點”(namenode),另一類叫“從節(jié)點”(slave node)或者也被稱為“數(shù)據(jù)節(jié)點。22. hdfs主要特性:兼容廉價的硬件設(shè)備、支持大數(shù)據(jù)存儲、流數(shù)據(jù)讀寫、簡單的文件模型、強大的跨平臺兼容性;局限性:不適合低延遲數(shù)據(jù)處理、無法高校存儲大量小文件、不支持多用戶寫入及任意修改文件塊:hdfs的名稱節(jié)點存儲元數(shù)據(jù)、元數(shù)據(jù)保存在內(nèi)存中、保存文件,block,datanode之間的
8、映射關(guān)系;hdfs的數(shù)據(jù)節(jié)點存儲文件內(nèi)容、文件內(nèi)容保存在磁盤、維護(hù)了block id到datanode本地文件的映射關(guān)系。23. 分布式數(shù)據(jù)庫概述:四類典型的作用于大數(shù)據(jù)存儲和管理的分布式數(shù)據(jù)庫:并行數(shù)據(jù)庫、nosql數(shù)據(jù)管理系統(tǒng)、newsql數(shù)據(jù)管理系統(tǒng)、云數(shù)據(jù)管理系統(tǒng)。并行數(shù)據(jù)庫:nosql數(shù)據(jù)管理系統(tǒng):newsql數(shù)據(jù)管理系統(tǒng):云數(shù)據(jù)管理系統(tǒng):nosql簡介:數(shù)據(jù)模型靈活、簡潔;水平可擴(kuò)展性強;系統(tǒng)吞吐量高;關(guān)系數(shù)據(jù)庫無法滿足大數(shù)據(jù)表現(xiàn):無法滿足海量數(shù)據(jù)的管理需求、無法滿足數(shù)據(jù)高并發(fā)的需求、無法滿足高可拓展性和高可用性的需求。nosql與關(guān)系數(shù)據(jù)庫的比較:nosql的四大類型:鍵值數(shù)據(jù)庫
9、、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫、圖形數(shù)據(jù)庫nosql的理論基礎(chǔ)(cap與acid、base)cap:一個分布式系統(tǒng)不可能同時滿足一致性、可用性和分區(qū)容忍性這三個需求。acid(關(guān)系數(shù)據(jù)庫的事務(wù)具有的四個特性)basenosql到newsql:大數(shù)據(jù)應(yīng)用:百度大數(shù)據(jù)引擎的構(gòu)成:開放云、數(shù)據(jù)工廠、百度大腦開放云:數(shù)據(jù)工廠:百度大腦:阿里大數(shù)據(jù)應(yīng)用:去ioe大數(shù)據(jù)在電信行業(yè)的應(yīng)用:24. 分布式并行編程框架mapreduce25.mapreduce的體系結(jié)構(gòu):client、jobtracker、tasktracker、taskmapreduce的工作流程:split(分片):map端的shuffle過程詳解:reduce端的shuffle詳解:mapreduce小結(jié):26. spark特點:hadoop的局限性:spark生態(tài)系統(tǒng):rdd:rdd的優(yōu)勢:rdd之間依賴關(guān)系的兩種類型:stage劃分:sprak小結(jié):流數(shù)據(jù):流計算處理流程:數(shù)據(jù)實時采集(保證實時性、低延遲、可靠穩(wěn)定)、數(shù)據(jù)實時計算、實時查詢服務(wù)(實時查詢服務(wù)可以不斷更新結(jié)果,并將用戶所需的結(jié)果實時推送給用戶)。流處理系統(tǒng)與傳統(tǒng)數(shù)據(jù)處理系統(tǒng)的區(qū)別:開源流計算框架storm(免費、開源的分布式實時計算系統(tǒng)):storm的工作流程:流計算小結(jié):圖計算系統(tǒng)pregel簡介:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度文化創(chuàng)意產(chǎn)品采購合同變更及版權(quán)協(xié)議3篇
- 二零二五版美團(tuán)騎手薪酬福利及晉升體系合同2篇
- 課題申報參考:南嶺走廊儺戲服飾文化基因解碼及傳承路徑研究
- 課題申報參考:慢波睡眠期間無意識序列學(xué)習(xí)的神經(jīng)機(jī)制及認(rèn)知調(diào)控
- 2025年度虛擬現(xiàn)實游戲開發(fā)與授權(quán)合同范本4篇
- 2025年度個人旅游居間代理合同樣本2篇
- 南京市2025年度二手房購房合同(含環(huán)保檢測報告)4篇
- 2025年度個人租賃城市中心公寓及家電配置合同3篇
- 2025版南寧高新區(qū)廠房租賃合同及技術(shù)支持服務(wù)協(xié)議4篇
- 2025年度個人小額信用貸款合同范本7篇
- GB 19053-2024殯儀場所致病菌安全限值
- 綠化養(yǎng)護(hù)難點要點分析及技術(shù)措施
- 2024年河北省高考?xì)v史試卷(含答案解析)
- 車位款抵扣工程款合同
- 2023年湖北省襄陽市中考數(shù)學(xué)真題(原卷版)
- 小學(xué)六年級數(shù)學(xué)奧數(shù)題100題附答案(完整版)
- 湖南高速鐵路職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試參考試題庫(含答案)
- 英漢互譯單詞練習(xí)打印紙
- 2023湖北武漢華中科技大學(xué)招聘實驗技術(shù)人員24人筆試參考題庫(共500題)答案詳解版
- 一氯二氟甲烷安全技術(shù)說明書MSDS
- 母嬰護(hù)理員題庫
評論
0/150
提交評論