版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、云計(jì)算概念與現(xiàn)狀云計(jì)算概念與現(xiàn)狀GoogleGoogle文件系統(tǒng)文件系統(tǒng)Google MapReduceGoogle MapReduceGoogle BigtableGoogle Bigtable大云數(shù)據(jù)挖掘系統(tǒng)大云數(shù)據(jù)挖掘系統(tǒng)內(nèi) 容 提 綱云計(jì)算的起源云計(jì)算發(fā)展的驅(qū)動(dòng)因素云計(jì)算的定義 云計(jì)算是一種商業(yè)計(jì)算模型。它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和信息服務(wù)。云計(jì)算技術(shù)體系結(jié)構(gòu)Google云計(jì)算關(guān)鍵技術(shù)Google文件系統(tǒng)GFS(Google File System)并行數(shù)據(jù)處理MapReduce結(jié)構(gòu)化數(shù)據(jù)表BigTable分布式鎖管理Ch
2、ubby微軟的節(jié)能措施微軟的節(jié)能措施分布式文件系統(tǒng)GFSGoogle File System12Google需要一個(gè)支持海量存儲(chǔ)的文件系統(tǒng) 購置昂貴的分布式文件系統(tǒng)與硬件?是否可以在一堆廉價(jià)且不可靠的硬件上構(gòu)建可靠的分布式文件系統(tǒng)?13為什么不使用當(dāng)時(shí)現(xiàn)存的文件系統(tǒng)? Google所面臨的問題與眾不同 不同的工作負(fù)載,不同的設(shè)計(jì)優(yōu)先級(jí)(廉價(jià)、不可靠的硬件) 需要設(shè)計(jì)與Google應(yīng)用和負(fù)載相符的文件系統(tǒng)14硬件出錯(cuò)是正常而非異常 系統(tǒng)應(yīng)當(dāng)由大量廉價(jià)、易損的硬件組成 必須保持文件系統(tǒng)整體的可靠性主要負(fù)載是流數(shù)據(jù)讀寫 主要用于程序處理批量數(shù)據(jù),而非與用戶的交互或隨機(jī)讀寫 數(shù)據(jù)寫主要是“追加寫”,“
3、插入寫”非常少需要存儲(chǔ)大尺寸的文件 存儲(chǔ)的文件尺寸可能是GB或TB量級(jí),而且應(yīng)當(dāng)能支持存儲(chǔ)成千上萬的大尺寸文件15將文件劃分為若干塊(Chunk)存儲(chǔ) 每個(gè)塊固定大?。?4M)通過冗余來提高可靠性 每個(gè)數(shù)據(jù)塊至少在3個(gè)數(shù)據(jù)塊服務(wù)器上冗余 數(shù)據(jù)塊損壞概率?通過單個(gè)master來協(xié)調(diào)數(shù)據(jù)訪問、元數(shù)據(jù)存儲(chǔ) 結(jié)構(gòu)簡(jiǎn)單,容易保持元數(shù)據(jù)一致性無緩存 Why?16單一Master, 若干ChunkServerGFS的架構(gòu)有什么問題嗎?1718分布式系統(tǒng)設(shè)計(jì)告訴我們: 這是單點(diǎn)故障 這是性能瓶頸GFS的解決辦法 單點(diǎn)故障問題采用多個(gè)(如3個(gè))影子Master節(jié)點(diǎn)進(jìn)行熱備,一旦主節(jié)點(diǎn)損壞,立刻選舉一個(gè)新的主節(jié)點(diǎn)
4、服務(wù)19GFS的解決辦法 性能瓶頸問題盡可能減少數(shù)據(jù)存取中Master的參與程度不使用Master讀取數(shù)據(jù),僅用于保存元數(shù)據(jù)客戶端緩存元數(shù)據(jù)采用大尺寸的數(shù)據(jù)塊(64M)數(shù)據(jù)修改順序交由Primary Chunk Server完成Simple, and good enough!20存儲(chǔ)元數(shù)據(jù)文件系統(tǒng)目錄管理與加鎖與ChunkServer進(jìn)行周期性通信 發(fā)送指令,搜集狀態(tài),跟蹤數(shù)據(jù)塊的完好性數(shù)據(jù)塊創(chuàng)建、復(fù)制及負(fù)載均衡 對(duì)ChunkServer的空間使用和訪問速度進(jìn)行負(fù)載均衡,平滑數(shù)據(jù)存儲(chǔ)和訪問請(qǐng)求的負(fù)載 對(duì)數(shù)據(jù)塊進(jìn)行復(fù)制、分散到ChunkServer上 一旦數(shù)據(jù)塊冗余數(shù)小于最低數(shù),就發(fā)起復(fù)制操作2
5、1垃圾回收 在日志中記錄刪除操作,并將文件改名隱藏 緩慢地回收隱藏文件 與傳統(tǒng)文件刪除相比更簡(jiǎn)單、更安全陳舊數(shù)據(jù)塊刪除 探測(cè)陳舊的數(shù)據(jù)塊,并刪除22采用中心服務(wù)器模式 可以方便地增加Chunk Server Master掌握系統(tǒng)內(nèi)所有Chunk Server的情況,方便進(jìn)行負(fù)載均衡 不存在元數(shù)據(jù)的一致性問題23不緩存數(shù)據(jù) GFS的文件操作大部分是流式讀寫,不存在大量的重復(fù)讀寫,使用Cache對(duì)性能提高不大 Chunk Server上的數(shù)據(jù)存取使用本地文件系統(tǒng),如果某個(gè)Chunk讀取頻繁,文件系統(tǒng)具有Cache 從可行性看,Cache與實(shí)際數(shù)據(jù)的一致性維護(hù)也極其復(fù)雜? ?24在用戶態(tài)下實(shí)現(xiàn) 直接
6、利用Chunk Server的文件系統(tǒng)存取Chunk,實(shí)現(xiàn)簡(jiǎn)單 用戶態(tài)應(yīng)用調(diào)試較為簡(jiǎn)單,利于開發(fā) 用戶態(tài)的GFS不會(huì)影響Chunk Server的穩(wěn)定性提供專用的訪問接口 未提供標(biāo)準(zhǔn)的POSIX訪問接口 降低GFS的實(shí)現(xiàn)復(fù)雜度25GFS的容錯(cuò)機(jī)制 Chunk Server容錯(cuò) 每個(gè)Chunk有多個(gè)存儲(chǔ)副本(通常是3個(gè)),分別存儲(chǔ)于不通的服務(wù)器上 每個(gè)Chunk又劃分為若干Block(64KB),每個(gè)Block對(duì)應(yīng)一個(gè)32bit的校驗(yàn)碼,保證數(shù)據(jù)正確(若某個(gè)Block錯(cuò)誤,則轉(zhuǎn)移至其他Chunk副本)2627并行數(shù)據(jù)處理模型MapReduce摩爾定律 集成電路芯片上所集成的電路的數(shù)目,每隔18個(gè)
7、月就翻一番,同時(shí)性能也提升一倍Gordon Moore“免費(fèi)的性能大餐”? Andy given, and Bill taken away 軟件算法、數(shù)據(jù)結(jié)構(gòu)似乎不再重要,因?yàn)樘幚砥餍阅懿粩嗵嵘赓M(fèi)的午餐已經(jīng)結(jié)束!IntelMicrosoft摩爾定律正在走向終結(jié) 單芯片容納晶體管的增加,對(duì)制造工藝提出要求 CPU制造18nm技術(shù),電子泄漏問題 CPU主頻已達(dá)3GHz時(shí)代,難以繼續(xù)提高 散熱問題(發(fā)熱太大,且難以驅(qū)散) 功耗太高未來的發(fā)展:多核在多核時(shí)代生存,必須考慮并發(fā)問題不存在解決多核編程問題的銀彈, 不存在可以簡(jiǎn)單地將并發(fā)編程問題化解掉的工具, 開發(fā)高性能的并行程序必須要求開發(fā)者從根本上改
8、變其編程方法從某種意義上來說,這不僅僅是要改變50年來順序程序設(shè)計(jì)的工藝傳統(tǒng), 而且是要改變數(shù)百萬年來人類順序化思考問題的習(xí)慣Herb Sutter串行編程 早期的計(jì)算里,程序一般是被串行執(zhí)行的 程序是指令的序列,在單處理器的機(jī)器里,程序從開始到結(jié)束,這些指令一條接一條的執(zhí)行并行編程 一道處理可以被劃分為幾部分,然后它們可以并發(fā)地執(zhí)行 各部分的指令分別在不同的CPU上同時(shí)運(yùn)行,這些CPU可以存在于單臺(tái)機(jī)器中,也可以存在于多臺(tái)機(jī)器上,它們通過連接起來共同運(yùn)作什么樣的問題適合并行計(jì)算? 斐波那契序列(Fibonacci)的計(jì)算?什么樣的問題適合并行計(jì)算? 如果有大量結(jié)構(gòu)一致的數(shù)據(jù)要處理,且數(shù)據(jù)可以
9、分解成相同大小的部分, 那我們就可以設(shè)法使這道處理變成并行計(jì)算問題簡(jiǎn)單,但求解困難 待處理數(shù)據(jù)量巨大(PB級(jí)),只有分布在成百上千個(gè)節(jié)點(diǎn)上并行計(jì)算才能在可接受的時(shí)間內(nèi)完成 如何進(jìn)行并行分布式計(jì)算? 如何分發(fā)待處理數(shù)據(jù)? 如何處理分布式計(jì)算中的錯(cuò)誤?簡(jiǎn)單的問題,計(jì)算并不簡(jiǎn)單!Google MapReduce架構(gòu)設(shè)計(jì)師Jeffrey DeanJeffery Dean設(shè)計(jì)一個(gè)新的抽象模型, 使我們只要執(zhí)行的簡(jiǎn)單計(jì)算,而將并行化、容錯(cuò)、數(shù)據(jù)分布、負(fù)載均衡的等雜亂細(xì)節(jié)放在一個(gè)庫里,使并行編程時(shí)不必關(guān)心它們這就是MapReduce一個(gè)軟件架構(gòu),是一種處理海量數(shù)據(jù)的并行編程模式用于大規(guī)模數(shù)據(jù)集(通常大于1T
10、B)的并行運(yùn)算MapReduce實(shí)現(xiàn)了Map和Reduce兩個(gè)功能 Map把一個(gè)函數(shù)應(yīng)用于集合中的所有成員,然后返回一個(gè)基于這個(gè)處理的結(jié)果集 Reduce對(duì)結(jié)果集進(jìn)行分類和歸納 Map()和 Reduce() 兩個(gè)函數(shù)可能會(huì)并行運(yùn)行,即使不是在同一的系統(tǒng)的同一時(shí)刻案例:?jiǎn)卧~記數(shù)問題(Word Count) 給定一個(gè)巨大的文本(如1TB),如何計(jì)算單詞出現(xiàn)的數(shù)目?使用MapReduce求解該問題 定義Map和Reduce函數(shù)使用MapReduce求解該問題 Step 1: 自動(dòng)對(duì)文本進(jìn)行分割,形成初始的對(duì)使用MapReduce求解該問題 Step 2:在分割之后的每一對(duì)進(jìn)行用戶定義的Map進(jìn)行處
11、理,再生成新的對(duì)使用MapReduce求解該問題 Step 3:對(duì)輸出的結(jié)果集歸攏、排序(系統(tǒng)自動(dòng)完成)使用MapReduce求解該問題 Step 4:通過Reduce操作生成最后結(jié)果源文件:GFSMap處理結(jié)果:本地存儲(chǔ)Reduce處理結(jié)果:GFS日志:GFSGoogle MapReduce計(jì)算架構(gòu)有什么問題?Worker故障 Master 周期性的ping每個(gè)worker。如果master在一個(gè)確定的時(shí)間段內(nèi)沒有收到worker返回的信息,那么它將把這個(gè)worker標(biāo)記成失效 重新執(zhí)行該節(jié)點(diǎn)上已經(jīng)執(zhí)行或尚未執(zhí)行的Map任務(wù) 重新執(zhí)行該節(jié)點(diǎn)上未完成的Reduce任務(wù),已完成的不再執(zhí)行Mast
12、er故障 定期寫入檢查點(diǎn)數(shù)據(jù) 從檢查點(diǎn)恢復(fù)WHY?任務(wù)備份機(jī)制 慢的workers 會(huì)嚴(yán)重地拖延整個(gè)執(zhí)行完成的時(shí)間 由于其他的任務(wù)占用了資源 磁盤損壞 解決方案: 在臨近結(jié)束的時(shí)候,啟動(dòng)多個(gè)進(jìn)程來執(zhí)行尚未完成的任務(wù) 誰先完成,就算誰 可以十分顯著地提高執(zhí)行效率本地處理 Master 調(diào)度策略: 向GFS詢問獲得輸入文件blocks副本的位置信息 Map tasks 的輸入數(shù)據(jù)通常按 64MB來劃分 (GFS block 大小) 按照blocks所在的機(jī)器或機(jī)器所在機(jī)架的范圍進(jìn)行調(diào)度 效果 絕大部分機(jī)器從本地讀取文件作為輸入,節(jié)省大量帶寬跳過有問題的記錄 一些特定的輸入數(shù)據(jù)常導(dǎo)致Map/Redu
13、ce無法運(yùn)行 最好的解決方法是調(diào)試或者修改 不一定可行 可能需要第三方庫或源碼 在每個(gè)worker里運(yùn)行一個(gè)信號(hào)處理程序,捕獲map或reduce任務(wù)崩潰時(shí)發(fā)出的信號(hào),一旦捕獲,就會(huì)向master報(bào)告,同時(shí)報(bào)告輸入記錄的編號(hào)信息。如果master看到一條記錄有兩次崩潰信息,那么就會(huì)對(duì)該記錄進(jìn)行標(biāo)記,下次運(yùn)行的時(shí)候,跳過該記錄實(shí)踐證明,MapReduce是出色的分布式計(jì)算模型 Google宣布,其對(duì)分布于1000臺(tái)計(jì)算機(jī)上的1TB數(shù)據(jù)進(jìn)行排序僅僅需要68s 對(duì)4000臺(tái)計(jì)算機(jī)上的1PB數(shù)據(jù)進(jìn)行排序處理僅需要6小時(shí)2分鐘(每次測(cè)試至少會(huì)損壞1塊硬盤) 在08年1月份,Google MapReduc
14、e平均每天的數(shù)據(jù)處理量是20PB,相當(dāng)于美國國會(huì)圖書館當(dāng)年5月份存檔網(wǎng)絡(luò)數(shù)據(jù)的240倍分布式數(shù)據(jù)表BigTable53為什么需要設(shè)計(jì)BigTable? Google需要存儲(chǔ)的數(shù)據(jù)種類繁多 網(wǎng)頁,地圖數(shù)據(jù),郵件 如何使用統(tǒng)一的方式存儲(chǔ)各類數(shù)據(jù)? 海量的服務(wù)請(qǐng)求 如何快速地從海量信息中尋找需要的數(shù)據(jù)?BigTable:基于GFS和Chubby的分布式存儲(chǔ)系統(tǒng) 對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化存儲(chǔ)和管理 與GFS的聯(lián)系54數(shù)據(jù)存儲(chǔ)可靠性高速數(shù)據(jù)檢索與讀取存儲(chǔ)海量的記錄(若干TB)可以保存記錄的多個(gè)版本55與寫操作相比,數(shù)據(jù)記錄讀操作占絕大多數(shù)工作負(fù)載單個(gè)節(jié)點(diǎn)故障損壞是常見的磁盤是廉價(jià)的可以不提供標(biāo)準(zhǔn)接口 Googl
15、e既能控制數(shù)據(jù)庫設(shè)計(jì),又能進(jìn)行應(yīng)用系統(tǒng)設(shè)計(jì)56具有廣泛的適應(yīng)性 支持Google系列產(chǎn)品的存儲(chǔ)需求具有很強(qiáng)的可擴(kuò)展性 根據(jù)需要隨時(shí)加入或撤銷服務(wù)器 應(yīng)對(duì)不斷增多的訪問請(qǐng)求高可用性 單個(gè)節(jié)點(diǎn)易損,但要確保幾乎所有的情況下系統(tǒng)都可用簡(jiǎn)單性 簡(jiǎn)單的底層系統(tǒng)可減少系統(tǒng)出錯(cuò)概率,為上層開發(fā)帶來便利57總體上,與關(guān)系數(shù)據(jù)庫中的表類似Row KeyTime StampColumn ContentsColumn AnchorColumn “mime”my.look.ca“n.www”T9CNNT8CNN.COMT6“. “Text/htmlT5“. “t3“. “58關(guān)系數(shù)據(jù)庫中的表是什么樣的?有什么特征?關(guān)
16、系數(shù)據(jù)庫中的表設(shè)計(jì)需要遵循什么原則?行 每行數(shù)據(jù)有一個(gè)可排序的關(guān)鍵字和任意列項(xiàng) 字符串、整數(shù)、二進(jìn)制串甚至可串行化的結(jié)構(gòu)都可以作為行鍵 表按照行鍵的“逐字節(jié)排序”順序?qū)π羞M(jìn)行有序化處理 表內(nèi)數(shù)據(jù)非常稀疏,不同的行的列的數(shù)完全目可以大不相同 URL是較為常見的行鍵,存儲(chǔ)時(shí)需要倒排 統(tǒng)一地址域的網(wǎng)頁連續(xù)存儲(chǔ),便于查找、分析和壓縮/index.asp/index.asp59列 特定含義的數(shù)據(jù)的集合,如圖片、鏈接等 可將多個(gè)列歸并為一組,稱為族(family) 采用 族:限定詞 的語法規(guī)則進(jìn)行定義 fileattr:owning_group”, “fileattr:owning_user”, etc
17、同一個(gè)族的數(shù)據(jù)被壓縮在一起保存 族是必須的,是BigTable中訪問控制的基本單元60時(shí)間戳 保存不同時(shí)期的數(shù)據(jù),如“網(wǎng)頁快照”“A big table” 表中的列可以不受限制地增長 表中的數(shù)據(jù)幾乎可以無限地增加通過(row, col, timestamp)查詢通過(row, col, MOST_RECENT)查詢61無數(shù)據(jù)校驗(yàn) 每行都可存儲(chǔ)任意數(shù)目的列 BigTable不對(duì)列的最少數(shù)目進(jìn)行約束 任意類型的數(shù)據(jù)均可存儲(chǔ) BigTable將所有數(shù)據(jù)均看作為字符串 數(shù)據(jù)的有效性校驗(yàn)由構(gòu)建于其上的應(yīng)用系統(tǒng)完成一致性 針對(duì)同一行的多個(gè)操作可以分組合并 不支持對(duì)多行進(jìn)行修改的操作符62Row KeyTi
18、me StampColumn: ContentsCn.wwwT6“.”T5“.”T3“.”Row KeyTime StampColumn: AnchorCn.wwwT9Anchor:CNNT5Anchor:my.look.caCNN.COMRow KeyRow KeyTime StampTime StampColumn:Column: mime mimeCn.wwwT6text/htmlRow KeyTime StampColumn ContentsColumn AnchorColumn “mime”my.look.ca“n.www”T9CNNT8CNN.COMT6“. “Text/htmlT
19、5“. “t3“. “63邏輯上的“表”被劃分為若干子表(Tablet) 每個(gè)Tablet由多個(gè)SSTable文件組成 SSTable文件存儲(chǔ)在GFS之上每個(gè)子表存儲(chǔ)了table的一部分行 元數(shù)據(jù):起始行鍵、終止行鍵 如果子表體積超過了閾值(如200M),則進(jìn)行分割6465為每個(gè)子表服務(wù)器分配子表,對(duì)外提供服務(wù)與GFS垃圾回收進(jìn)行交互,收回廢棄的SSTable探測(cè)子表服務(wù)器的故障與恢復(fù)負(fù)載均衡有效緩解單點(diǎn)故障6667Google云計(jì)算架構(gòu)中GFS、MapReduce和BigTable中是否存在集群節(jié)點(diǎn)復(fù)用的情況?如何復(fù)用?節(jié)點(diǎn)復(fù)用的好處有哪些?Google云計(jì)算架構(gòu)的設(shè)計(jì)對(duì)你有哪些啟發(fā)?有哪些
20、收獲?BC-PDM分布式數(shù)據(jù)挖掘系統(tǒng)2007年3月,確定了大云(Big Cloud)計(jì)劃,即中國移動(dòng)研究院為打造中國移動(dòng)云計(jì)算基礎(chǔ)設(shè)施而實(shí)施的關(guān)鍵技術(shù)研究及原型系統(tǒng)開發(fā)計(jì)劃。2007年7月,利用閑置的15臺(tái)PC服務(wù)器,基于開源軟件搭建了海量數(shù)據(jù)處理試驗(yàn)平臺(tái),并成功運(yùn)行搜索引擎軟件。2008年10月,建立256節(jié)點(diǎn)的大規(guī)模運(yùn)算實(shí)驗(yàn)室,并運(yùn)行數(shù)據(jù)挖掘工具和相關(guān)應(yīng)用。2009年9月,Big Cloud 0.5版本在中國移動(dòng)研究院內(nèi)部發(fā)布試用。2009年12月,試驗(yàn)平臺(tái)進(jìn)一步擴(kuò)容,達(dá)到1000臺(tái)服務(wù)器、5000個(gè)CPU、3000TB的存儲(chǔ)規(guī)模。并行數(shù)據(jù)挖掘工具(BC-PDM)是一套高性能、低成本、高可
21、靠性、高可伸縮性的海量數(shù)據(jù)處理、分析和挖掘系統(tǒng)。該工具提供海量數(shù)據(jù)并行ETL和并行挖掘能力,支持企業(yè)的BI應(yīng)用和精準(zhǔn)營銷;提供業(yè)務(wù)邏輯復(fù)雜的SQL 能力,支持海量數(shù)據(jù)的清洗、轉(zhuǎn)換、關(guān)聯(lián)、匯總等操作,支持生成企業(yè)報(bào)表、KPI、挖掘等應(yīng)用;提供基于Web的SaaS服務(wù)模式,降低企業(yè)IT系統(tǒng)投資。登錄后界面登錄后界面工作流畫布(工作流畫布(Knowledge Flow Layout) job監(jiān)控框監(jiān)控框(Job monitor)數(shù)據(jù)查看與管理數(shù)據(jù)查看與管理預(yù)覽數(shù)據(jù)預(yù)覽數(shù)據(jù)創(chuàng)建工作流創(chuàng)建工作流配置工作流配置工作流運(yùn)行工作流運(yùn)行工作流查看工作流結(jié)果查看工作流結(jié)果文本ROC圖Lift圖工作流調(diào)度情況工作流
22、調(diào)度情況BC-PDM的數(shù)據(jù)裝載和導(dǎo)出的數(shù)據(jù)裝載和導(dǎo)出數(shù)據(jù)加載是將分布式文件系統(tǒng)(DFS)上的沒有元數(shù)據(jù)文件的數(shù)據(jù)生成元數(shù)據(jù)文件,或?qū)?shù)據(jù)進(jìn)行斷行、空行等初步處理,或作為工作流運(yùn)行的起始組件。數(shù)據(jù)導(dǎo)出是將處理后的數(shù)據(jù)文件轉(zhuǎn)換成指定的格式或分隔符,數(shù)據(jù)仍然保存在DFS上。數(shù)據(jù)加載(導(dǎo)入)數(shù)據(jù)加載(導(dǎo)入)數(shù)據(jù)加載(導(dǎo)入)數(shù)據(jù)加載(導(dǎo)入)導(dǎo)入頭文件導(dǎo)入頭文件頭文件舉例頭文件舉例start_time,date,開始時(shí)間imsi,VARCHAR(10),IMSIcalling,VARCHAR(10),用戶號(hào)碼user_ip,VARCHAR(10),用戶IP地址APN,VARCHAR(10),訪問方式IME
23、I,VARCHAR(10),終端標(biāo)識(shí)號(hào)rat,int,2G/3G網(wǎng)絡(luò)標(biāo)識(shí)App_type,int,應(yīng)用類型LAC,VARCHAR(10),xmCell_ID,VARCHAR(10),xmsource_ip,VARCHAR(10),源IP地址dest_ip,VARCHAR(10),目的地址數(shù)據(jù)導(dǎo)出數(shù)據(jù)導(dǎo)出并行數(shù)據(jù)處理并行數(shù)據(jù)處理(ETL) ETL操作可以分為普通ETL和鏈?zhǔn)紼TL。普通ETL和鏈?zhǔn)紼TL分別又細(xì)分為:清洗類、轉(zhuǎn)換類、集成類、計(jì)算類、抽樣類、集合類、更新類、及其它類8大類。類別類別組件名組件名功能功能清洗類數(shù)據(jù)類型檢查對(duì)輸入文件逐條記錄地檢查每個(gè)字段的數(shù)據(jù)是否與元數(shù)據(jù)中的類型相符合
24、外鍵約束升級(jí)主鍵表或升級(jí)外鍵表后的外鍵約束檢查主鍵約束對(duì)數(shù)據(jù)表的主鍵約束檢查,包括主鍵非空和主鍵唯一缺值處理按照指定的替換值填補(bǔ)數(shù)據(jù)文件中的缺值或Null值等空值域約束包括非空值約束、值域范圍檢查和自定義約束檢查去重將完全重復(fù)的數(shù)據(jù)行丟棄轉(zhuǎn)換類Casewhen將符合條件的數(shù)據(jù)按指定進(jìn)行轉(zhuǎn)換,類似SQL的case when計(jì)數(shù)區(qū)間化按計(jì)數(shù)將指定字段值區(qū)間化為N個(gè)區(qū)間,每個(gè)區(qū)間數(shù)據(jù)個(gè)數(shù)相等,并為該字段按不同區(qū)間設(shè)置特定值字段類型轉(zhuǎn)換支持對(duì)多個(gè)字段進(jìn)行字段名或字段類型的修改,提供多種數(shù)據(jù)類型字段之間的強(qiáng)制轉(zhuǎn)換數(shù)值區(qū)間化按數(shù)值將指定字段值區(qū)間化為N個(gè)區(qū)間,每個(gè)區(qū)間數(shù)據(jù)取值范圍相等,并為該字段按不同區(qū)間
25、設(shè)置特定值歸一化對(duì)指定字段按該字段的均值和標(biāo)準(zhǔn)偏差,進(jìn)行zscore歸一化屬性交換將屬性的兩列互換關(guān)聯(lián)規(guī)則數(shù)據(jù)生成將業(yè)務(wù)訂購情況數(shù)據(jù)生成購物籃數(shù)據(jù)供關(guān)聯(lián)規(guī)則算法使用PCA主成分分析將輸入數(shù)據(jù)的屬性由高維降到較低的維度集成類Delete組件刪除符合一定表達(dá)式條件的記錄Join組件可將多個(gè)表按指定的字段關(guān)聯(lián),包括主鍵join、維表join和普通join三個(gè)組件,針對(duì)不同關(guān)聯(lián)情況使用不同組件Sort組件按用戶指定排序關(guān)鍵字字段進(jìn)行排序Where組件找出滿足用戶定義的表達(dá)式條件的記錄。計(jì)算類計(jì)算生成列通過對(duì)現(xiàn)有多字段混合計(jì)算生成的新字段Groupby組件對(duì)數(shù)據(jù)按照用戶指定的屬性聚集、匯總統(tǒng)計(jì)計(jì)算每個(gè)字
26、段的統(tǒng)計(jì)信息抽樣類分層抽樣供分類目標(biāo)字段數(shù)據(jù)平衡使用采樣按比例隨機(jī)抽樣數(shù)據(jù)集合類集合差根據(jù)用戶指定的數(shù)據(jù)文件和集合運(yùn)算表達(dá)式進(jìn)行2個(gè)集合的差運(yùn)算集合交并根據(jù)用戶指定的數(shù)據(jù)文件和集合運(yùn)算表達(dá)式進(jìn)行多個(gè)集合間的交,并運(yùn)算。更新類Update組件更新,類似數(shù)據(jù)庫UpdateInsertupdate組件增量更新,類似數(shù)據(jù)庫Insertupdate其他類數(shù)據(jù)集分割根據(jù)比例將數(shù)據(jù)分割為訓(xùn)練集和測(cè)試集兩個(gè)數(shù)據(jù)清洗類清洗類-數(shù)據(jù)類型檢查根據(jù)元數(shù)據(jù)中各個(gè)字段的數(shù)據(jù)類型,對(duì)輸入文件逐條記錄地檢查每個(gè)字段的數(shù)據(jù)是否與元數(shù)據(jù)中的類型相符合,支持多種日期類型。對(duì)發(fā)現(xiàn)不滿足數(shù)據(jù)類型的記錄,應(yīng)用異常數(shù)據(jù)處理規(guī)則。并在有效性
27、驗(yàn)證后提供一個(gè)驗(yàn)證報(bào)告,包括丟棄了多少數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行了什么處理等信息。參數(shù)說明輸入文件設(shè)置輸入文件的地址及文件名輸出文件設(shè)置輸出文件的地址及文件名另存路徑設(shè)置異常數(shù)據(jù)文件的地址和文件名numOfmap設(shè)置Map個(gè)數(shù)numOfreduce設(shè)置Reduce個(gè)數(shù)轉(zhuǎn)換類轉(zhuǎn)換類-caseWhen根據(jù)用戶輸入的條件,將指定字段的值進(jìn)行轉(zhuǎn)換,類似SQL的case when。用戶指定轉(zhuǎn)換的字段與轉(zhuǎn)換規(guī)則。支持對(duì)多字段進(jìn)行轉(zhuǎn)換,支持對(duì)某個(gè)字段多個(gè)轉(zhuǎn)換規(guī)則,支持default規(guī)則??梢耘渲棉D(zhuǎn)換生成列的元數(shù)據(jù)信息。參數(shù)說明輸入文件設(shè)置輸入文件的地址及文件名輸出文件設(shè)置輸出文件的地址及文件名生成字段名設(shè)置要生成字段
28、的名字字段類型設(shè)置要生成字段的類型條件表達(dá)式當(dāng)條件表達(dá)式為真時(shí),執(zhí)行替換表達(dá)式替換表達(dá)式設(shè)置替換表達(dá)式numOfmap設(shè)置Map個(gè)數(shù)numOfreduce設(shè)置Reduce個(gè)數(shù)1 并行分類算法并行分類算法Classifiers4MRClassifiers4MR分類功能應(yīng)以用戶提供的歷史消費(fèi)清單作為訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)中有一個(gè)屬性作為分類屬性,且每條記錄已標(biāo)明分類屬性的值。分類算法應(yīng)提供兩方面基本功能:(1) 學(xué)習(xí)分類模型:從訓(xùn)練集數(shù)據(jù)中發(fā)現(xiàn)潛在的分類模型,并以特定方式表達(dá)(2) 預(yù)測(cè):對(duì)用戶新提供的數(shù)據(jù)集,依據(jù)分類模型預(yù)測(cè)出所屬類別并行分類算法包括:EmptyClassifier4M、C45決策樹
29、、CBC分類、CBR分類、K近鄰、樸素貝葉斯、層次C45決策樹、線性回歸分類、神經(jīng)網(wǎng)絡(luò)算法。BC-PDM挖掘算法挖掘算法神經(jīng)網(wǎng)絡(luò)算法神經(jīng)網(wǎng)絡(luò)算法 把整個(gè)神經(jīng)網(wǎng)絡(luò)的神經(jīng)元?jiǎng)澐殖刹煌瑢哟危瑢?duì)同層次內(nèi)的不同神經(jīng)元進(jìn)行并行參數(shù)計(jì)算,并通過統(tǒng)一調(diào)度和精度控制對(duì)神經(jīng)元進(jìn)行快速的并行化訓(xùn)練。訓(xùn)練完畢后,對(duì)于每一個(gè)輸入,通過并行化神經(jīng)網(wǎng)絡(luò)快速地得到輸出參數(shù)設(shè)置trainInputPath設(shè)置訓(xùn)練集在DFS上的路徑testInputPath設(shè)置測(cè)試集在DFS上的路徑predictInputPath設(shè)置預(yù)測(cè)測(cè)試集在DFS上的路徑outputPath設(shè)置結(jié)果輸出在DFS的路徑numMapTasks設(shè)置Map的個(gè)數(shù),一般取計(jì)算集群核個(gè)數(shù)的4倍numReduceTasks設(shè)置Reduce的個(gè)數(shù),一般取計(jì)算集群核個(gè)數(shù)的2倍learningRate設(shè)置神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率,默認(rèn)為0.6moment設(shè)置神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)沖量,默認(rèn)為0.9middleNum設(shè)置神經(jīng)網(wǎng)絡(luò)的中間層數(shù)目,默認(rèn)為5middlePopulation設(shè)置神經(jīng)網(wǎng)絡(luò)的各個(gè)中間層上節(jié)點(diǎn)的數(shù)目,每一層的節(jié)點(diǎn)數(shù)用,隔開。比如有兩個(gè)中間層,各有x個(gè)和y個(gè)節(jié),則參數(shù)配置為x,ymin_success_ratio期望達(dá)到的最小成功率,默認(rèn)為0.7index預(yù)測(cè)利用的屬性,默認(rèn)為出來目標(biāo)屬性外所有的整形和浮點(diǎn)型的屬性TargetIndex要預(yù)測(cè)的目
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國孕婦裝行業(yè)競(jìng)爭(zhēng)格局及發(fā)展?jié)摿ρ芯繄?bào)告
- 2024-2030年中國城市公共汽車客運(yùn)行業(yè)運(yùn)營模式及發(fā)展規(guī)劃分析報(bào)告
- 2024-2030年中國地板椅項(xiàng)目可行性研究報(bào)告
- 2024-2030年中國圖書零售連鎖行業(yè)運(yùn)行狀況及投資發(fā)展前景預(yù)測(cè)報(bào)告
- 2024-2030年中國回收自控系統(tǒng)項(xiàng)目申請(qǐng)報(bào)告
- 2024-2030年中國啤酒行業(yè)市場(chǎng)營銷模式及投資前景展望報(bào)告
- 2024-2030年中國原青花素行業(yè)需求規(guī)模及投資價(jià)值調(diào)研報(bào)告
- 2024年版權(quán)購買合同購買價(jià)格及版權(quán)范圍
- 2024年桶裝水品牌形象設(shè)計(jì)與宣傳推廣服務(wù)協(xié)議3篇
- 茂名職業(yè)技術(shù)學(xué)院《電子競(jìng)技用戶分析》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年人教版八年級(jí)地理上冊(cè)期末考試卷(附答案)
- 2024年初中七年級(jí)英語上冊(cè)單元寫作范文(新人教版)
- 2025年蛇年年會(huì)匯報(bào)年終總結(jié)大會(huì)模板
- 2024年度國家公務(wù)員考試公共基礎(chǔ)知識(shí)復(fù)習(xí)試卷及答案(共四套)
- 中國高血壓防治指南(2024年修訂版)解讀-治療篇
- 內(nèi)審檢查表完整版本
- 2024年秋季國家開放大學(xué)《形勢(shì)與政策》大作業(yè)及答案
- 上海市復(fù)旦附中2025屆高一上數(shù)學(xué)期末檢測(cè)模擬試題含解析
- 義務(wù)教育勞動(dòng)課程標(biāo)準(zhǔn)2022年版考試題庫及答案5
- 《社會(huì)調(diào)查研究與方法》形成性考核冊(cè)及參考答案
- 腫瘤所治療所致血小板減少癥診療指南
評(píng)論
0/150
提交評(píng)論