大大數(shù)據(jù)考試的題目_第1頁
大大數(shù)據(jù)考試的題目_第2頁
大大數(shù)據(jù)考試的題目_第3頁
大大數(shù)據(jù)考試的題目_第4頁
大大數(shù)據(jù)考試的題目_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

實(shí)用標(biāo)準(zhǔn)文案精彩文檔注:考生屬哪種類別請劃“√”(博士、在校碩士、工程碩士、師資碩士、同等學(xué)力、研究生班)√遼寧工程技術(shù)大學(xué)研究生考試試卷考試時(shí)間:2015年7月14日考試科目: 考生姓名:評(píng)卷人:考試分?jǐn)?shù):注意事項(xiàng)1、考前研究生將上述項(xiàng)目填寫清楚2、字跡要清楚,保持卷面清潔3、試題、試卷一齊交監(jiān)考老師4、教師將試題、試卷、成績單,一起送研究生學(xué)院;專業(yè)課報(bào)所在院、系大數(shù)據(jù)及存儲(chǔ)技術(shù)課程考試題簽大數(shù)據(jù)的定義、特征及面臨的主要問題。答:最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基金學(xué),創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。大數(shù)據(jù)并非一個(gè)確切的概念,尚未有一個(gè)確切、統(tǒng)一的定義。目前關(guān)于大數(shù)據(jù)的幾個(gè)主流定義有:(1)研究機(jī)構(gòu)Gartner的定義,大數(shù)據(jù)是指需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。(2)維基百科的定義,大數(shù)據(jù)是指利用常用軟件工具來獲取、管理和處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間的數(shù)據(jù)集。(3)麥肯錫的定義,大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。(4)IDC的定義,大數(shù)據(jù)一般會(huì)涉及兩種或兩種以上的數(shù)據(jù)形式,它要收集超過100TB的數(shù)據(jù),并且是高速、實(shí)時(shí)數(shù)據(jù)流;或者是從小數(shù)據(jù)開始,但數(shù)據(jù)每年會(huì)增長60%以上。(5)大數(shù)據(jù)科學(xué)家JohnRauser提到了一個(gè)簡單的定義,大數(shù)據(jù)就是超過了任何一個(gè)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。大數(shù)據(jù)有四個(gè)基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價(jià)值密度低(Value),即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。大數(shù)據(jù)的概念與“海量數(shù)據(jù)”不同,后者只強(qiáng)調(diào)數(shù)據(jù)的量,而大數(shù)據(jù)不僅用來描述大量的數(shù)據(jù),還更進(jìn)一步指出數(shù)據(jù)的復(fù)雜形式、數(shù)據(jù)的快速時(shí)間特性以及對數(shù)據(jù)的分析、處理等專業(yè)化處理,最終獲得有價(jià)值信息的能力。大數(shù)據(jù)面臨的問題:大數(shù)據(jù)已成為繼物力和人力資源的另一重要資源,將在社會(huì)經(jīng)濟(jì)發(fā)展過程中發(fā)揮不可替代的作用;大數(shù)據(jù)及相關(guān)技術(shù)可轉(zhuǎn)化為巨大的社會(huì)經(jīng)濟(jì)價(jià)值,被譽(yù)為“未來的新石油”。大數(shù)據(jù)在金融、零售、電影等念和行業(yè)取得的成功僅是其價(jià)值體現(xiàn)的冰山一角。然而,由于大數(shù)據(jù)的多源異構(gòu)、復(fù)雜多樣、變化快等特點(diǎn),使得大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理、數(shù)據(jù)分析以及信息安全面臨著新的挑戰(zhàn)。大數(shù)據(jù)時(shí)代下的數(shù)據(jù)管理機(jī)制不同于傳統(tǒng)方式。大數(shù)據(jù)時(shí)代下,數(shù)據(jù)的增長速度遠(yuǎn)遠(yuǎn)超過存儲(chǔ)空間的增長速度,現(xiàn)有的數(shù)據(jù)管理方法已不能適用于海量多源異構(gòu)數(shù)據(jù)在多種存儲(chǔ)設(shè)備之間頻繁密集流動(dòng),不同的應(yīng)用對于數(shù)據(jù)傳輸“時(shí)效性”和“完整性”的要求也不盡相同。因此需要研發(fā)新型存儲(chǔ)技術(shù)、傳輸交換機(jī)理,以滿足大數(shù)據(jù)時(shí)代對數(shù)據(jù)的海量存儲(chǔ)以及數(shù)據(jù)跨層、跨域、實(shí)時(shí)和完整的傳輸需求。大數(shù)據(jù)的規(guī)模效應(yīng)沖擊著傳統(tǒng)的數(shù)據(jù)分析方法。傳統(tǒng)的數(shù)據(jù)分析方法主要是針對規(guī)模較小的結(jié)構(gòu)化數(shù)據(jù),且已形成一套行之有效的分析體系。大數(shù)據(jù)的出現(xiàn)將變革傳統(tǒng)的思維方式。大數(shù)據(jù)的精髓在于我們分析信息時(shí)的三個(gè)轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會(huì)的方法。第一個(gè)轉(zhuǎn)變就是,在大數(shù)據(jù)時(shí)代,我們可以分析更多的數(shù)據(jù),有時(shí)候甚至處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再是依賴于隨機(jī)采樣。第二個(gè)轉(zhuǎn)變就是,研究數(shù)據(jù)之多,以至于我們不再熱衷于追求精確度。第三個(gè)轉(zhuǎn)變因前兩個(gè)轉(zhuǎn)變而成,即我們不再熱衷于尋找因果關(guān)系,而是尋找事物之間的相關(guān)關(guān)系。另外,由于大數(shù)據(jù)時(shí)代對數(shù)據(jù)分析實(shí)時(shí)性的要求,傳統(tǒng)的數(shù)據(jù)分析方法不能直接移植于大數(shù)據(jù)時(shí)代,必須做相應(yīng)的改變才能適用于大數(shù)據(jù)的分析與處理。此外,大數(shù)據(jù)時(shí)代信息安全問題逐漸成為各國研究的熱點(diǎn)。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的公開非常必要,政府可以用其分析和了解整個(gè)國民經(jīng)濟(jì)社會(huì)的運(yùn)行情況,以便更好地指導(dǎo)社會(huì)的運(yùn)行;企業(yè)可以分析和了解客戶的行為特征,推出針對性的產(chǎn)品和服務(wù),最大化其利益等。但是,數(shù)據(jù)的公開和隱私保護(hù)是相互沖突的兩個(gè)方面。雖然大數(shù)據(jù)時(shí)代下隱私保護(hù)技術(shù)已取得重大成果,比如數(shù)據(jù)匿名方法和差分隱私保護(hù)技術(shù)等,但2013年十大信息泄密事件表明現(xiàn)在的隱私保護(hù)技術(shù)仍不能完全保證信息的安全。如何在保證信息安全的前提下進(jìn)行最大化的數(shù)據(jù)價(jià)值挖掘還有很長一段路要走。另外,大數(shù)據(jù)時(shí)代下人才的缺失、大數(shù)據(jù)的可視化分析以及技術(shù)和商業(yè)模式的創(chuàng)新也都是我們面對和亟需解決的問題。產(chǎn)生大數(shù)據(jù)主要有哪些行業(yè)或領(lǐng)域,指出一個(gè)行業(yè)或研究領(lǐng)域的應(yīng)用情況或研究進(jìn)展。答:產(chǎn)生大數(shù)據(jù)主要涉及以下領(lǐng)域領(lǐng)域,包括商業(yè)智能軟件、數(shù)據(jù)中心建設(shè)與維護(hù)、信息安全、IT咨詢和方案實(shí)施、數(shù)據(jù)處理、分析環(huán)節(jié)以及綜合處理、語音識(shí)別、視頻識(shí)別等。隨著數(shù)據(jù)的進(jìn)一步集中和數(shù)據(jù)量的增大,對海量數(shù)據(jù)進(jìn)行安全防護(hù)變得更加困難,數(shù)據(jù)的分布式處理也加大了數(shù)據(jù)泄露的風(fēng)險(xiǎn),信息安全正成為制約大數(shù)據(jù)技術(shù)發(fā)展的瓶頸。一是大數(shù)據(jù)成為網(wǎng)絡(luò)攻擊的顯著目標(biāo)。在網(wǎng)絡(luò)空間,大數(shù)據(jù)是更容易被“發(fā)現(xiàn)”的大目標(biāo)。一方面,大數(shù)據(jù)意味著海量的數(shù)據(jù),也意味著更復(fù)雜、更敏感的數(shù)據(jù),這些數(shù)據(jù)會(huì)吸引更多的潛在攻擊者。另一方面,數(shù)據(jù)的大量匯集,使得黑客成功攻擊一次就能獲得更多數(shù)據(jù),無形中降低了黑客的進(jìn)攻成本,增加了“收益率”。二是大數(shù)據(jù)加大隱私泄露風(fēng)險(xiǎn)。大量數(shù)據(jù)的匯集不可避免地加大了用戶隱私泄露的風(fēng)險(xiǎn)。一方面,數(shù)據(jù)集中存儲(chǔ)增加了泄露風(fēng)險(xiǎn);而這些數(shù)據(jù)不被濫用,也成為人身安全的一部分;另一方面,一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒有明確界定,很多基于大數(shù)據(jù)的分析都未考慮到其中涉及的個(gè)體隱私問題。三是大數(shù)據(jù)威脅現(xiàn)有的存儲(chǔ)和安防措施。大數(shù)據(jù)存儲(chǔ)帶來新的安全問題。數(shù)據(jù)大集中的后果是復(fù)雜多樣的數(shù)據(jù)存儲(chǔ)在一起,很可能會(huì)出現(xiàn)將某些生產(chǎn)數(shù)據(jù)放在經(jīng)營數(shù)據(jù)存儲(chǔ)位置的情況,致使企業(yè)安全管理不合規(guī)。大數(shù)據(jù)的大小也影響到安全控制措施能否正確運(yùn)行。安全防護(hù)手段的更新升級(jí)速度無法跟上數(shù)據(jù)量非線性增長的步伐,就會(huì)暴露大數(shù)據(jù)安全防護(hù)的漏洞。四是大數(shù)據(jù)技術(shù)成為黑客的攻擊手段。在企業(yè)用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取商業(yè)價(jià)值的同時(shí),黑客也在利用這些大數(shù)據(jù)技術(shù)向企業(yè)發(fā)起攻擊。黑客會(huì)最大限度地收集更多有用信息,比如社交網(wǎng)絡(luò)、郵件、微博、電子商務(wù)、電話和家庭住址等信息,大數(shù)據(jù)分析使黑客的攻擊更加精準(zhǔn)。此外,大數(shù)據(jù)也為黑客發(fā)起攻擊提供了更多機(jī)會(huì)。黑客利用大數(shù)據(jù)發(fā)起僵尸網(wǎng)絡(luò)攻擊,可能會(huì)同時(shí)控制上百萬臺(tái)傀儡機(jī)并發(fā)起攻擊。五是大數(shù)據(jù)成為高級(jí)可持續(xù)攻擊的載體。傳統(tǒng)的檢測是基于單個(gè)時(shí)間點(diǎn)進(jìn)行的基于威脅特征的實(shí)時(shí)匹配檢測,而高級(jí)可持續(xù)攻擊(APT)是一個(gè)實(shí)施過程,無法被實(shí)時(shí)檢測。此外,大數(shù)據(jù)的價(jià)值低密度性,使得安全分析工具很難聚焦在價(jià)值點(diǎn)上,黑客可以將攻擊隱藏在大數(shù)據(jù)中,給安全服務(wù)提供商的分析制造很大困難。黑客設(shè)置的任何一個(gè)會(huì)誤導(dǎo)安全廠商目標(biāo)信息提取和檢索的攻擊,都會(huì)導(dǎo)致安全監(jiān)測偏離應(yīng)有方向。六是大數(shù)據(jù)技術(shù)為信息安全提供新支撐。當(dāng)然,大數(shù)據(jù)也為信息安全的發(fā)展提供了新機(jī)遇。大數(shù)據(jù)正在為安全分析提供新的可能性,對于海量數(shù)據(jù)的分析有助于信息安全服務(wù)提供商更好地刻畫網(wǎng)絡(luò)異常行為,從而找出數(shù)據(jù)中的風(fēng)險(xiǎn)點(diǎn)。對實(shí)時(shí)安全和商務(wù)數(shù)據(jù)結(jié)合在一起的數(shù)據(jù)進(jìn)行預(yù)防性分析,可識(shí)別釣魚攻擊,防止詐騙和阻止黑客入侵。網(wǎng)絡(luò)攻擊行為總會(huì)留下蛛絲馬跡,這些痕跡都以數(shù)據(jù)的形式隱藏在大數(shù)據(jù)中,利用大數(shù)據(jù)技術(shù)整合計(jì)算和處理資源有助于更有針對性地應(yīng)對信息安全威脅,有助于找到攻擊的源頭。何謂科學(xué)研究的四個(gè)范式?各自所處時(shí)代及研究方法。答:科學(xué)研究的四個(gè)范式如下:(1)幾千年前的科學(xué),以記錄和描述自然現(xiàn)象為主,稱為“實(shí)驗(yàn)科學(xué)”,即第一范式,其典型案例如鉆木取火;(2)數(shù)百年前,科學(xué)家們開始利用模型歸納總結(jié)過去記錄的現(xiàn)象,發(fā)展出“理論科學(xué)”,即第二范式,其典型案例如牛頓三定律、麥克斯韋方程組、相對論等;(3)過去數(shù)十年,科學(xué)計(jì)算機(jī)的出現(xiàn),誕生了“計(jì)算科學(xué)”,對復(fù)雜現(xiàn)象進(jìn)行模擬仿真,推演出越來越多復(fù)雜的現(xiàn)象,其典型案例如模擬核試驗(yàn)、天氣預(yù)報(bào)等;(4)今天,以及未來科學(xué)的發(fā)展趨勢是,隨著數(shù)據(jù)量的高速增長,計(jì)算機(jī)將不僅僅能做模擬仿真,還能進(jìn)行分析總結(jié),得到理論。也就是說,過去由牛頓、愛因斯坦等科學(xué)家從事的工作,未來可以由計(jì)算機(jī)來做。JimGray將這種科學(xué)研究的方式,成為第四范式,即數(shù)據(jù)密集型科學(xué)。圖示大數(shù)據(jù)分析的基本流程,各步驟的主要工作。答:數(shù)據(jù)抽取與集成:從中提取出關(guān)系和實(shí)體,經(jīng)過關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的結(jié)構(gòu)來存儲(chǔ)這些數(shù)據(jù)。在數(shù)據(jù)集成和提取是需要對數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)質(zhì)量。數(shù)據(jù)分析:是整個(gè)大數(shù)據(jù)處理流程的核心。從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成數(shù)據(jù)分析的原始數(shù)據(jù),根據(jù)不同應(yīng)用需求從這些數(shù)據(jù)中選擇全部或部分進(jìn)行分析。數(shù)據(jù)解釋:大數(shù)據(jù)處理的核心。進(jìn)行可視化、數(shù)據(jù)出處以及人機(jī)交互。如果分析的結(jié)果正確但沒有采用適當(dāng)?shù)慕忉尫椒?,所得到的結(jié)果很可能讓用戶難以理解。五、MapReduce模型的執(zhí)行步驟,其核心思想及主要技術(shù)有哪些?答:MapReduce主要包括兩個(gè)步驟:Map和Reduce。每一步都有key-value對作為輸入和輸出:Map階段的key-value對的格式是由輸入的格式所決定的,則每行作為一個(gè)記錄進(jìn)程處理,其中key為此行的開頭相對于文件的起始位置,value就是此行的字符文本Map階段的輸出的key-value對的格式必須同Reduce階段的輸入key-value對的格式相對應(yīng)。每個(gè)階段都將一系列key-value對作為輸入和輸出,其中的鍵和值的類型為MapReduce用戶指定。用戶同時(shí)指定兩個(gè)函數(shù):map函數(shù)和reduce函數(shù)。用戶自定義的map函數(shù),接受一個(gè)輸入key-value對,然后產(chǎn)生一系列臨時(shí)中間key-value對。我們把所有具有相同中間key的臨時(shí)key-value對聚合在一起,然后把它們傳遞給reduce函數(shù)。用戶自定義的reduce函數(shù),接受一個(gè)中間key和相關(guān)的一個(gè)value集。它合并這些value,形成一個(gè)比較小的value集。通常,每次reduce調(diào)用只產(chǎn)生1個(gè)輸出value。以這種函數(shù)式編寫的程序能自動(dòng)的在大規(guī)模的普通機(jī)器上并行的執(zhí)行。MapReduce核心思想是對大數(shù)據(jù)并行處理,分而治之。做一個(gè)計(jì)算,如果計(jì)算過程中如果數(shù)據(jù)傳輸消耗的資源大于計(jì)算消耗的資源,考慮在計(jì)算過程中,將算法(程序)移動(dòng)到數(shù)據(jù)存放的服務(wù)器中,再進(jìn)行計(jì)算。其主要技術(shù):(1)數(shù)據(jù)劃分和計(jì)算任務(wù)調(diào)度。(2)數(shù)據(jù)/代碼互定位。(3)系統(tǒng)優(yōu)化。(4)出錯(cuò)檢測和恢復(fù)。試給出詞頻計(jì)算或密碼統(tǒng)計(jì)的MapReduce計(jì)算過程及其實(shí)現(xiàn)函數(shù)。答:Map函數(shù)和Reduce函數(shù)是交給用戶實(shí)現(xiàn)的,這兩個(gè)函數(shù)定義了任務(wù)本身。Map函數(shù):接受一個(gè)鍵值對(key-valuepair),產(chǎn)生一組中間鍵值對。MapReduce框架會(huì)將Map函數(shù)產(chǎn)生的中間鍵值對里鍵相同的值傳遞給一個(gè)Reduce函數(shù)。Reduce函數(shù):接受一個(gè)鍵,以及相關(guān)的一組值,將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值(通常只有一個(gè)或零個(gè)值)。統(tǒng)計(jì)詞頻的MapReduce函數(shù)的核心代碼主要實(shí)現(xiàn)這兩個(gè)函數(shù)。map(Stringkey,Stringvalue)://key:documentname//value:documentcontentsforeachwordwinvalue:EmitIntermediate(w,"1");reduce(Stringkey,Iteratorvalues)://key:aword//values:alistofcountsintresult=0;foreachvinvalues:result+=ParseInt(v);Emit(AsString(result));在統(tǒng)計(jì)詞頻的例子里,map函數(shù)接受的鍵是文件名,值是文件的內(nèi)容,map逐個(gè)遍歷單詞,每遇到一個(gè)單詞w,就產(chǎn)生一個(gè)中間鍵值對,這表示單詞w咱又找到了一個(gè);MapReduce將鍵相同(都是單詞w)的鍵值對傳給Reduce函數(shù),這樣Reduce函數(shù)接受的鍵就是單詞w,值是一串"1"(最基本的實(shí)現(xiàn)是這樣,但可以優(yōu)化),個(gè)數(shù)等于鍵為w的鍵值對的個(gè)數(shù),然后將這些"1"累加就得到單詞w的出現(xiàn)次數(shù)。最后這些單詞的出現(xiàn)次數(shù)會(huì)被寫到用戶定義的位置,存儲(chǔ)在底層的分布式存儲(chǔ)系統(tǒng)。指出并行數(shù)據(jù)庫與MapReduce各自的優(yōu)缺點(diǎn)及生態(tài)。答:(1)并行數(shù)據(jù)庫是指那些在無共享的體系結(jié)構(gòu)中進(jìn)行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng)。這些系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢,但為了能夠并行執(zhí)行SQL的查詢操作,系統(tǒng)中采用了兩個(gè)關(guān)鍵技術(shù):關(guān)系表的水平劃分和SQL查詢的分區(qū)執(zhí)行。并行數(shù)據(jù)庫系統(tǒng)的目標(biāo)是高性能和高可用性,通過多個(gè)節(jié)點(diǎn)并行執(zhí)行數(shù)據(jù)庫任務(wù),提高整個(gè)數(shù)據(jù)庫系統(tǒng)的性能和可用性。最近一些年不斷涌現(xiàn)一些提高系統(tǒng)性能的新技術(shù),如索引、壓縮、實(shí)體化視圖、結(jié)果緩存、I/O共享等,這些技術(shù)都比較成熟且經(jīng)得起時(shí)間的考驗(yàn)。與一些早期的系統(tǒng)如Teradata必須部署在專有硬件上不同,最近開發(fā)的系統(tǒng)如Aster、Vertica等可以部署在普通的商業(yè)機(jī)器上,這些數(shù)據(jù)庫系統(tǒng)可以稱得上準(zhǔn)云系統(tǒng)。并行數(shù)據(jù)庫系統(tǒng)的主要缺點(diǎn)就是沒有較好的彈性,而這種特性對中小型企業(yè)和初創(chuàng)企業(yè)是有利的。人們在對并行數(shù)據(jù)庫進(jìn)行設(shè)計(jì)和優(yōu)化的時(shí)候認(rèn)為集群中節(jié)點(diǎn)的數(shù)量是固定的,若需要對集群進(jìn)行擴(kuò)展和收縮,則必須為數(shù)據(jù)轉(zhuǎn)移過程制訂周全的計(jì)劃。這種數(shù)據(jù)轉(zhuǎn)移的代價(jià)是昂貴的,并且會(huì)導(dǎo)致系統(tǒng)在某段時(shí)間內(nèi)不可訪問,而這種較差的靈活性直接影響到并行數(shù)據(jù)庫的彈性以及現(xiàn)用現(xiàn)付商業(yè)模式的實(shí)用性。并行數(shù)據(jù)庫的另一個(gè)問題就是系統(tǒng)的容錯(cuò)性較差,過去人們認(rèn)為節(jié)點(diǎn)故障是個(gè)特例,并不經(jīng)常出現(xiàn),因此系統(tǒng)只提供事務(wù)級(jí)別的容錯(cuò)功能,如果在查詢過程中節(jié)點(diǎn)發(fā)生故障,那么整個(gè)查詢都要從頭開始重新執(zhí)行。這種重啟任務(wù)的策略使得并行數(shù)據(jù)庫難以在擁有數(shù)以千個(gè)節(jié)點(diǎn)的集群上處理較長的查詢,因?yàn)樵谶@類集群中節(jié)點(diǎn)的故障經(jīng)常發(fā)生?;谶@種分析,并行數(shù)據(jù)庫只適合于資源需求相對固定的應(yīng)用程序。不管怎樣,并行數(shù)據(jù)庫的許多設(shè)計(jì)原則為其他海量數(shù)據(jù)系統(tǒng)的設(shè)計(jì)和優(yōu)化提供了比較好的借鑒。(2)MapReduce的優(yōu)點(diǎn),主要有兩個(gè)方面:其一,通過MapReduce這個(gè)分布式處理框架,不僅能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細(xì)節(jié)隱藏起來,比如,自動(dòng)并行化、負(fù)載均衡和災(zāi)備管理等,這樣將極大地簡化程序員的開發(fā)工作;其二,MapReduce的伸縮性非常好,也就是說,每增加一臺(tái)服務(wù)器,其就能將差不多的計(jì)算能力接入到集群中,而過去的大多數(shù)分布式處理框架,在伸縮性方面都與MapReduce相差甚遠(yuǎn)。MapReduce最大的不足則在于,其不適應(yīng)實(shí)時(shí)應(yīng)用的需求,所以在Google最新的實(shí)時(shí)性很強(qiáng)的Caffeine搜索引擎中,MapReduce的主導(dǎo)地位已經(jīng)被可用于實(shí)時(shí)處理Percolator系統(tǒng)所代替。MapReduce最早應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)處理領(lǐng)域,如Google中創(chuàng)建倒排索引,計(jì)算pagerank等操作,也被廣泛應(yīng)用于文檔處理應(yīng)用中。但近年來的發(fā)展趨勢是逐漸由非結(jié)構(gòu)化大數(shù)據(jù)處理轉(zhuǎn)向類似結(jié)構(gòu)化大數(shù)據(jù)倉庫應(yīng)用領(lǐng)域,如用戶LOG日志分析處理等,以TPC-H負(fù)載為代表的表間連接操作優(yōu)化技術(shù)也成為MapReduce重要的研究課題。當(dāng)前的產(chǎn)業(yè)界正在嘗試將數(shù)據(jù)庫與MapReduce進(jìn)行集成。Greenplum和AsterData采用的是在MPP并行數(shù)據(jù)庫內(nèi)置對MapReduce的支持,實(shí)現(xiàn)數(shù)據(jù)庫和MapReduce的雙引擎融合,同時(shí)通過MapReduce擴(kuò)展數(shù)據(jù)庫對分析軟件的支持。何謂NoSQL?其三大理論基礎(chǔ)是什么,各自簡單說明。答:隨著web2.0的快速發(fā)展,非關(guān)系型、分布式數(shù)據(jù)存儲(chǔ)得到了快速的發(fā)展,它們不保證關(guān)系數(shù)據(jù)的ACID特性。NoSQL概念在2009年被提了出來。NoSQL最常見的解釋是“non-relational”,“NotOnlySQL”即“不僅僅是SQL”也被很多人接受。其三大理論為CAP理論、BASE思想和最終一致性。CAP理論:解釋為一致性(consistency):一個(gè)數(shù)據(jù)系統(tǒng)如何處理讀寫操作的一致性問題。分布式系統(tǒng)對于一致性的要求為當(dāng)更新寫入操作完成時(shí),其余讀取操作需要及時(shí)看到數(shù)據(jù)的更新。當(dāng)然有些系統(tǒng)對于一致性有更嚴(yán)格定義上的要求。性能(availability)一個(gè)系統(tǒng)能夠持續(xù)不間斷使用的問題。嚴(yán)格定義上的高性能可用性意味著一個(gè)系統(tǒng)從設(shè)計(jì)到實(shí)施都應(yīng)該能夠提供可持續(xù)的操作(如讀寫操作),無論是操作沖突,還是軟硬件部分因?yàn)樯?jí)而導(dǎo)致失效。分區(qū)容忍性(partitiontolerance)可以被理解為系統(tǒng)在提供持續(xù)性操作時(shí)分區(qū)處理的能力。一旦開始將數(shù)據(jù)和邏輯分布在不同的節(jié)點(diǎn)上,就有形成分區(qū)的風(fēng)險(xiǎn)。一些人認(rèn)為分區(qū)容忍性也可以理解為一個(gè)系統(tǒng)靈活處理節(jié)點(diǎn)的增加和去除的能力。BASE思想:BASE思想實(shí)際上是CAP理論中AP的擴(kuò)展。它通過犧牲高一致性,保證高可用性和分區(qū)容忍性。它同時(shí)也是ACID,即原子性、一致性、隔離性和持久性的意思。BASE在英文中有基本的意思,也可以說實(shí)際上強(qiáng)調(diào)的就是能保證連續(xù)“基本”可用的一種模型。BASE思想的組成有以下3個(gè)部分:基本可用、軟狀態(tài)、最終一致性。BASE模式指的是一個(gè)應(yīng)用在任意時(shí)間首先應(yīng)該能完成最基本化的工作,并不需要總是一致,但最終應(yīng)該是一致的。ACID和BASE應(yīng)該被看作同一范疇內(nèi)的互相補(bǔ)充品,而不是替代品。最終一致性:有兩種方式看待一致性。一種是從開發(fā)者/客戶端的角度,如何觀察數(shù)據(jù)更新;另一種是從服務(wù)器端,更新如何在系統(tǒng)中流動(dòng)以及對于更新系統(tǒng)能提供什么樣的保證??蛻舳擞^察到的一致性指的是何時(shí)以及如何能觀察到對存儲(chǔ)系統(tǒng)中的數(shù)據(jù)對象所做的更新。對于一致性的解釋,根據(jù)強(qiáng)度的不同,分為強(qiáng)一致性和弱一致性兩種。最終一致性屬于弱一致性的一種,即存儲(chǔ)系統(tǒng)保證如果沒有新的更新提交,最終所有的訪問都將獲得最后的更新。如果沒有故障發(fā)生,不一致性取決于通信時(shí)延、系統(tǒng)負(fù)載以及復(fù)制策略中涉及的副本數(shù)。實(shí)現(xiàn)最終一致性最常見的系統(tǒng)是DNS。根據(jù)name更新傳播、配置模式以及時(shí)間控制的緩存,最終所有節(jié)點(diǎn)都會(huì)看到更新。弱一致性的系統(tǒng)能夠同時(shí)提供更多元化和針對性的操作方案。保證分布式環(huán)境下NoSQL的擴(kuò)展性、容錯(cuò)性和可靠性的技術(shù)有哪些?答:Cassandra故障恢復(fù)以及數(shù)據(jù)一致性、Cassandra的一致性哈希算法、HBase的失敗因子和恢復(fù)方法、HDFS、MongoDB中的復(fù)制和故障恢復(fù)。系統(tǒng)的可擴(kuò)展性是推動(dòng)NoSQL運(yùn)動(dòng)發(fā)展的的主要理由,包含了分布式系統(tǒng)協(xié)調(diào),故障轉(zhuǎn)移,資源管理和許多其他特性。這么講使得NoSQL聽起來像是一個(gè)大筐,什么都能塞進(jìn)去。盡管NoSQL運(yùn)動(dòng)并沒有給分布式數(shù)據(jù)處理帶來根本性的技術(shù)變革,但是依然引發(fā)了鋪天蓋地的關(guān)于各種協(xié)議和算法的研究以及實(shí)踐。正是通過這些嘗試逐漸總結(jié)出了一些行之有效的數(shù)據(jù)庫構(gòu)建方法。在這篇文章里,我將針對NoSQL數(shù)據(jù)庫的分布式特點(diǎn)進(jìn)行一些系統(tǒng)化的描述。接下來我們將研究一些分布式策略,比如故障檢測中的復(fù)制,這些策略用黑體字標(biāo)出,被分為三段:(1)數(shù)據(jù)一致性。NoSQL需要在分布式系統(tǒng)的一致性,容錯(cuò)性和性能,低延遲及高可用之間做出權(quán)衡,一般來說,數(shù)據(jù)一致性是一個(gè)必選項(xiàng),所以這一節(jié)主要是關(guān)于數(shù)據(jù)復(fù)制和數(shù)據(jù)恢復(fù)。(2)數(shù)據(jù)放置。一個(gè)數(shù)據(jù)庫產(chǎn)品應(yīng)該能夠應(yīng)對不同的數(shù)據(jù)分布,集群拓?fù)浜陀布渲?。在這一節(jié)我們將討論如何分布以及調(diào)整數(shù)據(jù)分布才能夠及時(shí)解決故障,提供持久化保證,高效查詢和保證集群中的資源(如內(nèi)存和硬盤空間)得到均衡使用。(3)對等系統(tǒng)。像leaderelection這樣的技術(shù)已經(jīng)被用于多個(gè)數(shù)據(jù)庫產(chǎn)品以實(shí)現(xiàn)容錯(cuò)和數(shù)據(jù)強(qiáng)一致性。然而,即使是分散的數(shù)據(jù)庫(無中心)也要跟蹤它們的全局狀態(tài),檢測故障和拓?fù)渥兓?。這一節(jié)將介紹幾種使系統(tǒng)保持一致狀態(tài)的技術(shù)。數(shù)據(jù)一致性眾所周知,分布式系統(tǒng)經(jīng)常會(huì)遇到網(wǎng)絡(luò)隔離或是延遲的情況,在這種情況下隔離的部分是不可用的,因此要保持高可用性而不犧牲一致性是不可能的。這一事實(shí)通常被稱作“CAP理論”。然而,一致性在分布式系統(tǒng)中是一個(gè)非常昂貴的東西,所以經(jīng)常需要在這上面做一些讓步,不只是針對可用性,還有多種權(quán)衡。為了研究這些權(quán)衡,我們注意到分布式系統(tǒng)的一致性問題是由數(shù)據(jù)隔離和復(fù)制引起的,所以我們將從研究復(fù)制的特點(diǎn)開始:(1)可用性。在網(wǎng)絡(luò)隔離的情況下剩余部分仍然可以應(yīng)對讀寫請求。(2)讀寫延遲。讀寫請求能夠在短時(shí)間內(nèi)處理。(3)讀寫延展性。讀寫的壓力可由多個(gè)節(jié)點(diǎn)均衡分擔(dān)。(4)容錯(cuò)性。對于讀寫請求的處理不依賴于任何一個(gè)特定節(jié)點(diǎn)。(5)數(shù)據(jù)持久性。特定條件下的節(jié)點(diǎn)故障不會(huì)造成數(shù)據(jù)丟失。(6)一致性。一致性比前面幾個(gè)特性都要復(fù)雜得多,我們需要詳細(xì)討論一下幾種不同的觀點(diǎn)。但是我們不會(huì)涉及過多的一致性理論和并發(fā)模型,因?yàn)檫@已經(jīng)超出了本文的范疇,我只會(huì)使用一些簡單特點(diǎn)構(gòu)成的精簡體系。讀寫一致性。從讀寫的觀點(diǎn)來看,數(shù)據(jù)庫的基本目標(biāo)是使副本趨同的時(shí)間盡可能短(即更新傳遞到所有副本的時(shí)間),保證最終一致性。除了這個(gè)較弱的保證,還有一些更強(qiáng)的一致性特點(diǎn):寫后讀一致性。在數(shù)據(jù)項(xiàng)X上寫操作的效果總是能夠被后續(xù)的X上的讀操作看見。讀后讀一致性。在一次對數(shù)據(jù)項(xiàng)X的讀操作之后,后續(xù)對X的讀操作應(yīng)該返回與第一次的返回值相同或是更加新的值。寫一致性。分區(qū)的數(shù)據(jù)庫經(jīng)常會(huì)發(fā)生寫沖突。數(shù)據(jù)庫應(yīng)當(dāng)能處理這種沖突并保證多個(gè)寫請求不會(huì)被不同的分區(qū)所處理。這方面數(shù)據(jù)庫提供了幾種不同的一致性模型:(1)原子寫。假如數(shù)據(jù)庫提供了API,一次寫操作只能是一個(gè)單獨(dú)的原子性的賦值,避免寫沖突的辦法是找出每個(gè)數(shù)據(jù)的“最新版本”。這使得所有的節(jié)點(diǎn)都能夠在更新結(jié)束時(shí)獲得同一版本,而與更新的順序無關(guān),網(wǎng)絡(luò)故障和延遲經(jīng)常造成各節(jié)點(diǎn)更新順序不一致。數(shù)據(jù)版本可以用時(shí)間戳或是用戶指定的值來表示。Cassandra用的就是這種方法。(2)原子化的讀-改-寫。應(yīng)用有時(shí)候需要進(jìn)行讀—改—寫序列操作而非單獨(dú)的原子寫操作。假如有兩個(gè)客戶端讀取了同一版本的數(shù)據(jù),修改并且把修改后的數(shù)據(jù)寫回,按照原子寫模型,時(shí)間上比較靠后的那一次更新將會(huì)覆蓋前一次。這種行為在某些情況下是不正確的(例如,兩個(gè)客戶端往同一個(gè)列表值中添加新值)。閱讀三篇大數(shù)據(jù)研究熱點(diǎn)或者新技術(shù)相關(guān)論文,介紹各論文的主要內(nèi)容(能結(jié)合自己的研究方向最好,不少于1000字)。1、架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望主要對MapReduce進(jìn)行介紹MapReduce是2004年由Google提出的面向大數(shù)據(jù)集處理的編程模型,起初主要用作互聯(lián)網(wǎng)數(shù)據(jù)的處理,例如文檔抓取、倒排索引的建立等。但由于其簡單而強(qiáng)大的數(shù)據(jù)處理接口和對大規(guī)模并行執(zhí)行、容錯(cuò)及負(fù)載均衡等實(shí)現(xiàn)細(xì)節(jié)的隱藏,該技術(shù)一經(jīng)推出便迅速在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等領(lǐng)域得到廣泛應(yīng)用。MapReduce將數(shù)據(jù)處理任務(wù)抽象為一系列的Map(映射)Reduce(化簡)操作對。Map主要完成數(shù)據(jù)的過濾操作,Reduce主要完成數(shù)據(jù)的聚集操作。輸入輸出數(shù)據(jù)均以<key,value>格式存儲(chǔ)。用戶在使用該編程模型時(shí),只需按照自己熟悉的語言實(shí)現(xiàn)Map函數(shù)和Reduce函即可,MapReduce框架會(huì)自動(dòng)對任務(wù)進(jìn)行劃分以做到并行執(zhí)行。下面將以基于MapReduce的開源實(shí)現(xiàn)Hadoop為主,對其主要特性進(jìn)行介紹。MapReduce是面向由數(shù)千臺(tái)中低端計(jì)算機(jī)組成的大規(guī)模機(jī)群而設(shè)計(jì)的,其擴(kuò)展能力得益于其shared-nothing結(jié)構(gòu)、各個(gè)節(jié)點(diǎn)間的松藕合性和較強(qiáng)的軟件級(jí)容錯(cuò)能力:節(jié)點(diǎn)可以被任意地從機(jī)群中移除,而幾乎不影響現(xiàn)有任務(wù)的執(zhí)行.該技術(shù)被稱為RAIN(Redundant/ReliableArrayofIndependent(andInexpensive)Nodes)。MapReduce卓越的擴(kuò)展能力已在工業(yè)界(Google,F(xiàn)acebook,Baidu,Taobao等)得到了充分驗(yàn)證。MapReduce對硬件的要求較低,可以基于異構(gòu)的廉價(jià)硬件來搭建機(jī)群,且免費(fèi)開源,因此其構(gòu)建成本低于并行數(shù)據(jù)庫。但基于MapReduce的應(yīng)用軟件相對較少,許多數(shù)據(jù)分析功能需要用戶自行開發(fā),從而會(huì)導(dǎo)致使用成本的增加。作為開源系統(tǒng),MapReduce具有完全的開放性:其<key,value>存儲(chǔ)模型具有較強(qiáng)的表現(xiàn)力,可以存儲(chǔ)任意格式的數(shù)據(jù);Map和Reduce兩個(gè)基本的函數(shù)接口也給用戶提供了足夠的發(fā)揮空間,可以實(shí)現(xiàn)各種復(fù)雜的數(shù)據(jù)處理功能.但這種開放性也帶來一個(gè)問題,就是將本來應(yīng)由數(shù)據(jù)庫管理系統(tǒng)完成的工作,諸如文件存儲(chǔ)格式的設(shè)計(jì)、模式信息的記錄、數(shù)據(jù)處理算法的實(shí)現(xiàn)等,轉(zhuǎn)移給了程序員,從而導(dǎo)致程序員負(fù)擔(dān)過重。程序員水平對系統(tǒng)處理性能起決定性作用。在某些情況下,寫MapReduce程序的時(shí)間遠(yuǎn)大于寫SQL語句的時(shí)間,部分復(fù)雜的BI報(bào)表分析,可能僅程序的編寫和調(diào)試就要耗費(fèi)幾天的時(shí)間?;贛apReduce平臺(tái)的分析,無需復(fù)雜的數(shù)據(jù)預(yù)處理和寫入數(shù)據(jù)庫的過程,而是可以直接基于平面文件進(jìn)行分析,并且其采用的計(jì)算模式是移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù),因此可以將分析延遲最小化。在同等硬件條件下,MapReduce性能遠(yuǎn)低于并行數(shù)據(jù)庫,這是由其最初的設(shè)計(jì)定位決定的。MapReduce的設(shè)計(jì)初衷是面向非結(jié)構(gòu)化數(shù)據(jù)的處理。這些數(shù)據(jù)具有數(shù)據(jù)量大,處理復(fù)雜等特點(diǎn),而且往往是一次性處理.為了獲得較好的擴(kuò)展能力和容錯(cuò)能力,MapReduce采取了基于掃描的處理模式和對中間結(jié)果步步物化的執(zhí)行策略,從而導(dǎo)致較高的I/0代價(jià)。為了減少數(shù)據(jù)預(yù)處理時(shí)間,MapReduce沒有使用模式、索引、物化視圖等技術(shù)手段。其數(shù)據(jù)預(yù)處理僅是一次數(shù)據(jù)加載操作,但由此導(dǎo)致了一個(gè)問題——較高的元組解析代價(jià)。在MapReduce環(huán)境下,每個(gè)查詢都是直接從文件系統(tǒng)中讀入原始數(shù)據(jù)文件,而非傳統(tǒng)的從數(shù)據(jù)庫中讀入經(jīng)處理過的文件,因此其元組解析代價(jià)遠(yuǎn)高于關(guān)系數(shù)據(jù)庫。對數(shù)據(jù)分析領(lǐng)域來說,連接是關(guān)鍵操作(如傳統(tǒng)的星型查詢和雪花查詢均是依賴于連接來處理查詢),但MapReduce處理連接的性能尤其不盡如人意。原因在于MapReduce最初是針對單數(shù)據(jù)集設(shè)計(jì)的處理模型,而連接操作往往涉及多個(gè)數(shù)據(jù)集。在利用MapReduce實(shí)現(xiàn)連接時(shí),最直接的方式是每個(gè)任務(wù)執(zhí)行一個(gè)屬陛上的連接操作,然后將多個(gè)MapReduce任務(wù)通過物化的中間結(jié)果串接起來.這種實(shí)現(xiàn)方式往往涉及中間結(jié)果的讀寫,從而導(dǎo)致大量的I/0操作和網(wǎng)絡(luò)傳輸。MapReduce目前基本不兼容現(xiàn)有的BI工具。原因在于其初衷并不是要成為數(shù)據(jù)庫系統(tǒng),因此它并未提供SQL接口。但已有研究致力于SQL語句與MapReduce任務(wù)的轉(zhuǎn)換工作(例如Hive),進(jìn)而有可能實(shí)現(xiàn)MapReduce與現(xiàn)存BI工具的兼容。2、不確定性數(shù)據(jù)管理技術(shù)研究近四十年來,傳統(tǒng)的確定性數(shù)據(jù)(deterministicdata)管理技術(shù)得到了極大的發(fā)展,造就了一個(gè)數(shù)百億的數(shù)據(jù)庫產(chǎn)業(yè).數(shù)據(jù)庫技術(shù)和系統(tǒng)已經(jīng)成為信息化社會(huì)基礎(chǔ)設(shè)施建設(shè)的重要支撐。在傳統(tǒng)數(shù)據(jù)庫的應(yīng)用中,數(shù)據(jù)的存在性和精確性均確定無疑。近年來,隨著技術(shù)的進(jìn)步和人們對數(shù)據(jù)采集和處理技術(shù)理解的不斷深入,不確定性數(shù)據(jù)(uncertaindata)得到了廣泛的重視.在許多現(xiàn)實(shí)的應(yīng)用中,例如經(jīng)濟(jì)、軍事、物流、金融、電信等領(lǐng)域,數(shù)據(jù)的不確定性普遍存在,不確定性數(shù)據(jù)扮演著關(guān)鍵角色。傳統(tǒng)的數(shù)據(jù)管理技術(shù)卻無法有效管理不確定性數(shù)據(jù),這就引發(fā)了學(xué)術(shù)界和工業(yè)界對研發(fā)新型的不確定性數(shù)據(jù)管理技術(shù)的興趣。不確定性數(shù)據(jù)的產(chǎn)生原因比較復(fù)雜。可能是原始數(shù)據(jù)本身不準(zhǔn)確或是采用了粗粒度的數(shù)據(jù)集合,也可能是為了滿足特殊應(yīng)用目的或是在處理缺失值、數(shù)據(jù)集成過程中而產(chǎn)生的。(1)原始數(shù)據(jù)不準(zhǔn)確。這是產(chǎn)生不確定性數(shù)據(jù)最直接的因素。首先,物理儀器所采集的數(shù)據(jù)的準(zhǔn)確度受儀器的精度制約。其次,在網(wǎng)絡(luò)傳輸(特別是無線網(wǎng)絡(luò)傳輸)過程中,數(shù)據(jù)的準(zhǔn)確性受到帶寬、傳輸延時(shí)、能量等因素影響。還有,在傳感器網(wǎng)絡(luò)應(yīng)用與RFID應(yīng)用等場合,周圍環(huán)境也會(huì)影響原始數(shù)據(jù)的準(zhǔn)確度。(2)使用粗粒度數(shù)據(jù)集合。很明顯,從粗粒度數(shù)據(jù)集合轉(zhuǎn)換到細(xì)粒度數(shù)據(jù)集合的過程會(huì)引入不確定性。例如,假設(shè)某人口分布數(shù)據(jù)庫以鄉(xiāng)為基礎(chǔ)單位記錄全國的人口數(shù)量,而某應(yīng)用卻要求查詢以村為基礎(chǔ)單位的人口數(shù)量,查詢結(jié)果就存在不確定性。(3)滿足特殊應(yīng)用目的。出于隱私保護(hù)等特殊目的,某些應(yīng)用無法獲取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論