大大數(shù)據(jù)考試的題目

上傳人：1*** IP屬地：湖北上傳時(shí)間：2023-11-05 格式：DOC 頁數(shù)：21 大?。?86.50KB 積分：6 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩16頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

實(shí)用標(biāo)準(zhǔn)文案精彩文檔注：考生屬哪種類別請劃“√”（博士、在校碩士、工程碩士、師資碩士、同等學(xué)力、研究生班）√遼寧工程技術(shù)大學(xué)研究生考試試卷考試時(shí)間：2015年7月14日考試科目：考生姓名：評(píng)卷人：考試分?jǐn)?shù)：注意事項(xiàng)1、考前研究生將上述項(xiàng)目填寫清楚2、字跡要清楚，保持卷面清潔3、試題、試卷一齊交監(jiān)考老師4、教師將試題、試卷、成績單，一起送研究生學(xué)院；專業(yè)課報(bào)所在院、系大數(shù)據(jù)及存儲(chǔ)技術(shù)課程考試題簽大數(shù)據(jù)的定義、特征及面臨的主要問題。答：最先經(jīng)歷信息爆炸的學(xué)科，如天文學(xué)和基金學(xué)，創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。大數(shù)據(jù)并非一個(gè)確切的概念，尚未有一個(gè)確切、統(tǒng)一的定義。目前關(guān)于大數(shù)據(jù)的幾個(gè)主流定義有：（1）研究機(jī)構(gòu)Gartner的定義，大數(shù)據(jù)是指需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。（2）維基百科的定義，大數(shù)據(jù)是指利用常用軟件工具來獲取、管理和處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間的數(shù)據(jù)集。（3）麥肯錫的定義，大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。（4）IDC的定義，大數(shù)據(jù)一般會(huì)涉及兩種或兩種以上的數(shù)據(jù)形式，它要收集超過100TB的數(shù)據(jù)，并且是高速、實(shí)時(shí)數(shù)據(jù)流；或者是從小數(shù)據(jù)開始，但數(shù)據(jù)每年會(huì)增長60%以上。（5）大數(shù)據(jù)科學(xué)家JohnRauser提到了一個(gè)簡單的定義，大數(shù)據(jù)就是超過了任何一個(gè)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。大數(shù)據(jù)有四個(gè)基本特征：數(shù)據(jù)規(guī)模大（Volume），數(shù)據(jù)種類多（Variety），數(shù)據(jù)要求處理速度快（Velocity），數(shù)據(jù)價(jià)值密度低（Value），即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。大數(shù)據(jù)的概念與“海量數(shù)據(jù)”不同，后者只強(qiáng)調(diào)數(shù)據(jù)的量，而大數(shù)據(jù)不僅用來描述大量的數(shù)據(jù)，還更進(jìn)一步指出數(shù)據(jù)的復(fù)雜形式、數(shù)據(jù)的快速時(shí)間特性以及對數(shù)據(jù)的分析、處理等專業(yè)化處理，最終獲得有價(jià)值信息的能力。大數(shù)據(jù)面臨的問題：大數(shù)據(jù)已成為繼物力和人力資源的另一重要資源，將在社會(huì)經(jīng)濟(jì)發(fā)展過程中發(fā)揮不可替代的作用；大數(shù)據(jù)及相關(guān)技術(shù)可轉(zhuǎn)化為巨大的社會(huì)經(jīng)濟(jì)價(jià)值，被譽(yù)為“未來的新石油”。大數(shù)據(jù)在金融、零售、電影等念和行業(yè)取得的成功僅是其價(jià)值體現(xiàn)的冰山一角。然而，由于大數(shù)據(jù)的多源異構(gòu)、復(fù)雜多樣、變化快等特點(diǎn)，使得大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理、數(shù)據(jù)分析以及信息安全面臨著新的挑戰(zhàn)。大數(shù)據(jù)時(shí)代下的數(shù)據(jù)管理機(jī)制不同于傳統(tǒng)方式。大數(shù)據(jù)時(shí)代下，數(shù)據(jù)的增長速度遠(yuǎn)遠(yuǎn)超過存儲(chǔ)空間的增長速度，現(xiàn)有的數(shù)據(jù)管理方法已不能適用于海量多源異構(gòu)數(shù)據(jù)在多種存儲(chǔ)設(shè)備之間頻繁密集流動(dòng)，不同的應(yīng)用對于數(shù)據(jù)傳輸“時(shí)效性”和“完整性”的要求也不盡相同。因此需要研發(fā)新型存儲(chǔ)技術(shù)、傳輸交換機(jī)理，以滿足大數(shù)據(jù)時(shí)代對數(shù)據(jù)的海量存儲(chǔ)以及數(shù)據(jù)跨層、跨域、實(shí)時(shí)和完整的傳輸需求。大數(shù)據(jù)的規(guī)模效應(yīng)沖擊著傳統(tǒng)的數(shù)據(jù)分析方法。傳統(tǒng)的數(shù)據(jù)分析方法主要是針對規(guī)模較小的結(jié)構(gòu)化數(shù)據(jù)，且已形成一套行之有效的分析體系。大數(shù)據(jù)的出現(xiàn)將變革傳統(tǒng)的思維方式。大數(shù)據(jù)的精髓在于我們分析信息時(shí)的三個(gè)轉(zhuǎn)變，這些轉(zhuǎn)變將改變我們理解和組建社會(huì)的方法。第一個(gè)轉(zhuǎn)變就是，在大數(shù)據(jù)時(shí)代，我們可以分析更多的數(shù)據(jù)，有時(shí)候甚至處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù)，而不再是依賴于隨機(jī)采樣。第二個(gè)轉(zhuǎn)變就是，研究數(shù)據(jù)之多，以至于我們不再熱衷于追求精確度。第三個(gè)轉(zhuǎn)變因前兩個(gè)轉(zhuǎn)變而成，即我們不再熱衷于尋找因果關(guān)系，而是尋找事物之間的相關(guān)關(guān)系。另外，由于大數(shù)據(jù)時(shí)代對數(shù)據(jù)分析實(shí)時(shí)性的要求，傳統(tǒng)的數(shù)據(jù)分析方法不能直接移植于大數(shù)據(jù)時(shí)代，必須做相應(yīng)的改變才能適用于大數(shù)據(jù)的分析與處理。此外，大數(shù)據(jù)時(shí)代信息安全問題逐漸成為各國研究的熱點(diǎn)。大數(shù)據(jù)時(shí)代，數(shù)據(jù)的公開非常必要，政府可以用其分析和了解整個(gè)國民經(jīng)濟(jì)社會(huì)的運(yùn)行情況，以便更好地指導(dǎo)社會(huì)的運(yùn)行；企業(yè)可以分析和了解客戶的行為特征，推出針對性的產(chǎn)品和服務(wù)，最大化其利益等。但是，數(shù)據(jù)的公開和隱私保護(hù)是相互沖突的兩個(gè)方面。雖然大數(shù)據(jù)時(shí)代下隱私保護(hù)技術(shù)已取得重大成果，比如數(shù)據(jù)匿名方法和差分隱私保護(hù)技術(shù)等，但2013年十大信息泄密事件表明現(xiàn)在的隱私保護(hù)技術(shù)仍不能完全保證信息的安全。如何在保證信息安全的前提下進(jìn)行最大化的數(shù)據(jù)價(jià)值挖掘還有很長一段路要走。另外，大數(shù)據(jù)時(shí)代下人才的缺失、大數(shù)據(jù)的可視化分析以及技術(shù)和商業(yè)模式的創(chuàng)新也都是我們面對和亟需解決的問題。產(chǎn)生大數(shù)據(jù)主要有哪些行業(yè)或領(lǐng)域，指出一個(gè)行業(yè)或研究領(lǐng)域的應(yīng)用情況或研究進(jìn)展。答：產(chǎn)生大數(shù)據(jù)主要涉及以下領(lǐng)域領(lǐng)域，包括商業(yè)智能軟件、數(shù)據(jù)中心建設(shè)與維護(hù)、信息安全、IT咨詢和方案實(shí)施、數(shù)據(jù)處理、分析環(huán)節(jié)以及綜合處理、語音識(shí)別、視頻識(shí)別等。隨著數(shù)據(jù)的進(jìn)一步集中和數(shù)據(jù)量的增大，對海量數(shù)據(jù)進(jìn)行安全防護(hù)變得更加困難，數(shù)據(jù)的分布式處理也加大了數(shù)據(jù)泄露的風(fēng)險(xiǎn)，信息安全正成為制約大數(shù)據(jù)技術(shù)發(fā)展的瓶頸。一是大數(shù)據(jù)成為網(wǎng)絡(luò)攻擊的顯著目標(biāo)。在網(wǎng)絡(luò)空間，大數(shù)據(jù)是更容易被“發(fā)現(xiàn)”的大目標(biāo)。一方面，大數(shù)據(jù)意味著海量的數(shù)據(jù)，也意味著更復(fù)雜、更敏感的數(shù)據(jù)，這些數(shù)據(jù)會(huì)吸引更多的潛在攻擊者。另一方面，數(shù)據(jù)的大量匯集，使得黑客成功攻擊一次就能獲得更多數(shù)據(jù)，無形中降低了黑客的進(jìn)攻成本，增加了“收益率”。二是大數(shù)據(jù)加大隱私泄露風(fēng)險(xiǎn)。大量數(shù)據(jù)的匯集不可避免地加大了用戶隱私泄露的風(fēng)險(xiǎn)。一方面，數(shù)據(jù)集中存儲(chǔ)增加了泄露風(fēng)險(xiǎn)；而這些數(shù)據(jù)不被濫用，也成為人身安全的一部分；另一方面，一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒有明確界定，很多基于大數(shù)據(jù)的分析都未考慮到其中涉及的個(gè)體隱私問題。三是大數(shù)據(jù)威脅現(xiàn)有的存儲(chǔ)和安防措施。大數(shù)據(jù)存儲(chǔ)帶來新的安全問題。數(shù)據(jù)大集中的后果是復(fù)雜多樣的數(shù)據(jù)存儲(chǔ)在一起，很可能會(huì)出現(xiàn)將某些生產(chǎn)數(shù)據(jù)放在經(jīng)營數(shù)據(jù)存儲(chǔ)位置的情況，致使企業(yè)安全管理不合規(guī)。大數(shù)據(jù)的大小也影響到安全控制措施能否正確運(yùn)行。安全防護(hù)手段的更新升級(jí)速度無法跟上數(shù)據(jù)量非線性增長的步伐，就會(huì)暴露大數(shù)據(jù)安全防護(hù)的漏洞。四是大數(shù)據(jù)技術(shù)成為黑客的攻擊手段。在企業(yè)用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取商業(yè)價(jià)值的同時(shí)，黑客也在利用這些大數(shù)據(jù)技術(shù)向企業(yè)發(fā)起攻擊。黑客會(huì)最大限度地收集更多有用信息，比如社交網(wǎng)絡(luò)、郵件、微博、電子商務(wù)、電話和家庭住址等信息，大數(shù)據(jù)分析使黑客的攻擊更加精準(zhǔn)。此外，大數(shù)據(jù)也為黑客發(fā)起攻擊提供了更多機(jī)會(huì)。黑客利用大數(shù)據(jù)發(fā)起僵尸網(wǎng)絡(luò)攻擊，可能會(huì)同時(shí)控制上百萬臺(tái)傀儡機(jī)并發(fā)起攻擊。五是大數(shù)據(jù)成為高級(jí)可持續(xù)攻擊的載體。傳統(tǒng)的檢測是基于單個(gè)時(shí)間點(diǎn)進(jìn)行的基于威脅特征的實(shí)時(shí)匹配檢測，而高級(jí)可持續(xù)攻擊（APT）是一個(gè)實(shí)施過程，無法被實(shí)時(shí)檢測。此外，大數(shù)據(jù)的價(jià)值低密度性，使得安全分析工具很難聚焦在價(jià)值點(diǎn)上，黑客可以將攻擊隱藏在大數(shù)據(jù)中，給安全服務(wù)提供商的分析制造很大困難。黑客設(shè)置的任何一個(gè)會(huì)誤導(dǎo)安全廠商目標(biāo)信息提取和檢索的攻擊，都會(huì)導(dǎo)致安全監(jiān)測偏離應(yīng)有方向。六是大數(shù)據(jù)技術(shù)為信息安全提供新支撐。當(dāng)然，大數(shù)據(jù)也為信息安全的發(fā)展提供了新機(jī)遇。大數(shù)據(jù)正在為安全分析提供新的可能性，對于海量數(shù)據(jù)的分析有助于信息安全服務(wù)提供商更好地刻畫網(wǎng)絡(luò)異常行為，從而找出數(shù)據(jù)中的風(fēng)險(xiǎn)點(diǎn)。對實(shí)時(shí)安全和商務(wù)數(shù)據(jù)結(jié)合在一起的數(shù)據(jù)進(jìn)行預(yù)防性分析，可識(shí)別釣魚攻擊，防止詐騙和阻止黑客入侵。網(wǎng)絡(luò)攻擊行為總會(huì)留下蛛絲馬跡，這些痕跡都以數(shù)據(jù)的形式隱藏在大數(shù)據(jù)中，利用大數(shù)據(jù)技術(shù)整合計(jì)算和處理資源有助于更有針對性地應(yīng)對信息安全威脅，有助于找到攻擊的源頭。何謂科學(xué)研究的四個(gè)范式？各自所處時(shí)代及研究方法。答：科學(xué)研究的四個(gè)范式如下：（1）幾千年前的科學(xué)，以記錄和描述自然現(xiàn)象為主，稱為“實(shí)驗(yàn)科學(xué)”，即第一范式，其典型案例如鉆木取火；（2）數(shù)百年前，科學(xué)家們開始利用模型歸納總結(jié)過去記錄的現(xiàn)象，發(fā)展出“理論科學(xué)”，即第二范式，其典型案例如牛頓三定律、麥克斯韋方程組、相對論等；（3）過去數(shù)十年，科學(xué)計(jì)算機(jī)的出現(xiàn)，誕生了“計(jì)算科學(xué)”，對復(fù)雜現(xiàn)象進(jìn)行模擬仿真，推演出越來越多復(fù)雜的現(xiàn)象，其典型案例如模擬核試驗(yàn)、天氣預(yù)報(bào)等；（4）今天，以及未來科學(xué)的發(fā)展趨勢是，隨著數(shù)據(jù)量的高速增長，計(jì)算機(jī)將不僅僅能做模擬仿真，還能進(jìn)行分析總結(jié)，得到理論。也就是說，過去由牛頓、愛因斯坦等科學(xué)家從事的工作，未來可以由計(jì)算機(jī)來做。JimGray將這種科學(xué)研究的方式，成為第四范式，即數(shù)據(jù)密集型科學(xué)。圖示大數(shù)據(jù)分析的基本流程，各步驟的主要工作。答：數(shù)據(jù)抽取與集成：從中提取出關(guān)系和實(shí)體，經(jīng)過關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的結(jié)構(gòu)來存儲(chǔ)這些數(shù)據(jù)。在數(shù)據(jù)集成和提取是需要對數(shù)據(jù)進(jìn)行清洗，保證數(shù)據(jù)質(zhì)量。數(shù)據(jù)分析：是整個(gè)大數(shù)據(jù)處理流程的核心。從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成數(shù)據(jù)分析的原始數(shù)據(jù)，根據(jù)不同應(yīng)用需求從這些數(shù)據(jù)中選擇全部或部分進(jìn)行分析。數(shù)據(jù)解釋：大數(shù)據(jù)處理的核心。進(jìn)行可視化、數(shù)據(jù)出處以及人機(jī)交互。如果分析的結(jié)果正確但沒有采用適當(dāng)?shù)慕忉尫椒?，所得到的結(jié)果很可能讓用戶難以理解。五、MapReduce模型的執(zhí)行步驟，其核心思想及主要技術(shù)有哪些？答：MapReduce主要包括兩個(gè)步驟：Map和Reduce。每一步都有key-value對作為輸入和輸出：Map階段的key-value對的格式是由輸入的格式所決定的，則每行作為一個(gè)記錄進(jìn)程處理，其中key為此行的開頭相對于文件的起始位置，value就是此行的字符文本Map階段的輸出的key-value對的格式必須同Reduce階段的輸入key-value對的格式相對應(yīng)。每個(gè)階段都將一系列key-value對作為輸入和輸出，其中的鍵和值的類型為MapReduce用戶指定。用戶同時(shí)指定兩個(gè)函數(shù)：map函數(shù)和reduce函數(shù)。用戶自定義的map函數(shù)，接受一個(gè)輸入key-value對，然后產(chǎn)生一系列臨時(shí)中間key-value對。我們把所有具有相同中間key的臨時(shí)key-value對聚合在一起,然后把它們傳遞給reduce函數(shù)。用戶自定義的reduce函數(shù)，接受一個(gè)中間key和相關(guān)的一個(gè)value集。它合并這些value，形成一個(gè)比較小的value集。通常，每次reduce調(diào)用只產(chǎn)生1個(gè)輸出value。以這種函數(shù)式編寫的程序能自動(dòng)的在大規(guī)模的普通機(jī)器上并行的執(zhí)行。MapReduce核心思想是對大數(shù)據(jù)并行處理，分而治之。做一個(gè)計(jì)算，如果計(jì)算過程中如果數(shù)據(jù)傳輸消耗的資源大于計(jì)算消耗的資源，考慮在計(jì)算過程中，將算法（程序）移動(dòng)到數(shù)據(jù)存放的服務(wù)器中，再進(jìn)行計(jì)算。其主要技術(shù)：（1）數(shù)據(jù)劃分和計(jì)算任務(wù)調(diào)度。（2）數(shù)據(jù)/代碼互定位。（3）系統(tǒng)優(yōu)化。（4）出錯(cuò)檢測和恢復(fù)。試給出詞頻計(jì)算或密碼統(tǒng)計(jì)的MapReduce計(jì)算過程及其實(shí)現(xiàn)函數(shù)。答：Map函數(shù)和Reduce函數(shù)是交給用戶實(shí)現(xiàn)的，這兩個(gè)函數(shù)定義了任務(wù)本身。Map函數(shù)：接受一個(gè)鍵值對（key-valuepair），產(chǎn)生一組中間鍵值對。MapReduce框架會(huì)將Map函數(shù)產(chǎn)生的中間鍵值對里鍵相同的值傳遞給一個(gè)Reduce函數(shù)。Reduce函數(shù)：接受一個(gè)鍵，以及相關(guān)的一組值，將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值（通常只有一個(gè)或零個(gè)值）。統(tǒng)計(jì)詞頻的MapReduce函數(shù)的核心代碼主要實(shí)現(xiàn)這兩個(gè)函數(shù)。map(Stringkey,Stringvalue)://key:documentname//value:documentcontentsforeachwordwinvalue:EmitIntermediate(w,"1");reduce(Stringkey,Iteratorvalues)://key:aword//values:alistofcountsintresult=0;foreachvinvalues:result+=ParseInt(v);Emit(AsString(result));在統(tǒng)計(jì)詞頻的例子里，map函數(shù)接受的鍵是文件名，值是文件的內(nèi)容，map逐個(gè)遍歷單詞，每遇到一個(gè)單詞w，就產(chǎn)生一個(gè)中間鍵值對，這表示單詞w咱又找到了一個(gè)；MapReduce將鍵相同（都是單詞w）的鍵值對傳給Reduce函數(shù)，這樣Reduce函數(shù)接受的鍵就是單詞w，值是一串"1"（最基本的實(shí)現(xiàn)是這樣，但可以優(yōu)化），個(gè)數(shù)等于鍵為w的鍵值對的個(gè)數(shù)，然后將這些"1"累加就得到單詞w的出現(xiàn)次數(shù)。最后這些單詞的出現(xiàn)次數(shù)會(huì)被寫到用戶定義的位置，存儲(chǔ)在底層的分布式存儲(chǔ)系統(tǒng)。指出并行數(shù)據(jù)庫與MapReduce各自的優(yōu)缺點(diǎn)及生態(tài)。答：（1）并行數(shù)據(jù)庫是指那些在無共享的體系結(jié)構(gòu)中進(jìn)行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng)。這些系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢，但為了能夠并行執(zhí)行SQL的查詢操作，系統(tǒng)中采用了兩個(gè)關(guān)鍵技術(shù)：關(guān)系表的水平劃分和SQL查詢的分區(qū)執(zhí)行。并行數(shù)據(jù)庫系統(tǒng)的目標(biāo)是高性能和高可用性，通過多個(gè)節(jié)點(diǎn)并行執(zhí)行數(shù)據(jù)庫任務(wù)，提高整個(gè)數(shù)據(jù)庫系統(tǒng)的性能和可用性。最近一些年不斷涌現(xiàn)一些提高系統(tǒng)性能的新技術(shù)，如索引、壓縮、實(shí)體化視圖、結(jié)果緩存、I/O共享等，這些技術(shù)都比較成熟且經(jīng)得起時(shí)間的考驗(yàn)。與一些早期的系統(tǒng)如Teradata必須部署在專有硬件上不同，最近開發(fā)的系統(tǒng)如Aster、Vertica等可以部署在普通的商業(yè)機(jī)器上，這些數(shù)據(jù)庫系統(tǒng)可以稱得上準(zhǔn)云系統(tǒng)。并行數(shù)據(jù)庫系統(tǒng)的主要缺點(diǎn)就是沒有較好的彈性，而這種特性對中小型企業(yè)和初創(chuàng)企業(yè)是有利的。人們在對并行數(shù)據(jù)庫進(jìn)行設(shè)計(jì)和優(yōu)化的時(shí)候認(rèn)為集群中節(jié)點(diǎn)的數(shù)量是固定的，若需要對集群進(jìn)行擴(kuò)展和收縮，則必須為數(shù)據(jù)轉(zhuǎn)移過程制訂周全的計(jì)劃。這種數(shù)據(jù)轉(zhuǎn)移的代價(jià)是昂貴的，并且會(huì)導(dǎo)致系統(tǒng)在某段時(shí)間內(nèi)不可訪問，而這種較差的靈活性直接影響到并行數(shù)據(jù)庫的彈性以及現(xiàn)用現(xiàn)付商業(yè)模式的實(shí)用性。并行數(shù)據(jù)庫的另一個(gè)問題就是系統(tǒng)的容錯(cuò)性較差，過去人們認(rèn)為節(jié)點(diǎn)故障是個(gè)特例，并不經(jīng)常出現(xiàn)，因此系統(tǒng)只提供事務(wù)級(jí)別的容錯(cuò)功能，如果在查詢過程中節(jié)點(diǎn)發(fā)生故障，那么整個(gè)查詢都要從頭開始重新執(zhí)行。這種重啟任務(wù)的策略使得并行數(shù)據(jù)庫難以在擁有數(shù)以千個(gè)節(jié)點(diǎn)的集群上處理較長的查詢，因?yàn)樵谶@類集群中節(jié)點(diǎn)的故障經(jīng)常發(fā)生?；谶@種分析，并行數(shù)據(jù)庫只適合于資源需求相對固定的應(yīng)用程序。不管怎樣，并行數(shù)據(jù)庫的許多設(shè)計(jì)原則為其他海量數(shù)據(jù)系統(tǒng)的設(shè)計(jì)和優(yōu)化提供了比較好的借鑒。（2）MapReduce的優(yōu)點(diǎn)，主要有兩個(gè)方面：其一，通過MapReduce這個(gè)分布式處理框架，不僅能用于處理大規(guī)模數(shù)據(jù)，而且能將很多繁瑣的細(xì)節(jié)隱藏起來，比如，自動(dòng)并行化、負(fù)載均衡和災(zāi)備管理等，這樣將極大地簡化程序員的開發(fā)工作;其二，MapReduce的伸縮性非常好，也就是說，每增加一臺(tái)服務(wù)器，其就能將差不多的計(jì)算能力接入到集群中，而過去的大多數(shù)分布式處理框架，在伸縮性方面都與MapReduce相差甚遠(yuǎn)。MapReduce最大的不足則在于，其不適應(yīng)實(shí)時(shí)應(yīng)用的需求，所以在Google最新的實(shí)時(shí)性很強(qiáng)的Caffeine搜索引擎中，MapReduce的主導(dǎo)地位已經(jīng)被可用于實(shí)時(shí)處理Percolator系統(tǒng)所代替。MapReduce最早應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)處理領(lǐng)域，如Google中創(chuàng)建倒排索引，計(jì)算pagerank等操作，也被廣泛應(yīng)用于文檔處理應(yīng)用中。但近年來的發(fā)展趨勢是逐漸由非結(jié)構(gòu)化大數(shù)據(jù)處理轉(zhuǎn)向類似結(jié)構(gòu)化大數(shù)據(jù)倉庫應(yīng)用領(lǐng)域，如用戶LOG日志分析處理等，以TPC-H負(fù)載為代表的表間連接操作優(yōu)化技術(shù)也成為MapReduce重要的研究課題。當(dāng)前的產(chǎn)業(yè)界正在嘗試將數(shù)據(jù)庫與MapReduce進(jìn)行集成。Greenplum和AsterData采用的是在MPP并行數(shù)據(jù)庫內(nèi)置對MapReduce的支持，實(shí)現(xiàn)數(shù)據(jù)庫和MapReduce的雙引擎融合，同時(shí)通過MapReduce擴(kuò)展數(shù)據(jù)庫對分析軟件的支持。何謂NoSQL？其三大理論基礎(chǔ)是什么，各自簡單說明。答：隨著web2.0的快速發(fā)展，非關(guān)系型、分布式數(shù)據(jù)存儲(chǔ)得到了快速的發(fā)展，它們不保證關(guān)系數(shù)據(jù)的ACID特性。NoSQL概念在2009年被提了出來。NoSQL最常見的解釋是“non-relational”，“NotOnlySQL”即“不僅僅是SQL”也被很多人接受。其三大理論為CAP理論、BASE思想和最終一致性。CAP理論：解釋為一致性（consistency）：一個(gè)數(shù)據(jù)系統(tǒng)如何處理讀寫操作的一致性問題。分布式系統(tǒng)對于一致性的要求為當(dāng)更新寫入操作完成時(shí)，其余讀取操作需要及時(shí)看到數(shù)據(jù)的更新。當(dāng)然有些系統(tǒng)對于一致性有更嚴(yán)格定義上的要求。性能（availability）一個(gè)系統(tǒng)能夠持續(xù)不間斷使用的問題。嚴(yán)格定義上的高性能可用性意味著一個(gè)系統(tǒng)從設(shè)計(jì)到實(shí)施都應(yīng)該能夠提供可持續(xù)的操作（如讀寫操作），無論是操作沖突，還是軟硬件部分因?yàn)樯?jí)而導(dǎo)致失效。分區(qū)容忍性（partitiontolerance）可以被理解為系統(tǒng)在提供持續(xù)性操作時(shí)分區(qū)處理的能力。一旦開始將數(shù)據(jù)和邏輯分布在不同的節(jié)點(diǎn)上，就有形成分區(qū)的風(fēng)險(xiǎn)。一些人認(rèn)為分區(qū)容忍性也可以理解為一個(gè)系統(tǒng)靈活處理節(jié)點(diǎn)的增加和去除的能力。BASE思想：BASE思想實(shí)際上是CAP理論中AP的擴(kuò)展。它通過犧牲高一致性，保證高可用性和分區(qū)容忍性。它同時(shí)也是ACID，即原子性、一致性、隔離性和持久性的意思。BASE在英文中有基本的意思，也可以說實(shí)際上強(qiáng)調(diào)的就是能保證連續(xù)“基本”可用的一種模型。BASE思想的組成有以下3個(gè)部分：基本可用、軟狀態(tài)、最終一致性。BASE模式指的是一個(gè)應(yīng)用在任意時(shí)間首先應(yīng)該能完成最基本化的工作，并不需要總是一致，但最終應(yīng)該是一致的。ACID和BASE應(yīng)該被看作同一范疇內(nèi)的互相補(bǔ)充品，而不是替代品。最終一致性：有兩種方式看待一致性。一種是從開發(fā)者/客戶端的角度，如何觀察數(shù)據(jù)更新；另一種是從服務(wù)器端，更新如何在系統(tǒng)中流動(dòng)以及對于更新系統(tǒng)能提供什么樣的保證?？蛻舳擞^察到的一致性指的是何時(shí)以及如何能觀察到對存儲(chǔ)系統(tǒng)中的數(shù)據(jù)對象所做的更新。對于一致性的解釋，根據(jù)強(qiáng)度的不同，分為強(qiáng)一致性和弱一致性兩種。最終一致性屬于弱一致性的一種，即存儲(chǔ)系統(tǒng)保證如果沒有新的更新提交，最終所有的訪問都將獲得最后的更新。如果沒有故障發(fā)生，不一致性取決于通信時(shí)延、系統(tǒng)負(fù)載以及復(fù)制策略中涉及的副本數(shù)。實(shí)現(xiàn)最終一致性最常見的系統(tǒng)是DNS。根據(jù)name更新傳播、配置模式以及時(shí)間控制的緩存，最終所有節(jié)點(diǎn)都會(huì)看到更新。弱一致性的系統(tǒng)能夠同時(shí)提供更多元化和針對性的操作方案。保證分布式環(huán)境下NoSQL的擴(kuò)展性、容錯(cuò)性和可靠性的技術(shù)有哪些？答：Cassandra故障恢復(fù)以及數(shù)據(jù)一致性、Cassandra的一致性哈希算法、HBase的失敗因子和恢復(fù)方法、HDFS、MongoDB中的復(fù)制和故障恢復(fù)。系統(tǒng)的可擴(kuò)展性是推動(dòng)NoSQL運(yùn)動(dòng)發(fā)展的的主要理由，包含了分布式系統(tǒng)協(xié)調(diào)，故障轉(zhuǎn)移，資源管理和許多其他特性。這么講使得NoSQL聽起來像是一個(gè)大筐，什么都能塞進(jìn)去。盡管NoSQL運(yùn)動(dòng)并沒有給分布式數(shù)據(jù)處理帶來根本性的技術(shù)變革，但是依然引發(fā)了鋪天蓋地的關(guān)于各種協(xié)議和算法的研究以及實(shí)踐。正是通過這些嘗試逐漸總結(jié)出了一些行之有效的數(shù)據(jù)庫構(gòu)建方法。在這篇文章里，我將針對NoSQL數(shù)據(jù)庫的分布式特點(diǎn)進(jìn)行一些系統(tǒng)化的描述。接下來我們將研究一些分布式策略，比如故障檢測中的復(fù)制，這些策略用黑體字標(biāo)出，被分為三段：（1）數(shù)據(jù)一致性。NoSQL需要在分布式系統(tǒng)的一致性，容錯(cuò)性和性能，低延遲及高可用之間做出權(quán)衡，一般來說，數(shù)據(jù)一致性是一個(gè)必選項(xiàng)，所以這一節(jié)主要是關(guān)于數(shù)據(jù)復(fù)制和數(shù)據(jù)恢復(fù)。（2）數(shù)據(jù)放置。一個(gè)數(shù)據(jù)庫產(chǎn)品應(yīng)該能夠應(yīng)對不同的數(shù)據(jù)分布，集群拓?fù)浜陀布渲?。在這一節(jié)我們將討論如何分布以及調(diào)整數(shù)據(jù)分布才能夠及時(shí)解決故障，提供持久化保證，高效查詢和保證集群中的資源(如內(nèi)存和硬盤空間)得到均衡使用。（3）對等系統(tǒng)。像leaderelection這樣的技術(shù)已經(jīng)被用于多個(gè)數(shù)據(jù)庫產(chǎn)品以實(shí)現(xiàn)容錯(cuò)和數(shù)據(jù)強(qiáng)一致性。然而，即使是分散的數(shù)據(jù)庫(無中心)也要跟蹤它們的全局狀態(tài)，檢測故障和拓?fù)渥兓?。這一節(jié)將介紹幾種使系統(tǒng)保持一致狀態(tài)的技術(shù)。數(shù)據(jù)一致性眾所周知，分布式系統(tǒng)經(jīng)常會(huì)遇到網(wǎng)絡(luò)隔離或是延遲的情況，在這種情況下隔離的部分是不可用的，因此要保持高可用性而不犧牲一致性是不可能的。這一事實(shí)通常被稱作“CAP理論”。然而，一致性在分布式系統(tǒng)中是一個(gè)非常昂貴的東西，所以經(jīng)常需要在這上面做一些讓步，不只是針對可用性，還有多種權(quán)衡。為了研究這些權(quán)衡，我們注意到分布式系統(tǒng)的一致性問題是由數(shù)據(jù)隔離和復(fù)制引起的，所以我們將從研究復(fù)制的特點(diǎn)開始：（1）可用性。在網(wǎng)絡(luò)隔離的情況下剩余部分仍然可以應(yīng)對讀寫請求。（2）讀寫延遲。讀寫請求能夠在短時(shí)間內(nèi)處理。（3）讀寫延展性。讀寫的壓力可由多個(gè)節(jié)點(diǎn)均衡分擔(dān)。（4）容錯(cuò)性。對于讀寫請求的處理不依賴于任何一個(gè)特定節(jié)點(diǎn)。（5）數(shù)據(jù)持久性。特定條件下的節(jié)點(diǎn)故障不會(huì)造成數(shù)據(jù)丟失。（6）一致性。一致性比前面幾個(gè)特性都要復(fù)雜得多，我們需要詳細(xì)討論一下幾種不同的觀點(diǎn)。但是我們不會(huì)涉及過多的一致性理論和并發(fā)模型，因?yàn)檫@已經(jīng)超出了本文的范疇，我只會(huì)使用一些簡單特點(diǎn)構(gòu)成的精簡體系。讀寫一致性。從讀寫的觀點(diǎn)來看，數(shù)據(jù)庫的基本目標(biāo)是使副本趨同的時(shí)間盡可能短(即更新傳遞到所有副本的時(shí)間)，保證最終一致性。除了這個(gè)較弱的保證，還有一些更強(qiáng)的一致性特點(diǎn)：寫后讀一致性。在數(shù)據(jù)項(xiàng)X上寫操作的效果總是能夠被后續(xù)的X上的讀操作看見。讀后讀一致性。在一次對數(shù)據(jù)項(xiàng)X的讀操作之后，后續(xù)對X的讀操作應(yīng)該返回與第一次的返回值相同或是更加新的值。寫一致性。分區(qū)的數(shù)據(jù)庫經(jīng)常會(huì)發(fā)生寫沖突。數(shù)據(jù)庫應(yīng)當(dāng)能處理這種沖突并保證多個(gè)寫請求不會(huì)被不同的分區(qū)所處理。這方面數(shù)據(jù)庫提供了幾種不同的一致性模型：（1）原子寫。假如數(shù)據(jù)庫提供了API，一次寫操作只能是一個(gè)單獨(dú)的原子性的賦值，避免寫沖突的辦法是找出每個(gè)數(shù)據(jù)的“最新版本”。這使得所有的節(jié)點(diǎn)都能夠在更新結(jié)束時(shí)獲得同一版本，而與更新的順序無關(guān)，網(wǎng)絡(luò)故障和延遲經(jīng)常造成各節(jié)點(diǎn)更新順序不一致。數(shù)據(jù)版本可以用時(shí)間戳或是用戶指定的值來表示。Cassandra用的就是這種方法。（2）原子化的讀-改-寫。應(yīng)用有時(shí)候需要進(jìn)行讀—改—寫序列操作而非單獨(dú)的原子寫操作。假如有兩個(gè)客戶端讀取了同一版本的數(shù)據(jù)，修改并且把修改后的數(shù)據(jù)寫回，按照原子寫模型，時(shí)間上比較靠后的那一次更新將會(huì)覆蓋前一次。這種行為在某些情況下是不正確的(例如，兩個(gè)客戶端往同一個(gè)列表值中添加新值)。閱讀三篇大數(shù)據(jù)研究熱點(diǎn)或者新技術(shù)相關(guān)論文，介紹各論文的主要內(nèi)容（能結(jié)合自己的研究方向最好，不少于1000字）。1、架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望主要對MapReduce進(jìn)行介紹MapReduce是2004年由Google提出的面向大數(shù)據(jù)集處理的編程模型，起初主要用作互聯(lián)網(wǎng)數(shù)據(jù)的處理，例如文檔抓取、倒排索引的建立等。但由于其簡單而強(qiáng)大的數(shù)據(jù)處理接口和對大規(guī)模并行執(zhí)行、容錯(cuò)及負(fù)載均衡等實(shí)現(xiàn)細(xì)節(jié)的隱藏，該技術(shù)一經(jīng)推出便迅速在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等領(lǐng)域得到廣泛應(yīng)用。MapReduce將數(shù)據(jù)處理任務(wù)抽象為一系列的Map(映射)Reduce(化簡)操作對。Map主要完成數(shù)據(jù)的過濾操作，Reduce主要完成數(shù)據(jù)的聚集操作。輸入輸出數(shù)據(jù)均以<key,value>格式存儲(chǔ)。用戶在使用該編程模型時(shí)，只需按照自己熟悉的語言實(shí)現(xiàn)Map函數(shù)和Reduce函即可，MapReduce框架會(huì)自動(dòng)對任務(wù)進(jìn)行劃分以做到并行執(zhí)行。下面將以基于MapReduce的開源實(shí)現(xiàn)Hadoop為主，對其主要特性進(jìn)行介紹。MapReduce是面向由數(shù)千臺(tái)中低端計(jì)算機(jī)組成的大規(guī)模機(jī)群而設(shè)計(jì)的，其擴(kuò)展能力得益于其shared-nothing結(jié)構(gòu)、各個(gè)節(jié)點(diǎn)間的松藕合性和較強(qiáng)的軟件級(jí)容錯(cuò)能力：節(jié)點(diǎn)可以被任意地從機(jī)群中移除，而幾乎不影響現(xiàn)有任務(wù)的執(zhí)行.該技術(shù)被稱為RAIN(Redundant/ReliableArrayofIndependent(andInexpensive)Nodes)。MapReduce卓越的擴(kuò)展能力已在工業(yè)界(Google，F(xiàn)acebook，Baidu，Taobao等)得到了充分驗(yàn)證。MapReduce對硬件的要求較低，可以基于異構(gòu)的廉價(jià)硬件來搭建機(jī)群，且免費(fèi)開源，因此其構(gòu)建成本低于并行數(shù)據(jù)庫。但基于MapReduce的應(yīng)用軟件相對較少，許多數(shù)據(jù)分析功能需要用戶自行開發(fā)，從而會(huì)導(dǎo)致使用成本的增加。作為開源系統(tǒng)，MapReduce具有完全的開放性：其<key,value>存儲(chǔ)模型具有較強(qiáng)的表現(xiàn)力，可以存儲(chǔ)任意格式的數(shù)據(jù)；Map和Reduce兩個(gè)基本的函數(shù)接口也給用戶提供了足夠的發(fā)揮空間，可以實(shí)現(xiàn)各種復(fù)雜的數(shù)據(jù)處理功能.但這種開放性也帶來一個(gè)問題，就是將本來應(yīng)由數(shù)據(jù)庫管理系統(tǒng)完成的工作，諸如文件存儲(chǔ)格式的設(shè)計(jì)、模式信息的記錄、數(shù)據(jù)處理算法的實(shí)現(xiàn)等，轉(zhuǎn)移給了程序員，從而導(dǎo)致程序員負(fù)擔(dān)過重。程序員水平對系統(tǒng)處理性能起決定性作用。在某些情況下，寫MapReduce程序的時(shí)間遠(yuǎn)大于寫SQL語句的時(shí)間，部分復(fù)雜的BI報(bào)表分析，可能僅程序的編寫和調(diào)試就要耗費(fèi)幾天的時(shí)間?；贛apReduce平臺(tái)的分析，無需復(fù)雜的數(shù)據(jù)預(yù)處理和寫入數(shù)據(jù)庫的過程，而是可以直接基于平面文件進(jìn)行分析，并且其采用的計(jì)算模式是移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù)，因此可以將分析延遲最小化。在同等硬件條件下，MapReduce性能遠(yuǎn)低于并行數(shù)據(jù)庫，這是由其最初的設(shè)計(jì)定位決定的。MapReduce的設(shè)計(jì)初衷是面向非結(jié)構(gòu)化數(shù)據(jù)的處理。這些數(shù)據(jù)具有數(shù)據(jù)量大，處理復(fù)雜等特點(diǎn)，而且往往是一次性處理.為了獲得較好的擴(kuò)展能力和容錯(cuò)能力，MapReduce采取了基于掃描的處理模式和對中間結(jié)果步步物化的執(zhí)行策略，從而導(dǎo)致較高的I/0代價(jià)。為了減少數(shù)據(jù)預(yù)處理時(shí)間，MapReduce沒有使用模式、索引、物化視圖等技術(shù)手段。其數(shù)據(jù)預(yù)處理僅是一次數(shù)據(jù)加載操作，但由此導(dǎo)致了一個(gè)問題——較高的元組解析代價(jià)。在MapReduce環(huán)境下，每個(gè)查詢都是直接從文件系統(tǒng)中讀入原始數(shù)據(jù)文件，而非傳統(tǒng)的從數(shù)據(jù)庫中讀入經(jīng)處理過的文件，因此其元組解析代價(jià)遠(yuǎn)高于關(guān)系數(shù)據(jù)庫。對數(shù)據(jù)分析領(lǐng)域來說，連接是關(guān)鍵操作(如傳統(tǒng)的星型查詢和雪花查詢均是依賴于連接來處理查詢)，但MapReduce處理連接的性能尤其不盡如人意。原因在于MapReduce最初是針對單數(shù)據(jù)集設(shè)計(jì)的處理模型，而連接操作往往涉及多個(gè)數(shù)據(jù)集。在利用MapReduce實(shí)現(xiàn)連接時(shí)，最直接的方式是每個(gè)任務(wù)執(zhí)行一個(gè)屬陛上的連接操作，然后將多個(gè)MapReduce任務(wù)通過物化的中間結(jié)果串接起來.這種實(shí)現(xiàn)方式往往涉及中間結(jié)果的讀寫，從而導(dǎo)致大量的I/0操作和網(wǎng)絡(luò)傳輸。MapReduce目前基本不兼容現(xiàn)有的BI工具。原因在于其初衷并不是要成為數(shù)據(jù)庫系統(tǒng)，因此它并未提供SQL接口。但已有研究致力于SQL語句與MapReduce任務(wù)的轉(zhuǎn)換工作(例如Hive)，進(jìn)而有可能實(shí)現(xiàn)MapReduce與現(xiàn)存BI工具的兼容。2、不確定性數(shù)據(jù)管理技術(shù)研究近四十年來，傳統(tǒng)的確定性數(shù)據(jù)(deterministicdata)管理技術(shù)得到了極大的發(fā)展，造就了一個(gè)數(shù)百億的數(shù)據(jù)庫產(chǎn)業(yè).數(shù)據(jù)庫技術(shù)和系統(tǒng)已經(jīng)成為信息化社會(huì)基礎(chǔ)設(shè)施建設(shè)的重要支撐。在傳統(tǒng)數(shù)據(jù)庫的應(yīng)用中，數(shù)據(jù)的存在性和精確性均確定無疑。近年來，隨著技術(shù)的進(jìn)步和人們對數(shù)據(jù)采集和處理技術(shù)理解的不斷深入，不確定性數(shù)據(jù)(uncertaindata)得到了廣泛的重視.在許多現(xiàn)實(shí)的應(yīng)用中，例如經(jīng)濟(jì)、軍事、物流、金融、電信等領(lǐng)域，數(shù)據(jù)的不確定性普遍存在，不確定性數(shù)據(jù)扮演著關(guān)鍵角色。傳統(tǒng)的數(shù)據(jù)管理技術(shù)卻無法有效管理不確定性數(shù)據(jù)，這就引發(fā)了學(xué)術(shù)界和工業(yè)界對研發(fā)新型的不確定性數(shù)據(jù)管理技術(shù)的興趣。不確定性數(shù)據(jù)的產(chǎn)生原因比較復(fù)雜。可能是原始數(shù)據(jù)本身不準(zhǔn)確或是采用了粗粒度的數(shù)據(jù)集合，也可能是為了滿足特殊應(yīng)用目的或是在處理缺失值、數(shù)據(jù)集成過程中而產(chǎn)生的。(1)原始數(shù)據(jù)不準(zhǔn)確。這是產(chǎn)生不確定性數(shù)據(jù)最直接的因素。首先，物理儀器所采集的數(shù)據(jù)的準(zhǔn)確度受儀器的精度制約。其次，在網(wǎng)絡(luò)傳輸(特別是無線網(wǎng)絡(luò)傳輸)過程中，數(shù)據(jù)的準(zhǔn)確性受到帶寬、傳輸延時(shí)、能量等因素影響。還有，在傳感器網(wǎng)絡(luò)應(yīng)用與RFID應(yīng)用等場合，周圍環(huán)境也會(huì)影響原始數(shù)據(jù)的準(zhǔn)確度。(2)使用粗粒度數(shù)據(jù)集合。很明顯，從粗粒度數(shù)據(jù)集合轉(zhuǎn)換到細(xì)粒度數(shù)據(jù)集合的過程會(huì)引入不確定性。例如，假設(shè)某人口分布數(shù)據(jù)庫以鄉(xiāng)為基礎(chǔ)單位記錄全國的人口數(shù)量，而某應(yīng)用卻要求查詢以村為基礎(chǔ)單位的人口數(shù)量，查詢結(jié)果就存在不確定性。(3)滿足特殊應(yīng)用目的。出于隱私保護(hù)等特殊目的，某些應(yīng)用無法獲取

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大大數(shù)據(jù)考試的題目

文檔簡介

溫馨提示

最新文檔

評(píng)論

大大數(shù)據(jù)考試的題目

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔