




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
計算機專業(yè)英語(第三版)BigData
Unit
10Contents
NewWords
Abbreviations
PhrasesNotes參考譯文NewWordsNewWordsNewWordsNewWordsPhrasesPhrasesAbbreviationsNotesNotesNotesNotesNotesListeningtoTextA大數(shù)據(jù)1.定義大數(shù)據(jù)是用來描述公司產(chǎn)生的浩繁的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的一個通用術語——要把這些數(shù)據(jù)加載到關系型數(shù)據(jù)庫來分析會耗費大量時間和大量資金。雖然大數(shù)據(jù)并沒有涉及任何具體數(shù)量,通常在談論拍字節(jié)和艾字節(jié)時使用該術語。觀察大數(shù)據(jù)的一個主要目標是發(fā)現(xiàn)可重復的業(yè)務模式。人們普遍承認,非結(jié)構(gòu)化數(shù)據(jù),其中大部分在文本文件中,占一個組織中至少有80%的數(shù)據(jù)。如果不加管理,企業(yè)每一年產(chǎn)生的全部非結(jié)構(gòu)化數(shù)據(jù)會花費巨額的存儲費用。如果審計或訴訟時不能找到信息,不加管理的非結(jié)構(gòu)化數(shù)據(jù)也可能會帶來法律責任。大數(shù)據(jù)分析往往是與云計算相關,因為實時分析大型數(shù)據(jù)集需要像MapReduce這樣的一個框架來將任務分布到數(shù)十臺、幾百臺甚至上千臺的計算機上。參考譯文2.大數(shù)據(jù)分析大數(shù)據(jù)分析研究大量的多種類型的數(shù)據(jù),以揭示隱藏的模式、未知的相互關系及其他有用的信息。這些信息可以提供有競爭力的優(yōu)勢以超過對手組織,產(chǎn)生商業(yè)利益,例如更有效地營銷和增加收入。大數(shù)據(jù)分析的主要目標是,讓數(shù)據(jù)科學家和其他用戶分析數(shù)量巨大的業(yè)務數(shù)據(jù)以及可能沒有被傳統(tǒng)的商業(yè)智能(BI)程序利用的其它數(shù)據(jù)源來幫助企業(yè)做出更好的業(yè)務決策。這些其他的數(shù)據(jù)源可能包括Web服務器日志和互聯(lián)網(wǎng)點擊流數(shù)據(jù)、社交媒體活動報告、移動電話的呼叫詳細記錄和傳感器捕獲的信息。有些人專門對這類的非結(jié)構(gòu)化數(shù)據(jù)進行大數(shù)據(jù)分析,而像Gartner公司和Forrester研究公司這樣的咨詢公司也把業(yè)務數(shù)據(jù)和其他結(jié)構(gòu)化數(shù)據(jù)當作有效的大數(shù)據(jù)形式。參考譯文可以用軟件工具進行大數(shù)據(jù)分析。這些工具通常作為高級分析學科的一部分,如預測分析和數(shù)據(jù)挖掘。但用于大數(shù)據(jù)分析的非結(jié)構(gòu)化數(shù)據(jù)源可能不適合于傳統(tǒng)的數(shù)據(jù)倉庫。此外,傳統(tǒng)的數(shù)據(jù)倉庫可能無法滿足由大數(shù)據(jù)所帶來的需求。因此,一類新的大數(shù)據(jù)技術已經(jīng)出現(xiàn)并正在很多大數(shù)據(jù)分析環(huán)境中使用。與大數(shù)據(jù)分析相關的技術包括NoSQL數(shù)據(jù)庫、Hadoop和MapReduce。這些技術構(gòu)成了支持集群系統(tǒng)中大數(shù)據(jù)集的處理開源軟件框架的核心。組織在大數(shù)據(jù)分析項目上可能遇到的困難包括缺乏內(nèi)部的分析技能和聘用經(jīng)驗豐富分析專家的高額成本,雖然廠商開始提供這些技術之間的軟件接口,但把Hadoop系統(tǒng)與數(shù)據(jù)倉庫加以整合也頗具挑戰(zhàn)性。參考譯文參考譯文3.大數(shù)據(jù)管理大數(shù)據(jù)管理是對大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的組織、管理和治理。大數(shù)據(jù)管理的目標是確保高水平的數(shù)據(jù)質(zhì)量、商業(yè)智能的可用性和大數(shù)據(jù)分析應用。企業(yè)、政府機構(gòu)和其他組織采用大數(shù)據(jù)管理策略,以幫助他們與快速增長的數(shù)據(jù)池相抗衡,通常涉及千兆字節(jié)級甚至拍字節(jié)級的用不同文件格式保存的信息。有效的大數(shù)據(jù)管理幫助企業(yè)從各種非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)集找到有價值的信息,包括通話詳細記錄、系統(tǒng)日志和社交媒體網(wǎng)站。大多數(shù)大數(shù)據(jù)環(huán)境超出了關系型數(shù)據(jù)庫和傳統(tǒng)的數(shù)據(jù)倉庫平臺,融入了適應處理和存儲非傳統(tǒng)的數(shù)據(jù)的技術。日益注重收集和分析大數(shù)據(jù)正在產(chǎn)生新一些平臺,這些平臺把傳統(tǒng)數(shù)據(jù)倉庫與用邏輯數(shù)據(jù)倉庫構(gòu)建的大數(shù)據(jù)系統(tǒng)相結(jié)合。作為這一進程的一部分,必須決定哪些數(shù)據(jù)合格、哪些數(shù)據(jù)可以處理、哪些數(shù)據(jù)應該被保存和分析,以改善目前的業(yè)務流程或提供業(yè)務的競爭優(yōu)勢。這個過程需要細致的數(shù)據(jù)分類,以便最終能夠?qū)^小的數(shù)據(jù)集進行快速而高效的分析。4.大數(shù)據(jù)即服務(BDaaS)大數(shù)據(jù)即服務(BDaaS)是由外部提供商提供的統(tǒng)計分析工具或信息,以幫助企業(yè)了解并使用從大量信息集中獲得的數(shù)據(jù)以獲得競爭優(yōu)勢。鑒于定期產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量巨大,BDaaS利用外部供應商的預測分析技能來管理和評估大型數(shù)據(jù)集以釋放組織資源,而不是雇用內(nèi)部員工來實現(xiàn)這類功能。它可以通過采用數(shù)據(jù)處理軟件或與數(shù)據(jù)科學家簽訂服務合同的形式來實現(xiàn)。BDaaS是管理服務的一種形式,類似于軟件即服務或基礎架構(gòu)即服務。它往往依賴于云存儲來保持這些信息擁有者和使用信息的提供者進行連續(xù)的數(shù)據(jù)訪問。參考譯文5.非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是描述任何不在數(shù)據(jù)庫中的企業(yè)信息的通用標簽。非結(jié)構(gòu)化數(shù)據(jù)可以是文本的或非文本的。文本非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生于電子郵件、PowerPoint演示文稿、Word文檔、協(xié)作軟件和即時消息這樣的媒體。非文本非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生于JPEG圖像、MP3音頻文件和Flash視頻文件這樣的媒體。非結(jié)構(gòu)化數(shù)據(jù)中包含的信息并不總是很容易找到的。它要求可以掃描電子和硬拷貝文檔中以及其它媒體中的數(shù)據(jù),以便可以在特定上下文中按照特定的詞語搜索得到相關概念。這就是所謂的語義搜索,也被稱為企業(yè)搜索。在面向客戶的業(yè)務中,可以對包含在非結(jié)構(gòu)化數(shù)據(jù)中的信息進行分析,以改善客戶關系管理和關系營銷。隨著如Twitter和Facebook這類社交媒體的應用成為主流,預期非結(jié)構(gòu)化數(shù)據(jù)的增長將遠遠超過結(jié)構(gòu)化數(shù)據(jù)的增長。
參考譯文6.數(shù)據(jù)挖掘通常,數(shù)據(jù)挖掘(有時稱為數(shù)據(jù)或知識發(fā)現(xiàn))是從不同角度分析數(shù)據(jù),并總結(jié)成有用信息的過程——此類信息可以增加收入、降低成本或兩者兼而有之。數(shù)據(jù)挖掘軟件是眾多用于分析數(shù)據(jù)的分析工具之一。它允許用戶從許多不同的層面或角度分析數(shù)據(jù),對數(shù)據(jù)進行分類并總結(jié)出確定的關系。從技術上來說,數(shù)據(jù)挖掘是從幾十個大型關系數(shù)據(jù)庫中尋找關系或模式的過程。數(shù)據(jù)挖掘的范圍包括:關聯(lián)分析——找出一個事件與另一個事件關聯(lián)的模式序列或路徑分析——尋找一個事件導致另一個事件的模式分類——尋找新的模式(可能會導致數(shù)據(jù)的組織方式的改變,但沒關系)聚類——在文檔群中尋找以前不知道的事實并視覺化呈現(xiàn)預測——找出數(shù)據(jù)中可以合理預測未來的模式(數(shù)據(jù)挖掘這個區(qū)域被稱為預測性分析。)數(shù)據(jù)挖掘技術被用在許多研究領域,包括數(shù)學、控制論、遺傳學和營銷。Web挖掘是在客戶關系管理(CRM)中使用的一種數(shù)據(jù)挖掘,優(yōu)勢在于從網(wǎng)站的大量信息中尋出用戶的行為模式。參考譯文7.數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個企業(yè)的中央存儲庫,該庫中包括了企業(yè)各個業(yè)務系統(tǒng)收集的全部或重要數(shù)據(jù)。該術語由W.H.Inmon提出。IBM公司有時使用術語“信息倉庫”。通常情況下,數(shù)據(jù)倉庫放在一個企業(yè)的主機服務器上。來自不同的聯(lián)機事務處理(OLTP)應用程序和其他數(shù)據(jù)源的數(shù)據(jù)被選擇性地提取并組織到數(shù)據(jù)倉庫數(shù)據(jù)庫中,供分析應用程序和用戶查詢之用。數(shù)據(jù)倉庫強調(diào)采集不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 反恐教育主題班會教案
- 教學實施與反饋改進計劃
- 公司生產(chǎn)工作計劃升級生產(chǎn)設備
- 藝術教育與科學教育的結(jié)合計劃
- 幼兒園游戲化學習活動安排計劃
- 幼兒園師徒結(jié)對幫扶方案計劃
- 秋季海量閱讀與寫作提升方案計劃
- 運營成本優(yōu)化策略計劃
- 注冊會計師各科目考點解知試題及答案
- 2024年投資市場環(huán)境分析試題及答案
- 心?;颊邞鳖A案演練腳本
- 籃球賽報名表
- (新湘科版)六年級下冊科學知識點
- *****光伏電站30MW二次調(diào)試方案
- 英語演講Artificial-intelligence人工智能(課堂PPT)
- 青島生建z28-75滾絲機說明書
- 小學科學教科版六年級下冊第三單元《宇宙》復習教案(2023春新課標版)
- 消費者心理與行為分析PPT(第四版)完整全套教學課件
- 城鎮(zhèn)企業(yè)職工養(yǎng)老保險制度改革試點方案〉實施辦法分享
- 中醫(yī)醫(yī)院醫(yī)療質(zhì)量考核標準實施細則
- 2023年機動車檢測站內(nèi)部審核表(三合一)
評論
0/150
提交評論