![氣象大數(shù)據(jù)技術(shù)架構(gòu)思路_第1頁](http://file4.renrendoc.com/view7/M00/16/38/wKhkGWbGAaGARsYWAABLIxSOYVM848.jpg)
![氣象大數(shù)據(jù)技術(shù)架構(gòu)思路_第2頁](http://file4.renrendoc.com/view7/M00/16/38/wKhkGWbGAaGARsYWAABLIxSOYVM8482.jpg)
![氣象大數(shù)據(jù)技術(shù)架構(gòu)思路_第3頁](http://file4.renrendoc.com/view7/M00/16/38/wKhkGWbGAaGARsYWAABLIxSOYVM8483.jpg)
![氣象大數(shù)據(jù)技術(shù)架構(gòu)思路_第4頁](http://file4.renrendoc.com/view7/M00/16/38/wKhkGWbGAaGARsYWAABLIxSOYVM8484.jpg)
![氣象大數(shù)據(jù)技術(shù)架構(gòu)思路_第5頁](http://file4.renrendoc.com/view7/M00/16/38/wKhkGWbGAaGARsYWAABLIxSOYVM8485.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
引言在氣象行業(yè)內(nèi)部,氣象數(shù)據(jù)的價值已經(jīng)和正在被深入挖掘著。但是,不能將氣象預報產(chǎn)品的社會化推廣簡單地認為就是“氣象大數(shù)據(jù)的廣泛應(yīng)用”。大數(shù)據(jù)實際上是一種混雜數(shù)據(jù),氣象大數(shù)據(jù)應(yīng)該是指氣象行業(yè)所擁有的以及鎖接觸到的全體數(shù)據(jù),包括傳統(tǒng)的氣象數(shù)據(jù)和對外服務(wù)提供的影視音頻資料、網(wǎng)頁資料、預報文本以及地理位置相關(guān)數(shù)據(jù)、社會經(jīng)濟共享數(shù)據(jù)等等。傳統(tǒng)的”氣象數(shù)據(jù)“,地面觀測、氣象衛(wèi)星遙感、天氣雷達和數(shù)值預報產(chǎn)品四類數(shù)據(jù)占數(shù)據(jù)總量的90%以上,基本的氣象數(shù)據(jù)直接用途是氣象業(yè)務(wù)、天氣預報、氣候預測以及氣象服務(wù)?!按髷?shù)據(jù)應(yīng)用”與目前的氣象服務(wù)有所不同,前者是氣象數(shù)據(jù)的“深度應(yīng)用”和“增值應(yīng)用”,后者是既定業(yè)務(wù)數(shù)據(jù)加工產(chǎn)品的社會推廣應(yīng)用。“大數(shù)據(jù)的核心就是預測”,這是《大數(shù)據(jù)時代》的作者舍恩伯格的名言。天氣和氣候系統(tǒng)是典型的非線性系統(tǒng),無法通過運用簡單的統(tǒng)計分析方法來對其進行準確的預報和預測。人們常說的南美叢林里一只蝴蝶扇動幾下翅膀,會在幾周后引發(fā)北美的一場暴風雪這一現(xiàn)象,形象地描繪了氣象科學的復雜性。運用統(tǒng)計分析方法進行天氣預報在數(shù)十年前便已被氣象科學界否決了——也就是說,目前經(jīng)典的大數(shù)據(jù)應(yīng)用方法并不適用于天氣預報業(yè)務(wù)?,F(xiàn)在,氣象行業(yè)的公共服務(wù)職能越來越強,面向政府提供決策服務(wù),面向公眾提供氣象預報預警服務(wù),面向社會發(fā)展,應(yīng)對氣候發(fā)展節(jié)能減排。這些決策信息怎么來依賴于我們對氣象數(shù)據(jù)的處理。氣象大數(shù)據(jù)應(yīng)該在跨行業(yè)綜合應(yīng)用這一“增值應(yīng)用”價值挖掘過程中煥發(fā)出的新的光芒。
大數(shù)據(jù)平臺的基本構(gòu)成概述“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘(SaaS),但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫(PaaS)和云存儲、虛擬化技術(shù)(IaaS)。大數(shù)據(jù)可通過許多方式來存儲、獲取、處理和分析。每個大數(shù)據(jù)來源都有不同的特征,包括數(shù)據(jù)的頻率、量、速度、類型和真實性。處理并存儲大數(shù)據(jù)時,會涉及到更多維度,比如治理、安全性和策略。選擇一種架構(gòu)并構(gòu)建合適的大數(shù)據(jù)解決方案極具挑戰(zhàn),因為需要考慮非常多的因素。氣象行業(yè)的數(shù)據(jù)情況則更為復雜,除了“機器生成”(可以理解為遙測、傳感設(shè)備產(chǎn)生的觀測數(shù)據(jù),大量參與氣象服務(wù)和共享的信息都以文本、圖片、視頻等多種形式存儲,符合“大數(shù)據(jù)”的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、veracity(真實性) 。這些信息長期存儲于氣象各部門的平臺上未能加以合理利用。另一方面,這些數(shù)據(jù)本身就是分散存儲于多個服務(wù)器平臺上,急需應(yīng)用分布式平臺統(tǒng)一管理。因此,我們亟需一種結(jié)構(gòu)化和基于模式的方法來簡化定義完整的大數(shù)據(jù)架構(gòu)的任務(wù)。因為評估一個業(yè)務(wù)場景是否存在大數(shù)據(jù)問題很重要,所以我們包含了一些線索來幫助確定哪些業(yè)務(wù)問題適合采用大數(shù)據(jù)解決方案。數(shù)據(jù)基礎(chǔ)決定平臺框架從分類大數(shù)據(jù)到選擇大數(shù)據(jù)解決方案RDBMS:關(guān)系型數(shù)據(jù)庫;ETL:數(shù)據(jù)清晰、轉(zhuǎn)換、裝載的過程;ELT:數(shù)據(jù)清晰、裝載、轉(zhuǎn)換的過程;CDC:增量數(shù)據(jù)復制。有同步和異步兩種模式。數(shù)據(jù)種類結(jié)構(gòu)示例量安全性建模存儲和檢索集成使用主數(shù)據(jù)事務(wù)分析數(shù)據(jù)元數(shù)據(jù)結(jié)構(gòu)化觀測數(shù)據(jù)中-高數(shù)據(jù)庫、應(yīng)用程序和用戶訪問預定義的關(guān)系建?;蚓S度建模RDBMS/SQLETL/ELT、CDC應(yīng)用程序、BI和統(tǒng)計程序參考數(shù)據(jù)結(jié)構(gòu)化和半結(jié)構(gòu)化交換數(shù)據(jù)中-低平臺安全性靈活可擴展XML/xQueryETL/ELT、消息使用基于系統(tǒng)文檔和內(nèi)容非結(jié)構(gòu)化預報文件高基于文件系統(tǒng)隨意文件系統(tǒng)/搜索操作系統(tǒng)級文件移動內(nèi)容管理大數(shù)據(jù)-網(wǎng)頁-物聯(lián)網(wǎng)-衛(wèi)星/雷達等傳感器結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化云圖視頻語音網(wǎng)志高文件系統(tǒng)和數(shù)據(jù)庫靈活(鍵值)分布式文件系統(tǒng)/noSQLHadoop、MapReduce、ETL/ELT、消息BI和統(tǒng)計工具結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)“非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)依據(jù)大數(shù)據(jù)類型對業(yè)務(wù)問題進行分類根據(jù)氣象服務(wù)需要,業(yè)務(wù)問題可分類為不同的大數(shù)據(jù)問題類型。以后,我們將使用此類型確定合適的分類模式(原子或復合)和合適的大數(shù)據(jù)解決方案。但第一步是將業(yè)務(wù)問題映射到它的大數(shù)據(jù)類型。下表列出了常見的業(yè)務(wù)問題并為每個問題分配了一種大數(shù)據(jù)類型。業(yè)務(wù)問題大數(shù)據(jù)問題描述公用事業(yè):臨近天氣預報機器生成數(shù)據(jù)依據(jù)站點觀測數(shù)據(jù)匯總和國家局下發(fā)文件、全球交換數(shù)據(jù)只做的預報信息政府決策:區(qū)域天氣預警機器生成的數(shù)據(jù)地理信息數(shù)據(jù)政府交換數(shù)據(jù)圖片視頻資料語音播報數(shù)據(jù)歷史災害匯總微博等網(wǎng)頁數(shù)據(jù)政府機構(gòu)通過“智慧都市”等平臺整合IS關(guān)聯(lián)天氣預警產(chǎn)品、預警通知反饋、城區(qū)建筑布局與災害易發(fā)分析結(jié)果預測預判轄區(qū)內(nèi)的災情險情,做好防災避險工作保險業(yè):氣象相關(guān)險種氣象預報Web與社交媒體數(shù)據(jù)依據(jù)氣象預報信息以及網(wǎng)絡(luò)媒體調(diào)查反饋,開辟“中暑險”、“賞月險”等多個險種醫(yī)療保?。毫餍胁”O(jiān)控氣象預報生活指數(shù)根據(jù)歷史氣象資料和流行病歷史資料結(jié)合分析,預判流行病發(fā)展趨勢,對流行病監(jiān)控、地區(qū)流行病學、藥物發(fā)明、臨床試驗數(shù)據(jù)分析、病人病情分析等起著至關(guān)重要的作用此類分析也可以為醫(yī)藥企業(yè)的銷售行為提供參考期貨:農(nóng)產(chǎn)品災害預測氣象災害預警歷史氣候?qū)r(nóng)產(chǎn)品影響分析-用于氣象災害提醒、農(nóng)產(chǎn)品價格變化預測-用于期貨市場預測分析使用大數(shù)據(jù)類型對大數(shù)據(jù)特征進行分類按特定方向分析大數(shù)據(jù)的特征會有所幫助,例如以下特征:數(shù)據(jù)如何收集、分析和處理。對數(shù)據(jù)進行分類后,就可以將它與合適的大數(shù)據(jù)模式匹配:分析類型—對數(shù)據(jù)執(zhí)行實時分析還是批量分析。請仔細考慮分析類型的選擇,因為這會影響一些有關(guān)產(chǎn)品、工具、硬件、數(shù)據(jù)源和預期的數(shù)據(jù)頻率的其他決策。一些用例可能需要混合使用兩種類型:臨近分析;分析必須實時或近實時地完成。歷史分析針對戰(zhàn)略性業(yè)務(wù)決策的趨勢分析;分析可采用批量模式。處理方法—要應(yīng)用來處理數(shù)據(jù)的技術(shù)類型(比如預測、分析、臨時查詢和報告)。業(yè)務(wù)需求確定了合適的處理方法??山Y(jié)合使用各種技術(shù)。處理方法的選擇,有助于識別要在您的大數(shù)據(jù)解決方案中使用的合適的工具和技術(shù)。數(shù)據(jù)頻率和大小—預計有多少數(shù)據(jù)和數(shù)據(jù)到達的頻率多高。知道頻率和大小,有助于確定存儲機制、存儲格式和所需的預處理工具。數(shù)據(jù)頻率和大小依賴于數(shù)據(jù)源:按需分析,與社交媒體數(shù)據(jù)一樣實時、持續(xù)提供(天氣數(shù)據(jù)、交易數(shù)據(jù))時序(基于時間的數(shù)據(jù))數(shù)據(jù)類型—要處理數(shù)據(jù)類型—交易、歷史、主數(shù)據(jù)等。知道數(shù)據(jù)類型,有助于將數(shù)據(jù)隔離在存儲中。內(nèi)容格式(傳入數(shù)據(jù)的格式)結(jié)構(gòu)化(例如RDMBS)、非結(jié)構(gòu)化(例如音頻、視頻和圖像)或半結(jié)構(gòu)化。格式確定了需要如何處理傳入的數(shù)據(jù),這是選擇工具、技術(shù)以及從業(yè)務(wù)角度定義解決方案的關(guān)鍵。數(shù)據(jù)源—數(shù)據(jù)的來源(生成數(shù)據(jù)的地方),比如Web和社交媒體、機器生成、人類生成等。識別所有數(shù)據(jù)源有助于從業(yè)務(wù)角度識別數(shù)據(jù)范圍。該圖顯示了使用最廣泛的數(shù)據(jù)源。數(shù)據(jù)使用者—處理的數(shù)據(jù)的所有可能使用者的列表:業(yè)務(wù)流程業(yè)務(wù)用戶企業(yè)應(yīng)用程序各種業(yè)務(wù)角色中的各個人員部分處理流程其他數(shù)據(jù)存儲庫或企業(yè)應(yīng)用程序硬件—將在其上實現(xiàn)大數(shù)據(jù)解決方案的硬件類型,包括商用硬件或最先進的硬件。理解硬件的限制,有助于指導大數(shù)據(jù)解決方案的選擇。數(shù)據(jù)分類決定應(yīng)用方案將不同的數(shù)據(jù)類型集成后,統(tǒng)一按照大數(shù)據(jù)進行處理,如下圖:
大數(shù)據(jù)平臺的邏輯層次邏輯構(gòu)成從框架上展示了各個組件的組織方式。這些層提供了一種方法來組織執(zhí)行特定功能的組件。這些層只是邏輯結(jié)構(gòu);這并不意味著支持每層的功能在獨立的機器或獨立的進程上運行。大數(shù)據(jù)平臺通常由以下邏輯層組成:數(shù)據(jù)集成層數(shù)據(jù)存儲層數(shù)據(jù)分析層數(shù)據(jù)使用層大數(shù)據(jù)集成層要全面考慮來自所有渠道的,所有可用于分析的數(shù)據(jù)。要求團隊中的數(shù)據(jù)專家闡明執(zhí)行需求所需的數(shù)據(jù)。這些信息包括:格式—結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化。速度和數(shù)據(jù)量—數(shù)據(jù)到達的速度和傳送它的速率因數(shù)據(jù)源不同而不同。收集點—收集數(shù)據(jù)的位置,直接或通過數(shù)據(jù)提供程序,實時或以批量模式收集數(shù)據(jù)。數(shù)據(jù)可能來自某個主要來源,比如天氣條件,也有可能來自一個輔助來源,比如媒體贊助的天氣頻道。數(shù)據(jù)源的位置—數(shù)據(jù)源可能位于企業(yè)內(nèi)或外部。識別您具有有限訪問權(quán)的數(shù)據(jù),因為對數(shù)據(jù)的訪問會影響可用于分析的數(shù)據(jù)范圍。大數(shù)據(jù)存儲層此層負責從數(shù)據(jù)源獲取數(shù)據(jù),并在必要時,將它轉(zhuǎn)換為適合符合分析方式的格式。例如,可能需要轉(zhuǎn)換一幅圖,才能將它存儲在HadoopDistributed(HDFS)存儲或關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)倉庫中,以供進一步處理。規(guī)范 1和治理策略要求為不同的數(shù)據(jù)類型提供合適的存儲。大數(shù)據(jù)分析層分析層讀取數(shù)據(jù)改動和存儲層整理(digest)的數(shù)據(jù)。在某些情況下,分析層直接從數(shù)據(jù)源訪問數(shù)據(jù)。設(shè)計分析層需要認真地進行事先籌劃和規(guī)劃。必須制定如何管理以下任務(wù)的決策:生成想要的分析從數(shù)據(jù)中獲取洞察找到所需的實體定位可提供這些實體的數(shù)據(jù)的數(shù)據(jù)源理解執(zhí)行分析需要哪些算法和工具。大數(shù)據(jù)應(yīng)用層此層使用了分析層所提供的輸出。使用者可以是可視化應(yīng)用程序、人類、業(yè)務(wù)流程或服務(wù)??梢暬治鰧拥慕Y(jié)果可能具有挑戰(zhàn)。大數(shù)據(jù)平臺的功能架構(gòu)組件構(gòu)成橫向?qū)哟髷?shù)據(jù)集成層大數(shù)據(jù)來源:企業(yè)遺留系統(tǒng)—這些系統(tǒng)是企業(yè)應(yīng)用程序,執(zhí)行業(yè)務(wù)需要的分析并獲取需要的洞察:氣象網(wǎng)絡(luò)設(shè)備監(jiān)測系統(tǒng)氣象信息共享系統(tǒng)MICAPS網(wǎng)絡(luò)通信系統(tǒng)CMA-Cast突發(fā)應(yīng)急系統(tǒng)氣象預報系統(tǒng)氣象服務(wù)系統(tǒng)辦公自動化……Web應(yīng)用程序開發(fā)--Web應(yīng)用程序和其他數(shù)據(jù)來源擴充了企業(yè)擁有的數(shù)據(jù)。這些應(yīng)用程序可使用自定義的協(xié)議和機制來公開數(shù)據(jù)。數(shù)據(jù)管理系統(tǒng)(DMS)—數(shù)據(jù)管理系統(tǒng)存儲邏輯數(shù)據(jù)、流程、策略和各種其他類型的文檔:Microsoft?Excel?電子表格MicrosoftWord文檔這些文檔可以轉(zhuǎn)換為可用于分析的結(jié)構(gòu)化數(shù)據(jù)。文檔數(shù)據(jù)可公開為領(lǐng)域?qū)嶓w,或者數(shù)據(jù)改動和存儲層可將它轉(zhuǎn)換為領(lǐng)域?qū)嶓w。數(shù)據(jù)存儲—數(shù)據(jù)存儲包含企業(yè)數(shù)據(jù)倉庫、操作數(shù)據(jù)庫和事務(wù)數(shù)據(jù)庫。此數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù),可直接使用或輕松地轉(zhuǎn)換來滿足需求。這些數(shù)據(jù)不一定存儲在分布式文件系統(tǒng)中,具體依賴于所處的上下文。智慧設(shè)備—智慧設(shè)備能夠捕獲、處理和傳輸使用最廣泛的協(xié)議和格式的信息。這方面的示例包括智能電話、儀表和醫(yī)療設(shè)備。這些設(shè)備可用于執(zhí)行各種類型的分析。絕大多數(shù)智慧設(shè)備都會執(zhí)行實時分析,但從智慧設(shè)備傳來的信息也可批量分析。聚合的數(shù)據(jù)提供程序—這些提供程序擁有或獲取數(shù)據(jù),并以復雜的格式和所需的頻率通過特定的過濾器公開它。每天都會產(chǎn)生海量的數(shù)據(jù),它們具有不同的格式,以不同的速度生成,而且通過各種數(shù)據(jù)提供程序、傳感器和現(xiàn)有企業(yè)提供。其他數(shù)據(jù)源—有許多數(shù)據(jù)來自自動化的來源:地理信息:地圖地區(qū)詳細信息位置詳細信息經(jīng)濟熱點詳細信息(工農(nóng)業(yè)旅游交通教育醫(yī)療金融等等)人類生成的內(nèi)容:社交媒體電子郵件博客在線信息傳感器數(shù)據(jù):環(huán)境:天氣、降雨量、濕度、光線電氣:電流、能源潛力等導航裝置電離輻射、亞原子粒子等靠近、存在等位置、角度、位移、距離、速度、加速度聲音、聲震動等汽車、運輸?shù)葻崃?、熱度、溫度光學、光、成像、見光度化學壓力流動、流體、速度力、密度級別等來自傳感器供應(yīng)商的其他數(shù)據(jù)大數(shù)據(jù)存儲層因為傳入的數(shù)據(jù)可能具有不同的特征,所以數(shù)據(jù)改動和存儲層中的組件必須能夠以各種頻率、格式、大小和在各種通信渠道上讀取數(shù)據(jù):數(shù)據(jù)獲取—從各種數(shù)據(jù)源獲取數(shù)據(jù),并將其發(fā)送到數(shù)據(jù)整理組件或存儲在指定的位置中。此組件必須足夠智能,能夠選擇是否和在何處存儲傳入的數(shù)據(jù)。它必須能夠確定數(shù)據(jù)在存儲前是否應(yīng)改動,或者數(shù)據(jù)是否可直接發(fā)送到業(yè)務(wù)分析層。數(shù)據(jù)整理—負責將數(shù)據(jù)修改為需要的格式,以實現(xiàn)分析用途。此組件可擁有簡單的轉(zhuǎn)換邏輯或復雜的統(tǒng)計算法來轉(zhuǎn)換源數(shù)據(jù)。分析引擎將會確定所需的特定的數(shù)據(jù)格式。主要的挑戰(zhàn)是容納非結(jié)構(gòu)化數(shù)據(jù)格式,比如圖像、音頻、視頻和其他二進制格式。分布式數(shù)據(jù)存儲—負責存儲來自數(shù)據(jù)源的數(shù)據(jù)。通常,這一層中提供了多個數(shù)據(jù)存儲選項,比如分布式文件存儲(DFS)、云、結(jié)構(gòu)化數(shù)據(jù)源、NoSQL等。分析層這是從數(shù)據(jù)中提取業(yè)務(wù)洞察的層:分析層實體識別—負責識別和填充上下文實體。這是一個復雜的任務(wù),需要高效的高性能流程。數(shù)據(jù)整理組件應(yīng)為這個實體識別組件提供補充,將數(shù)據(jù)修改為需要的格式。分析引擎將需要上下文實體來執(zhí)行分析。分析引擎—使用其他組件(具體來講,包括實體鑒別、模型管理和分析算法)來處理和執(zhí)行分析。分析引擎可具有支持并行處理的各種不同的工作流、算法和工具。模型管理—負責維護各種統(tǒng)計模型,驗證和檢驗這些模型,通過持續(xù)培訓模型來提高準確性。然后,模型管理組件會推廣這些模型,它們可供實體識別或分析引擎組件使用。使用層這一層使用了從分析應(yīng)用程序獲取的業(yè)務(wù)洞察。分析的結(jié)果由組織內(nèi)的各個用戶和組織外部的實體(比如客戶、供應(yīng)商、合作伙伴和提供商)使用。此洞察可用于針對客戶提供產(chǎn)品營銷信息。例如,借助從分析中獲取的洞察,公司可以使用客戶偏好數(shù)據(jù)和位置感知,在客戶經(jīng)過通道或店鋪時向他們提供個性化的營銷信息。該洞察可用于檢測欺詐,實時攔截交易,并將它們與使用已存儲在企業(yè)中的數(shù)據(jù)構(gòu)建的視圖進行關(guān)聯(lián)。在欺詐性交易發(fā)生時,可以告知客戶可能存在欺詐,以便及時采取更正操作。此外,可以根據(jù)在數(shù)據(jù)改動層完成的分析來觸發(fā)業(yè)務(wù)流程。可以啟動自動化的步驟—例如,如果客戶接受了一條可自動觸發(fā)的營銷信息,則需要創(chuàng)建一個新訂單,如果客戶報告了欺詐,那么可以觸發(fā)對信用卡使用的阻止。分析的輸出也可由推薦引擎使用,該引擎可將客戶與他們喜歡的產(chǎn)品相匹配。推薦引擎分析可用的信息,并提供個性化且實時的推薦。使用層還為內(nèi)部用戶提供了理解、找到和導航企業(yè)內(nèi)外的鏈鎖信息的能力。對于內(nèi)部使用者,為業(yè)務(wù)用戶構(gòu)建報告和儀表板的能力使得利益相關(guān)者能夠制定精明的決策并設(shè)計恰當?shù)膽?zhàn)略。為了提高操作有效性,可以從數(shù)據(jù)中生成實時業(yè)務(wù)警告,而且可以監(jiān)視操作性的關(guān)鍵績效指標:交易攔截器—此組件可實時攔截高容量交易,將它們轉(zhuǎn)換為一種容易被分析層理解的實時格式,以便在傳入數(shù)據(jù)上執(zhí)行實時分析。事務(wù)攔截器應(yīng)能夠集成并處理來自各種來源的數(shù)據(jù),比如傳感器、智能儀表、麥克風、攝像頭、GPS設(shè)備、ATM和圖像掃描儀??梢允褂酶鞣N類型的適配器和API來連接到數(shù)據(jù)源。也可以使用各種加速器來簡化開發(fā),比如實時優(yōu)化和流分析,視頻分析,銀行、保險、零售、電信和公共運輸領(lǐng)域的加速器,社交媒體分析,以及情緒分析。業(yè)務(wù)流程管理流程—來自分析層的洞察可供業(yè)務(wù)流程執(zhí)行語言(BPEL)流程、API或其他業(yè)務(wù)流程使用,通過自動化上游和下游IT應(yīng)用程序、人員和流程的功能,進一步獲取業(yè)務(wù)價值。實時監(jiān)視—可以使用從分析中得出的數(shù)據(jù)來生成實時警告??梢詫⒕姘l(fā)送給感興趣的使用者和設(shè)備,比如智能電話和平板電腦。可以使用從分析組件生成的數(shù)據(jù)洞察,定義并監(jiān)視關(guān)鍵績效指標,以便確定操作有效性。實時數(shù)據(jù)可從各種來源以儀表板的形式向業(yè)務(wù)用戶公開,以便監(jiān)視系統(tǒng)的健康或度量營銷活動的有效性。報告引擎—生成與傳統(tǒng)商業(yè)智能報告類似的報告的能力至關(guān)重要。用戶可基于從分析層中得到的洞察,創(chuàng)建臨時報告、計劃的報告或自助查詢和分析。推薦引擎—基于來自分析層的分析結(jié)果,推薦引擎可向購物者提供實時的、相關(guān)的和個性化的推薦,提高電子商務(wù)交易中的轉(zhuǎn)換率和每個訂單的平均價值。該引擎實時處理可用信息并動態(tài)地響應(yīng)每個用戶,響應(yīng)基于用戶的實時活動、存儲在CRM系統(tǒng)中的注冊客戶信息,以及非注冊客戶的社交概況??梢暬桶l(fā)現(xiàn)—數(shù)據(jù)可跨企業(yè)內(nèi)外的各種聯(lián)邦的數(shù)據(jù)源進行導航。數(shù)據(jù)可能具有不同的內(nèi)容和格式,所有數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)可組合來進行可視化并提供給用戶。此能力使得組織能夠?qū)⑵鋫鹘y(tǒng)的企業(yè)內(nèi)容(包含在企業(yè)內(nèi)容管理系統(tǒng)和數(shù)據(jù)倉庫中)與新的社交內(nèi)容(例如tweet和博客文章)組合到單個用戶界面中。垂直層影響邏輯層(大數(shù)據(jù)來源、數(shù)據(jù)改動和存儲、分析和使用層)的所有組件的各方面都包含在垂直層中:信息集成大數(shù)據(jù)治理系統(tǒng)管理服務(wù)質(zhì)量信息集成大數(shù)據(jù)應(yīng)用程序從各種數(shù)據(jù)起源、提供程序和數(shù)據(jù)源獲取數(shù)據(jù),并存儲在HDFS、NoSQL和MongoDB等數(shù)據(jù)存儲系統(tǒng)中。這個垂直層可供各種組件使用(例如數(shù)據(jù)獲取、數(shù)據(jù)整理、模型管理和交易攔截器),負責連接到各種數(shù)據(jù)源。集成將具有不同特征(例如協(xié)議和連接性)的數(shù)據(jù)源的信息,需要高質(zhì)量的連接器和適配器。可以使用加速器連接到大多數(shù)已知和廣泛使用的來源。這些加速器包括社交媒體適配器和天氣數(shù)據(jù)適配器。各種組件還可以使用這一層在大數(shù)據(jù)存儲中存儲信息,從大數(shù)據(jù)存儲中檢索信息,以便處理這些信息。大多數(shù)大數(shù)據(jù)存儲都提供了服務(wù)和API來存儲和檢索該信息。大數(shù)據(jù)治理數(shù)據(jù)治理涉及到定義指南來幫助企業(yè)制定有關(guān)數(shù)據(jù)的正確決策。大數(shù)據(jù)治理有助于處理企業(yè)內(nèi)或從外部來源傳入的數(shù)據(jù)的復雜性、量和種類。在將數(shù)據(jù)傳入企業(yè)進行處理、存儲、分析和清除或歸檔時,需要強有力的指南和流程來監(jiān)視、構(gòu)建、存儲和保護數(shù)據(jù)。除了正常的數(shù)據(jù)治理考慮因素之外,大數(shù)據(jù)治理還包含其他因素:管理各種格式的大量數(shù)據(jù)。持續(xù)培訓和管理必要的統(tǒng)計模型,以便對非結(jié)構(gòu)化數(shù)據(jù)和分析進行預處理。請記住,設(shè)置處理非結(jié)構(gòu)化數(shù)據(jù)時的重要一步。為外部數(shù)據(jù)設(shè)置有關(guān)其保留和使用的策略和合規(guī)性制度。定義數(shù)據(jù)歸檔和清除策略。創(chuàng)建如何跨各種系統(tǒng)復制數(shù)據(jù)的策略。設(shè)置數(shù)據(jù)加密策略。服務(wù)質(zhì)量層此層復雜定義數(shù)據(jù)質(zhì)量、圍繞隱私和安全性的策略、數(shù)據(jù)頻率、每次抓取的數(shù)據(jù)大小和數(shù)據(jù)過濾器:數(shù)據(jù)質(zhì)量完整地識別所有必要的數(shù)據(jù)元素以可接受的新鮮度提供數(shù)據(jù)的時間軸依照數(shù)據(jù)準確性規(guī)則來驗證數(shù)據(jù)的準確性采用一種通用語言(數(shù)據(jù)元組滿足使用簡單業(yè)務(wù)語言所表達的需求)依據(jù)數(shù)據(jù)一致性規(guī)則驗證來自多個系統(tǒng)的數(shù)據(jù)一致性在滿足數(shù)據(jù)規(guī)范和信息架構(gòu)指南基礎(chǔ)上的技術(shù)符合性圍繞隱私和安全的策略
需要策略來保護敏感數(shù)據(jù)。從外部機構(gòu)和提供程序獲取的數(shù)據(jù)可能包含敏感數(shù)據(jù)(比如Facebook用戶的聯(lián)系信息或產(chǎn)品定價信息)。數(shù)據(jù)可以來源于不同的地區(qū)和國家,但必須進行相應(yīng)的處理。必須制定有關(guān)數(shù)據(jù)屏蔽和這類數(shù)據(jù)的存儲的決策??紤]以下數(shù)據(jù)訪問策略:數(shù)據(jù)可用性數(shù)據(jù)關(guān)鍵性數(shù)據(jù)真實性數(shù)據(jù)共享和發(fā)布數(shù)據(jù)存儲和保留,包括能否存儲外部數(shù)據(jù)等問題。如果能夠存儲數(shù)據(jù),數(shù)據(jù)可存儲多長時間?可存儲何種類型的數(shù)據(jù)?數(shù)據(jù)提供程序約束(政策、技術(shù)和地區(qū))社交媒體使用條款(參見
參考資料)數(shù)據(jù)頻率
提供新鮮數(shù)據(jù)的頻率是多少?它是按需、連續(xù)還是離線的?抓取的數(shù)據(jù)大小
此屬性有助于定義可抓取的數(shù)據(jù)以及每次抓取后可使用的數(shù)據(jù)大小。過濾器
標準過濾器會刪除不想要的數(shù)據(jù)和數(shù)據(jù)中的干擾數(shù)據(jù),僅留下分析所需的數(shù)據(jù)。系統(tǒng)管理系統(tǒng)管理對大數(shù)據(jù)至關(guān)重要,因為它涉及到跨企業(yè)集群和邊界的許多系統(tǒng)。對整個大數(shù)據(jù)生態(tài)系統(tǒng)的健康的監(jiān)視包括:管理系統(tǒng)日志、虛擬機、應(yīng)用程序和其他設(shè)備關(guān)聯(lián)各種日志,幫助調(diào)查和監(jiān)視具體情形監(jiān)視實時警告和通知使用顯示各種參數(shù)的實時儀表板引用有關(guān)系統(tǒng)的報告和詳細分析設(shè)定和遵守服務(wù)水平協(xié)議管理存儲和容量歸檔和管理歸檔檢索執(zhí)行系統(tǒng)恢復、集群管理和網(wǎng)絡(luò)管理策略管理
功能應(yīng)用前面提到的技術(shù)架構(gòu)的這些層定義了各種組件,并對它們進行分類,這些組件必須處理某個給定業(yè)務(wù)用例的功能性和非功能性需求。本文基于層和組件的概念,介紹了解決方案中所用的典型原子模式和復合模式。通過將所提出的解決方案映射到此處提供的模式,讓用戶了解需要如何設(shè)計組件,以及從功能角度考慮,應(yīng)該將它們放置在何處。模式有助于定義大數(shù)據(jù)解決方案的架構(gòu)。利用原子模式和復合模式可以幫助進一步完善大數(shù)據(jù)解決方案的每個組件的角色和責任。 原子模式對于大數(shù)據(jù)上下文中經(jīng)常出現(xiàn)的問題,原子模式
有助于識別數(shù)據(jù)如何是被使用、處理、存儲和訪問的。它們還有助于識別所需的組件。訪問、存儲和處理來自不同數(shù)據(jù)源的多種數(shù)據(jù)需要不同的方法。每種模式都用于滿足特定的需求:例如,可視化、歷史數(shù)據(jù)分析、社交媒體數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲??梢詫⒍喾N原子模式結(jié)合使用,組成一個復合模式。這些原子模式?jīng)]有進行分層或排序。例如,可視化模式可以與社交媒體的數(shù)據(jù)訪問模式直接交互,可視化模式還可以與高級分析處理模式進行交互。數(shù)據(jù)使用組件這種類型的模式處理使用數(shù)據(jù)分析結(jié)果的各種方式。數(shù)據(jù)使用模式可以滿足幾個需求。可視化組件可視化數(shù)據(jù)的傳統(tǒng)方式以圖表、儀表板和摘要報告為基礎(chǔ)。這些傳統(tǒng)的方法并不總是用來可視化數(shù)據(jù)的最佳方式。大數(shù)據(jù)可視化的典型需求(包括新出現(xiàn)的需求)如下所示:執(zhí)行流數(shù)據(jù)的實時分析和顯示基于上下文,以交互方式挖掘數(shù)據(jù)執(zhí)行高級搜索,并獲得建議并行可視化信息獲得先進的硬件,支持未來的可視化需求正在進行研究,以確定人類和機器如何使用大數(shù)據(jù)洞察。這些挑戰(zhàn)包括所涉及的數(shù)據(jù)量,并且需要將數(shù)據(jù)與上下文相關(guān)聯(lián)。必須在適當?shù)纳舷挛闹酗@示洞察。可視化數(shù)據(jù)的目的是為了更容易、更直觀地使用數(shù)據(jù),因此報告和儀表板可能提供全高清的觀看效果和3-D互動視頻,并且可以為用戶提供使用應(yīng)用程序控制業(yè)務(wù)活動和結(jié)果的能力。即席發(fā)現(xiàn)組件創(chuàng)建滿足所有業(yè)務(wù)需求的標準報告往往是不可行的,因為企業(yè)的業(yè)務(wù)數(shù)據(jù)查詢會有不同的需求。用戶在查找特定信息時,可能需要獲得根據(jù)問題的上下文執(zhí)行即席查詢的能力。即席分析可以幫助數(shù)據(jù)專家和關(guān)鍵業(yè)務(wù)用戶了解業(yè)務(wù)數(shù)據(jù)的行為。即席處理中涉及的復雜性來自多種因素:多個數(shù)據(jù)源可用于相同的域。單一的查詢可以有多個結(jié)果。輸出可以是靜態(tài)的,并具有多種格式(視頻、音頻、圖形和文本)。輸出可以是動態(tài)和交互式的。數(shù)據(jù)轉(zhuǎn)儲組件在大數(shù)據(jù)的初步探索中,許多企業(yè)選擇使用現(xiàn)有的分析平臺來降低成本,并依賴于現(xiàn)有的技能。加強現(xiàn)有的數(shù)據(jù)存儲有助于拓寬可用于現(xiàn)有分析的數(shù)據(jù)的范圍,包括駐留在組織邊界內(nèi)外的數(shù)據(jù),比如社交媒體數(shù)據(jù),它可以豐富主數(shù)據(jù)。通過拓寬數(shù)據(jù)范圍,使之包含現(xiàn)有存儲中的新事實表、維度和主數(shù)據(jù),并從社交媒體獲取客戶數(shù)據(jù),組織可以獲得更深入的客戶洞察。但要牢記的是,新的數(shù)據(jù)集通常比較大,而現(xiàn)有的提取、轉(zhuǎn)換和加載工具可能不足以處理它。您可能需要使用具有大規(guī)模并行處理能力的高級工具來解決數(shù)據(jù)的數(shù)量、多樣性、真實性和速度特征。信息推送/通知組件大數(shù)據(jù)洞察使人類、企業(yè)和機器可以通過使用事件通知而立即采取行動。通知平臺必須能夠處理及時發(fā)送出去的預計數(shù)量的通知。這些通知與大量郵件或群發(fā)短信不同,因為內(nèi)容一般是特定于使用者的。例如,推薦引擎可以提供有關(guān)世界各地的龐大客戶群的洞察,而且可以將通知發(fā)送給這樣的客戶。自動響應(yīng)組件從大數(shù)據(jù)獲得的業(yè)務(wù)洞察,可用于觸發(fā)或啟動其他業(yè)務(wù)流程或事務(wù)數(shù)據(jù)處理組件無論數(shù)據(jù)是處于靜止狀態(tài)還是在運動中,都可以處理大數(shù)據(jù)。具體情況取決于分析的復雜性,有可能不需要對數(shù)據(jù)進行實時處理。這種模式解決了對大數(shù)據(jù)進行實時、近實時或批量處理的方式。以下高級的大數(shù)據(jù)處理類別適用于大多數(shù)分析。這些類別通常也適用于基于RDBMS的傳統(tǒng)系統(tǒng)。惟一的區(qū)別是龐大規(guī)模的數(shù)據(jù)、多樣性和速度。在處理大數(shù)據(jù)時,要使用機器學習、復雜事件處理、事件流處理、決策管理和統(tǒng)計模型管理等技術(shù)。歷史數(shù)據(jù)分析組件傳統(tǒng)的歷史數(shù)據(jù)分析僅限于預定義的數(shù)據(jù)時間段,這通常取決于數(shù)據(jù)保留策略。由于處理和存儲的限制,超出此時間段的數(shù)據(jù)通常會被歸檔或清除。基于Hadoop的系統(tǒng)和其他等效的系統(tǒng)可以克服這些限制,因為它們具有豐富的存儲以及分布式大規(guī)模并行處理能力。運營、業(yè)務(wù)和數(shù)據(jù)倉庫的數(shù)據(jù)被移動到大數(shù)據(jù)存儲,您通過使用大數(shù)據(jù)平臺功能對它們進行處理。歷史分析包括分析給定時間段、季節(jié)組合和產(chǎn)品的歷史趨勢,并與最新的可用數(shù)據(jù)進行比較。為了能夠存儲和處理如此龐大的數(shù)據(jù),您可以使用HDFS、NoSQL、SPSS?和InfoSphere?BigInsights?。高級分析組件大數(shù)據(jù)提供了很多實現(xiàn)創(chuàng)意洞察的機會。不同的數(shù)據(jù)集可以在多種上下文中存在關(guān)聯(lián)。發(fā)現(xiàn)這些關(guān)系需要創(chuàng)新的復雜算法和技術(shù)。高級分析包括預測、決策、推理過程、模擬、上下文信息標識和實體解析。高級分析的應(yīng)用包括生物統(tǒng)計數(shù)據(jù)分析(例如,DNA分析)、空間分析、基于位置的分析、科學分析、研究,等等。高級分析要求大量的計算來管理大量的數(shù)據(jù)。數(shù)據(jù)專家可以指導您識別合適的技術(shù)、算法和數(shù)據(jù)集,以及在給定上下文中解決問題所需的數(shù)據(jù)源。比如SPSS、InfoSphereStreams和InfoSphereBigInsights等工具提供了這類功能。這些工具訪問存儲在大數(shù)據(jù)存儲系統(tǒng)(比如BigTable、HBase,等等)中的非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)(例如,JSON數(shù)據(jù))。預處理原始數(shù)據(jù)組件大數(shù)據(jù)解決方案主要由基于MapReduce的Hadoop系統(tǒng)和技術(shù)組成,MapReduce是開箱即用的分布式存儲和處理解決方案。然而,從非結(jié)構(gòu)化數(shù)據(jù)提取數(shù)據(jù)(例如,圖像、音頻、視頻、二進制提要,甚至是文本)是一項復雜的任務(wù),需要具有機器學習能力并掌握自然語言處理等技術(shù)。另一個主要挑戰(zhàn)是如何驗證這些技術(shù)和算法的輸出的準確度和正確性。要對任何數(shù)據(jù)執(zhí)行分析,數(shù)據(jù)都必須是某種結(jié)構(gòu)化格式。從多個數(shù)據(jù)源訪問的非結(jié)構(gòu)化數(shù)據(jù)可以按原樣存儲,然后被轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)(例如JSON),并被再次存儲到大數(shù)據(jù)存儲系統(tǒng)中。非結(jié)構(gòu)化文本可以轉(zhuǎn)換成半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)。同樣,圖像、音頻和視頻數(shù)據(jù)需要轉(zhuǎn)換成可用于分析的格式。此外,使用預測和統(tǒng)計算法的高級分析的準確性和正確性取決于用來訓練其模型的數(shù)據(jù)和算法的數(shù)量。下面的列表顯示了將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)所需的算法和活動:文檔和文本分類特征提取圖像和文本分割關(guān)聯(lián)特征、變量和時間,然后提取包含時間的值輸出的準確度檢查使用了混淆矩陣(confusionmatrix)等技術(shù)和其他手動活動數(shù)據(jù)專家可以幫助用戶選擇合適的技術(shù)和算法。即席分析組件處理大數(shù)據(jù)的即席查詢所帶來的挑戰(zhàn)不同于對結(jié)構(gòu)化數(shù)據(jù)執(zhí)行即席查詢時所面臨的挑戰(zhàn),由于數(shù)據(jù)源和數(shù)據(jù)格式不是固定的,所以需要使用不同的機制來檢索和處理數(shù)據(jù)。雖然大數(shù)據(jù)供應(yīng)商可以處理簡單的即席查詢,但在大多數(shù)情況下,查詢是復雜的,因為必須在運行時動態(tài)地發(fā)現(xiàn)數(shù)據(jù)、算法、格式和實體解析。所以需要利用數(shù)據(jù)專家和業(yè)務(wù)用戶的專業(yè)知識來定義下列任務(wù)所需的分析:識別并發(fā)現(xiàn)計算和算法識別并發(fā)現(xiàn)數(shù)據(jù)源定義所需的可以由計算使用的格式對數(shù)據(jù)執(zhí)行并行計算數(shù)據(jù)訪問組件在大數(shù)據(jù)解決方案中,有許多數(shù)據(jù)源,還有很多訪問數(shù)據(jù)的方式,本節(jié)將介紹最常見的幾種。web和社交媒體訪問組件Internet是提供許多目前可以獲得的洞察的數(shù)據(jù)源。在幾乎所有分析中,都會用到Web和社交媒體,但獲得這種數(shù)據(jù)需要不同的訪問機制。在所有數(shù)據(jù)源中,因為Web和社交媒體的多樣性、速度和數(shù)量,所以Web和社交媒體是最為復雜的。網(wǎng)站大約有40-50個類別,每一個類別都需要使用不同的方式來訪問數(shù)據(jù)。本節(jié)將列出這些類別,并介紹一些訪問機制。從大數(shù)據(jù)的角度講,高級的類別是商業(yè)站點、社交媒體站點,以及具有特定和通用組件的站點。有關(guān)的訪問機制見圖3。如果需要的話,在完成預處理后,可將所訪問的數(shù)據(jù)存儲在數(shù)據(jù)存儲中。Web和社交媒體訪問需要執(zhí)行以下步驟來訪問Web媒體信息。圖大數(shù)據(jù)訪問步驟非結(jié)構(gòu)化數(shù)據(jù)存儲中的Web媒體訪問步驟A-1.爬網(wǎng)程序讀取原始數(shù)據(jù)。步驟A-2.數(shù)據(jù)被存儲在非結(jié)構(gòu)化存儲中。Web媒體訪問為結(jié)構(gòu)化存儲預處理數(shù)據(jù)步驟B-1.爬網(wǎng)程序讀取原始數(shù)據(jù)。步驟B-2.對數(shù)據(jù)進行預處理。步驟B-3.數(shù)據(jù)被存儲在結(jié)構(gòu)化存儲中。Web媒體訪問預處理非結(jié)構(gòu)化數(shù)據(jù)步驟C-1.在極少數(shù)情況下,來自供應(yīng)商的數(shù)據(jù)可以是非結(jié)構(gòu)化數(shù)據(jù)。步驟C-2.對數(shù)據(jù)進行預處理。步驟C-3.數(shù)據(jù)被存儲在結(jié)構(gòu)化存儲中。非結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)的Web媒體訪問步驟D-1.數(shù)據(jù)供應(yīng)商提供結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。步驟D-2.數(shù)據(jù)被存儲在結(jié)構(gòu)化或非結(jié)構(gòu)化存儲中。Web媒體訪問預處理非結(jié)構(gòu)化數(shù)據(jù)步驟E-1.不能使用在存儲時未經(jīng)過預處理的非結(jié)構(gòu)化數(shù)據(jù),除非它是結(jié)構(gòu)化格式的數(shù)據(jù)。步驟E-2.對數(shù)據(jù)進行預處理。步驟E-3.經(jīng)過預處理的結(jié)構(gòu)化數(shù)據(jù)被存儲在結(jié)構(gòu)化存儲中。如圖所示,數(shù)據(jù)可以直接存儲在存儲器中,或者可以對它們進行預處理,并將它們轉(zhuǎn)換成一個中間格式或標準格式,然后再存儲它們。在可以分析數(shù)據(jù)之前,數(shù)據(jù)格式必須可用于實體解析或用于查詢所需數(shù)據(jù)。這種經(jīng)過預處理的數(shù)據(jù)可以存儲在一個存儲系統(tǒng)中。雖然預處理通常被認為是微不足道的,但這項處理可能非常復雜和耗時。物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)的訪問組件設(shè)備生成的內(nèi)容包括來自傳感器的數(shù)據(jù)數(shù)據(jù)是從天氣信息、電氣儀表和污染數(shù)據(jù)等數(shù)據(jù)來源檢測到的,并且由傳感器捕獲。這些數(shù)據(jù)可以是照片、視頻、文本和其他二進制格式。下圖說明了處理機器生成的數(shù)據(jù)的典型過程。圖5.設(shè)備生成的數(shù)據(jù)訪問圖5說明了訪問來自傳感器的數(shù)據(jù)的過程。由傳感器捕獲的數(shù)據(jù)可以發(fā)送到設(shè)備網(wǎng)關(guān),設(shè)備網(wǎng)關(guān)會對數(shù)據(jù)執(zhí)行一些初始預處理,并緩沖高速數(shù)據(jù)。機器生成的數(shù)據(jù)大多為二進制格式(音頻、視頻和傳感器讀數(shù))或文本格式。這樣的數(shù)據(jù)最初可以存儲在存儲系統(tǒng)中,也可以對它們進行預處理,然后再存儲它們。對于分析來說,要求執(zhí)行預處理?;A(chǔ)數(shù)據(jù)(觀測數(shù)據(jù)和生產(chǎn)數(shù)據(jù))的訪問模式可以存儲現(xiàn)有的事務(wù)、運營和倉庫數(shù)據(jù),避免清除或歸檔數(shù)據(jù)(因為存儲和處理的限制),或減少在數(shù)據(jù)被其他使用者訪問時對傳統(tǒng)存儲的負載。對于大多數(shù)企業(yè)而言,事務(wù)、運營、主數(shù)據(jù)和倉庫信息都是所有分析的核心。如果用在Internet上,或者通過傳感器和智能設(shè)備提供的非結(jié)構(gòu)化數(shù)據(jù)以及外部數(shù)據(jù)來增強此數(shù)據(jù),那么可以幫助組織獲得準確的洞察,并執(zhí)行高級分析。使用由多個數(shù)據(jù)庫廠商提供的標準連接器,事務(wù)和倉庫數(shù)據(jù)可以被推入存儲。預處理事務(wù)性數(shù)據(jù)要容易得多,因為數(shù)據(jù)大多是結(jié)構(gòu)化的。可以使用簡單的提取、轉(zhuǎn)換和加載流程將事務(wù)數(shù)據(jù)移動到存儲中。事務(wù)數(shù)據(jù)可以很容易地轉(zhuǎn)換成JSON和CSV等格式。使用Sqoop等工具可以更容易將事務(wù)數(shù)據(jù)推入存儲系統(tǒng),如HBase和HDFS。數(shù)據(jù)存儲組件存儲模式有助于確定適當?shù)拇鎯Ω鞣N數(shù)據(jù)的類型和格式。數(shù)據(jù)可以按原樣存儲,根據(jù)鍵值對存儲,或者以預定義的格式存儲。分布式文件系統(tǒng)(如GFS和HDFS)都能夠存儲任何類型的數(shù)據(jù)。但是,高效地檢索或查詢數(shù)據(jù)的能力會影響性能。技術(shù)的選擇很重要。分布式非結(jié)構(gòu)化數(shù)據(jù)存儲組件大部分大數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),而且可以通過不同的方式針對不同的上下文提取它所擁有的信息。大多數(shù)時候,非結(jié)構(gòu)化數(shù)據(jù)必須按原樣并以其原始格式進行存儲。這樣的數(shù)據(jù)可以存儲在分布式文件系統(tǒng)(如HDFS)和NoSQL文檔存儲(如MongoDB)中。這些系統(tǒng)提供了檢索非結(jié)構(gòu)化數(shù)據(jù)的有效方法。分布式結(jié)構(gòu)化數(shù)據(jù)存儲組件結(jié)構(gòu)化數(shù)據(jù)包括從數(shù)據(jù)源到達的已經(jīng)是結(jié)構(gòu)化格式的數(shù)據(jù),以及經(jīng)過預處理,被轉(zhuǎn)換為JSON數(shù)據(jù)等格式的非結(jié)構(gòu)化數(shù)據(jù)。必須存儲已經(jīng)過轉(zhuǎn)換的數(shù)據(jù),避免從原始數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的頻繁數(shù)據(jù)轉(zhuǎn)換。可以使用Google的BigTable等技術(shù)來存儲結(jié)構(gòu)化數(shù)據(jù)。BigTable是一個大規(guī)模容錯式自我管理系統(tǒng),包括TB級的內(nèi)存和PB級的存儲。Hadoop中的HBase可媲美BigTable。它使用了HDFS作為底層存儲。傳統(tǒng)數(shù)據(jù)存儲組件對于存儲大數(shù)據(jù)而言,傳統(tǒng)的數(shù)據(jù)存儲并不是最佳選擇,但在企業(yè)執(zhí)行初步數(shù)據(jù)探索的情況下,企業(yè)可能會選擇使用現(xiàn)有的數(shù)據(jù)倉庫、RDBMS系統(tǒng)和其他內(nèi)容存儲。這些現(xiàn)有的存??儲系統(tǒng)可用來存儲使用大數(shù)據(jù)平臺消化和過濾的數(shù)據(jù)。不要認為傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng)適用于大數(shù)據(jù)。云存儲組件許多云計算基礎(chǔ)架構(gòu)供應(yīng)商都有分布式結(jié)構(gòu)化、非結(jié)構(gòu)化的存儲能力。從傳統(tǒng)的配置、維護、系統(tǒng)管理、編程和建模角度講,大數(shù)據(jù)技術(shù)有點不同。此外,實現(xiàn)大數(shù)據(jù)解決方案所需的技能既罕見又昂貴。探索大數(shù)據(jù)技術(shù)的企業(yè)可以使用云解決方案來提供大數(shù)據(jù)的存儲、維護和系統(tǒng)管理。要存儲的數(shù)據(jù)往往是敏感數(shù)據(jù),這些數(shù)據(jù)包括醫(yī)療記錄和生物特征數(shù)據(jù)。您需要考慮數(shù)據(jù)安全性、數(shù)據(jù)共享、數(shù)據(jù)治理,以及有關(guān)數(shù)據(jù)的其他政策,在考慮將云作為大數(shù)據(jù)存儲庫的時候尤其如此。傳輸大量數(shù)據(jù)的能力也是云存儲的另一個重要考慮因素。復合模式原子模式
側(cè)重于提供執(zhí)行各項功能所需的能力。但是,復合模式
是基于端到端的解決方案進行分類的。每個復合模式都要考慮一個或多個維度。在將復合模式應(yīng)用到每個模式時,會有許多變化??梢詫秃夏J接成涞揭粋€或多個原子模式,以解決某個給定的業(yè)務(wù)問題。本文所述的復合模式列表是基于經(jīng)常發(fā)生的典型業(yè)務(wù)問題,但這不是復合模式的完整列表。存儲和探索復合組件如果業(yè)務(wù)問題需要存儲大量新數(shù)據(jù)和現(xiàn)有數(shù)據(jù),而且先前由于缺乏足夠的存儲和分析能力而一直未使用這些數(shù)據(jù),那么這種模式就非常有用。該模式旨在緩解對現(xiàn)有數(shù)據(jù)存儲的負載。所存儲的數(shù)據(jù)可用于初始勘探和即席發(fā)現(xiàn)。用戶可以推演報告,通過進一步的處理來分析數(shù)據(jù)的質(zhì)量和價值。您可以使用ETL工具來預處理和凈化原始數(shù)據(jù),然后再進行任何類型的分析。圖6.存儲和探索復合模式圖6說明了這種模式的多個維度。數(shù)據(jù)的使用目的可能只是存儲它,或處理和使用它。僅存儲的示例是,數(shù)據(jù)的獲取和存儲只是為了將來能夠滿足合規(guī)性或法律的要求。在處理和使用的情況下,分析的結(jié)果可以被處理和使用。可以從最近發(fā)現(xiàn)的來源或從現(xiàn)有的數(shù)據(jù)存儲訪問數(shù)據(jù)。專業(yè)分析和預測分析組件使用此模式的情況是,使用多種處理技術(shù)執(zhí)行分析,因此,可以用新洞察豐富現(xiàn)有數(shù)據(jù),或創(chuàng)建可由各種用戶使用的輸出。該分析可以在事件發(fā)生的同時實時發(fā)生,或使用批量模式,根據(jù)收集到的數(shù)據(jù)獲得洞察。作為可以分析的靜態(tài)數(shù)據(jù)的示例,某電信公司可能構(gòu)建客戶流失模型,包括分析呼叫數(shù)據(jù)記錄、社交數(shù)據(jù)和事務(wù)數(shù)據(jù)。作為分析運動數(shù)據(jù)的示例,預測某個給定事務(wù)正在經(jīng)歷欺詐的需求必須實時或近實時地發(fā)生。圖7.專用和預測分析復合模式圖7說明了這種模式的多個維度。所執(zhí)行的處理可以是標準的或預測性的,并且可以包括決策。此外,可以將通知發(fā)送給與特定任務(wù)或消息有關(guān)的系統(tǒng)或用戶。該通知可以使用可視化功能。該處理可實時發(fā)生或以批量模式發(fā)生。OLAP在線分析大數(shù)據(jù)解決方案的最高級形式是,對數(shù)據(jù)集執(zhí)行分析,并且基于可重復的過去的行動或行動矩陣來暗示行動。該操作可以是手動、半自動或全自動的?;A(chǔ)分析需要高度準確。行動是預定義的,分析的結(jié)果被映射到行動??刹僮鞣治鲋兴婕暗牡湫筒襟E是:分析數(shù)據(jù)以獲得洞察。制定決策。激活相應(yīng)的渠道,對正確的使用者采取行動。圖8.可操作的分析復合模式圖8說明該分析可以是手動、半自動或全自動的。如圖中的說明所示,它使用了原子模式。手動操作
意味著系統(tǒng)基于分析的結(jié)果來提供建議操作,并由人類決定和執(zhí)行操作。半自動
意味著,分析建議操作,但不需要通過人類干預來啟動操作,或從一組建議的操作中進行選擇。全自動
表示在決策之后,系統(tǒng)立即執(zhí)行操作。例如,在設(shè)備被預測會發(fā)生故障之后,系統(tǒng)可以自動創(chuàng)建一個工作訂單。原子模式和符合模式的映射下面的矩陣顯示了如何將原子模式映射到復合模式,復合模式是原子模式的組合。每個復合模式都被設(shè)計為針對具有一組特定特征的數(shù)據(jù)在特定情況下使用。矩陣顯示了模式的典型組合。必須對模式進行調(diào)整,以滿足特定的情況和需求。在矩陣中,按照從最簡單到最復雜的順序列出了復合模式?!皊toreandexplore(存儲和探索)”模式是最簡單的。圖9.復合模式對原子模式的映射圖10.將原子模式映射到架構(gòu)層解決方案模式(模擬應(yīng)用場景)技術(shù)架構(gòu)實現(xiàn)方案概述技術(shù)架構(gòu)的關(guān)鍵問題hadoop此方案基于開源Apache
Hadoop的框架實現(xiàn)。因此它維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributed),簡稱HDFS。HDFS有著高容錯性的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上數(shù)據(jù)庫此方案實際上是綜合利用傳統(tǒng)數(shù)據(jù)庫/數(shù)據(jù)倉庫、NOSQL等多種數(shù)據(jù)庫組合。傳統(tǒng)的數(shù)據(jù)庫/數(shù)據(jù)倉庫用于存儲結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),NOSQL數(shù)據(jù)庫用于存儲非結(jié)構(gòu)化的數(shù)據(jù)。之所以選擇組合的多數(shù)據(jù)庫并存方案,主要是考慮到氣象行業(yè)的數(shù)據(jù)存儲現(xiàn)狀比較復雜,在大叔據(jù)項目實施過程中很多分析是需要傳統(tǒng)數(shù)據(jù)和文件分析同時進行的。另外,從NOSQL數(shù)據(jù)到數(shù)據(jù)倉庫需要一個緩沖處理。當然,這種混合使用的方案會要求大量的ETL過程來進行數(shù)據(jù)的轉(zhuǎn)換和存儲。流計算在傳統(tǒng)的數(shù)據(jù)分析策略中,數(shù)據(jù)被收集到一個數(shù)據(jù)庫中,并被搜索或查詢答案。這種分析方法更多地依賴于數(shù)據(jù)庫平臺的資源。Streams
計算軟件,這是一個突破性的移動數(shù)據(jù)分析平臺。流計算動態(tài)收集多個數(shù)據(jù)流,使用先進的算法來提供近乎瞬時的分析。,流計算顛覆了這種策略,可用于需要立即作出決定的復雜動態(tài)情況。數(shù)據(jù)治理分布式存儲與分布式應(yīng)用服務(wù)平臺的硬件架構(gòu)與調(diào)整數(shù)據(jù)庫與數(shù)據(jù)倉庫NOSQL數(shù)據(jù)庫數(shù)據(jù)集成工具數(shù)據(jù)分析軟件Web應(yīng)用以及Web開發(fā)的關(guān)鍵問題我們的研發(fā)策略效益目前的形勢針對目前直接的應(yīng)用需求技術(shù)儲備與項目應(yīng)用如何保證將來的擴展附錄資料:不需要的可以自行刪除大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(下)數(shù)據(jù)分析微信公眾號datadw——關(guān)注你想了解的,分享你需要的。接著上篇大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(上)文章,接下來我們將探討樸素貝葉斯模型、線性回歸、多元回歸、邏輯回歸分析等模型。4、樸素貝葉斯模型表查詢模型簡單有效,但是存在一個問題。隨著輸入數(shù)量的額增加,每個單元格中訓練樣本的數(shù)量會迅速減少。如果維度為2,且每一維有10個不同的變量,那么就需要100個單元格,而當有3個維度時,就需要1000個單元格,4個維度就是10000.這樣成指數(shù)級的增長,哪怕的傳統(tǒng)數(shù)據(jù)挖掘中都會遇到明顯瓶頸。當試圖預測某一個概率值時,樸素貝葉斯模型就提供這一辦法?;舅枷耄好總€輸入變量本身就包含一些預測需要的信息。比如目標變量是取消業(yè)務(wù)的概率,解釋變量是市場、獲取渠道、初始信用評分、利率計劃、電話號碼類型、手機號以及客戶年齡。這些變量都具有預測能力。根據(jù)取消率的顯著差異性,可將每個變量劃分在不同的范圍中。簡單理解:條件概率是指給定B的條件下A的概率以及給定A的條件下B的概率。解釋:給定B的條件下A發(fā)生的概率,等于給定A的條件下B發(fā)生的概率乘以A和B發(fā)生的概率的比例。如果A代表停止續(xù)簽,B代表使用黑莓手機,然后給定使用黑莓手機的條件下停止續(xù)簽的概率,就是給定停止續(xù)簽的條件下使用黑莓手機的概率乘以總體停止續(xù)簽的概率與總體使用黑莓手機的概率之比。4.1、概率、幾率和釋然·概率:0到1之間的一個數(shù)字,表示一個特定結(jié)果發(fā)生的可能性。一種估計結(jié)果概率的方法是計算樣本數(shù)據(jù)中出現(xiàn)結(jié)果次數(shù)的百分比。·幾率:某一特定結(jié)果發(fā)生于不發(fā)生的概率比。如果一個事件發(fā)生的概率是0.2,那么不發(fā)生的概率是0.8。那么其發(fā)生的幾率就是1/4。幾率的取值是0到無窮?!に迫唬簝蓚€相關(guān)的條件概率比。即給定B發(fā)生的情況下,某一特定結(jié)果A發(fā)生的概率和給定B不發(fā)生的情況下A發(fā)生的概率之比。4.2、樸素貝葉斯計算對任意數(shù)量屬性中的每一個屬性,樸素貝葉斯公式都將目標事件的幾率與該事件的似然聯(lián)系起來?;氐交跔I銷市場、渠道獲取、最初信用評分、費率計算、電話號碼類型、手機型號以及客戶年齡來預測客戶流失的例子。例如上面談到的黑莓手機續(xù)簽的案例,我們關(guān)注的是。1、停止續(xù)簽的總體幾率。2、黑莓手機用戶停止的似然。3、在整個州市場停止續(xù)簽的似然。之所以定義為“樸素”,是基于所有似然相乘都基于輸入變量相互獨立的假設(shè)。在這個案例中,假設(shè)的是使用黑莓手機的似然與市場獨立(并且存在于該州的似然與手機類型獨立)。而在實際中,這種真正相互獨立的情況很少見。樸素貝葉斯模型最吸引人的點:對于待評分的觀測,如果缺失某些輸入值,可以簡單地將缺失的似然從模型中去掉。意味著,包含那些并不是對所有有用都可用的輸入(用戶年齡),但如果知道這些變量,它們就有用。給定不同輸入的概率,且這些輸入與停止續(xù)簽相關(guān),樸素貝葉斯公式就可以計算停止續(xù)簽的幾率,而公司對這種停止續(xù)簽的用戶更感興趣。4.3、樸素與表查詢模型的比較對于概率型目標來說,樸素貝葉斯模型和表查詢模型密切相關(guān)。兩者之間的主要區(qū)別就在于如何使用維度。在表查詢模型中,使用所有維度依次定義單元格,然后計算每一個單元格的目標概率。因此,表查詢模型可以獲取變量之間的相互作用。在樸素中,需要為每一個維度單獨計算似然,之后組合這些似然,從而計算出目標概率。似然的組合有一個假設(shè):各維度關(guān)于目標彼此獨立。表查詢沒有說明這樣一類屬性的組合關(guān)系,即由于在訓練數(shù)據(jù)中出現(xiàn)的頻率很低,導致這些概率很低的屬性就不會出現(xiàn)。在樸素模型中可以預測任何從未出現(xiàn)過的組合,但要這樣做,就必須假設(shè)這些輸入所造成的影響彼此獨立。表查詢模型沒有這樣的假設(shè),所以當數(shù)據(jù)多到可以支持一個可信的估計模型時,表查詢模型也許會做的更好。5、線性回歸回歸模型也是一種預測建模技術(shù)。在Excel中就可以使用線性回歸?;貧w模型也很復雜,這里談到——最佳擬合曲線。輸入變量和目標變量必須都是數(shù)值變量,回歸方程描述了兩者之間的一種算術(shù)關(guān)系?!白罴训摹标P(guān)系是指最大限度地減少了從數(shù)據(jù)點到擬合曲線的垂直距離的平方和。5.1最佳擬合曲線如下圖,顯示了一個知名博主發(fā)表的一篇文章日瀏覽率隨著時間和被關(guān)注度之間的關(guān)系。圖中使用描點的符號是空心圓,它有助于清楚的顯示各點之間的聚集情況。例如,在較短時間內(nèi)用戶的關(guān)注度分布非常密集。當使用不同的顏色比較不同的客戶組時,這種散點圖尤其有用。隨著時間的增加,博客的日訪問量會越來越低,最后維持到一個水平。畫出來的曲線更像是一個雙曲線。根據(jù)X軸,時間的遞增。Y軸,日訪問量的增加。我們可以模擬出這個博主的訪問量隨時間變化的曲線。如果在保證博客質(zhì)量的同時,我們就可以預測博主的一篇博客的訪問量大致在什么范圍。可能這里有很多的誤差或不精確的地方。但是通過擬合曲線,我們更能從直觀上看到,曲線的走勢。如果曲線更精確的化,我們甚至可以模擬出曲線的函數(shù)表達式。如果用作數(shù)據(jù)點的標記并沒有完全擬合,散點圖可以傳遞出更多的信息。最佳擬合曲線的性質(zhì):在所有可能的曲線中,最佳擬合曲線指的是從觀察點到曲線垂直距離的平方最下的那條曲線,散點圖顯示了每個點到曲線之間的距離。最佳擬合曲線的定義就是最小二乘法的定義。歐式距離公式對該值進行了開方,在沒有計算機的年代,計算歐式距離非常困難。當時,高斯提出這一觀點,就是利用計算平方和,代替計算距離之和。這樣做的目的,就使最佳擬合曲線系數(shù)很容易計算。這里談到的是線性回歸,其實回歸模型是一個直線方程,這里只是來描述一個擬合曲線,其實算不上一個回歸曲線。在現(xiàn)實之中,更多線性回歸的模型很少見,更多的是曲線擬合。5.2擬合的優(yōu)點對于一個給定的數(shù)據(jù)集,總是可以找到一條最佳的擬合曲線。但是,存在很多條曲線,哪條才是最佳的。這里引入“殘差”,就是度量預測值與實際值之差。還有一個標準方法,成為,用來衡量描述曲線對觀測數(shù)據(jù)的擬合程度。(1)殘差如圖,身高與體重模型的殘差。一個無偏模型在丟失高值點方面應(yīng)與丟失低值點類似。在殘差圖中,最重要的一點就是,這些值是位于擬合曲線之上的可能性與之下的可能性是否一樣。從圖中我們也可以看到在曲線上與在曲線下的樣本點是不一樣的。一個良好的模型所產(chǎn)生的估計值應(yīng)該接近真實值,所以殘差應(yīng)該集中于曲線軸附近。如圖中也是可以看到拋離曲線的一些孤立點。這些點出現(xiàn)的原因,可能是由于一些人為記錄的原因造成的。在統(tǒng)計學中,殘差在回歸方程中要考慮誤差項。最佳擬合曲線的方程是:Y=aX+b但該曲線,不是完整的模型。統(tǒng)計人員會將模型方程表示為:ε代表誤差項,因為X并不能完美的展示Y。誤差項表示模型無法解釋的Y的部分。Y=aX+b+ε(2)R(R這里代表是R的平方)對于最佳擬合曲線,R的取值始終在0~1之間。當該值接近1時,說明該曲線在捕獲輸入和目標之間的關(guān)系方面表現(xiàn)很好。若接近于0,則說明最佳擬合曲線的表現(xiàn)很差。在0~1的范圍內(nèi),值越大表明兩者之間存在很強的關(guān)系,越下其關(guān)系越下。相比于隨機猜測的平均值,模型的估計值有多好。定義簡單,但計算起來復雜。R要比較最佳擬合曲線與y平均值的水平線。1減去兩個誤差的比值可以計算出R。分子式最佳擬合曲線殘差的平方和。分母是水平線的殘差平方和。R度量了最佳擬合曲線優(yōu)于均值作為估計的程度。R度量了數(shù)據(jù)的穩(wěn)定性。同一數(shù)據(jù)集中不同的樣本是否會生成相似的模型。當R值較低時,不同的樣本可能會表現(xiàn)出非常不同的行為。或者,在此基礎(chǔ)上,再加入少量觀察值可能會極大地改變模型的系數(shù)。當R值較高時,再加入少量觀察值就不會有上述的改變。5.3全局效應(yīng)回歸方程能發(fā)現(xiàn)數(shù)據(jù)中的全局模式。即,方程系數(shù)應(yīng)該對范圍內(nèi)的所有輸入變量都起作用。這表明回歸模型善于捕獲那些總是正確的模式,不是產(chǎn)于處理局部模式。例如,考慮不同年齡的汽車保險購買人的風險。年輕司機的風險較高。隨著駕駛?cè)藛T經(jīng)驗的不斷增加,風險會逐步降低。而對年齡很大的駕駛者,風險又會增加。因為年齡很難作為回歸方程的輸入。因為沒有全局模式,對于不同的年齡組,年齡的影響變化又會不同。在很多程度上,這個需要根據(jù)建模人員的熟悉程度,可以使用那些在不同取值范圍的變量作為輸入?yún)?shù)。但是,回歸方程本身不會發(fā)現(xiàn)局部模式。6、多元回歸引入線性回歸的那個例子使用了單一的輸入——持續(xù)期——來解釋日訪問量隨時間的變化。當一個回歸模型有多個輸入時,就稱其為多元回歸。6.1、等式線性回歸模型的一般形式(沒有誤差項)是:Y=a+a1x1+a2x2+a3x3+…..+anxn。這個方程通過添加更多變量,并為每個變量選定系數(shù),對最佳曲線方程進行了擴展。盡管通過引入更多維度,可以將線性回歸的幾何解釋擴展到多元回歸——曲線變?yōu)槠矫嬖僮兊匠矫妗?紤]到每個字變量對因變量估計值的貢獻會更容易些,即可以由系數(shù)決定自變量貢獻的大小和方向。6.2、目標變量的范圍一個回歸方程可以產(chǎn)生任何值。如果對X沒有限制,那么Y也是沒有限制的。對Y=aX+b就可以說明這一點,該方程是一條簡單的直線,取值隨之X的取值而邊變化,從負無窮到正無窮。但實際情況非如此。許多目標變量的范圍并不是無窮的,甚至不是連續(xù)的。對于這些情況,統(tǒng)計學家引入了一個鏈接函數(shù)將回歸方程產(chǎn)生的Y值映射到目標變量的一個適合的范圍。當目標遵循某一已知的分布時,就可以選擇一個鏈接函數(shù),它產(chǎn)生的值與目標的平均值相同,同時也會產(chǎn)生一個類似的分布。即使不知道確切的分布,也可以引入鏈接函數(shù)將估計映射到目標的一個適當?shù)姆秶?。后面我們會介紹邏輯回歸分析,那里使用一個鏈接函數(shù)將線性回歸的無窮范圍映射到0~1的區(qū)間,該區(qū)間等價于概率估計。6.3、使用多元回歸的其他注意事項回歸模型中有多個輸入變量時,會產(chǎn)生一些在單一輸入中不存在的問題。理想情況下,所有輸入之間應(yīng)該線性無關(guān)。被模型顯示地包含的輸入之間可能存在相互。添加一個新輸入將會改變所有原輸入的系值取值。(1)線性無關(guān)與樸素貝葉斯類似,多元模型的輸入之間應(yīng)該線性無關(guān)。這一位置改變其中一個輸入值應(yīng)該對其他輸入值沒有影響。實際情況很難實現(xiàn)真正獨立性。一般情況,注意不要包含彼此密切相關(guān)的自變量就可以。如果包含這些變量,往往會導致模型的一個輸入變量有較大的正系數(shù)而另一個輸入變量有較大的負系數(shù)。兩個變量本質(zhì)上相互抵消,因此這兩個系數(shù)的取值并不會對任何變量有真正意義上的影響。(2)交互即使兩個變量是完全獨立的,它們對目標的影響也可能是相關(guān)的。一個冰淇淋的吸引力可能依賴于價格和天氣——尤其是某天的炎熱程度。這些變量可以認為是獨立的(當然,冰淇淋的價格并不取決于溫度,溫度可能會影響冰淇淋的價格,但是這里假設(shè)不會)。盡管這些變量相互獨立,價格對目標的影響扔可能受溫度的影響。當天氣炎熱的時候,人民不是在意冰淇淋的價額都會購買。當天氣寒冷的時候,只有真正物美價廉才可能會吸引人民購買。類似的,價格的變化對住戶率的影響可能會隨著距離市中心的遠近不同而不同。這就是交互的例子。當認為交互很重要時,一般情況下,可以通過添加新變量引入這些交互,而這些新變量是標準化交互中涉及變量值的產(chǎn)物。(3)添加變量可以改變模型中的原有變量的取值一種很自然的模型開發(fā)方法從一個僅有一個輸入的簡單模型開始,然后通過增加變量逐步提高其復雜性。如果所有輸入變量都是完全獨立的,那么添加或刪除其中一個變量不會更改模型中的其他變量的系數(shù)。但是輸入變量幾乎不可能完全獨立,所有包含另一個變量會改變系數(shù)的大小,甚至可能改變模型中其他原有變量系數(shù)的正負值。6.4、多元回歸的變量選擇多元回歸模型在有大量輸入時,它的表現(xiàn)并不理想。選擇正確的輸入變量對任何建模而言都是最重要的部分。這里談到“領(lǐng)域知識”,就是首先要考慮的是對該問題所知道的一些先驗知識以及以往人民解決此類問題的額方法。有的時候領(lǐng)域知識對一時模型的預測可以提供一個很好的指標指向。當使用領(lǐng)域知識和常識創(chuàng)建了一張候選變量列表后,用于創(chuàng)建回歸模型的軟件通常可以幫助使用者選擇出模型所需的最好變量。使用的方法:(1)前向選擇前向現(xiàn)在開始使用一組輸入變量,其中一些變量或全部變量都可以出現(xiàn)在最終模型里。第一步是為每一個輸入變量創(chuàng)建一個單獨的回歸模型;如果有n個輸入變量,那么第一步會考慮具有一個輸入變量的n個不同的回歸模型。選擇測試得分最高的模型所對應(yīng)的變量作為前向選擇模型中的第一個變量。選擇最佳模型的一種方法是選擇R值最低的模型。另一種方法是使用統(tǒng)計檢驗中F-檢驗的方法。最好的模型是在驗證集上的誤差最小的模型。這看上去更像是數(shù)據(jù)挖掘,因為它使用了驗證集,并沒有對輸入或目標值做出任何假設(shè)。選定了第一個變量后,這以過程會在此重復進行。第二次通過將每個剩余變量與第一步已選定的變量組合以創(chuàng)建包含有兩個輸入變量的n-1個回歸模型。這些模型中最好的模型將會是下一次迭代的基礎(chǔ),下次迭代會測試帶有三個變量的多元回歸模型。持續(xù)這一過程直到滿足某些停止條件為止。終止條件可以是到達最大的選擇變量個數(shù),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度教育機構(gòu)校園安全防范與物業(yè)服務(wù)合同
- 房屋無設(shè)備出租合同范本
- 村文書聘用合同范本
- 2025年度環(huán)保污水處理設(shè)施投資合同樣本
- 2025年度家具電商平臺入駐合作協(xié)議-@-3
- 2025年度公司向個人提供租賃車輛維修保養(yǎng)協(xié)議
- 鮮氧發(fā)生器行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報告
- 2025年度航空航天零部件加工與銷售合同-@-1
- 2025年度建筑工程施工圖設(shè)計分包合同
- 高中特困申請書
- 銀行個人業(yè)務(wù)培訓課件
- 2024年ISTQB認證筆試歷年真題薈萃含答案
- tpu顆粒生產(chǎn)工藝
- 《體檢中心培訓》課件
- 《跟著音樂去旅行》課件
- 初中數(shù)學深度學習與核心素養(yǎng)探討
- 特殊教育導論 課件 第1-6章 特殊教育的基本概念-智力異常兒童的教育
- 辭職申請表-中英文模板
- 07J501-1鋼雨篷玻璃面板圖集
- 2023學年完整公開課版家鄉(xiāng)的方言
- 母親健康快車可行性報告
評論
0/150
提交評論