數(shù)據(jù)庫架構(gòu)設(shè)計最佳實(shí)踐_第1頁
數(shù)據(jù)庫架構(gòu)設(shè)計最佳實(shí)踐_第2頁
數(shù)據(jù)庫架構(gòu)設(shè)計最佳實(shí)踐_第3頁
數(shù)據(jù)庫架構(gòu)設(shè)計最佳實(shí)踐_第4頁
數(shù)據(jù)庫架構(gòu)設(shè)計最佳實(shí)踐_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)庫架構(gòu)設(shè)計最佳實(shí)踐One Size Does not Fit All?OneSize DoesNot FitAll !M.Stonebraker 1943-獲得2014圖靈獎自80年代后期開始,數(shù)據(jù)庫屆就開始討論關(guān)系數(shù)據(jù)庫的后繼者是誰?在關(guān)系數(shù)據(jù)庫內(nèi)部的最大努力來自于兩個方向:(1)模型擴(kuò)展:面向?qū)ο髷?shù)據(jù)庫與XML數(shù)據(jù)庫(2)專用系統(tǒng),one-size-does-not-fit-all(以M. Stonebraker為代表)Failed Aspirations in Database Systems(VLDB 2017)Oracle XML 和 面向?qū)ο髷?shù)據(jù)庫現(xiàn)狀是:這兩個方向一度都非常熱

2、,無論是學(xué)術(shù)界還是 數(shù)據(jù)庫廠商,都投入了大量的人力進(jìn)行這方面的研究。始終沒有大規(guī)模應(yīng)用,是一個無足輕重的特性。Stonebraker 研制的專用系統(tǒng)c-store(后改名Vertica)column store 系統(tǒng),適用于OLAP,后被HP收購。h-store(后改名VoltDB)行存儲數(shù)據(jù)庫, 適用于事務(wù)OLTP。StreamBase,流數(shù)據(jù)庫,被TIBCO收購。SciDB,科學(xué)數(shù)據(jù)庫,支持?jǐn)?shù)組(array)然而。Google三件套徹底改變了非結(jié)構(gòu)化數(shù)據(jù)管 理的生態(tài)。GFSMapReduceBigtableStonebraker對Hadoop的批評之聲Hadoop并非完美 “MapRedu

3、ce: A Major Step Backward”, Database ColumnBlog, Jan. 17, 2008丟失了大多數(shù)DBMS的特性不支持事務(wù)或者只支持簡單的事務(wù)較低級的程序設(shè)計范型缺乏應(yīng)用開發(fā)工具和環(huán)境沒有索引Stonebraker數(shù)據(jù)庫市場呈現(xiàn)“百花齊放”的景象關(guān) 系 型非 關(guān) 系 型分析型操作型Sybase IQ VeticaInfobrightOracle DB2SQL Server Informix MySQL PostgreSQLMariaDBHive HAWQAster Teradata Greenplum Netzza圖CouchDBDynamoDBRedis

4、CouchbaseKey-value文檔Neo4JInfiniteGraphIngresSybase ASEOracle NoSQLMangoDBMemcacheDBF1MemSQLOceanbaseSpannerNewSQLAuroraHbase出路何在?Driven Force應(yīng)用驅(qū)動創(chuàng)新數(shù)據(jù)庫應(yīng)用的變化推動了數(shù)據(jù)庫技術(shù)的發(fā)展 軟硬件技術(shù)及計算平臺的發(fā)展水平與應(yīng)用需求 有著互動的關(guān)系數(shù)據(jù)庫應(yīng)用的變化OLT POLA P?Store & Acces s第一代第二代第三代第四代第五代Store & Acces s非結(jié)構(gòu)化 數(shù)據(jù)結(jié)構(gòu)化 數(shù)據(jù)1、從無到有:數(shù)據(jù)管理概念的出現(xiàn)第一階段:從無到有,為了

5、讓數(shù)據(jù)存取高效ENIAC,美國1946Charles.W.Bachman1924-20171960年為通用電氣制造 了世界上第一個網(wǎng) 狀數(shù)據(jù)庫系統(tǒng)IDS積極推動與促成了數(shù)據(jù)庫 標(biāo)準(zhǔn)的制定:DBTG 報告由于他在在數(shù)據(jù)庫技術(shù)的 產(chǎn)生、發(fā)展與推廣 應(yīng)用方面都發(fā)揮了 巨大的作用 1973 獲圖靈獎2、OLTP第二階段:從層次/網(wǎng)狀走向關(guān)系,支持企 業(yè)級應(yīng)用Edgar F. Codd1922-20031970年Codd博士提出了關(guān)系模型,奠定了 關(guān)系數(shù)據(jù)庫的理論基礎(chǔ),1981年獲得 圖靈獎Jim Gray由于事務(wù)處理研究方面的元創(chuàng)性 貢獻(xiàn)以及在將研究原型轉(zhuǎn)化為商業(yè)產(chǎn) 品的系統(tǒng)實(shí)現(xiàn)方面的技術(shù)領(lǐng)袖地位,

6、1998年獲獎(時任微軟研究員)1980-2010的三十年是關(guān)系數(shù)據(jù)庫大行其道、 獨(dú)霸天下 的時期Jim Gray1944-20073、OLAP第三階段:從關(guān)系數(shù)據(jù)庫到數(shù)據(jù)倉庫,支 持復(fù)雜數(shù)據(jù)分析與決策支持SQL語言只能支持“小分析”Bill Inmon 提出了數(shù)據(jù)倉庫的概念 多維數(shù)據(jù)模型(CUBE模型) 面向主題的、集成的數(shù)據(jù)集OLAP分析(上鉆,下鉆操作等) 支持分析決策4、非結(jié)構(gòu)化數(shù)據(jù)存儲與訪問第四階段:從關(guān)系走向非結(jié)構(gòu)化數(shù)據(jù)關(guān)系數(shù)據(jù)庫的優(yōu)點(diǎn)來自關(guān)系模型,主要限 制也來自關(guān)系模型,無法管理非結(jié)構(gòu) 化數(shù)據(jù)!系統(tǒng)的擴(kuò)展之路成本高效率 低!最大的改變來自非數(shù)據(jù)庫圈,Google的貢獻(xiàn) 徹底改變

7、了非結(jié)構(gòu)化數(shù)據(jù)管理的生態(tài)Google三件套GFSMapRuduceBigtable新時代:以數(shù)據(jù)為中心計算機(jī)硬件數(shù)據(jù)庫等操作系統(tǒng)工具軟件應(yīng)用軟件大數(shù)據(jù)分析云計算以軟件為中心的體系以數(shù)據(jù)為中心的體系大數(shù)據(jù)應(yīng)用以數(shù)據(jù)為中心的計算(Data-Centric Computing)以數(shù)據(jù)為中心的計算匯聚和監(jiān)護(hù)多種數(shù)據(jù)源超大規(guī)模的數(shù)據(jù)存儲與管理通過數(shù)據(jù)分析實(shí)現(xiàn)數(shù)據(jù)增值高可控彈性資源管理(a) 傳統(tǒng)以計算為中心的模式(b) 以數(shù)據(jù)為中心的計算數(shù)據(jù)分析數(shù)據(jù)管理數(shù)據(jù) 匯聚 與 數(shù)據(jù) 監(jiān)護(hù)異 構(gòu) 大 數(shù) 據(jù) 源數(shù)據(jù)增值訪問 瓶頸整體架構(gòu)數(shù)據(jù)匯聚與 數(shù)據(jù)監(jiān)護(hù)*全球規(guī)模 數(shù)據(jù)管理多計算模型 數(shù)據(jù)分析高可控彈性資源管理

8、以數(shù)據(jù)為中心的計算(Data-Centric Computing)各類大數(shù)據(jù) 與人工智能 應(yīng)用各類數(shù)據(jù)源物聯(lián)網(wǎng)企業(yè)日志視頻監(jiān)控車聯(lián)網(wǎng)移動互聯(lián)網(wǎng)PC智能制造電子商務(wù)商務(wù)智能社交網(wǎng)絡(luò) 搜索, 推薦智慧法務(wù)機(jī)器人自動駕駛金融科技智慧物流醫(yī)學(xué)影像診斷醫(yī)療數(shù)據(jù)*Data Curation數(shù)據(jù)匯聚與數(shù)據(jù)監(jiān)護(hù)多源異構(gòu)數(shù)據(jù)的清洗集成如何針對多數(shù)據(jù)源中的異構(gòu)數(shù)據(jù)(關(guān)系、文本、圖等)進(jìn)行有效的清洗與鏈接大規(guī)模數(shù)據(jù)標(biāo)注如何在成本可控的前提下,獲得高質(zhì)量的標(biāo)注數(shù)據(jù)面向數(shù)據(jù)分析的隱私保護(hù)如何保護(hù)隱私的前提下,盡可能降低對數(shù)據(jù)分析效果的損失數(shù)據(jù)監(jiān)護(hù)的易用性優(yōu)化如何構(gòu)建端到端的數(shù)據(jù)準(zhǔn)備,提升數(shù)據(jù)監(jiān)護(hù)的易用性全球規(guī)模數(shù)據(jù)管理

9、全球規(guī)模分布式數(shù)據(jù)管理架構(gòu)如何基于計算與存儲分離思想,設(shè)計全球規(guī)模(global-scale)的分 布式數(shù)據(jù)管理系統(tǒng)架構(gòu)多數(shù)據(jù)模型存儲如何針對多種數(shù)據(jù)模型,動態(tài)進(jìn)行多數(shù)據(jù)模型的存儲與管理優(yōu)化,提 升多種計算模型的數(shù)據(jù)訪問效率自適應(yīng)索引結(jié)構(gòu)如何針對不同數(shù)據(jù)模型和數(shù)據(jù)訪問規(guī)律,自適應(yīng)建立和調(diào)優(yōu)數(shù)據(jù)索引 結(jié)構(gòu)基于近數(shù)據(jù)計算的數(shù)據(jù)查詢優(yōu)化如何利用近數(shù)據(jù)計算思想,在更接近數(shù)據(jù)的層面進(jìn)行數(shù)據(jù)處理,減少 數(shù)據(jù)傳輸,優(yōu)化大數(shù)據(jù)查詢操作性能大規(guī)模分布式事務(wù)處理如何提高分布式事務(wù)的可靠性和執(zhí)行效率多計算模型數(shù)據(jù)分析基于異構(gòu)計算的數(shù)據(jù)分析如何圍繞數(shù)據(jù),充分利用多核CPU、GPU、FPGA等多元異構(gòu) 計算器件協(xié)同進(jìn)行

10、高效率的大數(shù)據(jù)分析基于近似計算的數(shù)據(jù)分析如何在保障近似比的前提下,大幅減小數(shù)據(jù)分析的開銷多計算模型的深度融合如何從接口到引擎,深度融合批處理、流計算等主流計算模型機(jī)器學(xué)習(xí)計算模型優(yōu)化如何在保障計算效率的前提下,提升分布式機(jī)器學(xué)習(xí)計算模型 支持的模型維度,以及如何基于迭代優(yōu)化方法,自動調(diào)優(yōu)機(jī)器 學(xué)習(xí)模型參數(shù)國家重點(diǎn)研發(fā)計劃項目,高時效、可擴(kuò)展的大數(shù)據(jù)計算模型、優(yōu)化技術(shù)與系 統(tǒng)(主持人:中國人民大學(xué) 陳紅教授)高可控彈性資源管理面向多元異構(gòu)硬件的協(xié)同優(yōu)化問題如何針對計算新硬件和存儲新硬件的特性,充分發(fā)揮新硬件的優(yōu)勢, 以及做好新硬件之間的協(xié)同優(yōu)化面向多租戶的資源隔離問題如何保障每個租戶不會互相干擾

11、,能夠準(zhǔn)確獲得預(yù)期的資源資源服務(wù)的質(zhì)量保障問題如何保障計算/存儲/網(wǎng)絡(luò)等資源服務(wù)的質(zhì)量智能分布式資源管理問題如何對分布式系統(tǒng)的多維資源進(jìn)行自動化的高效分配、組織和管理國家重點(diǎn)研發(fā)計劃項目,軟件定義的云計算基礎(chǔ)理論與方法(主持人:中國科學(xué)院計算技術(shù)研究所 徐志偉研究員)數(shù)據(jù)庫的主流應(yīng)用:OLMLStore & AccessOLTPOLAPOLML第一代第二代第三代第四代第五代Store & Access非結(jié)構(gòu)化 數(shù)據(jù)結(jié)構(gòu)化 數(shù)據(jù)OLMLOnline Machine Learning在一個數(shù)據(jù)集上選擇一個子集進(jìn)行訓(xùn)練用類SQL語言描述數(shù)據(jù)子集和學(xué)習(xí)任務(wù)實(shí)時更新模型(例如,一分鐘就需要更新模型)OL

12、ML vs OLTP/OLAPOLTP : relation model/ simple queryOLAP: cube model/ statistical analysisOLML: matrix model/ predictive analysis結(jié)果查詢cube分析預(yù)測分析Software Engineering for Machine Learning:A Case StudyICSE 2019最佳論文Best practices with machine learningin software engineeringA. End-to-end pipeline supportint

13、egrating ML development support into the traditional software development infrastructure.build environments to help engineers discover, gather, ingest, understand, and transform data, and then train, deploy, and maintain models.Best practices with machine learningin software engineeringB. Data avail

14、ability, collection, cleaning, and managementdata 對于ML很重要data attributes: “accessibility, accuracy, authoritativeness, freshness, latency, structuredness, ontological typing, connectedness, and semantic joinability.”Microsoft teams have found it necessary to blend data management tools with their ML

15、 frameworks to avoid the fragmentation of data and model management activities.the rapid evolution of data sources requires rigorous data versioning and sharing techniques討論:Data discovery and managementEngineers have to find, collect, curate, clean, and process data for use in model training and tu

16、ning.All the data has to be stored, tracked, and versioned.the data schema (and the data) change frequently, even many times per day多人協(xié)作場景的data versioning支撐OLML的“新型”數(shù)據(jù)庫長啥樣?支持多數(shù)據(jù)模型(single engine multi models)支持存算分離(decoupling)支持自優(yōu)化自適應(yīng)自管理(self driven)支持混合架構(gòu)(integrated architecture)多數(shù)據(jù)模型應(yīng)用只關(guān)注系統(tǒng)性能和開發(fā)效率,

17、不關(guān)心如何實(shí)現(xiàn)為不同類型的數(shù)據(jù)提供最合適的數(shù)據(jù)存儲鍵值對圖文檔存儲 管理一個重要的判斷:大數(shù)據(jù)管理系統(tǒng)是 多數(shù)據(jù)模型并 存的,以便適 應(yīng)不用的要求。多模型數(shù)據(jù)庫TabularRDFXMLSpatialTextMulti-model DBJSON統(tǒng)一的數(shù)據(jù)庫引擎支持多模型存儲。不是不同的數(shù)據(jù)類型采用不同 的數(shù)據(jù)庫引擎。數(shù)據(jù)庫分類Relational DBMSSearch enginesDocument storesKey-value storesWide column storesGraph DBMSTime Series DBMSObject oriented DBMSRDF storesMu

18、ltivalue DBMSNative XML DBMSEvent StoresContent storesNavigational DBMS流行度排名Top 50數(shù)據(jù)庫類型數(shù)量Relational15Relational, Multi-model14Search engine4Search engine,Multi-model1Document3Document, Multi-model2Key-value1Key-value, Multi-model2Wide column2Wide column, Multi-model1Multi-model3Graph1Time Series1總計50存算分離(decoupling storage and omputation)存儲與計算分離是實(shí)現(xiàn)“以數(shù)據(jù)為中心計算時代”的必經(jīng)之路存儲與計算各自獨(dú)立擴(kuò)展。可以更好地應(yīng)對單一方面的不足。數(shù)據(jù)規(guī)模超過了集群存儲能力,則擴(kuò)展存儲(例如時序數(shù)據(jù)的管理)?!坝楷F(xiàn)式”大數(shù)據(jù)處理需求導(dǎo)致計算能力跟不上,則擴(kuò)展計算(例如阿里“雙十一”、12306的“春運(yùn)”)。以數(shù)據(jù)為中心的計算。同一份數(shù)據(jù)存儲(數(shù)據(jù)湖,Data Lake),同時支持上層各種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論