版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)概述& Oracle 大數(shù)據(jù)處理方案Rich Niemiec ,Rolta 企業(yè), 年提供創(chuàng)新性技術,發(fā)揮富有洞察力影響第1頁2Rich 介紹Rolta International 董事會顧問TUSC 前總裁500 強企業(yè)(增加速度最快 500 家私營企業(yè)) 在美國設有 10 個辦事處;總部設在芝加哥Oracle 技術&應用高級合作搭檔Rolta TUSC 前總裁、Rolta EICT International 前總裁 著有以下著作(3 本 Oracle 暢銷書 十多年來排名第一 Oracle 調優(yōu)書籍):Oracle Performing Tips & Techniques (Cov
2、ers Oracle7 & 8i)Oracle9i Performance Tips & TechniquesOracle Database 10g Performance Tips & TechniquesOracle Database 11g Performance Tips & TechniquesOracle 國際用戶組前主席Oracle 中西部用戶組現(xiàn)任主席入選芝加哥企業(yè)家名人堂 1998 年入選安永年度企業(yè)家和世界名人堂 年IOUG 頂級演說家 1991、1994、1997、 和 年12 次榮獲 MOUG 頂級演說家稱號國家三人組成功人士獎 年Oracle 認證大師和 Oracle
3、 ACE 總監(jiān)普渡大學出色電子與計算機工程師 年第2頁議題Oracle 趨勢現(xiàn)實狀況技術發(fā)展未來規(guī)劃第3頁 Oracle 趨勢了解 Oracle第4頁Exadata X-3:內存數(shù)據(jù)庫4 T DRAM/22 T 閃存第5頁6Oracle 首創(chuàng)技術 創(chuàng)新! 1979 年,第一個商用關系型數(shù)據(jù)庫管理系統(tǒng)1983 年,第一個 32 位 RDBMS1984 年,第一個具備讀取一致性數(shù)據(jù)庫1987 年,第一個客戶端-服務器模式數(shù)據(jù)庫1994 年,首次商業(yè)評定和多層安全性數(shù)據(jù)庫評定1995 年,第一個 64 位 RDBMS1996 年,首次突破 30,000 TPC-C1997 年,第一個 Web 數(shù)據(jù)庫
4、1998 年,第一個具備原生 Java 支持而且突破 100,000 TPC-C 數(shù)據(jù)庫1998 年,第一個Linux上 商用 RDBMS 年,第一個支持 XML 語言RDBMS 年,第一個實現(xiàn)中間層數(shù)據(jù)庫緩存數(shù)據(jù)庫 年,第一個帶有 Real Application Clusters 集群支持 RDBMS 年,第一個真正網(wǎng)格數(shù)據(jù)庫 年,第一款無償 Oracle 數(shù)據(jù)庫(10g 快捷版) 年,Oracle 首次為 Linux 平臺提供支持 年,公布 Oracle 11g! 年,公布 Oracle Exadata (Oracle 收購 BEA) 年,Oracle 收購 Sun Java、MySQL
5、、Solaris、硬件和 OpenOffice 年,Oracle 公布 MySQL Cluster 7.1、Exadata、Exalogic 年,Oracle X2-2、ODA、Exalytics、SuperCluster、大數(shù)據(jù)、云和社交網(wǎng)絡 年,Oracle X3-2、Oracle 12c OEM、可插拔數(shù)據(jù)庫和 X3-8 年,公布 Oracle 12c! 公布 Oracle Exadata X3-8 ,收購 Acme Packet!第6頁企業(yè)面臨挑戰(zhàn)和分析需求管理 角度業(yè)務 角度孤立思維我不關注我不知道您沒有告訴我這是他們問題制訂決議很困難數(shù)據(jù)不可靠匯報不可追溯沒有訪問權限數(shù)據(jù)源不相關缺
6、乏集成戰(zhàn)略管理老板不喜歡我不知道我為何會這么做云計算、移動計算、社交媒體和大數(shù)據(jù)分析推進產生新計算模式。 該模式進而引發(fā)業(yè)務轉型以提升效率, 促進法規(guī)遵從,提升整體業(yè)務可連續(xù)性,以及以客戶為中心。第7頁8加深認識:大數(shù)據(jù)革命搜集、存放和分析數(shù)據(jù)能力在信息技術帶來影響中一直占有主要一席。在這個數(shù)字化程度日益提升時代,您所做每件事都會有一個電子統(tǒng)計。伴隨企業(yè)積聚數(shù)據(jù)越來越多并到達數(shù)百 TB,他們紛紛尋求愈加尖端軟件工具對數(shù)據(jù)進行挖掘和分析,從而幫助企業(yè)愈加好地了解市場和客戶,甚至是幫助企業(yè)對未來作出預測。您怎樣搜集和存放數(shù)據(jù)? 您怎樣傳輸數(shù)據(jù)?您怎樣分析數(shù)據(jù)?您怎樣從數(shù)據(jù)獲益? 第8頁大數(shù)據(jù)為何主
7、要?張加萬天津大學軟件學院第9頁技術趨勢:Gartner Hype Cycle 第10頁Gartner 公布 技術趨勢第11頁數(shù)據(jù)量增大 數(shù)據(jù)量大小變得主要近年來,全球數(shù)據(jù)量快速增加。 年:800 TB (1012) 年:160 EB (1018) 年:500 EB(僅互聯(lián)網(wǎng)) 年:2.7 ZB (1021) 年:35 ZB?一天中生成數(shù)據(jù)?Twitter:7 TBFacebook:10 TB 以上大數(shù)據(jù):創(chuàng)新、競爭力和生產率下一個前沿McKinsey Global Institute, 年我們淹沒于數(shù)據(jù)之中,但渴望取得信息2.8 x 1020 位內存空間 John von Neumann(C
8、omputer and the Brain,哈佛大學講稿,發(fā)表于半個世紀前)從各種在線起源整理所得數(shù)據(jù)第12頁數(shù)據(jù)量有多少 年每個月互聯(lián)網(wǎng)流量超出 1E; 年每個月互聯(lián)網(wǎng)流量為 21E。 年,天天創(chuàng)建數(shù)據(jù)到達 2.5E(大約等于 1Z (1000E)/年) 年 6 月 Facebook Hadoop 集群數(shù)據(jù)量到達 100PFacebook:天天處理數(shù)據(jù)量到達 500T 每小時掃描 Hive 數(shù)據(jù)量到達 210T單個 Jet 引擎 20T/小時(此速率與 Facebook 相同?。〨mail 擁有 4.5 億用戶沃爾瑪 100 萬筆客戶交易/小時(相當于 2.5P 數(shù)據(jù)庫)大型強子對撞機一年產
9、生數(shù)據(jù)量達 13P業(yè)務數(shù)據(jù)每 1.2 年翻一番19% 市值達 10 億美元企業(yè)擁有超出 1P 數(shù)據(jù)( 年將到達 31%) 年 Oracle 率先公布EB級磁帶庫之前對人類基因組進行解碼需10 年;現(xiàn)在只需一周!第13頁IOUG 調查* 年 9 月* 大數(shù)據(jù)帶來巨大挑戰(zhàn)與機遇: 年 IOUG 大數(shù)據(jù)戰(zhàn)略調查(IOUG = Independent Oracle Users Group,獨立 Oracle 用戶組)第14頁大數(shù)據(jù)預測未來天氣* V*EarthRisk 企業(yè)系統(tǒng)基于 :820 億次 計算60 年數(shù)據(jù)第15頁16什么是大數(shù)據(jù)和大數(shù)據(jù)分析?大數(shù)據(jù)是指規(guī)模超出慣用軟件工具在允許時間內捕捉、管
10、理和處理能力數(shù)據(jù)集。 大數(shù)據(jù)分析是指可處理傳統(tǒng)分析方法因數(shù)據(jù)量過大、數(shù)據(jù)類型過于多樣、速度改變過快等原因無法分析處理數(shù)據(jù)。第16頁17每個組織都將使用大數(shù)據(jù)大數(shù)據(jù)涵蓋以下領域:社交媒體、傳感器數(shù)據(jù)、生物學、交通數(shù)據(jù)、 RFID 數(shù)據(jù)、環(huán)境數(shù)據(jù)、航空、無線網(wǎng)絡、安防與視頻數(shù)據(jù)、零售、醫(yī)療、工程系統(tǒng)、搜索數(shù)據(jù)、攝影、呼叫統(tǒng)計和 CRM/ERP 數(shù)據(jù)等。第17頁IOUG 調查 年 9 月第18頁IOUG 調查 年 9 月第19頁大數(shù)據(jù)特點大數(shù)據(jù)主題適合用于大數(shù)據(jù)量軟硬件技術專注于 Web 2.0 技術數(shù)據(jù)庫橫向擴展關系型&分布式數(shù)據(jù)分析分布式文件系統(tǒng)實時分析大數(shù)據(jù)領域數(shù)字營銷優(yōu)化 數(shù)據(jù)探索和發(fā)覺欺詐
11、檢測與防范社交網(wǎng)絡和關系分析機器生成數(shù)據(jù)分析數(shù)據(jù)保留財務電信媒體生命科學零售政府第20頁大數(shù)據(jù)提供商第21頁在最開始階段我們是怎樣實現(xiàn)?Larry Page 和 Sergey Brin 編寫 BigFile;GFS (Google File System) 得自于此,接著,MapReduce 將工作映射 到集群多工作節(jié)點,然后對分布式處理結果做聚合(用于生成 Google WWW 索引)Apache 推出了 Hadoop(Facebook、Yahoo、Amazon EC2 和 S3 均采取此框架),此開源版框架采取 HDFS 和 MapReduce 在同一工作節(jié)點對分布處理后作業(yè)做批處理, 速
12、度不算超快(秒鐘比毫秒),也不適合于交互式分析(不支持更新,只支持疊加)Google 則推出了 BigTable(支持壓縮高性能數(shù)據(jù)存放),Google Maps、Google Reader、Google Earth、YouTube 和 Gmail 均采取該存放系統(tǒng)Apache 添加了 NoSQL 數(shù)據(jù)庫:Cassandra 和 HBase多個系統(tǒng)開始采取 NoSQL,這其中也包含 Oracle NoSQL (BerkeleyDB)。第22頁大數(shù)據(jù)基礎知識我們目標是組織數(shù)據(jù)而不移動數(shù)據(jù)! Hadoop HDFS 和 MapReduce(訪問 PB 級數(shù)據(jù)低成本方式)。HDFS 能夠存放任何類型
13、數(shù)據(jù)或結構,但 MapReduce 只與鍵值對配合工作獲取并存放數(shù)據(jù) NoSQL(簡單鍵值對存放) Amazon DynamoDB(托管)、Apache Cassandra、HBase、BigTable、MongoDB、Oracle NoSQL(分布式鍵值),或者僅使用原始 HDFS/GFS 和 MapReduce(這些架構大多都具備最終一致性!)分析數(shù)據(jù) Google Dremel、Apache Hive 數(shù)據(jù)倉庫、Oracle 數(shù)據(jù)分析工具(OBIEE)54% 正在使用大數(shù)據(jù)企業(yè)表示: “項目至關主要!”第23頁各種 NoSQL 數(shù)據(jù)庫 最終一致性NoSQL 支持 BASE:基本可用性 (
14、Basically Available)柔性狀態(tài) (Soft state)最終一致性 (Eventually consistent)第24頁大數(shù)據(jù)工具革命Google File System (GFS)Google MapReduceApache/Hadoop 世界Hadoop 文件系統(tǒng) (HDFS)MapReduceHbaseHypertable(baidu使用)Google BigTableApache Hive(DWHSE)ZooKeeper 與 Pig (協(xié)作) (操作 HDFS)Cassandra(基于 DynamoDB Amazon 和 BigTable)第25頁審閱 Hadoop
15、 生態(tài)系統(tǒng)另一個方法* 這張精彩幻燈片節(jié)選自 Cloudera Hadoop 演示文稿,作者是 Todd Lipcon第26頁Yahoo! 將 Hadoop 擴展至 4000 個節(jié)點 4000 個節(jié)點 100 個機架(每個機架 40 個節(jié)點) 32T RAM = 8G/節(jié)點 x 4000 個節(jié)點 超出 30,000 個關鍵 CPU 處理能力 16PB 裸容量,千兆以太網(wǎng)第27頁IOUG 調查 年 9 月第28頁IOUG 調查 年 9 月注意: 未來 3 年,“Not Using Hadoop” 所占百分比為 56%第29頁 年 NoSQL 趨勢Hadoop 擴展至企業(yè)級Microsoft 加入
16、 Hadoop 大軍(與 Yahoo! 分拆出 Hortonworks 建立合作搭檔關系 在Windows Server 和 Azure 中采取 Hadoop,有到MSSQL 連接器)基于 NoSQL 處理方案安全問題妨礙了 NoSQL 發(fā)展Oracle 以更大力度投入 NoSQL 競爭(大數(shù)據(jù)機) “伴隨客戶尋求方法應對新以及不停發(fā)展數(shù)據(jù)源(如 Web、傳感器、社交網(wǎng)絡、和移動應用)引發(fā)數(shù)據(jù)激增,Oracle 開始經(jīng)過提供高可用、可靠和可伸縮 NoSQL 數(shù)據(jù)庫環(huán)境,幫助客戶發(fā)覺和挖掘這些數(shù)據(jù)價值?!?Oracle 高級副總裁 Andrew Mendelsohn內存數(shù)據(jù)網(wǎng)格與 NoSQL 集
17、成成就了 Facebook 和 Twitter 成功案例 年 1 月 26 日公布于 DataVersity第30頁NoSQL 數(shù)據(jù)庫 超出 120 種第31頁32下一代數(shù)據(jù)架構第32頁全部數(shù)據(jù)都有所不一樣!數(shù)據(jù)領域特征(Oracle 信息架構框架)第33頁IOUG 調查 年 9 月第34頁IOUG 調查 年 9 月第35頁開源項目框架查詢/數(shù)據(jù)流數(shù)據(jù)訪問協(xié)作/工作流統(tǒng)計工具實時第36頁分析 兩面性各個領域保持一致統(tǒng)計學、計算機科學、應用數(shù)學、經(jīng)濟學、機器學習、數(shù)據(jù)挖掘、模式識別、自然語言處理、數(shù)據(jù)融合與集成、模擬和優(yōu)化等等。以下描述模型和預測模型有利于取得對數(shù)據(jù)有益了解交流已取得認識 (可視
18、化)分析含有各種各樣形式和規(guī)模:零售業(yè)銷售分析金融服務分析風險分析與信用分析人才分析營銷分析行為分析集合分析欺詐分析定價分析電信供給鏈分析運輸分析以上跨職能分析有利于推進組織戰(zhàn)略交流已取得認識(可視化)石油與天然氣煉油石油化工冶金電力化工預定義職能 KPI、知識數(shù)據(jù)模型、目標、警報 多維績效分析、預測分析、預測設計正確戰(zhàn)略、溝通、協(xié)作、記分卡、促進行動工程師、主管、操作員直屬經(jīng)理、職能經(jīng)理職能專員/戰(zhàn)略分析師高管基于實時運行數(shù)據(jù)和業(yè)務數(shù)據(jù)以及現(xiàn)場圖智能第37頁分析處理方案第38頁Oracle 數(shù)據(jù)庫 具備分析功效!分析功效說明數(shù)據(jù)挖掘Oracle 數(shù)據(jù)挖掘 經(jīng)過復合算法實現(xiàn)模式發(fā)覺、結果預測以
19、及識別關鍵預測指標等。復雜數(shù)據(jù)轉換ETL 功效, SQL 表示式或 DBMS_DATA_MINING_TRANSFORM 程序包。適適用于缺失值、異常值處理、分級和標準化。統(tǒng)計功效SQL 統(tǒng)計功效:假設檢驗(t 測試、F 測試)、皮爾遜相關、交叉表/描述統(tǒng)計(中值和模式等)DBMS_STAT_FUNCS 包添加了分布擬合過程。窗口函數(shù)/SQL 分析函數(shù)計算累積、移動和居中聚合。 頻繁項目集Oracle Data Mining 所使用關聯(lián)算法將以DBMS_FREQUENT_ITEMSET 為基礎。圖像特征提取Oracle Intermedia 支持提取顏色直方圖、紋理和位置顏色。 線性代數(shù)UTL
20、_NLA 程序包提供用于向量和矩陣運算慣用 BLAS 庫和 LAPACK 庫子集。OLAP除下鉆和匯總之外,Oracle OLAP 還支持多維分析、時間序列分析、建模和預測空間分析Oracle Spatial 分析和挖掘功效包含分級、模式識別、空間關聯(lián)、共存挖掘和空間聚類、拓撲和 NW 數(shù)據(jù)模型分析 最短路徑、最小生成樹、最近鄰分析和貨郎擔問題等等文本挖掘此標準 SQL 用于經(jīng)過自動分類和聚類對存放在數(shù)據(jù)庫、文件和 Web 中文本/文檔進行索引、搜索和分析第39頁還提供預先打包分析第40頁Oracle 支持慣用 DMF 和 DMA函數(shù)適用性算法分類適適用于預測特定結果慣用技術邏輯回歸樸素貝葉斯
21、支持向量機決議樹回歸預測連續(xù)數(shù)值結果多重回歸支持向量機屬性主要性依據(jù)與目標屬性關系緊密程度對屬性進行排名。 最短描述長度異常檢測識別罕見情況或可疑情況一類支持向量機聚類找到自然分組。 增強 K 均值正交分區(qū)聚類關聯(lián)找到與頻繁一起出現(xiàn)項關聯(lián)規(guī)則Apriori特征提取產生新屬性作為現(xiàn)有屬性線性組合。 非負矩陣分解高價值客戶、中等價值客戶或低價值客戶可能會購置/不會購置客戶終生價值制程不良率醫(yī)療診療原因買方優(yōu)先保險欺詐依法納稅客戶細分生命科學發(fā)覺產品捆綁缺點分析模式識別數(shù)據(jù)預測示例第41頁是否含有預測性?后見之明洞察先見之明歷史定位經(jīng)典 MIS 匯報或 BIOracle Reports、Hyperi
22、on、IBM Cognos 和 SAP BO 等業(yè)務/行為分析、趨勢當前正在發(fā)生什么情況?/為何會發(fā)生這種情況?預測優(yōu)化過去行為有利于預測未來結果當前正在發(fā)生什么情況?為何會發(fā)生這種情況?將會/應該會發(fā)生什么情況?第42頁Oracle 適合用于大數(shù)據(jù)預測分析“開放性”秘訣源:Wikipedia第43頁“Hadoop 增強了 Oracle 力量”“Hadoop 意在增強傳統(tǒng)數(shù)據(jù)庫,而不是取而代之?!盌oug Cutting第44頁IOUG 調查 年 9 月第45頁Oracle 為大數(shù)據(jù)預測分析提供技術第46頁Oracle 用 10 天時間訪問 Twitter Firehose* 選自 Larry
23、 Ellison 在 甲骨文全球大會上發(fā)表主題演講 第47頁將關注者、地理位置、榮譽和興趣等繪制成圖 選自 Larry Ellison 在 甲骨文全球大會上發(fā)表主題演講 使用 X2-8 Exadata , X2-4 Exalytics 及 Endeca第48頁Oracle 為大數(shù)據(jù)快速布署提供技術 已準備就緒!第49頁50Exadata X-3:內存數(shù)據(jù)庫4 T DRAM/22 T 閃存緩存第50頁51優(yōu)勢倍增*:訪問 1/ 數(shù)據(jù);就像將 8P 內存駐留在 X3-8 4T 存放中一樣1 TB(經(jīng)壓縮)10 TB 用戶數(shù)據(jù)需要 10 TB IO100 GB(使用分區(qū)修剪)20 GB (使用存放索
24、引)5 GB (使用智能掃描)亞秒級(在數(shù)據(jù)庫機上)數(shù)據(jù)降低到原來 1/10,掃描加緊 倍 工程化系統(tǒng)優(yōu)勢!*Oracle 幻燈片 感激!第51頁IOUG 調查 年 9 月第52頁 Oracle 大數(shù)據(jù)優(yōu)勢真正成熟和完備 與眾不一樣完全集成 Hadoop 和加載器Exadata 和 Exalytics BI 集成與處理方案大數(shù)據(jù)硬件,其上包含 Hadoop HDFS、MapReduce、R 編程語言(統(tǒng)計和回歸等)、Oracle NoSQL,符合 ACID,簡單鍵-值對數(shù)據(jù)模型(多服務器上哈希鍵 主鍵/次鍵和字節(jié)數(shù)組)Oracle BerkeleyDB(已商業(yè)化8年?。?,該架構能夠依據(jù)需要使用
25、外部表與 HDFS(Hadoop 文件系統(tǒng))集成。Oracle Loader for Hadoop (OLH) 從 MapReduce 獲取分析數(shù)據(jù),最終將這些數(shù)據(jù)裝載到 11g Database(這么做愈加輕易)任何級別并發(fā)都是靈活,而且能夠橫向擴展Oracle 對集群化和高可用性 (HA) 含有深刻了解(不會出現(xiàn)單點故障!)Oracle 管理工具與 Oracle 專業(yè)人員一樣含有巨大作用BerkeleyDB 是全球最廣泛使用數(shù)據(jù)庫工具包,全球已布署超出 2 億個Oracle 速度堪稱實時,不會像批處理那樣遲緩第53頁建立一支成功團體使用能夠創(chuàng)造未來技術!使每位團體組員以為 有責任為項目成功出一份力使每位團體組員各盡其職與全部團體組員分享成功成功團體特質:尊重客戶忠誠度 信任共同目標 溝通 靈活性誠信無私精神 支持相互了解 主動態(tài)度 領導力凝聚眾人之力,取得更大成就第54頁55Oracle 規(guī)模成長到多么大 OW第55頁56最終思索追逐技
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度內墻涂料工程舊房翻新改造施工合同2篇
- 二零二五年度煤礦資源整合項目合同書4篇
- 2025版民宿布草租賃與民宿客棧特色文化打造合同4篇
- 2025年度股權轉讓與客戶關系維護合同范本3篇
- 二零二五年度出口貨物出口許可證與憑證辦理合同3篇
- 2025年文化藝術展廳展示策劃與運營合同3篇
- 二零二五年度廚房設備安全檢測與維護合同4篇
- 二零二五年度國有企業(yè)勞動合同簽訂及員工培訓與晉升協(xié)議3篇
- 2025年度新型門窗研發(fā)與安裝項目合同3篇
- 2025年滅鼠滅蟑專業(yè)防治與社區(qū)共建合同3篇
- 9.1增強安全意識 教學設計 2024-2025學年統(tǒng)編版道德與法治七年級上冊
- 《化工設備機械基礎(第8版)》全套教學課件
- 人教版八年級數(shù)學下冊舉一反三專題17.6勾股定理章末八大題型總結(培優(yōu)篇)(學生版+解析)
- 2024屆上海高考語文課內古詩文背誦默寫篇目(精校版)
- DL-T5024-2020電力工程地基處理技術規(guī)程
- 2024年度-美團新騎手入門培訓
- 初中數(shù)學要背誦記憶知識點(概念+公式)
- 駕照體檢表完整版本
- 農產品農藥殘留檢測及風險評估
- 農村高中思想政治課時政教育研究的中期報告
- 20100927-宣化上人《愣嚴咒句偈疏解》(簡體全)
評論
0/150
提交評論