物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐(第2版)課件 第2章-大數(shù)據(jù)處理技術(shù)的發(fā)展_第1頁
物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐(第2版)課件 第2章-大數(shù)據(jù)處理技術(shù)的發(fā)展_第2頁
物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐(第2版)課件 第2章-大數(shù)據(jù)處理技術(shù)的發(fā)展_第3頁
物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐(第2版)課件 第2章-大數(shù)據(jù)處理技術(shù)的發(fā)展_第4頁
物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐(第2版)課件 第2章-大數(shù)據(jù)處理技術(shù)的發(fā)展_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐InternetofThings

BigDataprocessingTechnologyandPractice大數(shù)據(jù)處理技術(shù)的發(fā)展大數(shù)據(jù)存儲(chǔ)和管理技術(shù)1大數(shù)據(jù)計(jì)算技術(shù)2大數(shù)據(jù)分析技術(shù)3人工智能研究的基本內(nèi)容4人工智能的主要應(yīng)用和研究領(lǐng)域5PARTONE1大數(shù)據(jù)存儲(chǔ)和管理技術(shù)師傅領(lǐng)進(jìn)門,學(xué)藝在自身。------中國諺語大數(shù)據(jù)存儲(chǔ)和管理技術(shù)大數(shù)據(jù)每年都在激增龐大的信息量,加上已有的歷史數(shù)據(jù)信息,對(duì)整個(gè)業(yè)界的數(shù)據(jù)存儲(chǔ)、處理帶來了很大的機(jī)遇與挑戰(zhàn)。對(duì)于大數(shù)據(jù)的存儲(chǔ),存在以下問題和挑戰(zhàn):容量問題延遲問題安全問題靈活性...大數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)在存儲(chǔ)設(shè)備上以數(shù)據(jù)塊的形式存儲(chǔ),人們對(duì)物理數(shù)據(jù)進(jìn)行直接訪問和查詢文件系統(tǒng)以文件為單位對(duì)數(shù)據(jù)進(jìn)行訪問和管理數(shù)據(jù)庫在文件系統(tǒng)上增加了一個(gè)抽象層,用戶可以根據(jù)數(shù)據(jù)模型對(duì)文件中的數(shù)據(jù)進(jìn)行記錄級(jí)新增、截取、更新、刪除等操作傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù):與傳統(tǒng)的單機(jī)版文件系統(tǒng)及數(shù)據(jù)庫不同,對(duì)于大數(shù)據(jù)的存儲(chǔ)和管理,由于數(shù)據(jù)規(guī)模巨大,必須將數(shù)據(jù)存儲(chǔ)在多個(gè)機(jī)器中,并且在多臺(tái)機(jī)器中共享這些數(shù)據(jù)。這時(shí),就需要采用新的文件系統(tǒng)技術(shù)。面向大數(shù)據(jù)的文件系統(tǒng)在多臺(tái)機(jī)器中存儲(chǔ)與共享數(shù)據(jù):以手工的方式共享文件FTP技術(shù)被用來共享文件網(wǎng)絡(luò)文件系統(tǒng)(NetworkFileSystem,NFS),最初的分布式文件系統(tǒng)分布式文件系統(tǒng)搭建在傳統(tǒng)文件系統(tǒng)之上,它必須允許用戶在企業(yè)內(nèi)部網(wǎng)上的任一計(jì)算機(jī)上訪問自己的文件,程序可以像對(duì)待本地文件一樣存儲(chǔ)和訪問遠(yuǎn)程文件。為了達(dá)到此效果,分布式文件系統(tǒng)必須解決一些基本問題。這些問題包括:1).程序如何尋址遠(yuǎn)程文件,像對(duì)待本地文件一樣訪問遠(yuǎn)程文件?2).元數(shù)據(jù)管理問題3).一致性問題4).并發(fā)文件更新問題上世紀(jì)八十年代出現(xiàn)的網(wǎng)絡(luò)文件系統(tǒng)主要解決思路是實(shí)現(xiàn)客戶端和文件(存儲(chǔ))服務(wù)器的交互問題。在緩存和一致性管理方面,Sun公司的網(wǎng)絡(luò)文件系統(tǒng)NFS采用了簡單的弱一致性方式:對(duì)于緩存的數(shù)據(jù),客戶端周期性(30秒)去詢問服務(wù)器,查詢文件被最后修改的時(shí)間,如果本地緩存數(shù)據(jù)的時(shí)間早于該時(shí)間,則讓本地緩存數(shù)據(jù)無效,下次讀取數(shù)據(jù)時(shí)就去服務(wù)器獲取最新的數(shù)據(jù)。服務(wù)器對(duì)外提供統(tǒng)一的命名空間(目錄樹),存儲(chǔ)服務(wù)器節(jié)點(diǎn)之間不共享存儲(chǔ)空間,每個(gè)服務(wù)器存儲(chǔ)不同目錄子樹的方式實(shí)現(xiàn)擴(kuò)展。網(wǎng)絡(luò)文件系統(tǒng)的服務(wù)器之間缺乏負(fù)載均衡和容錯(cuò)機(jī)制,不同服務(wù)器之間的存儲(chǔ)空間也不能得以均衡利用,可靠性差,文件(存儲(chǔ))服務(wù)器的可擴(kuò)展性問題十分突出:每個(gè)存儲(chǔ)服務(wù)器所支持的存儲(chǔ)容量局限于SCSI總線的限制而難以擴(kuò)展。網(wǎng)絡(luò)文件系統(tǒng)90年代,存儲(chǔ)區(qū)域網(wǎng)(StorageAreaNetwork,SAN)成為解決存儲(chǔ)系統(tǒng)可擴(kuò)展性的最有效的途徑。SAN是用網(wǎng)絡(luò)取代SCSI總線,從而使存儲(chǔ)系統(tǒng)的容量與性能的可擴(kuò)展性都得以極大提高。在SAN網(wǎng)絡(luò)中,可以接入多個(gè)存儲(chǔ)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都對(duì)外提供I/O通道,在寫入數(shù)據(jù)時(shí),服務(wù)器端可以并行寫入到多個(gè)存儲(chǔ)節(jié)點(diǎn)中,從而顯著提高I/O吞吐量。早期的SAN主要用于集群計(jì)算系統(tǒng)中。存儲(chǔ)區(qū)域網(wǎng)分布式集群文件系統(tǒng)分布式集群文件系統(tǒng):在傳統(tǒng)文件系統(tǒng)基礎(chǔ)上,每臺(tái)計(jì)算機(jī)各自提供自己的存儲(chǔ)空間,并各自協(xié)調(diào)管理所有計(jì)算機(jī)節(jié)點(diǎn)中的文件,節(jié)點(diǎn)通過前端網(wǎng)絡(luò)發(fā)送請(qǐng)求讀寫數(shù)據(jù)。典型代表Google文件系統(tǒng)GFS雅虎工程師開發(fā)了HDFSGlusterFS、Ceph、Lustre、MooseFS等分布式集群文件系統(tǒng)HDFS對(duì)大文件采用分塊存儲(chǔ),非常適合在以計(jì)算為主和超大文件存儲(chǔ)的應(yīng)用環(huán)境下,支持對(duì)大文件的每一塊進(jìn)行獨(dú)立地計(jì)算處理。HDFS可以在集群內(nèi)進(jìn)行文件塊的移動(dòng)遷移,將文件塊遷移到計(jì)算空閑的機(jī)器上,以充分利用CPU計(jì)算資源,加快數(shù)據(jù)處理速度。同時(shí),分塊導(dǎo)致了文件難以修改數(shù)據(jù)。Ceph的主要目標(biāo)是設(shè)計(jì)成可輕松擴(kuò)展到數(shù)PB容量、基于POSIX、沒有單點(diǎn)故障、對(duì)多種工作負(fù)載提供高性能的訪問。目前Ceph支持OpenStack、CloudStack、OpenNebula、Hadoop等。GlusterFS是完全與POSIX標(biāo)準(zhǔn)兼容的分布式集群文件系統(tǒng)。分布式內(nèi)存文件系統(tǒng)Tachyon可以在集群里以訪問內(nèi)存的速度來訪問存在tachyon里的文件Tachyon是框架在分布式文件存儲(chǔ)和各種計(jì)算框架之間的一種中間件主要職責(zé)是將那些不需要落地到普通文件系統(tǒng)里的文件,落地到分布式內(nèi)存文件系統(tǒng)中,來達(dá)到共享內(nèi)存、提高效率,同時(shí)可以達(dá)到減少內(nèi)存冗余、GC時(shí)間等的目的面向大數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng):并行數(shù)據(jù)庫是指那些在無共享的體系結(jié)構(gòu)中進(jìn)行數(shù)據(jù)庫操作的數(shù)據(jù)庫系統(tǒng)。這些系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢,但為了能夠并行執(zhí)行SQL的查詢操作,系統(tǒng)中采用了兩個(gè)關(guān)鍵技術(shù):關(guān)系表的水平劃分:根據(jù)某種策略將關(guān)系表中的元組分布到集群中的不同節(jié)點(diǎn)上,這些節(jié)點(diǎn)上的表結(jié)構(gòu)是一樣的,這樣就可以對(duì)元組并行處理SQL查詢的分區(qū)執(zhí)行:首先為SQL查詢生成總的執(zhí)行計(jì)劃,再拆分成能夠在各個(gè)節(jié)點(diǎn)上獨(dú)立執(zhí)行的子計(jì)劃。在執(zhí)行時(shí),每個(gè)節(jié)點(diǎn)將中間結(jié)果發(fā)送到某一特定節(jié)點(diǎn)進(jìn)行聚集產(chǎn)生最終結(jié)果。并行數(shù)據(jù)庫優(yōu)點(diǎn):擁有較高的性能和可用性缺點(diǎn):沒有較好的可伸縮性;系統(tǒng)的容錯(cuò)性較差只適合小規(guī)模集群,以及資源需求相對(duì)固定的應(yīng)用程序NoSQL數(shù)據(jù)管理系統(tǒng)由于傳統(tǒng)關(guān)系數(shù)據(jù)庫(Oracle、MSSQLServer和MySQL等)不擅長處理模式不確定性的數(shù)據(jù)、使傳統(tǒng)關(guān)系數(shù)據(jù)庫表結(jié)構(gòu)變得復(fù)雜和對(duì)事務(wù)管理的嚴(yán)格要求嚴(yán)重影響了系統(tǒng)在分布式環(huán)境下的可用性和可伸縮性等原因,出現(xiàn)了NoSQL數(shù)據(jù)管理系統(tǒng)。NoSQL(NotOnlySQL)數(shù)據(jù)存儲(chǔ)和管理系統(tǒng)是指那些非關(guān)系型的、分布式的、不保證遵循ACID原則的數(shù)據(jù)存儲(chǔ)系統(tǒng),并分為key-value存儲(chǔ)、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫這3類。根據(jù)CAP定理,對(duì)于分布式系統(tǒng)來說,系統(tǒng)的一致性(consistency,C)、可用性(availability,A)和分區(qū)容錯(cuò)性(partitiontolerance,P)三者是不可能同時(shí)實(shí)現(xiàn)的,任何設(shè)計(jì)高明的分布式系統(tǒng)只能同時(shí)保障其中的兩個(gè)性質(zhì)。如以上的NoSQL數(shù)據(jù)庫中,Cassandra,Dynamo滿足CAP定理中的AP;BigTable,MongoDB滿足CP;而關(guān)系數(shù)據(jù)庫,如MySQL和Postgres滿足AC。NoSQL數(shù)據(jù)管理系統(tǒng)NoSQL典型地遵循BASE原則,更加強(qiáng)調(diào)讀寫效率、數(shù)據(jù)容量以及系統(tǒng)可擴(kuò)展性.NoSQL數(shù)據(jù)庫一般只支持簡單的key/value接口,只支持根據(jù)惟一的鍵值(key)定義在一個(gè)數(shù)據(jù)項(xiàng)上的讀寫操作。支持事務(wù)的分布式NoSQL--FoundationDB優(yōu)點(diǎn):相對(duì)于復(fù)雜的關(guān)系數(shù)據(jù)庫系統(tǒng),其主要優(yōu)點(diǎn)在于其查詢速度快、支持大規(guī)模數(shù)據(jù)存儲(chǔ)且支持高并發(fā),非常適合只需要通過主鍵進(jìn)行簡單查詢的應(yīng)用場景。缺點(diǎn):它本身沒有任何表示約束和關(guān)系的機(jī)制,因此數(shù)據(jù)完整性的保障完全依賴客戶程序本身;由于目前出現(xiàn)了很多NoSQL數(shù)據(jù)存儲(chǔ)系統(tǒng)的產(chǎn)品或工具,但由于缺乏統(tǒng)一標(biāo)準(zhǔn),彼此之間兼容性差等。NewSQL數(shù)據(jù)管理系統(tǒng)NewSQL能夠提供SQL數(shù)據(jù)庫的質(zhì)量保證,也能提供NoSQL數(shù)據(jù)庫的可擴(kuò)展性。VoltDB是NewSQL的實(shí)現(xiàn)之一,其開發(fā)公司的CTO宣稱,它們的系統(tǒng)使用NewSQL的方法處理事務(wù)的速度比傳統(tǒng)數(shù)據(jù)庫系統(tǒng)快45倍。VoltDB可以擴(kuò)展到39個(gè)機(jī)器上,在300個(gè)CPU內(nèi)核中每分鐘處理1600萬事務(wù),其所需的機(jī)器數(shù)比Hadoop集群要少很多。NewSQL的出現(xiàn):2012年Google在OSDI上發(fā)表了Spanner的論文,2013年在SIGMOD發(fā)表了F1的論文。這兩篇論文讓業(yè)界第一次看到了關(guān)系模型和NoSQL的擴(kuò)展性在超龐大集群規(guī)模上融合的可能性。這種可擴(kuò)展、高性能的SQL數(shù)據(jù)庫被稱為NewSQL,其中“New”用來表明與傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)的區(qū)別。PARTTWO2大數(shù)據(jù)計(jì)算技術(shù)批處理計(jì)算模式

批量數(shù)據(jù)三大特征數(shù)據(jù)體量巨大數(shù)據(jù)精確度高數(shù)據(jù)價(jià)值密度低大數(shù)據(jù)的批處理系統(tǒng)適用于先存儲(chǔ)后計(jì)算,實(shí)時(shí)性要求不高,同時(shí)數(shù)據(jù)的準(zhǔn)確性和全面性更為重要的場景。批處理計(jì)算模式批量數(shù)據(jù)處理適合大型、相對(duì)成熟的作業(yè),但可能浪費(fèi)時(shí)間,因?yàn)樘幚斫Y(jié)果與預(yù)期差異大。MapReduce編程模型在批處理計(jì)算中廣泛應(yīng)用,因?yàn)樗哂辛己玫男詢r(jià)比、易于使用和可伸縮性。離線批處理計(jì)算模式適用于靜態(tài)數(shù)據(jù),但對(duì)于實(shí)時(shí)性要求高的應(yīng)用不夠強(qiáng)大,因?yàn)樗幸恍┚窒扌?,如中間數(shù)據(jù)傳輸難以優(yōu)化、任務(wù)重啟開銷大等。交互式查詢計(jì)算模式數(shù)據(jù)查詢和分析是迭代的交互過程,對(duì)實(shí)時(shí)性要求高,大數(shù)據(jù)環(huán)境下需要改進(jìn)響應(yīng)時(shí)間,引入索引和內(nèi)存計(jì)算等手段,如Spark和Dremel系統(tǒng)。Spark系統(tǒng):是高效的開源集群計(jì)算系統(tǒng),利用內(nèi)存快速處理數(shù)據(jù),比Hadoop快10倍~100倍,兼容Hadoop存儲(chǔ)API,支持交互式查詢。Dremel系統(tǒng):交互式數(shù)據(jù)分析系統(tǒng),處理PB級(jí)數(shù)據(jù),秒級(jí)響應(yīng),嵌套數(shù)據(jù)模型適合大規(guī)模數(shù)據(jù)和相關(guān)查詢,結(jié)合Web搜索技術(shù),能夠?qū)崿F(xiàn)并發(fā)執(zhí)行查詢。流處理計(jì)算模式流處理計(jì)算的現(xiàn)狀流處理計(jì)算的方式流處理的應(yīng)用流處理計(jì)算的現(xiàn)狀流數(shù)據(jù)具有持續(xù)到達(dá)、規(guī)模大且速度快等特點(diǎn),通常不會(huì)對(duì)所有數(shù)據(jù)進(jìn)行永久化存儲(chǔ),而基本在內(nèi)存中完成。流數(shù)據(jù)處理方式更多地依賴于內(nèi)存中設(shè)計(jì)巧妙的概要數(shù)據(jù)結(jié)構(gòu)。在云計(jì)算和大數(shù)據(jù)環(huán)境下面臨新的挑戰(zhàn),流處理仍舊是研究熱點(diǎn)。物聯(lián)網(wǎng)領(lǐng)域由于大量實(shí)時(shí)產(chǎn)生的感知數(shù)據(jù),也對(duì)流處理計(jì)算模式有廣泛的需求。流處理計(jì)算的方式流處理兩種典型的處理方式:真正的流處理方式:計(jì)算是針對(duì)一條新的記錄進(jìn)行一次。

(例如Storm,其響應(yīng)時(shí)間可以達(dá)毫秒級(jí)。)微批處理方式:將流數(shù)據(jù)分為很多小的片段,針對(duì)每個(gè)片段進(jìn)行一次處理。(例如SparkStreaming,響應(yīng)時(shí)間難以達(dá)到毫秒級(jí)。)流處理的應(yīng)用Twitter的Storm系統(tǒng)

Storm是一套分布式、可靠、可容錯(cuò)的用于處理流數(shù)據(jù)的系統(tǒng)。其流式處理作業(yè)被分發(fā)至不

同類型的組件,每個(gè)組件負(fù)責(zé)一項(xiàng)簡單的、特定的處理任務(wù)。Storm提供了簡單的類似于MapReduce的編程模型,降低了實(shí)時(shí)處理的復(fù)雜性。它也具有擁有良好的水平擴(kuò)展能力,其流式計(jì)算過程是在多個(gè)線程、進(jìn)程和服務(wù)器之間并行進(jìn)行的。Linkedin的Samza系統(tǒng)

Samza與Kafka的關(guān)系可以類比MapReduce與HDFS的關(guān)系。Samza系統(tǒng)由3個(gè)層次組成,包括流式數(shù)據(jù)層(Kafka)、執(zhí)行層(YARN)、處理層(SamzaAPI).一個(gè)Samza任務(wù)的輸入與輸出均是流。

Samza使用Kafka來保證所有消息都會(huì)按照寫入分區(qū)的順序進(jìn)行處理,絕對(duì)不會(huì)丟失任何消息。SparkStreaming系統(tǒng)

SparkStreaming是SparkAPI的一個(gè)擴(kuò)展,它并不會(huì)像Storm那樣一次一個(gè)地處理數(shù)據(jù)流,而是在處理前按時(shí)間間隔預(yù)先將其切分為一段一段的微批處理作業(yè)。大數(shù)據(jù)實(shí)時(shí)處理的架構(gòu):Lambda及KappaLambda架構(gòu)是由Storm的作者NathanMarz提出的一個(gè)實(shí)時(shí)大數(shù)據(jù)處理框架。Lambda架構(gòu)將大數(shù)據(jù)系統(tǒng)構(gòu)建為多個(gè)層次。

理想狀態(tài)下,任何數(shù)據(jù)訪問都可以通過對(duì)數(shù)據(jù)的直接查詢獲取,但是,若數(shù)據(jù)達(dá)到相當(dāng)大的一個(gè)級(jí)別(例如PB),且還需要支持實(shí)時(shí)查詢時(shí),就需要耗費(fèi)非常龐大的資源。大數(shù)據(jù)實(shí)時(shí)處理的架構(gòu):Lambda及Kappa

在Lambda架構(gòu)中,實(shí)現(xiàn)batchview的部分被稱之為批處理層(Batchlayer)。主要包含兩個(gè)職責(zé):

存儲(chǔ)主數(shù)據(jù)集(不變的持續(xù)增長的數(shù)據(jù)集)

針對(duì)這個(gè)主數(shù)據(jù)集進(jìn)行預(yù)運(yùn)算

大數(shù)據(jù)實(shí)時(shí)處理的架構(gòu):Lambda及Kappa加速層只處理最近的數(shù)據(jù),它會(huì)在接收到新數(shù)據(jù)時(shí),進(jìn)行一種增量的計(jì)算。

大數(shù)據(jù)實(shí)時(shí)處理的架構(gòu):Lambda及Kappa

針對(duì)Lambda架構(gòu)的缺點(diǎn),LinkedIn的工程師JayKreps提出了應(yīng)對(duì)大數(shù)據(jù)實(shí)時(shí)處理的另外一種方式,即Kappa架構(gòu)。

在Kappa架構(gòu)中,流處理系統(tǒng)來處理輸入的數(shù)據(jù),流處理系統(tǒng)的輸出直接進(jìn)入數(shù)服務(wù)層,而應(yīng)用直接從服務(wù)層獲取查詢結(jié)果。也就是說Kappa只有兩層:實(shí)時(shí)處理層和服務(wù)層。大數(shù)據(jù)實(shí)時(shí)處理的架構(gòu):Lambda及Kappa

在Kappa架構(gòu)中,不需要對(duì)數(shù)據(jù)的處理開發(fā)和維護(hù)兩套不同的系統(tǒng),因此系統(tǒng)復(fù)雜度減少了。

但是,由于Kappa架構(gòu)去掉了批處理層,因此其不適合用來管理一些需要利用大量歷史數(shù)據(jù)進(jìn)行批處理的應(yīng)用。例如在某些大規(guī)模機(jī)器學(xué)習(xí)應(yīng)用場景需要海量的歷史數(shù)據(jù)進(jìn)行模型訓(xùn)練時(shí),Kappa架構(gòu)可能會(huì)無法勝任。Kappa架構(gòu)層次圖PARTTHREE3大數(shù)據(jù)分析技術(shù)大數(shù)據(jù)分析技術(shù)傳統(tǒng)數(shù)據(jù)分析主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)展開,且形成了成熟的技術(shù)體系,但大數(shù)據(jù)數(shù)據(jù)的規(guī)模效應(yīng)給很多傳統(tǒng)單機(jī)版的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法帶來了很多的挑戰(zhàn)。主要體現(xiàn)在:數(shù)據(jù)量的膨脹數(shù)據(jù)深度分析需求的增長傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)分析在傳統(tǒng)工業(yè)、電子商務(wù)、政務(wù)以及科學(xué)研究等應(yīng)用領(lǐng)域產(chǎn)生了大量的結(jié)構(gòu)化數(shù)據(jù),許多數(shù)據(jù)挖掘的技術(shù)已成功用于一些結(jié)構(gòu)化數(shù)據(jù)分析的應(yīng)用。例如:統(tǒng)計(jì)機(jī)器學(xué)習(xí)、時(shí)空挖掘技術(shù)、高速數(shù)據(jù)流與傳感器數(shù)據(jù)中的模式。文本數(shù)據(jù)分析文本數(shù)據(jù)分析是指從無結(jié)構(gòu)的文本中提取有用信息或知識(shí)的過程。文本分析技術(shù)包括信息提取、主題建模、摘要(summarization)、分類、聚類、問答系統(tǒng)和觀點(diǎn)挖掘等技術(shù)。多媒體數(shù)據(jù)分析多媒體數(shù)據(jù)分析是指從圖像、語音等多媒體數(shù)據(jù)中提取知識(shí)。多媒體分析研究覆蓋范圍較廣,包括多媒體識(shí)別、多媒體摘要、多媒體標(biāo)注、多媒體索引和檢索、多媒體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論