數(shù)據(jù)處理方法、裝置及系統(tǒng)_第1頁
數(shù)據(jù)處理方法、裝置及系統(tǒng)_第2頁
數(shù)據(jù)處理方法、裝置及系統(tǒng)_第3頁
數(shù)據(jù)處理方法、裝置及系統(tǒng)_第4頁
數(shù)據(jù)處理方法、裝置及系統(tǒng)_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)處理方法、裝置及系統(tǒng)專利01專利背景附圖說明發(fā)明內(nèi)容技術(shù)領(lǐng)域目錄03020405權(quán)利要求專利榮譽實施方式目錄0706基本信息《數(shù)據(jù)處理方法、裝置及系統(tǒng)》是深圳市騰訊計算機系統(tǒng)有限公司于2013年12月12日申請的發(fā)明專利,該專利申請?zhí)枮?5,公布號為CNA,公布日為2014年10月8日,發(fā)明人是田萬鵬。《數(shù)據(jù)處理方法、裝置及系統(tǒng)》公開了一種數(shù)據(jù)處理方法、裝置、數(shù)據(jù)處理服務(wù)器及系統(tǒng),屬于信息處理技術(shù)領(lǐng)域。所述方法包括:獲取接入配置信息;根據(jù)接入配置信息實時采集至少一個數(shù)據(jù);按照轉(zhuǎn)換后的通用協(xié)議識別出的每個數(shù)據(jù)的業(yè)務(wù)屬性信息將每個數(shù)據(jù)進行分布式存儲;對每個數(shù)據(jù)進行預處理及分揀處理,將分揀出的數(shù)據(jù)發(fā)送到分布式文件系統(tǒng),由分布式文件系統(tǒng)進行存儲。該發(fā)明通過接入配置信息中的數(shù)據(jù)源信息實時采集至少一個數(shù)據(jù),并按照轉(zhuǎn)換后的通用協(xié)議識別出的業(yè)務(wù)屬性信息將每個數(shù)據(jù)進行分布式存儲;再對每個數(shù)據(jù)進行預處理及分揀處理,由分布式文件系統(tǒng)存儲分揀出的數(shù)據(jù),從而實現(xiàn)大量數(shù)據(jù)的實時采集及處理,并且協(xié)議轉(zhuǎn)換可實現(xiàn)不同類型數(shù)據(jù)的接入,提高了數(shù)據(jù)處理的效率。2021年6月24日,《數(shù)據(jù)處理方法、裝置及系統(tǒng)》獲得第二十二屆中國專利優(yōu)秀獎。(概述圖為《數(shù)據(jù)處理方法、裝置及系統(tǒng)》摘要附圖)專利背景專利背景隨著信息處理技術(shù)的不斷發(fā)展,獲取的數(shù)據(jù)越來越多。為了更好地利用這些數(shù)據(jù),需要對數(shù)據(jù)進行分揀等處理。由于這些數(shù)據(jù)來自不同的數(shù)據(jù)源,在進行數(shù)據(jù)處理時需要考慮接入系統(tǒng)對不同類型的數(shù)據(jù)源的適配,并且數(shù)據(jù)需要及時采集以及分類等處理,從而避免數(shù)據(jù)的積壓。因此,如何快速、及時地進行數(shù)據(jù)處理成為人們的問題。截至2013年12月,有兩種處理數(shù)據(jù)的方式。第一種批量預處理+接口機批量入庫方式:將待處理數(shù)據(jù)寫入一個日志文件;根據(jù)接口機的接口表將一個日志文件拆分為多個日志文件,使不同的接口對應不同的日志文件;發(fā)送每個日志文件到接口機中與該日志文件對應的接口;通過與該日志文件對應的接口存儲日志文件中的數(shù)據(jù)。第二種流式數(shù)據(jù)采集+離線批量預處理方式:將數(shù)據(jù)發(fā)送到消息服務(wù)器;通過消息服務(wù)器將數(shù)據(jù)發(fā)送到接口機;通過運行分類程序?qū)?shù)據(jù)進行分類,使不同的接口對應不同類別的數(shù)據(jù);通過與該類別的數(shù)據(jù)對應的接口存儲數(shù)據(jù)。在實現(xiàn)《數(shù)據(jù)處理方法、裝置及系統(tǒng)》的過程中,發(fā)明人發(fā)現(xiàn)2013年12月前已有技術(shù)至少存在以下問題:第一種方式需要將數(shù)據(jù)寫入日志文件來完成數(shù)據(jù)采集的過程,致使采集數(shù)據(jù)的過程沒有實時性;由于一個日志文件中包括所有數(shù)據(jù),則將一個日志文件拆分為多個日志文件,即對日志文件中的數(shù)據(jù)進行分類處理的過程也沒有實時性。另外,不同的數(shù)據(jù)需要對應的不同的分類處理規(guī)則,增加了數(shù)據(jù)處理的復雜度和成本。第二種方式需要運行分類程序?qū)?shù)據(jù)進行離線分類處理,致使數(shù)據(jù)分類處理的過程沒有實時性。另外,分類程序?qū)?shù)據(jù)進行分類處理的效率不高,造成了系統(tǒng)資源的浪費。發(fā)明內(nèi)容專利目的改善效果技術(shù)方案發(fā)明內(nèi)容專利目的《數(shù)據(jù)處理方法、裝置及系統(tǒng)》的目的是解決2013年12月前已有技術(shù)的問題,提供一種數(shù)據(jù)處理方法、裝置及系統(tǒng)。

技術(shù)方案《數(shù)據(jù)處理方法、裝置及系統(tǒng)》一方面提供了一種數(shù)據(jù)處理方法,所述方法包括:獲取接入配置信息,所述接入配置信息中至少包括業(yè)務(wù)標識信息、業(yè)務(wù)屬性信息、數(shù)據(jù)源信息、接口信息及入庫信息;根據(jù)所述接入配置信息中的數(shù)據(jù)源信息實時采集至少一個數(shù)據(jù);將每個數(shù)據(jù)的協(xié)議轉(zhuǎn)換成通用協(xié)議,通過所述通用協(xié)議識別每個數(shù)據(jù)的業(yè)務(wù)屬性信息、接口屬性信息及時間屬性信息,并按照每個數(shù)據(jù)的業(yè)務(wù)屬性信息將每個數(shù)據(jù)進行分布式存儲;對每個數(shù)據(jù)進行預處理及分揀處理,將分揀出的數(shù)據(jù)發(fā)送到分布式文件系統(tǒng),由所述分布式文件系統(tǒng)進行存儲。《數(shù)據(jù)處理方法、裝置及系統(tǒng)》另一方面提供了一種數(shù)據(jù)處理裝置,所述裝置包括:獲取模塊,用于獲取接入配置信息,所述接入配置信息中至少包括業(yè)務(wù)標識信息、業(yè)務(wù)屬性信息、數(shù)據(jù)源信息、接口信息及入庫信息;采集模塊,用于根據(jù)所述接入配置信息中的數(shù)據(jù)源信息實時采集至少一個數(shù)據(jù);轉(zhuǎn)換模塊,用于將每個數(shù)據(jù)的協(xié)議轉(zhuǎn)換成通用協(xié)議;第一識別模塊,用于通過所述通用協(xié)議識別每個數(shù)據(jù)的業(yè)務(wù)屬性信息;第二識別模塊,用于在所述第一識別模塊通過所述通用協(xié)議識別每個數(shù)據(jù)的業(yè)務(wù)屬性信息時,通過所述通用協(xié)議識別每個數(shù)據(jù)業(yè)務(wù)的接口屬性信息及時間屬性信息;存儲模塊,用于按照每個數(shù)據(jù)的業(yè)務(wù)屬性信息將每個數(shù)據(jù)進行分布式存儲;處理模塊,用于對每個數(shù)據(jù)進行預處理及分揀處理,將分揀出的數(shù)據(jù)發(fā)送到分布式文件系統(tǒng),由所述分布式文件系統(tǒng)進行存儲。改善效果《數(shù)據(jù)處理方法、裝置及系統(tǒng)》通過根據(jù)接入配置信息中的數(shù)據(jù)源信息實時采集至少一個數(shù)據(jù),并按照轉(zhuǎn)換后的通用協(xié)議識別出的業(yè)務(wù)屬性信息將每個數(shù)據(jù)進行分布式存儲;再對每個數(shù)據(jù)進行預處理及分揀處理,由分布式文件系統(tǒng)存儲分揀出的數(shù)據(jù),從而實現(xiàn)大量數(shù)據(jù)的實時采集及處理,并且協(xié)議轉(zhuǎn)換可實現(xiàn)不同類型數(shù)據(jù)的接入,提高了數(shù)據(jù)處理的效率。

附圖說明附圖說明圖1是《數(shù)據(jù)處理方法、裝置及系統(tǒng)》實施例一提供的數(shù)據(jù)處理方法流程圖;圖2是該發(fā)明實施例二提供的數(shù)據(jù)處理系統(tǒng)的示意圖;圖3是該發(fā)明實施例二提供的數(shù)據(jù)處理方法流程圖;圖4是該發(fā)明實施例二提供的打包結(jié)構(gòu)的示意圖;圖5是該發(fā)明實施例二提供的實時預處理和分揀模塊中的進程的示意圖;圖6是該發(fā)明實施例三提供的第一種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;圖7是該發(fā)明實施例三提供的處理模塊的結(jié)構(gòu)示意圖;圖8是該發(fā)明實施例三提供的第二種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;圖9是該發(fā)明實施例三提供的發(fā)送單元的結(jié)構(gòu)示意圖;圖10是該發(fā)明實施例三提供的第三種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;圖11是該發(fā)明實施例三提供的第四種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;技術(shù)領(lǐng)域技術(shù)領(lǐng)域《數(shù)據(jù)處理方法、裝置及系統(tǒng)》涉及信息處理技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)處理方法、裝置及系統(tǒng)。

權(quán)利要求權(quán)利要求1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:獲取接入配置信息,所述接入配置信息中至少包括業(yè)務(wù)標識信息、業(yè)務(wù)屬性信息、數(shù)據(jù)源信息、接口信息及入庫信息;根據(jù)所述接入配置信息中的數(shù)據(jù)源信息實時采集至少一個數(shù)據(jù);將每個數(shù)據(jù)的協(xié)議轉(zhuǎn)換成通用協(xié)議,通過所述通用協(xié)議識別每個數(shù)據(jù)的業(yè)務(wù)屬性信息、接口屬性信息及時間屬性信息,并按照每個數(shù)據(jù)的業(yè)務(wù)屬性信息將每個數(shù)據(jù)進行分布式存儲;對每個數(shù)據(jù)進行預處理及分揀處理,將分揀出的數(shù)據(jù)發(fā)送到分布式文件系統(tǒng),由所述分布式文件系統(tǒng)進行存儲。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述每個數(shù)據(jù)進行預處理及分揀處理,將分揀出的數(shù)據(jù)發(fā)送到分布式文件系統(tǒng),包括:通過一至多個解析進程讀取存儲的每個數(shù)據(jù),并獲取每個數(shù)據(jù)的業(yè)務(wù)屬性信息、接口屬性信息及時間屬性信息,屬性信息相同的數(shù)據(jù)構(gòu)成一個數(shù)據(jù)單元,將同一數(shù)據(jù)單元中的數(shù)據(jù)發(fā)送至同一分揀進程;通過每個分揀進程緩存接收到的數(shù)據(jù)單元中的數(shù)據(jù),當緩存寫滿后,將緩存中的數(shù)據(jù)添加到本地文件上,并在本地文件達到預設(shè)大小后,將所述本地文件中的數(shù)據(jù)上傳至分布式文件系統(tǒng)。3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述按照每個數(shù)據(jù)的業(yè)務(wù)屬性信息將每個數(shù)據(jù)進行分布式存儲,包括:根據(jù)每個數(shù)據(jù)的業(yè)務(wù)屬性信息將每個數(shù)據(jù)發(fā)送至對應的存儲設(shè)備,由每個存儲設(shè)備將接收到的數(shù)據(jù)存儲到本地硬盤,并緩存至內(nèi)存;所述通過一至多個解析進程讀取存儲的每個數(shù)據(jù),包括:通過一至多個解析進程讀取每個存儲設(shè)備的內(nèi)存中存儲的每個數(shù)據(jù)。實施方式實施方式《數(shù)據(jù)處理方法、裝置及系統(tǒng)》實施例提供了一種數(shù)據(jù)處理方法,參見圖1,該實施例提供的方法流程包括:101:獲取接入配置信息,接入配置信息中至少包括業(yè)務(wù)標識信息、業(yè)務(wù)屬性信息、數(shù)據(jù)源信息、接口信息及入庫信息。102:根據(jù)接入配置信息中的數(shù)據(jù)源信息實時采集至少一個數(shù)據(jù)。103:將每個數(shù)據(jù)的協(xié)議轉(zhuǎn)換成通用協(xié)議,通過通用協(xié)議識別每個數(shù)據(jù)的業(yè)務(wù)屬性信息,并按照每個數(shù)據(jù)的業(yè)務(wù)屬性信息將每個數(shù)據(jù)進行分布式存儲。進一步地,按照每個數(shù)據(jù)的業(yè)務(wù)屬性信息將每個數(shù)據(jù)進行分布式存儲,包括:根據(jù)每個數(shù)據(jù)的業(yè)務(wù)屬性信息將每個數(shù)據(jù)發(fā)送至對應的存儲設(shè)備,由每個存儲設(shè)備將接收到的數(shù)據(jù)存

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論