透明計(jì)算中用戶訪問行為特征分析與預(yù)測(cè)_第1頁
透明計(jì)算中用戶訪問行為特征分析與預(yù)測(cè)_第2頁
透明計(jì)算中用戶訪問行為特征分析與預(yù)測(cè)_第3頁
透明計(jì)算中用戶訪問行為特征分析與預(yù)測(cè)_第4頁
透明計(jì)算中用戶訪問行為特征分析與預(yù)測(cè)_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、(錄用定稿) 網(wǎng)絡(luò)首發(fā)時(shí)間: 2017-11-24 17:48:23 GB/T 7714-2015 格式參考文獻(xiàn):王斌;陳琳;侯翔宇;李偉民;盛津芳.透明計(jì)算中用戶訪問行為特征分析與預(yù)測(cè)J/OL. 計(jì)算機(jī)工程與應(yīng)用 , :1-9. (2017-11-24). . DOI:10.3778/j.issn.1002-8331.1706-0262 透明計(jì)算中用戶訪問行為特征分析與預(yù)測(cè) 王斌 陳琳 侯翔宇 李偉民 盛津芳 中南大學(xué)信息科學(xué)與工程學(xué)院 導(dǎo)出/參考文獻(xiàn) 已關(guān)注 關(guān)注 X關(guān)注成功!加關(guān)注后您將方便地在 我的關(guān)注中得到本文獻(xiàn)的被引頻次變化的通知! 分享 新浪微博 騰訊微博 人人網(wǎng) 開心網(wǎng) 豆瓣網(wǎng)

2、 網(wǎng)易微博 收藏 打印 摘要: 在透明計(jì)算中, 服務(wù)端存儲(chǔ)并管理著所有用戶所需的操作系統(tǒng)、應(yīng)用軟件和個(gè)性化數(shù)據(jù), 并高效處理來自透明網(wǎng)絡(luò)的用戶資源請(qǐng)求服務(wù)。因此, 服務(wù)端是透明計(jì)算系統(tǒng)性能的瓶頸。為制定更高效的緩存策略提供有效的依據(jù), 基于信息熵和三次指數(shù)平滑對(duì)透明計(jì)算用戶行為特征進(jìn)行分析和預(yù)測(cè)。首先, 基于信息熵策略分析用戶訪問行為特征, 進(jìn)而利用指數(shù)平滑預(yù)測(cè)算法預(yù)測(cè)將來一段時(shí)間內(nèi)數(shù)據(jù)塊的訪問頻率, 在真實(shí)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果上驗(yàn)證預(yù)測(cè)方法的有效性。關(guān)鍵詞: 透明計(jì)算; 用戶訪問行為; 信息熵; 指數(shù)平滑; 行為預(yù)測(cè); 作者簡(jiǎn)介:王斌 (1973) , 男, 博士, 教授, 主要研究領(lǐng)域?yàn)檐浖こ?/p>

3、, 云計(jì)算;E-mail:wb_csut;作者簡(jiǎn)介:陳琳 (1993) , 女, 碩士研究生, 主要研究領(lǐng)域?yàn)樵朴?jì)算;作者簡(jiǎn)介:侯翔宇 (1991) , 男, 碩士研究生, 主要研究領(lǐng)域?yàn)樵朴?jì)算;作者簡(jiǎn)介:李偉民 (1988) , 男, 博士研究生, 主要研究領(lǐng)域?yàn)檐浖こ? 大數(shù)據(jù), 云計(jì)算;作者簡(jiǎn)介:盛津芳 (1971-) , 女, 博士, 副教授, 主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)、云計(jì)算?;穑簢H科技合作與交流專項(xiàng) (No.2013DFB10070) Analysis and Prediction for the Characteristic of User Access Behavior in

4、 Transparent ComputingWANG Bin CHEN Lin HOU Xiangyu LI Weimin SHENG Jinfang School of Information Science and Engineering, Central South University; Abstract: In transparent computing, the server stores and manages the operating system, application and personalized data, and processes users resource

5、 request from transparent networks. So the server is the bottleneck of the system performance. User behavior analysis and prediction has received extensive attention in the field of network computing and social networks. However, there are currently no related work focused on the user behavior chara

6、cteristic mining under the transparent computing. Based on information entropy and cubic exponential smoothing, the user behavior of transparent computing is analyzed and predicted, to provide effective basis for more efficient cache policies. First, the user requirements are analyzed based on infor

7、mation entropy, and then the exponential smoothing algorithm is used to predict the blocks access frequency in the near future. The experiments on the real data are made to test the effectiveness of prediction.Keyword: transparent computing; user access behavior; information entropy; exponential smo

8、othing; behavior prediction; 1 引言近年來, 云計(jì)算作為網(wǎng)絡(luò)計(jì)算模式的典型代表, 使計(jì)算由軟硬件為中心轉(zhuǎn)變?yōu)榱嗣嫦蚍?wù)的模式, 能夠根據(jù)終端用戶的需求把服務(wù)端的存儲(chǔ)和計(jì)算資源傳輸?shù)娇蛻舳?。透明計(jì)算是云計(jì)算的一個(gè)特例, 是一種以用戶為中心的新型服務(wù)模式, 旨在為用戶提供無處不在的透明服務(wù)。透明服務(wù)平臺(tái)作為透明計(jì)算服務(wù)端的核心, 負(fù)責(zé)統(tǒng)一存儲(chǔ)并管理多個(gè)用戶的資源, 包括操作系統(tǒng)、應(yīng)用程序和用戶數(shù)據(jù)2,3。同時(shí)還要快速高效、安全和可靠地處理各用戶發(fā)送的資源訪問請(qǐng)求, 以保證用戶的服務(wù)體驗(yàn)質(zhì)量。透明服務(wù)平臺(tái)采用基于虛擬磁盤的方案來實(shí)現(xiàn), 在終端用戶看來, 服務(wù)端存儲(chǔ)的是

9、終端的虛擬磁盤數(shù)據(jù), 終端對(duì)虛擬磁盤的訪問請(qǐng)求最終被重定向到服務(wù)平臺(tái)4。針對(duì)透明服務(wù)端如何提高用戶的虛擬磁盤數(shù)據(jù)訪問效率和安全可靠性, 文獻(xiàn)5設(shè)計(jì)了一個(gè)局域網(wǎng)中高效可靠的塊級(jí)存儲(chǔ)訪問協(xié)議NSAP。文獻(xiàn)6分析驗(yàn)證了基于虛擬磁盤的透明計(jì)算系統(tǒng)性能瓶頸在于服務(wù)端, 而cache的命中率又是服務(wù)端性能表現(xiàn)最關(guān)鍵的因素, 最后在服務(wù)端和客戶端兩端制定了緩存分配策略。文獻(xiàn)7提出了一個(gè)評(píng)估透明計(jì)算多級(jí)高速緩存層次結(jié)構(gòu)以及整個(gè)透明計(jì)算系統(tǒng)的行為和性能的模擬框架Tran Sim。通過使用Tran Sim, 系統(tǒng)設(shè)計(jì)者可以方便快捷地評(píng)估緩存策略的有效性和系統(tǒng)性能。如上所述, 目前關(guān)于透明計(jì)算服務(wù)端性能優(yōu)化和安全可

10、靠性保障的研究側(cè)重于自身的存儲(chǔ)架構(gòu)、調(diào)度策略和訪問協(xié)議, 但沒有研究工作從透明計(jì)算需求的源頭:用戶, 以及用戶訪問行為的特征來分析和預(yù)測(cè)其對(duì)透明服務(wù)平臺(tái)的影響。如文獻(xiàn)8提出了基于關(guān)注關(guān)系和用戶行為的物品推薦算法。文獻(xiàn)9通過記錄學(xué)生學(xué)習(xí)操作行為, 并結(jié)合傳感器數(shù)據(jù), 提出一種場(chǎng)景感知分類算法。文獻(xiàn)10結(jié)合訪存敏感和用戶行為敏感的MPSoC應(yīng)用映射技術(shù), 提出一種混合的動(dòng)態(tài)映射策略。文獻(xiàn)11分析了多臺(tái)終端加載相同操作系統(tǒng)過程中數(shù)據(jù)的訪問信息, 發(fā)現(xiàn)用戶行為具有集中和相似的特征。因此, 本文在構(gòu)建基于多層虛擬磁盤存儲(chǔ)模型的透明服務(wù)平臺(tái)基礎(chǔ)上, 首先對(duì)大量用戶訪問服務(wù)平臺(tái)數(shù)據(jù)塊的行為進(jìn)行統(tǒng)計(jì)分析, 并

11、利用信息熵策略挖掘出被頻繁集中訪問塊的時(shí)序特征。然后利用三次指數(shù)平滑方法預(yù)測(cè)未來一段時(shí)間用戶對(duì)這些塊的訪問行為。最終結(jié)果可以為服務(wù)平臺(tái)制定更高效的緩存策略提供有效的依據(jù), 進(jìn)而幫助透明服務(wù)端提高服務(wù)性能和體驗(yàn)質(zhì)量。2 透明服務(wù)平臺(tái)存儲(chǔ)模型及訪問機(jī)制透明服務(wù)平臺(tái)位于透明計(jì)算服務(wù)端, 它為用戶屏蔽了硬件平臺(tái)和操作系統(tǒng)的異構(gòu)性, 統(tǒng)一集中管理系統(tǒng)資源, 并轉(zhuǎn)化為服務(wù)提供給用戶。因此, 透明計(jì)算用戶自主可控地按需使用服務(wù)的過程本質(zhì)是對(duì)透明服務(wù)平臺(tái)數(shù)據(jù)訪問的行為。透明服務(wù)平臺(tái)的架構(gòu)和原理決定了用戶數(shù)據(jù)訪問的機(jī)制, 是用戶行為分析的基礎(chǔ)。透明服務(wù)平臺(tái)存儲(chǔ)了所有透明終端用戶的虛擬磁盤數(shù)據(jù), 但透明計(jì)算需要面

12、對(duì)大量異構(gòu)的終端用戶, 如果數(shù)據(jù)共享程度不高, 會(huì)導(dǎo)致大量的數(shù)據(jù)冗余。為此, 本文所構(gòu)建的透明服務(wù)平臺(tái)中, 實(shí)現(xiàn)了一個(gè)多層樹狀虛擬磁盤存儲(chǔ)模型, 如圖1所示。虛擬磁盤中數(shù)據(jù)資源按資源共享程度及性質(zhì)劃分成3類:系統(tǒng)資源、應(yīng)用群組資源和用戶個(gè)性化資源。系統(tǒng)資源主要指操作系統(tǒng)以及相關(guān)數(shù)據(jù), 該類資源共享程度最高, 能被所有用戶共享, 所構(gòu)成的鏡像稱之為系統(tǒng)虛擬磁盤鏡像 (System Virtual Disk Image, S_VDI) ;應(yīng)用群組資源主要指各種相關(guān)的應(yīng)用軟件數(shù)據(jù)組成的集合, 具有相同的應(yīng)用屬性的應(yīng)用軟件通常歸為一個(gè)群組。該類資源只能被同一群組下的用戶共享, 所構(gòu)成的鏡像稱之為群組虛

13、擬磁盤鏡像 (Group Virtual Disk Image, G_VDI) ;用戶個(gè)性化資源主要指用戶的私有數(shù)據(jù)資源, 一般包括用戶私有文件或者操作系統(tǒng)、應(yīng)用軟件的個(gè)性化配置信息, 該資源僅用戶自身才能訪問, 所構(gòu)成的鏡像稱之為用戶虛擬磁盤鏡像 (User Virtual Disk Image, U_VDI) 。圖1 透明服務(wù)平臺(tái)虛擬磁盤存儲(chǔ)模型及訪問機(jī)制 下載原圖在面對(duì)多終端用戶對(duì)共享層資源同時(shí)進(jìn)行訪問時(shí), 采用ROW (Redirect On Writing, 寫時(shí)重定向) 機(jī)制來進(jìn)行控制。具體做法是:將系統(tǒng)虛擬磁盤鏡像S_VDI和群組虛擬磁盤鏡像G_VDI以只讀的方式存儲(chǔ)于服務(wù)端,

14、共享給多個(gè)終端用戶;采用ROW寫時(shí)重定向機(jī)制將終端用戶對(duì)共享的虛擬磁盤鏡像S_VDI和G_VDI的改寫塊保存于與用戶對(duì)應(yīng)的用戶虛擬磁盤鏡像U_VDI中, 并采用Bitmap12來標(biāo)記各個(gè)改寫塊的位置, 從而實(shí)現(xiàn)了多個(gè)終端用戶對(duì)共享數(shù)據(jù)的共同讀寫。在圖1中, 當(dāng)用戶i請(qǐng)求第7和8號(hào)數(shù)據(jù)塊時(shí), 由于用戶對(duì)應(yīng)的U_VDI中存儲(chǔ)了數(shù)據(jù)塊7的改寫塊, 因此對(duì)7號(hào)塊的數(shù)據(jù)訪問讀請(qǐng)求被定位到用戶對(duì)應(yīng)的U_VDI, 而數(shù)據(jù)塊8在U_VDI和G_VDI的位圖中都沒有改寫標(biāo)記, 因此其請(qǐng)求定位到了S_VDI, 最后將所有讀取到的數(shù)據(jù)塊重新排序組合后返回給終端用戶。需要注意的是, 如果在有相關(guān)緩存機(jī)制的情況下, 用

15、戶對(duì)服務(wù)平臺(tái)的數(shù)據(jù)訪問首先會(huì)被定向到緩存池。而本文所研究的用戶行為是在沒有緩存機(jī)制的情況下進(jìn)行的, 目的正是為了更好地挖掘和預(yù)測(cè)用戶行為特征, 為緩存策略提供依據(jù)。整個(gè)存儲(chǔ)模型和數(shù)據(jù)訪問機(jī)制對(duì)用戶是透明的, 用戶所獨(dú)占的一個(gè)既包括操作系統(tǒng), 又涵蓋應(yīng)用軟件、個(gè)人私有數(shù)據(jù)的“本地磁盤”實(shí)際上在服務(wù)端被劃分成多個(gè)部分, S_VDI和G_VDI是多用戶共享, 僅U_VDI為每個(gè)用戶獨(dú)享的私有數(shù)據(jù)。由上述描述可以看出, 透明服務(wù)平臺(tái)的虛擬磁盤模型具有多層次、高共享和低冗余的特點(diǎn), 因此, 其用戶數(shù)據(jù)訪問行為模型也會(huì)不同于其它虛擬磁盤存儲(chǔ)模型。另一方面, 透明計(jì)算是強(qiáng)調(diào)以用戶為中心的網(wǎng)絡(luò)計(jì)算服務(wù)模式,

16、面對(duì)大量的異構(gòu)終端用戶, 并且用戶的所有資源均存儲(chǔ)在服務(wù)端, 用戶在獲取服務(wù)時(shí)會(huì)帶來大量的與服務(wù)端的數(shù)據(jù)交互行為。因此, 分析和預(yù)測(cè)透明計(jì)算用戶行為特征具有重要的現(xiàn)實(shí)意義。3 用戶訪問行為分析3.1 行為表示透明計(jì)算客戶端是一個(gè)僅需保留必要的計(jì)算和輸入/輸出硬件的設(shè)備, 本地不存儲(chǔ)任何操作系統(tǒng)和應(yīng)用軟件, 通過網(wǎng)絡(luò)按需從服務(wù)平臺(tái)將其以數(shù)據(jù)塊的形式加載到客戶端設(shè)備上流式執(zhí)行。給定時(shí)間內(nèi), 用戶對(duì)服務(wù)平臺(tái)的數(shù)據(jù)訪問請(qǐng)求作為一次用戶訪問行為, 用戶訪問行為用塊的集合來表示。本文中出現(xiàn)的“用戶”是指全體用戶的集合?;诖? 給出下面相關(guān)概念。定義1:設(shè)某特定時(shí)間段T內(nèi)被訪問的數(shù)據(jù)塊集合為BS=B1,

17、B 2, ., B n, 若時(shí)間點(diǎn)TmT, 所有用戶在Tm時(shí)刻對(duì)數(shù)據(jù)塊Bi的訪問次數(shù)為count (Bi, Tm) , 那么數(shù)據(jù)塊Bi在T時(shí)間區(qū)間內(nèi)被用戶訪問的頻數(shù)為:通過公式1, 得出在T時(shí)間區(qū)間內(nèi)不同數(shù)據(jù)塊被訪問的頻數(shù)集合F=FB1, FB2, , FBn。記數(shù)據(jù)塊Bi在T時(shí)間區(qū)間內(nèi)被訪問的概率為P (Bi) , 那么對(duì)不同數(shù)據(jù)塊在T時(shí)間區(qū)間內(nèi)計(jì)算訪問概率, 得出概率集合P=P (B1) , P (B 2) , , P (B n) 。3.2 行為熵策略香農(nóng)提出的信息熵概念, 反映了信源整體的統(tǒng)計(jì)特性, 是對(duì)總體的平均不確定性的度量。用戶的行為表現(xiàn)為:對(duì)透明服務(wù)平臺(tái)上不同數(shù)據(jù)塊的訪問。對(duì)這一

18、信源進(jìn)行熵運(yùn)算, 可以從宏觀上量化用戶的操作行為特征13。根據(jù)信息熵的相關(guān)概念與公式, 結(jié)合3.1節(jié)的概率集合P, 得出其概率空間表示為:用戶對(duì)數(shù)據(jù)塊訪問的平均信息量為:基于信息熵本身的概念, 能夠得到如下的推論。推論1 H (B) 越大, 用戶對(duì)數(shù)據(jù)塊的訪問越平均, 即在該區(qū)間內(nèi), 用戶行為越分散。反之, H (B) 越小, 用戶對(duì)數(shù)據(jù)塊的訪問越集中, 即在該區(qū)間內(nèi), 用戶行為越集中, 則越能體現(xiàn)出用戶行為偏向和特征。證明以各數(shù)據(jù)塊被訪問的頻數(shù)集合FB1, FB2, , FBn為離散信源, 依據(jù)最大離散熵定理和信息熵的極值性, 有即當(dāng)信源出現(xiàn)的可能性相等時(shí), 信源的熵達(dá)到最大。由此可得, H

19、 (B) 越大, 用戶對(duì)數(shù)據(jù)塊的訪問行為越分散;H (B) 越小, 說明用戶行為越集中。推論2 H (B) =0具有2種不同的含義。第一種表示在該區(qū)間內(nèi)用戶只對(duì)某一數(shù)據(jù)塊進(jìn)行操作, 即對(duì)該數(shù)據(jù)塊的需求為100%;第二種表示在該區(qū)間內(nèi)用戶對(duì)所有的數(shù)據(jù)塊都沒有進(jìn)行操作, 即所有客戶端都沒有被使用。證明由信息量的非負(fù)性可知, 當(dāng)H (B) =0時(shí), 對(duì)于任意數(shù)據(jù)塊Bi, 有如下推導(dǎo):那么, 由信息熵的確定性可知, P (Bi) =0即為用戶只對(duì)數(shù)據(jù)塊Bi進(jìn)行操作;P (Bi) =1即為用戶對(duì)所有的數(shù)據(jù)塊都沒有進(jìn)行操作。在多臺(tái)透明服務(wù)終端設(shè)備相繼啟動(dòng)時(shí), 記錄該時(shí)間段內(nèi)對(duì)數(shù)據(jù)塊的訪問信息, 計(jì)算對(duì)各個(gè)

20、數(shù)據(jù)塊的訪問次數(shù), 訪問分布的情況如圖2所示。圖2 多臺(tái)透明服務(wù)終端啟動(dòng)時(shí)數(shù)據(jù)塊訪問分布 下載原圖這些數(shù)據(jù)塊即為系統(tǒng)共享資源存儲(chǔ)層中操作系統(tǒng)啟動(dòng)時(shí)需要加載的對(duì)象。在這段時(shí)間內(nèi), 68.591%的訪問集中在了17.8%的數(shù)據(jù)塊上, 呈現(xiàn)為長(zhǎng)尾分布。因此利用信息熵量化用戶行為并挖掘行為時(shí)序特征是可行的。3.3 行為特征歸類用戶在不同的時(shí)刻對(duì)資源有不同的需求, 公式3計(jì)算出來的熵值反映了一段時(shí)間內(nèi)用戶宏觀上的行為特征。本文根據(jù)熵值判斷用戶當(dāng)前行為屬于集中式還是分散式的特征, 因此需要對(duì)用戶行為熵集合中的熵值進(jìn)行處理。1) 首先, 根據(jù)熵值初步地把用戶訪問行為分成分散式和集中式的兩類。記錄下熵值所對(duì)應(yīng)

21、的時(shí)間T, 用二元組HT來表示不同時(shí)間段的熵值。用戶行為熵集合HTS=HT1, HT2, , HTn, 為HT按時(shí)間推進(jìn)的有序集合。選取HTS中熵值最大的點(diǎn)HTj和最小的非零點(diǎn)HTk。借鑒數(shù)據(jù)挖掘中的K最近鄰算法, 將HTj和HTk作為種子結(jié)點(diǎn), 并且遍歷HTS集合, 得到兩個(gè)以HTj和HTk為中心的有序的類集合:HTj S和HTk S, 集合中元素順序?yàn)镠T下標(biāo)的升序排列。2) 分別對(duì)有序集合HTj S和HTk S進(jìn)行處理, 獲得用戶行為集中或分散的連續(xù)時(shí)間段。若其中HT下標(biāo)為連續(xù)的, 將這些連續(xù)的點(diǎn)歸為一個(gè)小集合;若HT下標(biāo)出現(xiàn)斷點(diǎn), 則從該點(diǎn)開始, 使之與后面下標(biāo)連續(xù)的點(diǎn)歸為一個(gè)新的小集

22、合。將獲得的所有小集合按時(shí)序生成特征軌跡, 至此便完成了對(duì)HTS中熵值的特征歸類。算法1 (特征歸類算法) 設(shè)算法1返回的集合群體為S1, S2, ., Sn, 以時(shí)序排列。有這樣的特點(diǎn):1) 同一集合中的熵值是等價(jià)的。即使其數(shù)值不同, 但是含義相同, 表示用戶在此時(shí)間段內(nèi)的行為是分散的或集中的。2) 兩個(gè)相鄰的集合Si與Si+1, 一個(gè)處于“峰, ”一個(gè)處于“谷, ”處于“峰”的熵值代表該時(shí)間段內(nèi)用戶的操作為分散式, 而處于“谷”的熵值代表操作為集中式。3.4 行為預(yù)測(cè)用戶對(duì)不同應(yīng)用的操作和對(duì)不同文件的讀取請(qǐng)求, 通過對(duì)服務(wù)端數(shù)據(jù)塊的訪問來實(shí)現(xiàn)。本文根據(jù)3.3節(jié)中描述的行為特征歸類, 選取在

23、一段時(shí)間內(nèi)呈現(xiàn)出被集中訪問的數(shù)據(jù)塊作為預(yù)測(cè)的對(duì)象。若數(shù)據(jù)塊在近期訪問次數(shù)較多, 并且預(yù)測(cè)出在短時(shí)間內(nèi)仍然保持著較高的訪問量, 說明用戶短時(shí)間內(nèi)的操作仍然集中在某些應(yīng)用和文件上。根據(jù)預(yù)測(cè)結(jié)果可以優(yōu)化服務(wù)端緩存替換策略, 縮短客戶端的響應(yīng)時(shí)間。指數(shù)平滑法14是基于時(shí)間序列進(jìn)行預(yù)測(cè)的重要方法。它認(rèn)為時(shí)間序列的態(tài)勢(shì)具有穩(wěn)定性或規(guī)則性, 最近的過去態(tài)勢(shì), 在某種程度上會(huì)持續(xù)到未來。指數(shù)平滑法兼容了全期平均和移動(dòng)平均所長(zhǎng), 不舍棄過去的數(shù)據(jù), 但是僅給予逐漸減弱的影響程度, 適用于中短期趨勢(shì)15。由于用戶的訪問行為具有時(shí)序性, 且本文涉及到的預(yù)測(cè)是對(duì)短時(shí)間內(nèi)仍保持較高訪問量的數(shù)據(jù)塊訪問次數(shù)的預(yù)測(cè), 因此選

24、用指數(shù)平滑法作為預(yù)測(cè)模型。指數(shù)平滑預(yù)測(cè)方法有多種模型:其中, 為平滑系數(shù), y t為t時(shí)刻的觀測(cè)值, S t、St、St為一次、二次、三次指數(shù)平滑值。一次指數(shù)平滑法只適合于具有水平發(fā)展趨勢(shì)的時(shí)間序列分析;二次指數(shù)平滑法是對(duì)一次指數(shù)平滑的再平滑, 能夠修正滯后偏差, 但也只適合于對(duì)具有線性特征的模型進(jìn)行預(yù)測(cè)16。三次指數(shù)平滑法是唯一的非線性平滑法, 尤其適用于時(shí)間序列上呈二次曲線趨勢(shì)的預(yù)測(cè)17。隨機(jī)抽取透明計(jì)算服務(wù)端的某數(shù)據(jù)塊, 圖3為其一個(gè)小時(shí)內(nèi)被訪問的次數(shù), 可知數(shù)據(jù)塊訪問次數(shù)在時(shí)序上呈現(xiàn)出非線性的變化特征, 因此三次指數(shù)平滑法更符合數(shù)據(jù)塊訪問量的變化趨勢(shì), 本文采用三次指數(shù)平滑法進(jìn)行預(yù)測(cè)。

25、圖3 數(shù)據(jù)塊在各周期的訪問量 下載原圖三次指數(shù)平滑法的預(yù)測(cè)模型為:表示t時(shí)刻之后T個(gè)周期的預(yù)測(cè)值。三個(gè)預(yù)測(cè)參數(shù)a t, b t, c t由一次、二次、三次指數(shù)平滑值通過下式計(jì)算得出:4 實(shí)驗(yàn)分析為了驗(yàn)證信息熵與三次指數(shù)對(duì)用戶行為預(yù)測(cè)的有效性和準(zhǔn)確性, 本文采用透明服務(wù)平臺(tái)進(jìn)行實(shí)驗(yàn)。該系統(tǒng)包括一個(gè)透明服務(wù)器、30臺(tái)瘦終端、5臺(tái)移動(dòng)終端。透明服務(wù)器采用三層存儲(chǔ)模式, 分別存儲(chǔ)操作系統(tǒng)、組群、用戶的數(shù)據(jù);瘦終端和移動(dòng)終端沒有硬盤和操作系統(tǒng), 只有運(yùn)算功能和基本的緩存, 分別以有線和無線的形式連接網(wǎng)絡(luò)。實(shí)驗(yàn)中35名用戶使用WIN7和Cent OS6.5兩種操作系統(tǒng)各自自由操作90分鐘。每個(gè)終端并行使用

26、多種應(yīng)用, 根據(jù)統(tǒng)計(jì)分析, 平均每隔5分鐘用戶使用的應(yīng)用和訪問的文件極大概率會(huì)產(chǎn)生變化。因此, 透明服務(wù)器將監(jiān)控到的數(shù)據(jù)塊的訪問以5分鐘為一個(gè)時(shí)間周期進(jìn)行統(tǒng)計(jì), 將90分鐘分為18個(gè)時(shí)間段。4.1 統(tǒng)計(jì)信息熵及行為歸類根據(jù)使用WIN7和CentO S6.5下的兩次實(shí)驗(yàn)結(jié)果, 在35個(gè)用戶90分鐘的自由操作中, 平均請(qǐng)求數(shù)據(jù)塊1253萬次, 每個(gè)時(shí)間段訪問到的不同數(shù)據(jù)塊約32000到48000個(gè)。使用公式3計(jì)算各個(gè)時(shí)間段內(nèi)的信息熵, 取前10個(gè)周期結(jié)果如圖4所示。圖4 信息熵時(shí)序圖 下載原圖由圖4可以看出, 兩條信息熵曲線在時(shí)序上有比較明顯的波動(dòng), 信息熵的數(shù)據(jù)反映了所有用戶的操作行為特點(diǎn)。熵值

27、較高的時(shí)間段表示用戶使用的應(yīng)用和讀取的文件比較分散;熵值較低的時(shí)間段表示用戶使用的應(yīng)用和讀取的文件比較集中, 即用戶的行為更加集中。兩條曲線中熵值最低的時(shí)間段均為最早的幾個(gè)周期, 數(shù)據(jù)塊的訪問最為集中。經(jīng)過分析, 這段時(shí)間內(nèi), 終端大多為啟動(dòng)階段, 主要從透明服務(wù)平臺(tái)三層存儲(chǔ)的系統(tǒng)虛擬磁盤層中訪問和加載操作系統(tǒng)資源, 這一層數(shù)據(jù)共享程度最高, 因此訪問最為集中。后續(xù)時(shí)間周期中, 用戶自由操作, 主要從群組虛擬磁盤層和用戶虛擬磁盤層中按需訪問數(shù)據(jù)塊, 同時(shí)也會(huì)從系統(tǒng)虛擬磁盤層中加載少量用來支持應(yīng)用運(yùn)行的數(shù)據(jù)塊, 因此后續(xù)時(shí)間周期的信息熵整體上大于初始時(shí)間段。信息熵量化了用戶的行為, 為了對(duì)每個(gè)時(shí)

28、間段內(nèi)用戶行為分類, 對(duì)得到的熵值做特征歸類處理。結(jié)果如圖5所示。圖5 信息熵特征歸類處理 下載原圖圖5顯示了圖4中兩條曲線特征歸類后的結(jié)果, 將反映用戶同一行為特征的點(diǎn)歸于一類。由圖可知, 用戶在使用Cent OS 6.5操作系統(tǒng)時(shí), 在1、2、3、7、8、10這幾個(gè)時(shí)間周期內(nèi), 用戶使用的應(yīng)用或訪問的文件較為相似, 行為較為集中;在其余時(shí)間段內(nèi)行為較為分散。同理可找到使用WIN7系統(tǒng)時(shí), 用戶行為集中和分散的時(shí)間段。根據(jù)圖5得到的結(jié)果, 選取兩條曲線中熵值較低的時(shí)間段內(nèi)包含的數(shù)據(jù)塊。根據(jù)統(tǒng)計(jì), Cent OS 6.5和WIN7兩次實(shí)驗(yàn)中, 用戶行為集中的時(shí)間段內(nèi)訪問的不同數(shù)據(jù)塊個(gè)數(shù)分別為4

29、257塊和3962塊, 占整個(gè)實(shí)驗(yàn)訪問過的所有數(shù)據(jù)塊的15.8%和12.3%。4.2 平滑系數(shù)擬合本文使用三次指數(shù)平滑法對(duì)數(shù)據(jù)塊的訪問數(shù)量進(jìn)行預(yù)測(cè), 使用公式4進(jìn)行計(jì)算。其中平滑系數(shù)是三次指數(shù)平滑法擬合效果的關(guān)鍵, 如果數(shù)據(jù)波動(dòng)較大, 值應(yīng)取大一些, 可以增加近期數(shù)據(jù)對(duì)預(yù)測(cè)結(jié)果的影響。如果數(shù)據(jù)波動(dòng)平穩(wěn), 值應(yīng)取小一些。本文在確定值時(shí)采用試算法, 即取多個(gè)值進(jìn)行擬合實(shí)驗(yàn)并加以比較。實(shí)驗(yàn)取值范圍為0.1, 0.7, 取值步長(zhǎng)為0.05, 選取WIN7、CentO S6.5實(shí)驗(yàn)中待預(yù)測(cè)的數(shù)據(jù)塊各1000個(gè), 比較不同下預(yù)測(cè)的均方誤差MSE, 選擇誤差最小的值。擬合實(shí)驗(yàn)結(jié)果如圖6所示, 實(shí)驗(yàn)選取0.3

30、5作為的值。圖6 擬合實(shí)驗(yàn) 下載原圖4.3 數(shù)據(jù)塊單周期預(yù)測(cè)本實(shí)驗(yàn)通過比較預(yù)測(cè)值和觀測(cè)值的誤差衡量預(yù)測(cè)算法的準(zhǔn)確度。隨機(jī)選取一個(gè)數(shù)據(jù)塊, 偏移量為1033808, 從第五個(gè)周期開始, 使用公式4, 取T=1。根據(jù)當(dāng)前的觀測(cè)值不斷預(yù)測(cè)下一個(gè)周期該數(shù)據(jù)塊的訪問次數(shù)。結(jié)果如表1所示。表1 單個(gè)數(shù)據(jù)塊618周期預(yù)測(cè)情況 下載原表 根據(jù)前10個(gè)周期的觀測(cè)值, 對(duì)兩次實(shí)驗(yàn)中的4257個(gè)數(shù)據(jù)塊和3962個(gè)數(shù)據(jù)塊進(jìn)行第11個(gè)周期的訪問預(yù)測(cè), 使用公式4, 同樣取T=1。以作為準(zhǔn)確率的衡量指標(biāo)。其中St代表t時(shí)刻的預(yù)測(cè)值, Yt代表t時(shí)刻的觀測(cè)值, E的取值越小代表越精確。預(yù)測(cè)結(jié)果精確度分布如圖7所示。圖7 預(yù)

31、測(cè)結(jié)果精確度分布 下載原圖在誤差低于0.1, 0.1-0.2, 0.2-0.3, 以及高于0.3的范圍內(nèi), 數(shù)據(jù)塊所占比例分別為CentO S:65%, 18%, 10%, 6%;WIN7:62%, 21%, 8%, 9%。在上述兩個(gè)實(shí)驗(yàn)中, 使用三次指數(shù)平滑預(yù)測(cè)算法預(yù)測(cè)一個(gè)周期后的數(shù)據(jù)塊訪問次數(shù)。表1證明了此算法可以在時(shí)序上根據(jù)觀測(cè)值不斷修正預(yù)測(cè)結(jié)果, 迅速減小預(yù)測(cè)誤差;圖7證明了此算法可以對(duì)下一個(gè)周期數(shù)據(jù)塊的訪問次數(shù)給與較為精準(zhǔn)的預(yù)測(cè)。4.4 中短周期預(yù)測(cè)精度測(cè)試4.3節(jié)證明了三次指數(shù)平滑算法在單周期預(yù)測(cè)是精確度較高, 但僅僅能預(yù)測(cè)一個(gè)周期是不夠的。為了驗(yàn)證此算法在多少周期內(nèi)預(yù)測(cè)結(jié)果可接受

32、, 以前10個(gè)周期作為觀測(cè)值, 對(duì)所有數(shù)據(jù)塊進(jìn)行第1118周期的預(yù)測(cè)。使用公式4, T分別取18, 并以平均誤差作為衡量指標(biāo), 實(shí)驗(yàn)結(jié)果如圖8所示。圖8 中短周期預(yù)測(cè)精確度測(cè)試 下載原圖上述實(shí)驗(yàn)表明, 在預(yù)測(cè)13個(gè)周期時(shí), 平均誤差分別為:0.07、0.12、0.19, 從第四個(gè)周期開始, 誤差急劇增加。由此得出結(jié)論, 使用三次指數(shù)平滑預(yù)測(cè)法可以對(duì)數(shù)據(jù)塊在三個(gè)周期內(nèi)給與較為準(zhǔn)確的預(yù)測(cè)。5 結(jié)束語本文在透明計(jì)算背景下, 根據(jù)透明服務(wù)平臺(tái)三層虛擬磁盤存儲(chǔ)的特點(diǎn), 基于信息熵和三次指數(shù)平滑對(duì)透明計(jì)算用戶行為特征進(jìn)行分析和預(yù)測(cè)。此方法基于信息熵策略從宏觀上分析用戶行為需求, 進(jìn)而挖掘出被頻繁集中訪問的

33、數(shù)據(jù)塊的時(shí)序特征。在此基礎(chǔ)上利用三次指數(shù)平滑算法預(yù)測(cè)將來一段時(shí)間內(nèi)這些塊的訪問頻率。實(shí)驗(yàn)表明, 此方法能夠較為準(zhǔn)確地發(fā)現(xiàn)集中訪問的數(shù)據(jù)塊, 并對(duì)這些數(shù)據(jù)塊給予較為精確的預(yù)測(cè), 從而達(dá)到對(duì)用戶行為分析和預(yù)測(cè)的目的。預(yù)測(cè)結(jié)果為制定更高效的緩存策略提供有效的依據(jù), 從而提高透明計(jì)算服務(wù)質(zhì)量與性能。參考文獻(xiàn)1李鵬偉, 傅建明, 李拴保, 等.彈性移動(dòng)云計(jì)算的研究進(jìn)展與安全性分析J.計(jì)算機(jī)研究與發(fā)展, 2015, 52 (6) :1362-1377. 2張堯?qū)W.透明計(jì)算:概念、結(jié)構(gòu)和示例J.電子學(xué)報(bào), 2004, 32 (f12) :169-174. 3Zhang Y, Guo K, Ren J, et

34、 al.Transparent Computing:A Promising Network Computing ParadigmJ.Computing in Science&Engineering, 2017, 19 (1) :7-20. 4Zhang Y, Zhou Y.Separating computation and storage with storage virtualizationJ.Computer Communications, 2011, 34 (13) :1539-1548. 5匡文淵, 張堯?qū)W, 周悅芝, 等.NSAP支持透明計(jì)算的網(wǎng)絡(luò)存儲(chǔ)訪問協(xié)議J.清華大學(xué)學(xué)報(bào):自然

35、科學(xué)版, 2009 (1) :106-109. 6Gao Y, Zhang Y, Zhou Y.Performance analysis of virtual disk system for transparent computingC/International Conference on Ubiquitous Intelligence and Computing and, International Conference on Autonomic and Trusted Computing.IEEE Computer Society, 2012:470-477. 7Liu J, Zhou Y, Zhang D.Tran Sim:A simulation framework for cache-enabled transparent computing systemsJ.IEEE Transactions on Computers, 2016, 65 (10) :3171-3183. 8劉夢(mèng)娟, 王巍, 李楊曦, 等.Attention Rank+:一種基于關(guān)注關(guān)系與多用戶行為的圖推薦算法J.計(jì)算機(jī)學(xué)報(bào), 2017, 40 (3) :634-648. 9葉舒雁, 張未展, 齊天亮, 等.一種基于傳感器與用戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論