基于自動推薦mashup開發(fā)輔助功能設(shè)計與實現(xiàn)_第1頁
基于自動推薦mashup開發(fā)輔助功能設(shè)計與實現(xiàn)_第2頁
基于自動推薦mashup開發(fā)輔助功能設(shè)計與實現(xiàn)_第3頁
基于自動推薦mashup開發(fā)輔助功能設(shè)計與實現(xiàn)_第4頁
基于自動推薦mashup開發(fā)輔助功能設(shè)計與實現(xiàn)_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

本人我,本及其研究工作是由本人在導(dǎo)師指導(dǎo)下獨立完成的,在完成時所利用的一切資料均已在參考文獻中列出。作者:時間:20146gSpanIGSpan(IndexGrowGraph-BasedSubstructurePatternMining,經(jīng)實驗證明大大提高了基于圖的頻繁子結(jié)構(gòu)第三,在此基礎(chǔ)上,本文實現(xiàn)了一個推薦引擎,用戶在該推薦系統(tǒng)輔助下構(gòu)建MashupMashup最后本文通過實驗論證了本文Mashup自動推薦系統(tǒng)具有良好的可用性和性能:推薦,頻繁模式挖掘,頻繁子圖模式挖掘DesignandImplementationofMashupDevelopmentAssistingFunctionbasedonAutomatic Author:WuTutor:SunMashupisanewconceptofwebresourcesintegrationwithWeb2.0features,itprovideasolutionforquicklydevelolightweightapplicationsforspecificdemands,whichletend-userseasilyrealize alizedapplication.Mashuptechniquesbreaktheisolationsbetweensitesbysupportingtheunderlyinginteractionprotocols,reproducetheinformationbyextractingwebcontent,andprovideaseriesofwell-packageddataoperatorsanduser-friendlydeveloenvironment.ThosefeaturesofMashuplargelylowerthetechnicalbarriersofwebapplicationdevelopment,thusallowthenon-professionaluserscouldalizedapplicationsThoughmostofMashupdeveloplatformsprovidefurthurpackagingofwebresourcesanddataoperatorsanduser-friendlyenvironment,thelackofprogrammingthinkingandthefamiliarityofplatformpreventcommonwebuserstodevelopMashup.TheexplosionoftheamountofavailablewebresourcesbringmorematerialsforMashup,whichalsomakebeginnershardertoidentifyandselect;Meanwhile,asthedataoperationofMashupdevelopmentstillusemanybasicprogrammingconceptssuchasloop,regex,filter,it atrickyproblemforusersthathowtocombinethemtoformmoreadvancedfunctions. mendationTechnologyisoneoftherevolutionaryinternettechnology,ithaslargelyimprovedusers'experiencebyfacilitatingtheaccessingofinformation.Thusitbecameanaturalideathatapplying mendationtechnologytoassistMashupdevelopmentby mendingtheinterestedcomponents, argumentsandcombinationstolowerthetechnicalbarriersandimprovetheefficiency.Therefore,usingmendationtechnologytoreducethedifficultyofMashupdevelopmenthasbecamearesearchThispaperproposed mendationsystembasedonpatterns,itreducedifficultyofdeveloMashupbyassistdevelopertochoosecomponentsandcombinations.Themainworkofthispaperisasfollow:First,thisworkextract946MashupdatafromYahoo!Pipes,andprocesstheirpatterninformationtographdataasoriginaldataforgeneratingpatterndatabase.Second,atthepartofminingthefrequentMashuppattern,thispaperdiscoverthefrequentMashuppatternsbothwithfrequentsubsequencepatternminingandfrequentgraph-basedsubstructuremining.ThispaperminedthesequentialpatternsbyGSP;Forthegraphpatternmining,thispaperproposedanoptimizedfrequentgraph-basedsubstructurepatternminingalgorithm,namedIGSpan(IndexGrowGraph-BasedSubstructurePatternMining)basedongSpanalgorithm,ithasbeenprovedtobemuchfasterthangSpanbyThird,basedonthis,thispaperrealizeda mendenginethatyzetheMashuppatternuserconstructwhileruntime,thenmatchthesimilarfrequentpatternsand thesupplementstouser.Finally,thispaperillustratedthatthe mendationsystemproposedhasgoodusabilityandperformancebyexperiments. mendation,frequentpatternmining,frequentgraph-basedsubstructurepatternmining,Mashup第一章緒 研究背 Mashup信息整合技 工業(yè)界的Mashup開發(fā)平 推薦系統(tǒng)及主要方 國內(nèi)外研究現(xiàn) 工作流模式的Mashup開發(fā)方 Mashup推薦技 研究目標與內(nèi) 課題來 的組織結(jié) 第二章相關(guān)技術(shù)現(xiàn) Mashup應(yīng)用開發(fā)平臺技 數(shù)據(jù)模 實時數(shù)據(jù)更 Mashup推薦系 本章小 第三章Mashup自動推薦系統(tǒng)設(shè) 系統(tǒng)功能需 系統(tǒng)總體架構(gòu)設(shè) 系統(tǒng)功能模塊詳細設(shè) 數(shù)據(jù)預(yù)處理模塊設(shè) 頻繁模式挖掘模塊設(shè) 推薦引擎模塊設(shè) 本章小 第四章Mashup自動推薦系統(tǒng)實 系統(tǒng)開發(fā)環(huán) 平臺環(huán)境和開發(fā)語 技術(shù)基 系統(tǒng)實現(xiàn)概 JSON解析及MySQL數(shù)據(jù)庫數(shù)據(jù)預(yù)處理模塊實 頻繁模式挖掘模塊實 圖數(shù)據(jù)庫數(shù)據(jù)的與預(yù)處 頻繁序列挖掘算法實 頻繁子圖挖掘算法實 將頻繁模式結(jié)構(gòu)化的在MySQL數(shù)據(jù) 推薦引擎模塊實 本章小 第五章系統(tǒng)實 實驗環(huán) 5.2實 實驗?zāi)?實驗過 實驗總結(jié)與分 推薦質(zhì)量實 實驗?zāi)?實驗過 實驗總結(jié)與分 響應(yīng)速度實 實驗?zāi)?實驗過 實驗總結(jié)與分 IGSpan效率實 實驗?zāi)?實驗過 實驗總結(jié)與分 本章小 第六章總結(jié)與展 工作總 工作展 致 參考文 第一章緒論進入Web2.0時代后,互聯(lián)網(wǎng)上的數(shù)據(jù)和服務(wù)呈性的增長,技術(shù)得到了極大的發(fā)展與成熟,各大廠商與組織紛紛開放各自的數(shù)據(jù)和API(ApplicationProgrammingInterfaces,應(yīng)用程序接口),Mashup作為一種新興的互聯(lián)網(wǎng)應(yīng)用開發(fā)模式在應(yīng)用開發(fā)人員中迅速普及。Mashup是一種通過整合網(wǎng)絡(luò)上開放的數(shù)據(jù)和使用第API獲取服務(wù)構(gòu)建互聯(lián)網(wǎng)應(yīng)用程序的方式Mashup一詞也用來稱呼通過這種方式開發(fā)的應(yīng)用。這種開發(fā)方式的風靡得益于互聯(lián)網(wǎng)的信息帶來的豐富資源,互聯(lián)網(wǎng)上Mashup的數(shù)冊在該上的第開放API已經(jīng)有11473個,在其上構(gòu)建的Mashup應(yīng)用則多達5926個,并且還在持續(xù)增長。Mashup開發(fā)的在于更簡便的互聯(lián)網(wǎng)資源使用方式,更簡單快速的滿足某種具體需求的開發(fā)過程。與傳統(tǒng)軟件開發(fā)方法相比,Mashup開發(fā)方式通過簡化邏輯模型并網(wǎng)絡(luò)具體實現(xiàn)細節(jié),使開發(fā)能夠更加專注于應(yīng)用邏輯,因此對開發(fā)者的編程技能要求較低。搜房HousingMaps[2]就是一個整合craigslist和在Web2.0倡導(dǎo)的概念中,互聯(lián)網(wǎng)的用戶應(yīng)該成為互聯(lián)網(wǎng)內(nèi)容的創(chuàng)造者[3]。如今,社交網(wǎng)絡(luò)、Q&A等形式的社區(qū)的繁榮,標志著用戶提交的數(shù)據(jù)成為了互聯(lián)網(wǎng)通的互聯(lián)網(wǎng)用戶能夠參與到應(yīng)用開發(fā)中具有重要的意義?;贛ashup的數(shù)據(jù)集成方法通過它用戶可以實現(xiàn)快速的個性化應(yīng)用開發(fā)。Mashup技術(shù)通過對底層基本網(wǎng)絡(luò)交互協(xié)議的支持打破了站點之間的,通過對Web內(nèi)容的抽取完成了信息的重現(xiàn)和整合。好的穩(wěn)定性和安全性,因而它的開發(fā)需要專業(yè)的和較長的開發(fā)周期。雖然企業(yè)級應(yīng)往抵消了很多收益。相向企業(yè)用戶的Mashup應(yīng)用則可以針對特定的需求,提供基本的組合工具由用戶自己或少量進行短期開發(fā)。它更輕巧,更容易滿足用戶的特Mashup應(yīng)用需要平臺的用戶快速創(chuàng)建個性化應(yīng)用。2005年,公開MapAPI了Mashup應(yīng)用的熱潮,在接下來的幾年中,Mashup應(yīng)用在地圖、社交、、旅游、圖像、搜Mashup應(yīng)用的數(shù)量增長迅速,而隨著近年來數(shù)據(jù)信息和接口服務(wù)等的進一步開放,各為用戶使用它們創(chuàng)建Mashup應(yīng)用提供了可能。Mashup開發(fā),用戶需要能夠熟練使用編程語言并且具有一定的編程思想,同時還要掌握相關(guān)網(wǎng)絡(luò)數(shù)據(jù)、API的使用知識。盡管新的技術(shù)AjaxRESTful服務(wù)microformatsRSSAtom,很大程度上簡化了Mashup開發(fā),然而手工開發(fā)Mashup仍然僅僅是屬于熟練開發(fā)者的工作。為了簡化Mashup開發(fā)流程,降低其開發(fā)門檻,各種Mashup開發(fā)平臺應(yīng)運而出。它者只關(guān)注邏輯實現(xiàn)方面,使得開發(fā)Mashup更加簡易。迄今為止,IT界幾大巨頭——Yahoo!Pipes[16].Yahoo!PipesYahoo!Mashup開發(fā)平臺。Pipes是一種由一個或多個數(shù)據(jù)源(RSS/AtomfeedXML源)和一組相連的操作模塊組Pipes自身最終也以RSS或JSONfeed的方式呈現(xiàn),一些數(shù)據(jù)還可以展示在Yahoo圖1Yahoo!PipesPopfly.PopflyMashup開發(fā)環(huán)境。Popfly中的基本組件——Blocks,可以充當外部服務(wù)的中介,也可以實現(xiàn)一個功能。Blocks可以操作由XMLUI的一部分顯示來自其他Blocks的數(shù)據(jù),用戶可以通過它與Mashup交互。Popfly的強調(diào)數(shù)據(jù)可視化,MashupEditor(GME).GME提供了一種基于模板的Mashup開發(fā)環(huán)境。它提供了一系列標準模塊來讓用戶封裝和配置數(shù)據(jù),比如list模塊以列表的形式展示RSS/Atomfeed,itemfeed。模塊可以發(fā)出預(yù)定義的事件,其他模塊可以捕捉并響應(yīng)它。使用GME創(chuàng)造Mashup涉及開發(fā)包含XML控制、HTML/CSSJavaScriptUI模板。運行時,GMEUI模板并以網(wǎng)頁的形式呈現(xiàn)。圖2MashupEditor開發(fā)界面。圖 MashupEditor平InMashMaker.InMashMaker是In推出的基于web的編輯整合web數(shù)據(jù)的開發(fā)工具。MashMakerRSSAtom,MashMaker允許方面獲得較好的體驗。圖3為MashMaker的開發(fā)界面。圖3MashMakerIBMMashupCenter.IBMMashupCenter支持業(yè)務(wù)自由組裝動態(tài)的情境應(yīng)用,提供全面和易于使用的Mashup解決方案,主要面向于企業(yè)用戶提供解決方案。通過IBMMashupCenter,把企業(yè)、部門、互聯(lián)網(wǎng)和個人的信息變成業(yè)務(wù)可理解和使用的信息資產(chǎn),這些信息資產(chǎn)再通過自由裝配后動態(tài)地構(gòu)建成新的業(yè)務(wù)應(yīng)用來應(yīng)對易變的MashupCenter實現(xiàn)了業(yè)務(wù)自我服務(wù)使用信息的需求,釋放了信息價值,提高了IT開發(fā)應(yīng)用的效率,降低了IT4IBMMashupCenter的開發(fā)界面。圖4IBMMashupCenter[5],[6]表1Yahoo!InIBM高級WebMashMaker共性:Mashup開發(fā)方式取決于組件模型與合成模式。Mashup開發(fā)流程的公共開發(fā)平臺,但它們依然對使只有InMashMaker是面向普通網(wǎng)絡(luò)用戶的,而即便如此使用MashMaker開發(fā)MashupHTML選擇需要的數(shù)據(jù)源的使用何種處理模塊以及如何組合的調(diào)試的隨著網(wǎng)絡(luò)技術(shù)智能化的發(fā)展,作為互聯(lián)網(wǎng)中最重要的革新之一,個性化推薦技第二類方法使用協(xié)同過濾(CollaborativeFiltering)技術(shù)進行推薦[8-11]。協(xié)同過濾技戶。協(xié)同過濾技術(shù)已廣泛應(yīng)用于各大電子商務(wù)[12,13],如 第一類方法不同,協(xié)同過濾使用絕對平均誤差(MeanAbsoluteError,MAE)度量算法包括:推薦的準確性有待提高;推薦算法計算時間復(fù)雜度高,隨著帶推薦選項數(shù)量用戶對推薦原理不了解,當推薦結(jié)果與用戶產(chǎn)生時,用戶往往對推薦缺乏信任,由于推薦技術(shù)為用戶體驗帶來的巨大,個性化推薦技術(shù)目前已成為學(xué)術(shù)界研究Mashup開發(fā),可以幫助用戶克服很大一部分開發(fā)障MashupMashup的開發(fā)效率。Mashup內(nèi)容整合技術(shù)有其特殊性,將推薦技術(shù)融合到Mashup平臺中以提升工業(yè)界中還沒有具有推薦功能的平臺,因此設(shè)計與開發(fā)基于面向最終用戶的Mashup開發(fā)平臺的推薦系統(tǒng)來輔助用戶建模是很有必要的。MashupMashup的開發(fā)模型采用工作流ServicesWSCI規(guī)范(WebServiceChoreographyInterface)用于描述參與和其他服務(wù)的編Web服務(wù)所交換的信息流。在信息整合應(yīng)用的開發(fā)過程中,主要進行的Mashup的應(yīng)用邏輯信息時都顯得過于復(fù)雜,通過借鑒工作流描述執(zhí)行語義思想的基礎(chǔ)上可以對其進行簡化。Yahoo!Pipes16]Xproc[17]即提出了基于數(shù)據(jù)流的設(shè)計模型,用于描述對輸入數(shù)據(jù)的操作邏輯。Rich等[18]提出一種通過網(wǎng)狀表建立并使用MashupMashup時Kunze等人[19]Mashup推薦主要包含法和思想,協(xié)同過濾的基本思想是:找到與當前用戶Ccur相似(比如相似)的其他用戶Cj計算對象S對于用戶的效用值U(Cj,S),利用效用值對所有S進行排序或者等以發(fā)現(xiàn)用戶潛在的但自己尚未察覺的偏好,同時可以對難以進行文本表示的對象進的,隨著加入的用戶數(shù)量越來越多,性能也會變得越來越差。KhaledGoarany等[20]提出一種基于社會標注的推薦方法,其本質(zhì)可以說是一種關(guān)鍵的信息內(nèi)容進行描述和揭示,而不需要遵循任何固有的分類方法。Tag的功能不僅限于即使已經(jīng)對Mashup組件進行了描述,但是的描述很可能確或存在“前面的研究工作仍然是提出各種方法作為推薦的,而沒有深入到Mashup模式來進行推薦,OhadGreenshpan等人[21,22]提出基于模式結(jié)構(gòu)進行推薦,該方法關(guān)注于復(fù)雜Mashup模式之間的交集部分,他將較復(fù)雜的Mashup應(yīng)用到一個模式Mashup模式的推薦系統(tǒng),首先解析各模式文件的結(jié)構(gòu),同時解析各模top-kMashup模式完成。在用戶Mashup之間的聯(lián)系,推薦的結(jié)果也是盡可能推薦包含在不同Mashup模式中的功能節(jié)點,這樣用戶會有的選擇以及更復(fù)雜的功能,以此來幫助用戶構(gòu)建復(fù)雜、功能強大的Mashup應(yīng)用。并基于此進行推薦計算;HuajunChen等[24]提出基于路徑選擇來進行推薦;Matteo普通網(wǎng)絡(luò)用戶由于缺乏程序設(shè)計的思想,在著手開發(fā)Mashup時難以形成清晰的設(shè)程度上阻礙了Mashup技術(shù)的普及和發(fā)展。Mashup模式,利用概率統(tǒng)計模型從大量模式文件中挖掘Mashup模式片段的推薦系統(tǒng)。它通過逐步推薦Mashup邏輯功能的實現(xiàn),從而啟發(fā)用戶形成實現(xiàn)MashupMashup開Mashup開發(fā)平臺真正的面向最終用戶。在為用戶進行推為研究的對象,使用通過分析Yahoo!Pipes上的的Mashup數(shù)據(jù)得到的感的模式片MashupMashup模式進行解析,本課題來源于國家863項目“大規(guī)模服務(wù)化軟件的組合開發(fā)和運行演化技術(shù)及平臺”,項目:2012AA011203,項目周期:2012.1~2014.12Mashup開發(fā)平臺的自動推薦系Mashup這一新興的互聯(lián)網(wǎng)軟件開發(fā)模Mashup推薦的國內(nèi)外研究現(xiàn)狀,之后對研究需要的相關(guān)技術(shù)進行了分析介紹。Mashup技術(shù)門檻為目的,本文提出一種基于模式的自動推薦機制,采用線上用Mashup數(shù)據(jù)創(chuàng)建推薦數(shù)據(jù)基礎(chǔ)。然后對系統(tǒng)的功能需求進行分析,進而給出詳細Mashup開發(fā)潛在的巨大價值以及目前存在的技術(shù)要求Mashup開發(fā)的價值,進而提出本文的研究目標和主MashupMashup應(yīng)用開發(fā)平臺技術(shù)闡明其基本功能需求進一步細化設(shè)計方案,并對算法進行介紹。首先介紹實驗環(huán)境,再從與響應(yīng)速度兩個方面測試系統(tǒng),給出性能評價。變了本工作對于幫助Mashup開發(fā)的意義,對進一步的研究進行展望。第二章相關(guān)技術(shù)現(xiàn)狀Mashup可以將網(wǎng)絡(luò)上不同源的信息與服務(wù)快速進行整合得到互聯(lián)網(wǎng)應(yīng)用。如果沒有Mashup應(yīng)用開發(fā)平臺,用戶需要自己找到能夠提供自己所需數(shù)據(jù)源的API接口,并Mashup應(yīng)用開發(fā)平臺可以幫助用戶解決上述難題,Mashup平臺提供給用戶簡便、強大Mashup應(yīng)用。Mashup平臺構(gòu)建互聯(lián)網(wǎng)應(yīng)用的過程本質(zhì)上是對數(shù)據(jù)源進行整合處理的過程,因此息數(shù)據(jù),表格類的CSV或SpreadSheet格式的數(shù)據(jù),XML等基于語言格式的數(shù)據(jù),由于JavaScript和相關(guān)框架的原生支持,當前互聯(lián)網(wǎng)中廣泛應(yīng)用的Json數(shù)據(jù)格式,此外才有可能構(gòu)建出內(nèi)容形式更加豐富,用戶體驗更加Mashup應(yīng)用21.1.2節(jié)中介紹的幾種主要Mashup平臺對不同數(shù)據(jù)源類型的支持情況。表2Mashup√√√√√√√√MashupEditor√√√√IBMMashup√√√便表示和處理的格式,即用統(tǒng)一的數(shù)據(jù)格式表示上述異構(gòu)數(shù)據(jù)源。相關(guān)綜述文獻[27]MashupMashup平臺主要采用Graph-Based類型的數(shù)據(jù)模型以及Object-Based類數(shù)據(jù)模型。Graph-Based數(shù)據(jù)模型主要基于XML語言或其他類語言進行構(gòu)建,例如臺對數(shù)據(jù)源進行處理,但是在預(yù)處理階段需要將數(shù)據(jù)源按照一定的規(guī)則進行。Mashup應(yīng)用中,不同數(shù)據(jù)源擁有不同的語義信息,同時不些數(shù)據(jù)源(如天氣信息)Mashup應(yīng)用開發(fā)平臺對數(shù)據(jù)源的更Mashup應(yīng)用會APIRESTREST形式調(diào)用的發(fā)起方來自客戶端,REST頻繁更新導(dǎo)致Mashup服務(wù)端的負載過大。1.2.2節(jié)中所述,將個性成為學(xué)術(shù)界的研究熱點問題,并越來越受到企業(yè)界的認同和重視。管Rich在1979und計trotps機制用于建立用戶模型,通過此模型向用戶推薦書籍]。自20世紀90年代中為學(xué)術(shù)界和企業(yè)界的關(guān)注。最為廣泛的最為廣泛的推薦系統(tǒng)的非形式化定義由ik和rin在1997年給出[]vicius和uzhilin在005[]是所有可以推薦給用戶的物品集合,通常集合C與S規(guī)模很大,如系統(tǒng)包含百萬用戶和千萬種物品。效用函數(shù)u用于度量物品s對用戶c的有用性,u:CS→R,其中R表示一定范圍內(nèi)的非的物品,即對每一個用戶c∈C,找到商品s*∈S,滿足?c∈Csc*=argmaxs∈Su(c,s)?,F(xiàn)近年來企業(yè)界中已經(jīng)有多個較為成Mashup信息整合平臺,但現(xiàn)階段還沒有具有推薦功能的Mashup平臺,因此在Mashup領(lǐng)域中推薦技術(shù)越來越受到學(xué)術(shù)界的重視,并有許多高水平在近5年內(nèi)圍繞這一問題展開。Mashup推薦是將傳統(tǒng)的推薦方法和理論應(yīng)用于Mashup開發(fā)過程中,但是同時在Web服務(wù)領(lǐng)域中服務(wù)推薦的相關(guān)研究經(jīng)過多年發(fā)展已經(jīng)比較成熟,服務(wù)推薦領(lǐng)域大量運用了基于內(nèi)容推薦和協(xié)同過濾的思想,MashupWeb服務(wù)領(lǐng)域的外延,他打破了Web服務(wù)對服務(wù)的嚴格定義以及制定的嚴格的規(guī)范和標準,將更為廣泛Web2.0時代的是Mashup平臺需要達到的目標。前p中問題是p配來構(gòu)造符合需求的應(yīng)用,而沒有在模式構(gòu)建的過程中提供幫助。有相關(guān)研究表明6]復(fù)用已有模式可最大限度的降低用戶開發(fā)難度,也易于用戶接受。序列模式挖掘(sequentialpatternmining)是數(shù)據(jù)挖掘中非常重要的一個研究領(lǐng)域最早是由RakeshAgrawal和RamakrishnanSrikant在針對超市中購物籃數(shù)據(jù)的分析提出源。。它有著廣泛的應(yīng)用領(lǐng)域:商業(yè)組織利用序列模式挖掘去研究行為模式特征、計算生物學(xué)中序列模式挖掘用來分析不同氨基酸突變模式、用戶Web模式預(yù)DNA更關(guān)心數(shù)據(jù)之間順序的關(guān)聯(lián)性[35]定義1項集(itemset):各個項(item)定義2序列(sequence):不同項集的有序排列。序列S可以表示為S??1??2????>。其中:????(1≤j≤??)S定義3序列的元素(element):表示為(??1??2????)。其中:????1≤k≤??)為不同定義5序列的包含:設(shè)存在兩個序列A,B。其中:A=<??1,??2,…,????>,B=<??1??2????>1??1??2????????1????1,??2????2?,???????????,ABBAA?B。定義6ASSA的序列個數(shù)。Agrawal等人將序列模式挖掘定義為在序列數(shù)據(jù)庫中挖掘那些支持數(shù)超過預(yù)先定Apriori算法,如AprioriAll、AprioriSome、DynamicSome。Srikant等人[31]提出了GSP(generalizedsequentialpattern)方法。Zaki[36]提出了SPADE方法。這兩個方法同樣是基于Apriori的。隨后學(xué)者們又提出了一系列基于數(shù)據(jù)投影的算法,它們包括韓家煒在2000年提出的FreeSpan[38]和Pei在2001年 PrefixSpan[37]。Lin和Lee于2002年MEMISP算法[39]則是基于內(nèi)存索引的。Garofalakis等人通過利用正則表達式約束方法提出了SPIRIT算法[40]。其中,基于Apriori的GSP算法在處理較小的數(shù)據(jù)庫時效果比較理想,并且實現(xiàn)簡web結(jié)構(gòu)等等。由于發(fā)現(xiàn)結(jié)構(gòu)化的數(shù)據(jù)中的潛在信息的需求增長,基于圖的頻繁子定義1標記圖(LabeledGraph):標記圖被表示為一個四元組:G=(V,E,L,l),其中V是頂點集,E?V×VLl:V∪E→L是頂點或邊與標記的關(guān)系定義2同構(gòu)(Isomorphism)f:V(G)→V(G′))定義3自同構(gòu)(Automorphism)GGG定義4子圖同構(gòu)(Subgraphisomorphism)G到G′G與圖G′一個定義5頻繁子圖挖掘(FrequentSubgraphMining):給定一圖數(shù)據(jù)庫GS,GS{????|??0n}minsup?(g,G)={1如果gG0g與Gσ(g,GS)=∑??(??,σ(g,GS)gGS中的支持度。頻繁子圖挖掘就是發(fā)現(xiàn)全部σ(g,GSminsupg基于模式增長:gSpan、FFSM、由Inokuchi等人AGM算法[41]能找到所有滿足給定最小支持度的頻繁子圖,它與基于Apriori的頻繁項集挖掘算法有類似的特點,使用基于丁點的候選產(chǎn)生方法,在每一步增加一個頂點來擴展圖的規(guī)模。Kuramochi等人利用邊增長策略進一步發(fā)展了上述思想,提出了FSG算法[42]。Apriorikk+1的候選開銷很大,為避免這種開銷,提出了模式增長的方法。gSpan算法[32]旨在減少同構(gòu)圖的產(chǎn)生,它DFS(深度優(yōu)先搜索)DFS編碼對圖表示進行同構(gòu)判斷與擴展圖。FFSM算法[43]采用深度逐層遞歸來挖掘頻繁子圖。每個圖均采Mashup應(yīng)用Mashup開發(fā)平臺中的數(shù)據(jù)模型,同時介Mashup推薦系統(tǒng)的研究現(xiàn)狀,重點在于MashupMashup推薦系統(tǒng)的第三章MashupMashup開發(fā)方法存在的問題和Mashup時難以形成清晰的設(shè)Mashup邏輯功能的實現(xiàn),Mashup開發(fā)的學(xué)習成本,提高開發(fā)效MashupMashup開發(fā)平臺真正的面Mashup模式,Yahoo!PipesMashup數(shù)據(jù),通過分析并挖掘這些數(shù)據(jù)中頻繁出現(xiàn)的流程片段實現(xiàn)推薦系統(tǒng)的本體建模的Mashup數(shù)據(jù)得到的感的流程片段得圖5Yahoo!Pipes數(shù)據(jù)的收集與整MashupMashupDBMashupDB中挖掘出頻繁的子模式,生成頻繁模式庫;沒有必要實現(xiàn)客戶端的部分。如果需要將推薦系統(tǒng)嵌入到某Mashup開發(fā)平臺,根據(jù)這樣的工作流程,系統(tǒng)分為:Yahoo!Pipes爬蟲,數(shù)據(jù)預(yù)處理模塊,頻Yahoo!PipesYahoo!Pipes中Mashup的形Yahoo!Pipes以RSSfeed和JSONfeed的形式Mashup的相關(guān)信息。每個pipeIDNlNQKdO62xGAq1ZgZoQMOQpipehttp/pipes/?_out=json&_id=NlNQKdO62xGAq1ZgZoQMOQ這個url得到它的RSS格式相比,JSONJSON格式更適于機器解析。而且通過使用各種JSON閱讀器,人工閱讀JSON數(shù)據(jù)也可以很清晰。因此,本工作使用JSON格式的pipe信息作為數(shù)據(jù)源。pipeJSON信息通過JSONViewer6圖6PipeJSONJSONworking屬性,它保存了這個Mashup的全部結(jié)構(gòu)信息。Yahoo!PipesYahoo!Pipes爬蟲采用這樣的方式Mashup的JSON數(shù)據(jù):在Browse頁面的JSONfeed獲取pipes的ID,再通過json數(shù)據(jù)url+IDpipes的JSON數(shù)據(jù)。Browse頁Yahoo!Pipespipes10pipes,因此需要按頁循環(huán)的Browse的JSONfeed以獲得全部pipes的ID。Browse的JSONfeed的url也是結(jié)構(gòu)化的,可以通過一段固定的url+頁數(shù)得到。爬蟲模塊的算法流程圖如圖7。圖7加有效的分析Mashup結(jié)構(gòu),本文采用圖數(shù)據(jù)庫Neo4j以有向圖的模型Mashup的結(jié)構(gòu),實現(xiàn)MashupDB。其他數(shù)據(jù)庫均采用MySQL實現(xiàn)。Neo4j是一個高性能的NoSQL圖形數(shù)據(jù)庫。Neo4j使用圖相關(guān)的概念來描述數(shù)據(jù)模型,把數(shù)據(jù)保存為圖中的節(jié)點以及節(jié)點之間的關(guān)系。Pipes可以很直接地使用有向圖的概念來建模。因此,使用Neo4j來pipe數(shù)據(jù)會非常的開發(fā)環(huán)境的配置非常簡單。但同時,要展示Neo4j數(shù)據(jù)庫中的內(nèi)容也只能通過java程序數(shù)據(jù)預(yù)處理模塊的作用就是MySQL數(shù)據(jù)庫實現(xiàn)的原始MashupDB中的數(shù)據(jù),轉(zhuǎn)換為圖數(shù)據(jù)存入Neo4j實現(xiàn)MashupDB。Yahoo!Pipes將Mashup的結(jié)構(gòu)信息在JSON字符串的working屬性中。working屬性下包含3個屬性:心Mashup的結(jié)構(gòu),也就是組件的拓撲結(jié)構(gòu);modulespipe中的組件。它包含三個屬性:type,即組件類型;id,這個組件在pipe中的唯一標識;conf,組件的配置參數(shù)。wires:表示pipe中連接組件的邊。包含三個屬性:id,此邊在pipe中的唯一標識;src,源組件;tgt,目標組件。srctgt包含相同的兩個屬性:id,接口的類型與標識;moduleid,組件的id。Mashup的結(jié)構(gòu)的全部信息。使用它構(gòu)建一個圖只需要先掃描一遍modules創(chuàng)建出所有節(jié)點,再掃描一遍wires尋找id對為了實現(xiàn)Java和Neo4j數(shù)據(jù)庫的交互,添加一個類似DAO的中介類封裝對數(shù)據(jù)庫對象。而JavaMySQL數(shù)據(jù)庫的交互則采用hibernate框架。根據(jù)上述模塊設(shè)計頻繁模式挖掘模塊的功能是Neo4j中的Mashup結(jié)構(gòu)數(shù)據(jù),Mashup的結(jié)構(gòu)進行拆分,將得到的序列添本文使用MySQL數(shù)據(jù)庫實現(xiàn)頻繁模式庫而不是Neo4j,主要是因為Neo4j數(shù)據(jù)庫的Pipes可以完全用有向圖來描述,本文之所以采用序列和有向圖兩種模型來描述Mashup拆分成序列的意義是:由于組件組合的功能主要取Mashup,它的每一支從輸入到輸出的序列也是圖8由于本工作涉及的序列模式挖掘使用GSP算法,關(guān)于GSP算法的詳細描述見參考 源。。9Algorithm1R是頻繁序列集,N??1←frequentitemfor(k←2;?????1!=?;k++)????←foreachc∈????if????←????∪圖9GSPgSpanIGSpan。關(guān)于gSpan算法的詳細描述見參考文獻[32]。gSpan是一種深度優(yōu)先的挖掘算法,由于圖的復(fù)gSpan算法提出一種圖的表示方法:DFS(Depth-FirstSearch)編碼。顧名思義,(????,????,x,e,xlabelylabele:邊的label將e定義為邊的方向。DFSDFS編碼討論中,DFS編碼和圖是兩種等價的表達。下面介紹這種索引生長技術(shù)的原理。DFS編碼的生長是給一不斷添加新的邊的編碼代表的圖是數(shù)據(jù)庫中的這的子圖。我們稱這個數(shù)據(jù)庫記錄為此DFS編碼的支10圖10部可能的子圖。當一個圖生長的時候,索引技術(shù)會根據(jù)原圖的索引,在它的支持記錄中存在的不包含,這個子圖不再成立,取消這個。若此記錄不再有任何子圖,則這使用OES算法驗證子圖同構(gòu)。OES是一種最近效率較高的算法,采用逐邊驗證的方法構(gòu)造同構(gòu),由于DFS編碼是基于邊表示的,因此它比較適合在IGSpan中驗這兩個特征結(jié)構(gòu)可建立同構(gòu)。算法詳細內(nèi)容見參考文獻。為了解決DFS編碼生長的過程中出現(xiàn)的同構(gòu)圖問題,gSpan算法定義了一種基于DFS編碼的偏序由DFS編碼不是最小時,它的同構(gòu)圖一定已經(jīng)被生長出來DFSDFS編DFSDFS碼最小。這個問題類似枚舉圖的自同構(gòu),是一個NP問題。本文放棄了用檢測DFS編碼是否最小來檢測同NP如:邊數(shù)是否一樣,節(jié)點能否建立一一等;Algorithm1GraphSetProjection(D,S)D代表圖數(shù)據(jù)庫,S代表結(jié)果。S1D1-邊圖S←S1;foreachedgee∈S1seDFS碼s.Index←sSubgraph圖11IGSpanSubprocedure1SubgraphIfSsS←S∪foreachc,ciss’childdoifc.index.size≥minsups←Subgraph圖12IGSpan綴樹中共享相同的一段路徑。索引表有兩個屬性,id和此id數(shù)值代表的組件類型idid按頻度降序排列。使用前綴樹頻繁序列集的意義是:著大量的重復(fù)前綴,使用前綴樹避免了這種冗余;頻繁子序列表(seqset)的屬性與意義表3seqset表的屬性與意頻繁子序列索引表(seq_index)的屬性與意表4seq_index是VARCHAR,逗號將多個id分隔開,它們之間以endFrequency降序圖13頻繁序列集結(jié)構(gòu)示意上圖前綴樹點的數(shù)字代表組件類型,節(jié)點的父子關(guān)系靠parentId和childrenId條序列是1-3-4,頻度就是“4”節(jié)點的endFrequency。NP問題,面對大量的頻繁子圖,在運行時服務(wù)器端做這種匹配的時間開銷是難以Mashup的結(jié)構(gòu),能夠引入分支的組件只有兩個:splitunion。split將一Mashupsplitunion為中心來分析。本文將圖結(jié)構(gòu)的Mashup查詢簡化為以分支為中心的結(jié)構(gòu)查詢,降低了查詢的復(fù)雜度?;谶@種策略,推薦引擎的輸入處理部分應(yīng)將輸入的模式片段根據(jù)split和union拆分,同時頻繁模式挖掘模塊應(yīng)將頻繁子圖也按split和union拆分并存入數(shù)據(jù)庫。這種結(jié)構(gòu)本文稱之為分支特征結(jié)ES(BranchEigenstructure),它的定義如下:BES(B)=

(??,??1??2????)(B是(??1??2???? (B是??{??1??2????>|??1??2????∧????是??的輸入節(jié)點∧任意????不是分支節(jié)點????{??1??2????>|??1??2????是圖中的一串連續(xù)子序列????是??i個輸出節(jié)點∧任意????不是分支節(jié)點??{??1??2????>|??1??2????∧????是??的輸出節(jié)點∧任意????不是分支節(jié)點????{??1??2????>|??1??2????????是??i個輸入節(jié)點∧任意????不是分支節(jié)點圖14BES對左圖分別以b,h,d為中心拆分得到的。??|??????????|??1|??2||??????1|??2||????|??????????|??BES頻繁子圖表(graphset表5graphsetbes頻繁子圖索引表(graph_index表6graph_indexBES,同時用戶輸入的非序列模式片段應(yīng)向頻繁模式挖掘由于本推薦系統(tǒng)采用逐步推薦的形式,因此推薦引擎并不會每次用戶當前的完整模式片段,而是僅用戶當前一步添加的組件和邊,以此擴展推薦引推薦結(jié)果(Result)表 Result的startId和endId為這條邊的起點與終點id,start和end屬性不關(guān)心;在已有的一個組件上添加一個組件和一條邊:這是 Result的查詢算法偽代碼如圖15。AlgorithmInquirySeq(InputSeq)I←lastitemofInputSeq;indexs←loadseq_indexbyforeachindexn∈indexsdoN←loadseqsetbyid(n);length←tracePath(I,N);foreachlabeln∈N.childrenr←new Result(startId←I.id,end←n.label,score←R←R∪ifR.size>Tdobreak;ifR.size>Tdobreak;圖15label不一致則返回當前匹配的長度,若一致則匹配長度+1BES輸入查詢算法偽代碼如圖16Algorithmforeachsequences∈InputBESI←lastitemofindexs[i++]←load_indexbyB←load_indexbyid(labelofbranchunit)indexs←B∩indexs[0]∩indexs[1]∩…;foreachindexn∈indexsdoN←loadgraphsetbyR←R∪resultList;ifR.size>Tdobreak;圖16BES Mashup自動推薦系統(tǒng)的需求和設(shè)計方案。首先根據(jù)現(xiàn)有工作的不第四章Mashup XeonCPUE5620@2.40GHz,11.9GB內(nèi)存操作系統(tǒng):WindowsServer2003數(shù)據(jù)庫:MySQL5.5.27viaTCP/IPNeo4jrelease開發(fā)語言:JavaIDE:EclipseKeplerReleaseJDK版本:JDK7Neo4j是一個高性能的NoSQL圖形數(shù)據(jù)庫。Neo4j使用圖相關(guān)的概念來描述數(shù)據(jù)模型,把數(shù)據(jù)保存為圖中的節(jié)點以及節(jié)點之間的關(guān)系。Pipes的組件與組合關(guān)系模型,可以很直接地使用有向圖的概念來建模。因此,使用Neo4j來pipe數(shù)據(jù)會非常的Neo4j中,最基本的數(shù)據(jù)單位是節(jié)點(node)和關(guān)系(relationship)。節(jié)點表示一個數(shù)據(jù)節(jié)點只需要添加id和label兩個屬性,分別表示對應(yīng)組件的在這個pipe中的唯一和但同時,要展示Neo4j數(shù)據(jù)庫中的內(nèi)容也只能通過java程序來實現(xiàn)。HibernateHibernate是數(shù)據(jù)持久層的一種ORM輕量級框架,負責實現(xiàn)Java對象和關(guān)系數(shù)據(jù)庫之間的,把sql語句傳給數(shù)據(jù)庫,并且把數(shù)據(jù)庫返回的結(jié)果封裝成對象。封裝了JDBC數(shù)據(jù)庫的操作,向上層應(yīng)用提供了面向?qū)ο蟮臄?shù)據(jù)庫API。這樣開發(fā)就可以把對數(shù)據(jù)庫的操作轉(zhuǎn)化為對這些對象的操作,方便開發(fā)以面向?qū)ο蟮乃糎ibernate的主要接口Session接口:Session接口對于Hibernate開發(fā)來說是一個最重要的接口。Hibernate框架中,session是一個介于數(shù)據(jù)連接與事務(wù)管理之間的中間接口。session想象成一個持久對象的緩沖區(qū),Hibernate能檢測到這些持久它包含這一些持久層相關(guān)的操作,諸如持久對象至數(shù)據(jù)庫,以及從數(shù)據(jù)庫類SessionFactory中取得Session的實例。通常來說,一個項目通常只需要一個一個SessionFactory。SessionFactory在Hibernate中實際起到了一個緩沖區(qū)的作用,它緩沖了Hibernate自動生成的SQL語句和一些其它的數(shù)據(jù),還緩沖Configuration接口:ConfigurationHibernate進行配置,以及對Hibernate的啟動過程中,Configuration類的實例首先定位文檔的位置,這些配置,然后創(chuàng)建一個SessionFactory對象。TransactionTransactionAPI,可以選擇不使用這個接Hibernate的設(shè)計者自己寫的底層事務(wù)處理代Transaction接口是對實際事務(wù)實現(xiàn)的一個抽象,這些實現(xiàn)包括JDBC的事務(wù)、JTA中的Query和Criteria接口:用戶通過Query接口對數(shù)據(jù)庫及持久對象進行查詢。它Query接口不能在Session之外使用。Callback接口:當一些有用的事件發(fā)生時――例如持久對象的載入、、刪除時,CallbackHibernate去接收一個通知消息。創(chuàng)建審計日志時會用到Callback接口。json-見語言的。JSON格式易于人工閱讀,也易于被機器解析。StandardECMA-2623rdEdition-December1999。javajson8表8java-jsonjava.lang.String,java.lang.Character,java.lang.Number,byte,short,int,long,float,java.lang.Boolean,net.sf.json.JSONArray(object,string,number,boolean,爬蟲工程爬取YahooPipes上JSON格式的Mashup數(shù)據(jù)。解析程序初步解析pipes的JSON數(shù)據(jù),在MySQL數(shù)據(jù)庫中生成原始MashupDB;MashupDBMashup集合pipe包含的序列模式全部分離存到MySQL數(shù)據(jù)庫中,生成頻繁模式庫。頻繁模式庫以前綴樹形式頻繁序列,以BES格式對頻繁圖進行拆分;Yahoo!PipesDB。根據(jù)功能需求,得到此模塊的交互圖,如圖17。圖17Yahoo!PipesYahoo!Pipes爬它一頁只顯示10個pipes,因此需要按頁循環(huán)的Browse的JSONfeed以獲得全部pipesID。BrowseJSONfeedurlurl+頁數(shù) /pipes/pipes.popular?_out=json&page=”+StringpipeJsonUrl= pipesjsonMySQL數(shù)據(jù)庫。這部分幾乎不涉及算法,關(guān)鍵點是json-lib的使用和通過DAO與數(shù)據(jù)庫連接。working數(shù)據(jù):我們最關(guān)心的數(shù)據(jù),它屬于pipe數(shù)據(jù),但這里它進一步圖18Yahoo!PipesoriginalMDBMDBMySQL數(shù)據(jù)到圖19Neo4jJava的適應(yīng)性較強,不需要使用中間件就可以使用面向?qū)ο蟮姆椒ê啽愕脑L存;而MySQL需要使用中間件來封裝數(shù)據(jù)庫操作,才能使用面向?qū)ο蟮姆椒ú貲AO模塊封裝數(shù)據(jù)庫操作,但這需hibernate框架作為中間件,然后在此基礎(chǔ)上實現(xiàn)DAO。MySQL數(shù)據(jù)庫端接口介紹:Hibernate將每個表封裝成一個對象,對象的屬性對應(yīng)表的屬性,對象的操作是簡單的get/set方法。BaseDaoImpl在此基礎(chǔ)上進一步封裝。BaseDaoImpl最常用的一個接口是ObjectloadById(Classclazz,intclazzHibernateidid值。ObjectHibernateObjectbooleansave(Objectobj是要的hibernate對象。返回值表示是否成功BaseDaoImpl的實現(xiàn)類圖如圖20圖20BaseDaoImplModuleRepository的主要接口ModulecreateModule(Stringid,Stringtype,Stringconf)ModulegetModuleById(Stringid)Module類型的主要方法除了id,type,conf三個屬性的get/set以外,還有:voidaddRelationship(ModuleotherModule,RelTypesrt)RelationshipgetNextRelationshipTo(ModuleotherModule,RelTypesrt)ModuleRepository的類圖如圖21。圖21ModuleRepositorydrawPipe的算法:BaseDaoImpl的loadById加載它的workingmodulesmoduleModuleRepository的createModule創(chuàng)建Neo4j中的node。遍歷完成也就完成了node的創(chuàng)建。workingwireswirewire,通過調(diào)用ModuleRepositorygetModuleById得到指idmodule(起點或終點任一即可,再調(diào)完成后,這個pipe在Neo4j中的圖就創(chuàng)建完畢了。圖22PipeStringid:nodeintlabel:nodeGNodeDirnextNode(GEdgee):指定一個GEdgethisGNodeeGNode和邊的方向。GNodeDirGNodeint組成的pair,GNode就是下一個GNode,int是邊的方向。booleanedgeContains(GNoden)GNodenthisGNodeGNodestart:起兩個類的關(guān)系如圖23。圖23GNodeGEdge這部分的功能是:Neo4j的圖數(shù)據(jù),轉(zhuǎn)換為程序中的圖對象集(oriGraphSet);然后GraphReader類用于實現(xiàn)Neo4j的和轉(zhuǎn)換功能。它的主要函數(shù)idNeo4j數(shù)據(jù)庫的圖,返回node對象的列表。idGraphReader的構(gòu)造在此基礎(chǔ)上,根據(jù)功能設(shè)計分析得到頻繁模式挖掘模塊的主體部分交互圖如圖24圖24NPSpan中的主要方法有:ArrayList<Sequence>getFreqSeqs():這是唯一的public函數(shù)。它調(diào)用其他private數(shù)label是當前節(jié)點的類型,result是當前的一條結(jié)果序列;voidclose():將結(jié)果最小化(得到結(jié)果的閉集LinkedList<Result>getFreqGraph(intminSup):供外部調(diào)用的函數(shù)。調(diào)用其他內(nèi)intsubGraphMining(DFSGraphg):gSpanDFS生長、剪枝并添加結(jié)果。DFSGraph是一個包含DFS編碼和相應(yīng)方法的對象,是gSpanbooleanhasIsomorphism(LinkedList<Result>set)DFSGraph對象的方thisDFSGraphsetOES算LinkedList<DFSGraph>grow():這也是一個DFSGraph對象的方法,它按照DFS生長的規(guī)則,在thisDFSGraph的基礎(chǔ)上生長它的children,并按DFS字典序排序返回。同時,如同算法描述中介紹的,它的索引也一同生長,成為childrenvoidpruneByMinEdges(intminEdge):和序列挖掘中類似,這個方法刪除結(jié)果集minEdge的圖,因為它們很多而且頻度較高,但又缺乏推薦參考價該包的主體交互圖如圖25。圖25gSpan圖26gSpan其中seqset要實現(xiàn)前綴樹形式的,其他3張表的基本是平凡的數(shù)據(jù)庫操作這部分通過DBWriterBaseDaoImpl類實現(xiàn),它的主要函數(shù)有voidwriteSeqs(ArrayList<Sequence>seqs)publicseqsseqset和seq_index兩張表。它會調(diào)用prefixExtend、writeSeqset和writeSeqIndex三個函數(shù)實現(xiàn)功能;voidprefixExtend(intlabel,ArrayList<Sequence>seqs,intlen,intfreq,intendFreq,intparentId,Seqsetparent):這個函數(shù)用來構(gòu)造前綴樹。它通過擴展前綴不斷生長前frequency,全等于此前綴的序列的頻度為endFrequency,同時保存節(jié)點的前后繼節(jié)點的id。節(jié)點先被存放在saveList里,它們的索引存在indexList里;voidwriteSeqset():saveList到seqset表voidwriteSeqIndex():indexList到seq_index表voidwriteGraphs(LinkedList<Result>graphs):根據(jù)graphsgraphset和graph_indexsaveListGraph再遍歷每個graphs建立indexList,再調(diào)用writeGraphset和writeGraphIndex兩個函數(shù)實現(xiàn);voidwriteGraphset():saveListGraph到graphset表voidwriteGraphIndex():indexList到graph_index。類的關(guān)系如圖27。圖27DBWriterBaseDAOImpl圖28其中 圖 mendUnit類Enquirer將用戶當前添加的一條邊添加到用戶之前完成的unionsplit組件,這是因為包含這類分支組件的模式不應(yīng)當作序列查詢——頻繁序列挖掘過程跳過了這些分支組件,這些序列應(yīng)在BES中查詢;對于圖模式,使用Division類對其進行拆分再進行序列查詢,再將圖拆分為BES進行BES查詢。本著代DivisionDivision稍加改動得到的。Mashup自動推薦系統(tǒng)的實現(xiàn),對一些實現(xiàn)關(guān)鍵點和細節(jié)做了詳細的介第五章系統(tǒng)實驗CPU:InXeonCPUE5620內(nèi)存操作系統(tǒng):WindowsServerNeo4jrelease1.9掘閾值為變量來測試系統(tǒng)中率。首先以訓(xùn)練集大小為變量對進試。本文共獲取了946個Mashup數(shù)據(jù),在這部分實驗中分別選取為0-100、0-200、0-300、0-400、0-500、0-600的數(shù)據(jù)作為訓(xùn)練集,對每個訓(xùn)練集樣本采用為600-700、600-800、600-900的數(shù)據(jù)作為測試集進試。實驗數(shù)據(jù)如圖30。 圖30推薦-訓(xùn)練 再以頻繁模式挖掘中挖掘閾值為變量對進試。這部分的訓(xùn)練集使用為 圖31推薦-挖掘閾由這部分實驗可見,推薦系統(tǒng)中率與訓(xùn)練集大小和挖掘閾值成正比,但當訓(xùn)練本文使用搜索結(jié)果質(zhì)量指標:NDCG(NormalizedDiscountedCumulativeGain)來衡量????????

2????????=??????1+∑??????2第i項結(jié)果與用戶需求的關(guān)聯(lián)程度,在本實驗中命中即1,為命中則為0。將一個推薦列表各項的關(guān)聯(lián)度除以它們順序的對數(shù)并求和,即得到DCG得分。IDCG(IdealDiscountedCumulativeGain)DCG,是人工設(shè)定的。本實驗中,IDCG即推薦列表第一項命中的得分,是1。首先以訓(xùn)練集大小為變量對進試。本文共獲取了946個Mashup數(shù)據(jù),在這部分實驗中分別選取為0-100、0-200、0-300、0-400、0-500、0-600的數(shù)據(jù)作為訓(xùn)練集,對每個訓(xùn)練集樣本采用為600-700、600-800、600-900的數(shù)據(jù)作為測試集進試。實驗數(shù)據(jù)如圖32。 圖32NDCG- 再以頻繁模式挖掘中挖掘閾值為變量對進試。這部分的訓(xùn)練集使 圖33NDCG-0 首先以訓(xùn)練集大小為變量對進試。本文共獲取了946個Mashup數(shù)據(jù),在這部分實驗中分別選取為0-100、0-200、0-300、0-400、0-500、0-600的數(shù)據(jù)作為訓(xùn)練集,對每個訓(xùn)練集樣本采用為600-700、600-800、600-900的數(shù)據(jù)作為測試集進0 圖34平均推薦用時-再以頻繁模式挖掘中挖掘閾值為變量對進試。這部分的訓(xùn)練集使用為0-600的數(shù)據(jù),測試集使用為600-900的數(shù)據(jù)。實驗數(shù)據(jù)如圖35。0 time效率進評。本實驗選取為0-600的Mashup數(shù)據(jù)其中全部169個圖數(shù)據(jù)作為實驗數(shù)據(jù),分1789圖36總耗時-10時,IGSpangSpan一個數(shù)量級以上;11gSpan16時的時間開銷與IGSpan了算法的效率,IGSpan算法的效率遠高出gSpan。本章通過實驗對Mashup自動推薦系統(tǒng)和IGSpan算法進行了評估。首先對于 gSpanIGSpangSpan一個數(shù)第六章總結(jié)與展望Mashup開發(fā)平臺,它面。然而,事實表明不具備編程技能的普通網(wǎng)絡(luò)用戶還是很難Mashup開發(fā)。為了Mashup開發(fā)上的推薦技術(shù)開始成為研究熱Mashup開Mashupjson解析,本文將其中主要信息結(jié)構(gòu)化的抽取出來,并根據(jù)其模式結(jié)構(gòu)的信息對Pipes模式進行重構(gòu),以圖結(jié)構(gòu)在圖數(shù)據(jù)庫Neo4j中;Mashup自動推薦系統(tǒng)。該推薦系統(tǒng)采用基Mashup邏Mashup開發(fā)過程半自動化,極大地提高了開發(fā)效率?;诒竟ぷ髑捌趯π蛄心J降腗ashup模式的挖掘推薦工作,我作為第三作者完成《UsingSequentialPatternMiningandInteractive mendationto統(tǒng)的設(shè)計與實現(xiàn),于IEEESOSE2014會議。本文推薦系統(tǒng)采用逐步推薦的方式,每次推薦僅包括下一個模塊。然而,一Mashup模式進行推薦,然而僅提供模式構(gòu)建的引導(dǎo)并不能使得Mashup邏輯功能的實現(xiàn),因為組件的邏輯功能很多時候也依賴于參數(shù)的設(shè)置。對于普通網(wǎng)絡(luò)用戶,參數(shù)的設(shè)置可能比組合組件更加的,因在本文推薦系統(tǒng)架構(gòu)設(shè)計中,幾乎所有計算任務(wù)都在服務(wù)器端完成。這種實致首先感謝導(dǎo)師孫海龍。一年前,我通過孫老師進入了北航計算機新技術(shù)(ACT)。那次我第一次經(jīng)歷面試,盡管現(xiàn)在想起來,因為這操作系統(tǒng)課的授課老師,孫老師在我心中一直是嚴肅認真的形象,我擔心成績這個項目成為了本科畢設(shè)。畢設(shè)期間,孫老師對我工作的肯定給了我很大的動力。我還記得,孫老師在開題答辯上說“畢設(shè)當成一個畢設(shè)來應(yīng)付,要當成一個事來做”,我深以為然。畢業(yè)設(shè)計的結(jié)果,無非是60-100分;但一件事可以做得更好,ACT的各位老師,特別是答辯組的老師們。ACT嚴格、優(yōu)秀的氛來自于不斷的、不斷磨礪。我很慶幸我是ACT的一員,感謝ACT的老師們!因為ACT才能有這樣認真嚴謹?shù)姆諊?。不開的包容和支持。特別的,我要感謝,有你的陪伴,在熬夜的感覺也參考ProgrammableWeb[EB/OL]./,2014-6- /,2014-6-Wikipedia,Web2.0[EB/OL].,2012-11- Yu,Jin,BoualemBenatallah,Casati,andFlorianDaniel.Understandingmashupdevelopment[A].InternetComputing,IEEE12,no.5[C].USA:IEEEComputerSociety,2008:44-52.,,,.Mashup技術(shù)及其發(fā)展趨勢[J].電信科學(xué),2009,(9): VolkerHoyer,KatarinaStanoevska-Slabeva1.TheChangingRoleofITDepartmentsinEnterpriseMashupEnvironments[A].ICSOC[C],Berlin,2009:148-154. BlakeM.B.,NowlanM.F.AWebService menderSystemUsingEnhancedSyntacticalMatching[C].ProceedingsofInternationalConferenceonWebServices2007,SaltLakeCity,Utah,USA,2007:575- RongW.,LiuK.,LiangL. alisedWebServiceRankingviaUserGroupcombiningAssociationRule[C].ProceedingsofInternationalConferenceonWebServices2009,LosAngeles,CA,USA,2009:445-452 ShaoL.etal. alisedQoSPredictionforWebServicesviaCollaborativeFiltering[C].ProceedingsofInternationalConferenceonWebServices2007,SaltLakeCity,Utah,USA,2007:439-SreenathR.M.,SinghM.P.Agent-basedServiceSelection[J].JournalofWebSemantics,2003,vol1(3):261–279ZhengZ.etal.WSRec:ACollaborativeFilteringBasedWebService System[C].ProceedingsofInternationalConferenceonWebServices,2009,LosAngeles,CA,USA,2009:437-444LindenG.,Smith mendations:Item-to-ItemFiltering[J].IEEEInternetComputing,2003,v7(1):76- MillerB.N.etal.MovieLensUnplugged:ExperienceswithanOccasionallyConnectedmenderSystem[C].ProceedingsoftheeighthInternationalConferenceon ligentUserInterfaces2003,2003:pp.263-OASIS.WebServicesBusinessProcessExecutionLanguageVersion,2007-04-YahooPipes[EB/OL]. /pipes/,2014-6-XProc,XProc:AnXMLpipelinelanguage[S].USA:W3C,RichE.UserModelingviaStereotypes[J].CognitiveScience,1979,v3(4):329-354[19]Kunze,M.Overdick,H.andGrosskopf,A.andWeidlich,M.LightweightCollaborationManagement[A].Mashups[C],Orlando,Florida,2009:3-KhaledGoarany,GregoryKulczyck,M.BrainBlake.MiningSocialTagstoPredictMashupPatterns.SMUC[C],TorontoCanada,2010:71-78OhadGreenshpan.Harnessingdatamanagementtechnologyforwebmashupsdevelopment.ProceedingsoftheVLDBEndowment2012,2(1):96-101OhadGreenshpan,TovaMilo,Neoklis pletionforMashups Programming[A].IW3C2[C],Madrid,Spain,2009:861-870HuajunChen,BinLu,YuanNi,GuotongXie,ChunyingZhou,aMi,ZhaohuiMashupbySurfingaWebofDataAPIs[A].VLDB[C],Lyon,France,2009:24-MatteoPicozzi,MartaRodolfi,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論