![基于非負(fù)矩陣分解微博分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_第1頁](http://file4.renrendoc.com/view/1ea409e30c73826f3b34bede722b1304/1ea409e30c73826f3b34bede722b13041.gif)
![基于非負(fù)矩陣分解微博分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_第2頁](http://file4.renrendoc.com/view/1ea409e30c73826f3b34bede722b1304/1ea409e30c73826f3b34bede722b13042.gif)
![基于非負(fù)矩陣分解微博分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_第3頁](http://file4.renrendoc.com/view/1ea409e30c73826f3b34bede722b1304/1ea409e30c73826f3b34bede722b13043.gif)
![基于非負(fù)矩陣分解微博分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_第4頁](http://file4.renrendoc.com/view/1ea409e30c73826f3b34bede722b1304/1ea409e30c73826f3b34bede722b13044.gif)
![基于非負(fù)矩陣分解微博分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)_第5頁](http://file4.renrendoc.com/view/1ea409e30c73826f3b34bede722b1304/1ea409e30c73826f3b34bede722b13045.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
教師或答疑教師( 所負(fù)責(zé)部分系(教研室)(簽字NMF-basedmicrobloggingclassificationsystemdesignandAuthor:LiuJun-Tutor:LIJian-Microbloggingasaninformationexchangeplatform,duetoitsconvenienceandimmediacycharacteristic,increasinglyrichcontentitcontains.Therefore,microbloggingclassificationplaysanimportantroleininformationacquisition,aspectshotspotmonitoring,publicopinionysising.Currentlyworkingonthemicrobloggingclassifiedmainlyinthefieldofattributionmicrobloggingdivision(suchastheeconomy,sports,etc.),butinthemicrobloggingsearchresultsshowthelackofappropriateclassificationofworkinthisareaisnotconducivetothemicrobloggingsearchresultsinformationdisplayanduseraccesstoWeibosearchresultsformicrobloggingclassificationysis,thispaperfocusesontwoissuesmicrobloggingclassificationdivisionandmicrobloggingclassificationysis,andvisualizationmethodstoachievethesystem.Themaintasksinclude:First,themicrobloggingclassificationisdividedpreparations.Microbloggingtextpreprocessing,establishvectorspacemodel.InNLPIRChinesewordsegmentationsystemWeibotextwordsearchresultsbasedonthecandidatewordswerescreenedusingTF-IDFalgorithmtoeachcandidatewordsweremarkedweightsestablishedvectorspacemodeloftheSecond,themicrobloggingclassificationisdividedwork.Microbloggingcompleteclusteringandkeywordextraction.Backtosearchresultsobtainedmicrobloggingvectorspacemodelusing-negativematrixfactorizationmethodfromthebasematrixandthecoefficientmatrixobtainedbyyzingtheresultsandadescriptionofthemicrobloggingclassificationdividedkeywordcombinationsforeachmicrobloggingclassification.Third,ysistheresultsofthemicrobloggingclassificationisdividedmicrobloggingclassificationandvisualdisplay.Byclusteringysis,wewillbeabletogetthekeywordofeachmicrobloggingclassification,eachmicrobloggingclassificationproportionofthetotalsearchresults,thetimeofeachmicrobloggingclassificationgenerated,andsearchwords ,etc. -negativematrixfactorization,vectorspacemodel,textclustering,keywordextraction緒 研究背 研究現(xiàn) 研究目標(biāo)與內(nèi) 課題來 的組織結(jié) 相關(guān)技術(shù)現(xiàn) 中文文本分詞技 短文本聚類技 短文本提取算 非負(fù)矩陣分解算 數(shù)據(jù)可視化工 本章小 基于非負(fù)矩陣分解分類系統(tǒng)設(shè) 系統(tǒng)功能需 設(shè)計(jì)原 系統(tǒng)總體架構(gòu)設(shè) 系統(tǒng)結(jié) 系統(tǒng)功能模塊詳細(xì)設(shè) 文本預(yù)處理模塊設(shè) 文本分析模塊設(shè) 具體類分析及可視化展示模塊設(shè) 本章小 基于非負(fù)矩陣分解分類系統(tǒng)實(shí) 系統(tǒng)開發(fā)環(huán) 平臺(tái)環(huán)境和開發(fā)語 系統(tǒng)實(shí)現(xiàn)概 文本預(yù)處理部分實(shí) 文本分詞部分實(shí) 候選詞提取與權(quán)重標(biāo)注實(shí) 文本分析階段實(shí) 各類分析及可視化展示實(shí) 本章小 系統(tǒng)實(shí) 實(shí)驗(yàn)環(huán) 功能實(shí) 實(shí)驗(yàn)?zāi)?實(shí)驗(yàn)過 實(shí)驗(yàn)總結(jié)與分 性能實(shí) 實(shí)驗(yàn)?zāi)?實(shí)驗(yàn)過 實(shí)驗(yàn)總結(jié)及分 本章小 總結(jié)與展 工作總 工作展 致 參考文 隨著近些年的迅速發(fā)展,作為一個(gè)信息的,發(fā)揮著越來越重要的作用。截至2013年3月,每日發(fā)布量也超過了一億條。龐大數(shù)據(jù)為用戶圖1.1用戶發(fā)展的用戶已達(dá)5.07億,而當(dāng)前國內(nèi)網(wǎng)民數(shù)量約為5.36億,可見已成為浪數(shù)據(jù)中心統(tǒng)計(jì),在2013年第一季度使用移動(dòng)終端登錄的活躍用戶達(dá)到3810萬人,占總活躍用戶比例為76.2%,其日均移動(dòng)端時(shí)間接近4小時(shí)。由于移動(dòng)終端的普及讓人們上網(wǎng)的時(shí)間更加碎片化,所以活躍用戶實(shí)際活躍的時(shí)間段已經(jīng)遠(yuǎn)遠(yuǎn)超往給出了許多不是我們所關(guān)注的內(nèi)容。在針對(duì)搜索結(jié)果前15頁內(nèi)容進(jìn)行統(tǒng)計(jì)后,1.2“大學(xué)生就業(yè)“搜索結(jié)果統(tǒng)計(jì)在搜索結(jié)果中,既有對(duì)大學(xué)生就業(yè)問題的提出與討論,又有對(duì)大學(xué)生就業(yè)起薪綜上所述,隨著的迅速發(fā)展,上的信息也越來越豐富,但是在人們通過微缺點(diǎn),即未對(duì)本節(jié)主要就國內(nèi)運(yùn)營平臺(tái)進(jìn)行討論值得一提的是,目前國內(nèi)的兩家主要平臺(tái)——與騰訊,在針對(duì)在此我們給定搜索結(jié)果中一類的定義:在搜索結(jié)果中,能用相同的關(guān)鍵詞組合進(jìn)行標(biāo)示集合所描述的內(nèi)容稱作一類。如在1.1中所提及的,針對(duì)“大學(xué)生就業(yè)”所得到搜索結(jié)果就包含了以下四個(gè)類別——對(duì)大學(xué)生問題。而在我們現(xiàn)有搜索結(jié)果中,以上內(nèi)容均需要用戶自己對(duì)搜索只提供一個(gè)羅列式搜索結(jié)果展示,并不能很好地展現(xiàn)出搜索結(jié)果中所包含的能將描述內(nèi)容相近歸為一類,給用戶以直觀搜索結(jié)果的展示。取每一類的信息,給用戶以更全面更直觀內(nèi)容要點(diǎn)的展示。973項(xiàng)目:網(wǎng)絡(luò)信息空間大數(shù)據(jù)計(jì)算理論(2014CB340300)究NLPIR提供分詞功能,正確地使用其提供的API;然后對(duì)分詞結(jié)果進(jìn)行權(quán)重賦值,建立結(jié)果中所占比例,各類產(chǎn)生的時(shí)間分析,與搜索詞相關(guān)等等。第四章基于非負(fù)矩陣分解分類系統(tǒng)實(shí)現(xiàn)。詳細(xì)介紹基于非負(fù)矩陣分解功能與性能進(jìn)試實(shí)驗(yàn)并給出評(píng)價(jià)。功能測試主要以是否可以達(dá)到功能點(diǎn)為主,性能針對(duì)搜索結(jié)果分類,實(shí)質(zhì)上就是針對(duì)文本內(nèi)容的分析,主要研究方身的特性——文本短小,受140個(gè)字?jǐn)?shù)限制,屬于短文本的范疇。科院計(jì)算機(jī)提供的NLPIR中文分詞系統(tǒng)[2],NLPIR中文分詞系統(tǒng)NLPIR分詞系統(tǒng)前身2000年發(fā)布ICTCLAS2009年開始,NLPIR自然語言處理與信息檢索共享平臺(tái),調(diào)整命名為NLPIR分詞系統(tǒng)。博士先后傾力打造十余年,內(nèi)核升級(jí)十余次,先后獲得了2010年中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng),2003年國際SIGHAN分詞大賽綜合第一名,200297330萬,包括中國移動(dòng)、、中搜、3721、NEC、中華商務(wù)網(wǎng)、硅谷動(dòng)力、云南日?qǐng)?bào)等企業(yè),、的API調(diào)用可直接實(shí)現(xiàn)對(duì)選定文本進(jìn)行分詞工作。SIGIRACL、WWW、CIKM、WSDM等著名國際會(huì)議上,針對(duì)這一問題的研究成果通過研究國內(nèi)外及會(huì)議,總結(jié)出文本聚類分析主要有以下幾種研究思路:Methods法有:k-means、k-modes、k-prototypes、k-meds、PAM、CLARA、CLARANS等。個(gè)劃分就代表一個(gè)簇,knkkMethods次凝聚的代表是AGNES算法。層次的代表是DIANA算法。而此處需要額外提出似大小的聚類,另外有些聚類算法對(duì)孤立點(diǎn)比較敏感。CURE算法解決了上述兩方面Methods對(duì)象都可能引起一次查詢,因此當(dāng)數(shù)據(jù)量大時(shí)會(huì)造成頻繁的I/O操作。代表算法有:DBSCAN、OPTICS、DENCLUE算法等。MethodsMethods其中不少方法都使用到了向量空間模型(VectorSpaceModel,VSM)對(duì)文本內(nèi)容進(jìn)行短文本提取算基于詞頻(termfrequency)TF-IDF計(jì)算文本特征權(quán)重,類中選擇,合并得出最終結(jié)果。這樣先通過文本相似度聚類,提高了準(zhǔn)確算每個(gè)特征節(jié)點(diǎn)重要性,即與其他特征同現(xiàn)指數(shù)連乘,選取最重要的節(jié)點(diǎn)作為。到其他節(jié)點(diǎn)距離和的倒數(shù))、節(jié)點(diǎn)中介性指標(biāo)(BetweennessCentrality:其他節(jié)點(diǎn)間最)SWN間模型是最常用的文本表示方法,基本思想是將文本文檔看成是由一組特征項(xiàng)(t1,t2,t3…tn)構(gòu)成。雖然這些特征項(xiàng)根據(jù)不同的具體分類算有些不同,但是目的都是為了提取出文檔中最能反映該文檔特征的詞。對(duì)于每一個(gè)特征項(xiàng)t,都可以根據(jù)其在文檔中的重要程度賦予一個(gè)權(quán)重ωi2個(gè)主要的問題:(1)VSM僅考慮詞頻信息,缺乏語義層面的考慮;(2)向量維數(shù)過大,造成和資源消耗過大。而非負(fù)矩陣分解(negativeMatrixFactorization,NMF)一直是一個(gè)很有意義的研究問題,著名的科學(xué)雜志《Nature》于1999年登了兩位科學(xué)家D.D.Lee和H.S.Seung的研究內(nèi)容[3],對(duì)非負(fù)矩陣分解的基本思想進(jìn)行了闡述,讓這一問題為人所關(guān)注,NMF方法具有收斂速度快、左右非負(fù)矩陣空間小、語釋性強(qiáng)的特點(diǎn),因此,適用于處理大規(guī)模文本。近幾年來WeiXu[15]的研究表明,NMF不同于潛在語義索引方法和基于奇異向量分解(SingularValue 2.1NMFLSI數(shù)據(jù)可視化工具目前有很多種,如Gelphi等。但我們需要在網(wǎng)頁中嵌入可視化成果視化工具。Highcharts是一個(gè)用純JavaScript編寫的一個(gè)圖表庫,能夠很簡單便捷的在web或是web應(yīng)用程序添加有交互性的圖表,并且免費(fèi)提供給個(gè)人學(xué)習(xí)、個(gè)人網(wǎng)散狀點(diǎn)圖和綜合圖表。HighCharts界面美觀,由于使用JavaScript編寫,所以不需要像Flash和Java那樣需要插件才可以運(yùn)行,而且運(yùn)行速度快。另外HighCharts還有很好的兼容性,能夠完美支持當(dāng)前大多數(shù)瀏覽器。其中如餅狀圖能較好的表現(xiàn)出各分類在 本章主要介紹了本文實(shí)現(xiàn)的原型系統(tǒng)在設(shè)計(jì)與實(shí)現(xiàn)中所用到的相關(guān)技術(shù)和理論基礎(chǔ)。2.1NPIRPI進(jìn)行了分析。.2.3節(jié)介紹并分析了常用的提取算法,重點(diǎn)介紹了本系統(tǒng)中所使用的TFIDF2.4本的算非矩解的計(jì),并簡單的介紹了選擇非負(fù)矩陣分解算法來進(jìn)行聚類以及提取的原因。2.5節(jié)中主要針對(duì)結(jié)果所需要的表現(xiàn)形式選擇的可視化工具進(jìn)行了簡單的介紹。隨著近些年的迅速發(fā)展,作為一個(gè)信息的,發(fā)揮著越來越重要的作用。截至2013年3月,每日發(fā)布量也超過了一億條。龐大數(shù)據(jù)為用戶如圖1.1所示,根據(jù)互聯(lián)網(wǎng)《2012-2013發(fā)展報(bào)告》,至2013年,的用戶已達(dá)5.07億,而當(dāng)前國內(nèi)網(wǎng)民數(shù)量約為5.36億,可見已成為同樣值得的是,用戶的活躍時(shí)間也隨著的移動(dòng)端發(fā)展不斷提升。據(jù)新浪數(shù)據(jù)中心統(tǒng)計(jì),在2013年第一季度使用移動(dòng)終端登錄的活躍用戶達(dá)到3810萬人,占總活躍用戶比例為76.2%,其日均移動(dòng)端時(shí)間接近4小時(shí)。由于移動(dòng)終端的了4小時(shí),這也方便了信息在這個(gè)平臺(tái)上的。但是就現(xiàn)有搜索結(jié)果的展現(xiàn)方式來說,只做到簡單的羅列搜索結(jié)果,給用戶進(jìn)行搜索這項(xiàng)工作的效率。從以上描述中可以得出,本系統(tǒng)應(yīng)包含對(duì)搜索結(jié)果中所展示進(jìn)行聚類以3.13.2中3.1為系統(tǒng)的整體結(jié)構(gòu)文本預(yù)處理。使用NLPIR漢語分詞系統(tǒng)對(duì)獲取到文本進(jìn)行分詞處理,針對(duì)分詞結(jié)果進(jìn)行候選詞篩選與權(quán)重標(biāo)注,并以此為基礎(chǔ)建立VSM模型。篩選后得到的詞作為構(gòu)建文本—候選詞矩陣(VSM)的候選詞項(xiàng),最后再給矩陣中權(quán)重標(biāo)注部分本文選擇的是TF-IDF進(jìn)行標(biāo)注。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估TF-IDF的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或。除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會(huì)使用基于分析的方法,在一份給定的文件里,一般來說,詞頻(termfrequency,TF)指的是某一個(gè)給定的文件頻率(inverse frequency,IDF)是一個(gè)詞語普遍重要性的度量。某一特定詞3.2TF-IDFNMF是一種新的矩陣分解算法,它克服了傳統(tǒng)矩陣分解的很多問題,通過尋找上下文有意義的解決方法,提供解釋數(shù)據(jù)的更深看法。NMF通過尋找低秩,非負(fù)分解那數(shù),文本分析中的單詞統(tǒng)計(jì)也總是非負(fù)數(shù),價(jià)格也總是正數(shù)等等。NMF的基本思WH類思維中“局部構(gòu)成整體”的概念。研究,非負(fù)矩陣分解是個(gè)NP問題,可以劃為優(yōu)傳統(tǒng)的處理算法速度更快、更便捷。NMF思想的提出迅速得到了很多人的重視,并有1)隨機(jī)初始化??1>0??1>0,???,??,??, 對(duì)k=1,2,
((????
,???,)???? = ????((????)?????????? (??(????+1)?? ????(????????+1(????+1)??
,???,f(W,H)=1|??–????|2= ??,??(??????????????? 3.4各類分析及可視化展示模塊設(shè)我們是在文本分析的基礎(chǔ)上進(jìn)行各類分析以及可視化展示。如3.3.1中所說,clu_nam(一類所占clu_count,二者均需要我們對(duì)上一步中得到的NMF分解結(jié)果進(jìn)行分析得各類的產(chǎn)生時(shí)間所表示出的特性。我們可以通過折線圖的方式來描述與各類博的進(jìn)行統(tǒng)計(jì)與整合,我們就能比較直觀的看出各類是否有一個(gè)集中發(fā)布關(guān),這些詞的獲取可在聚類后的結(jié)果中得到。同每一類名稱clu_name不同的是,clu_name以在每一類中的權(quán)重為唯一的選擇標(biāo)準(zhǔn),只選取最高權(quán)重的候選本章主要介紹了基于非負(fù)矩陣分解分類系統(tǒng)的詳細(xì)設(shè)計(jì)。首先是對(duì)系統(tǒng)主要為三個(gè)功能相對(duì)獨(dú)立的模塊,在遵循設(shè)計(jì)原則的基礎(chǔ)的上,3.4節(jié)中給出了三個(gè)模塊的根據(jù)第三章介紹的基于非負(fù)矩陣分解分類系統(tǒng)的總體設(shè)計(jì)和功能模塊詳細(xì)設(shè)計(jì),本章將給出文本預(yù)處理模塊、文本分析模塊和具體類分析及可視化模塊的高效的接近匯編語言等特點(diǎn),對(duì)C的類型系統(tǒng)進(jìn)行了的擴(kuò)充,因此C++比C更安方便本系統(tǒng)調(diào)用,因此選用C++作為本系統(tǒng)實(shí)現(xiàn)語言。針對(duì)聚類后,給出組合來描述其內(nèi)容。在本系統(tǒng)中,我們使用NLPIR漢語分詞系統(tǒng)來完成這部分的工作,具體代碼如下{intnCount;intcount=NLPIR_GetParagraphProcessAWordCount(sSentence);}{cout<<"nlpirinit}NLPIR中定義NLPIR_ParagraphProcess函數(shù)。這個(gè)函sSentence,nCount分別代表待分詞的內(nèi)容以及分詞的方式,在本系統(tǒng)中我們使用NLPIR漢語分詞系統(tǒng)默認(rèn)的分詞方式。對(duì)這個(gè)新興,其內(nèi)置詞庫所包含的內(nèi)容依舊不夠。在此,我們從選擇來自的無詞性標(biāo)注的中文詞庫作為我們的自定義詞典基NLPIR漢語分詞工具自帶詞庫進(jìn)行了補(bǔ)充。其中自定義詞庫一共補(bǔ)充14萬的名詞以及5萬的動(dòng)詞。具體=4.1以圖4.1為例,我們可以看出導(dǎo)入詞庫前后的分詞效果明顯的區(qū)別,NlPIR這些詞以更細(xì)的劃分粒度進(jìn)行了劃分(見圖4.2,但是對(duì)本部分工作而言,作為的VSM建立,所需要做的工作為提取每一條文本中合乎規(guī)則的詞作為候選詞,并給每一個(gè)候選詞按照TF-IDF的方式進(jìn)行權(quán)重,以{{{vector<pair<int,int>>maxTFandDF; {intmaxTF=0;{}}}return}fork0;kNkH{temp1=0.0;temp2=0.0;for(ii=0;ii<N;temp1+=w(ii,j)*Y(ii,k)/ne(ii,k);}for(ii=0;ii<N;ii++)temp2+=w(ii,j);h(j,k)=h(j,k)*temp1/temp2;for(intwui0;wuirwui++)//h{for(intwuj=0;wuj<N;}…distance=0;for(ii=0;ii<N;ii++){for(jj=0;jj<N;{distance+=(Y(ii,jj)*log(Y(ii,jj)/ne(ii,jj))-Y(ii,jj)+}}此在系數(shù)矩陣H受限的情況下,基矩陣W也可取到定值。在完成計(jì)算后,需對(duì)得到的基矩陣W與系數(shù)矩陣H進(jìn)行逐列或逐行地遍歷,遍歷基矩陣W時(shí),選擇記錄下每列中最大的若干個(gè)元素位置,在保存候選詞的容器類wordc中,我們即可根據(jù)找到的位置來導(dǎo)出對(duì)應(yīng)的類的組合。HHn行,各列元素即代表已完成的分類對(duì)保存著文本容器textc中的第n條的影響程度,當(dāng)在各列中第i列元素取得最大值,我們即認(rèn)為這條被劃分在第i類當(dāng)中。各類分析及可視化展示實(shí)各類分析分析主要是根據(jù)第三章中介紹的設(shè)計(jì)方案來進(jìn)行實(shí)現(xiàn)。我們需要考慮到的是給出可代表每一類內(nèi)容的組合clu_name以及與搜索詞相關(guān)的集合具體的事件,而后者則更偏向于描述更加寬泛的內(nèi)容。clu_name在4.4中可直接得到,與clu_name相似的是,wordcloud來源也是非負(fù)矩陣分解產(chǎn)生的基矩陣W。W當(dāng)中每 Highcharts。HighchartsJavaScript編寫的一個(gè)圖表庫,能夠很簡單便捷的在web或是web應(yīng)用程序添加有交互性的圖表,并且免費(fèi)提供給個(gè)人學(xué)習(xí)、個(gè)人和非商業(yè)用途使用。HighCharts支持的圖表類型有曲線圖、區(qū)域圖、柱狀圖、餅狀圖、散狀點(diǎn)圖和綜合圖表。HighCharts界面美觀,由于使JavaScriptFlashJava那樣需要插件才可以運(yùn)行,而且運(yùn)行速度快。另外HighCharts還有很好的兼容性,能夠完美支持當(dāng)前大多數(shù)瀏覽器。并且在HighCharts當(dāng)中,圖標(biāo)框架是可以直接使用的,我們僅需要對(duì)少量的參數(shù)進(jìn)行賦值即可$(function()e:{text:'',x:-20//center},subtitle:{text:'',x:-xAxis:{categories:{text:'series:[{name:',data:[]}根據(jù)上一章節(jié)的需求說明與設(shè)計(jì),本章介紹了整個(gè)分類系統(tǒng)的實(shí)現(xiàn)。4.1節(jié)中介前兩個(gè)章節(jié)分別介紹了基于非負(fù)矩陣分解分類系統(tǒng)的詳細(xì)設(shè)計(jì)及功能 (R)Core(TM)I3 系統(tǒng)類型:64操作系統(tǒng):Win開發(fā)環(huán)境:VisualStudio對(duì)描述內(nèi)容相似文本進(jìn)行聚類各類分析及結(jié)果的可視化展示選取的測試文本為語料庫中2011年7月至12月的包含搜索詞“”的總計(jì)26609條進(jìn)行分類的功能測試,在此之前需要為測試機(jī)器重新配置NLPIR工具的用戶,除此之外也需要安裝boost庫以及eigen庫。
圖5.1部分內(nèi)容展1433個(gè),在記錄下文本以及候選詞標(biāo)號(hào)的同時(shí),采TF-IDF的算法給各文本中提取出的候選詞添加了權(quán)重,完成VSM完成文本的聚類以及聚類后的提取。VSM模型在數(shù)組m_ppTable中,調(diào)用陣W與系數(shù)矩陣H。表5.1聚類完成后各類文本數(shù)量及12處理臨時(shí)工34判刑遼陽5—各類分析及可視化展示工數(shù)據(jù)傳入Highcharts的series中即可完成可視化展示。圖5.2各類比例展在圖5.2中,主要對(duì)搜索結(jié)果的分類狀況進(jìn)行了描述,主要分為四類,給出了四類的在結(jié)果中所占比例,以及能描述其內(nèi)容的組合,可見在通過“”這個(gè)搜索詞能搜索到中,很大一部分內(nèi)容描述的都是“與他人的沖圖5.3與搜索詞“”相關(guān)的詞云展5.3所示,在非負(fù)矩陣分解的結(jié)果中,我們對(duì)每一類僅選取了所占權(quán)重最高的整改,我們能在相關(guān)的詞云中找到環(huán)保,整改等。5.4如圖5.4中所示,在第三部分的結(jié)果展示中,各類的進(jìn)行了統(tǒng)群眾之間產(chǎn)生的,在圖5.4中其在所有時(shí)間段上都有比較多的分布,可見本類屬于涵蓋內(nèi)容比較廣泛,在各個(gè)時(shí)間段上均有產(chǎn)生;但是如第四類,主要描述對(duì)遼陽致死事件的宣判結(jié)果,可看出其主要在宣判之后即11月左綜上所述,在我們所給出的實(shí)驗(yàn)結(jié)果中,我們提供了較為清晰搜索結(jié)果展現(xiàn)方取上提供了更方便的,因此本系統(tǒng)已基本達(dá)到預(yù)期的工作效果。第一,在NLPIR漢語分詞系統(tǒng)對(duì)搜索結(jié)果的文本分詞基礎(chǔ)上,進(jìn)行了候選詞篩選并采用TF-IDF算法對(duì)各候選詞進(jìn)行了權(quán)重標(biāo)注,建立了文本的向量空間模型。到的基矩陣和系數(shù)矩陣中得出文本聚類的結(jié)果以及每一類的。 非負(fù)矩陣分解是本系統(tǒng)工作中最為重要的部分,文本聚類結(jié)果以及聚類后均本實(shí)驗(yàn)的目的是,對(duì)本系統(tǒng)的部分即非負(fù)矩陣分解部分的效率進(jìn)行一個(gè)測試。主要測試不同數(shù)據(jù)量文本所生成的VSM進(jìn)行矩陣分解計(jì)算所需要的時(shí)間。出其文本內(nèi)容的VSM模型,作為非負(fù)矩陣分解的輸入進(jìn)行計(jì)算。以下為選取集合統(tǒng)計(jì)結(jié)果5.2輸入信息統(tǒng)計(jì)表12345675.5NMFNMF中的矩陣乘法等操作所消耗的時(shí)10萬以內(nèi)的文本,NMF處理的速度可以接受。由于每條文本在大量的候選詞中組的方式來候選詞—文本矩陣,后階段性能若要進(jìn)行提升,則應(yīng)考慮更改數(shù)據(jù)本章介紹了基于非負(fù)矩陣分解分類系統(tǒng)功能測試的過程和結(jié)果。5.1節(jié)主符合第三章所功能需求與性能需求。前對(duì)分類工作主要集中在對(duì)的歸屬領(lǐng)域的劃分(如經(jīng)濟(jì)、體育等,但在TF-IDF算法對(duì)各候選詞進(jìn)行了權(quán)重標(biāo)注,建立了文本的向量空間模型。第二,分類工作。完成對(duì)文本的聚類以及提取。對(duì)上一步得分析得出類別劃分以及描述每一類的組合。針對(duì)內(nèi)容的分析工作中若要使用,還需要進(jìn)行較多地改進(jìn)。的最后半年時(shí)間里安心地完成了。其次我需要感謝里的仁學(xué)長和贏學(xué)長,在畢設(shè)的過程中是他們在不然后我還要感謝同組的、、等同學(xué),是和我一起面對(duì)同一個(gè)項(xiàng)論是學(xué)習(xí)態(tài)度還是學(xué)習(xí)方法上都是我的榜樣,感謝四年以來的陪伴。也是讓我了解到北航師生務(wù)實(shí)求真的科研態(tài)度。生道,我相信我能更加獨(dú)立,走得更加平穩(wěn),我愛?;ヂ?lián)網(wǎng).2012-2013年發(fā)展[R].NLPIR漢語分詞系統(tǒng)[EB/OL].LeeD,SeungH.LearningthePartsofObjectsby-negativeMatrixFactorization[J].Nature,1999,401(6755):788-791.LeeD,SeungH.Algorithmsfor-negativeMatrixFactorization[C]//Proc.ofNeuralInformationProcessingSystemsConference.Vancouver,Canada:MITPress,2000:HuiHe,BoChen,WeiranXu,JunGuo.Shor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 初級(jí)銀行業(yè)法律法規(guī)與綜合能力-銀行專業(yè)初級(jí)《法律法規(guī)》??荚嚲?
- DB61T-農(nóng)產(chǎn)品區(qū)域公用品牌管理規(guī)范
- 初級(jí)公司信貸-初級(jí)銀行從業(yè)資格考試《公司信貸》點(diǎn)睛提分卷3
- 企業(yè)災(zāi)備體系的建立完善
- 入伍個(gè)人申請(qǐng)書
- 教師資格證考試《小學(xué)綜合素質(zhì)》真題及答案
- 2024-2025學(xué)年山東省濰坊市四縣市聯(lián)考高二上學(xué)期期中質(zhì)量監(jiān)測物理試題(解析版)
- 2024-2025學(xué)年八省T8高三上學(xué)期12月聯(lián)考物理試卷(解析版)
- 一建《建設(shè)工程項(xiàng)目管理》試題庫資料練習(xí)含【答案】卷46
- 2025屆重慶縉云教育聯(lián)盟高考第一次診斷性質(zhì)量檢測英語試題
- 華為認(rèn)證 HCIA-Security 安全 H12-711考試題庫(共800多題)
- 員工技能熟練度評(píng)價(jià)
- 部編新教材人教版七年級(jí)上冊歷史重要知識(shí)點(diǎn)歸納
- DB51∕T 2681-2020 預(yù)拌混凝土攪拌站廢水廢漿回收利用技術(shù)規(guī)程
- 重點(diǎn)時(shí)段及節(jié)假日前安全檢查表
- 道路標(biāo)線施工技術(shù)規(guī)程(已執(zhí)行)
- 給排水管道工程分項(xiàng)、分部、單位工程劃分
- 《傻子上學(xué)》臺(tái)詞
- 高中英語新課程標(biāo)準(zhǔn)解讀 (課堂PPT)
- 石灰石石膏濕法脫硫化學(xué)分析方案
- 《數(shù)學(xué)趣味活動(dòng)》PPT課件.ppt
評(píng)論
0/150
提交評(píng)論