![Carrot2聚類工具簡介_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/4/56edf82e-1444-4f29-bff4-767ebbbe14ca/56edf82e-1444-4f29-bff4-767ebbbe14ca1.gif)
![Carrot2聚類工具簡介_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/4/56edf82e-1444-4f29-bff4-767ebbbe14ca/56edf82e-1444-4f29-bff4-767ebbbe14ca2.gif)
![Carrot2聚類工具簡介_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/4/56edf82e-1444-4f29-bff4-767ebbbe14ca/56edf82e-1444-4f29-bff4-767ebbbe14ca3.gif)
![Carrot2聚類工具簡介_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/4/56edf82e-1444-4f29-bff4-767ebbbe14ca/56edf82e-1444-4f29-bff4-767ebbbe14ca4.gif)
![Carrot2聚類工具簡介_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/4/56edf82e-1444-4f29-bff4-767ebbbe14ca/56edf82e-1444-4f29-bff4-767ebbbe14ca5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1carrot2聚類工具簡介 2009.04.16 2contentsncarrot2體系結(jié)構(gòu)ncarrot2聚類算法qlingo & stcncarrot2 applicationsqwebapp & workbench & dcsncarrot2 source code下載與配置、運(yùn)行ncarrot2 core、attributen可用資源3carrot2簡介ncarrot2 is an open source search results clustering engine 。nauthor:dawid weiss &stanislaw osinski n
2、 波蘭人,波茲南大學(xué)n 研究方向:text clustering, information retrieval, web mining, computational linguistics and software engineering 4carrot2體系結(jié)構(gòu)ncarrot2是一個開源的基于搜索結(jié)果的聚類引擎 5lucene索引結(jié)果nlucene索引index由若干段(segment)組成,每一段由若干的文檔(document)組成,每一個文檔由若干的域(field)組成,每一個域由若干的項(xiàng)(term)組成。項(xiàng)是最小的索引概念單位,它直接代表了一個字符串以及其在文件中的位置、出現(xiàn)次數(shù)等信息
3、。域是一個關(guān)聯(lián)的元組,由一個域名和一個域值組成,域名是一個字串,域值是一個項(xiàng),比如將“標(biāo)題”和實(shí)際標(biāo)題的項(xiàng)組成的域。文檔是提取了某個文件中的所有信息之后的結(jié)果,這些組成了段,或者稱為一個子索引。子索引可以組合為索引,也可以合并為一個新的包含了所有合并項(xiàng)內(nèi)部元素的子索引。67carrot聚類算法nlingo:基于奇異值分解的索引結(jié)果聚類算法n首先確定可感知的類標(biāo)簽,然后將文件分配到類中qpreprocessing預(yù)處理nfiltering文本過濾、stemming提干、stopword去除停用詞qfrequent phrase extractionqcluster label induction
4、qcluster content discoveryqfinal cluster formation8carrot2聚類算法nstc(suffix tree clustering)后綴樹聚類算法,一種on-line聚類算法q(1)將文檔片段作為輸入而不是整篇文檔q(2)聚類算法必須足夠快速實(shí)現(xiàn)在線計算q(3)生成的類簇必須是終端用戶可讀的描述qstc將文檔作為字符串來處理,利用文檔間相似信息qstc是新穎的、增值的、o(n)時間復(fù)雜度qstc快速的為用戶總結(jié)出類簇內(nèi)容qstc處理小數(shù)據(jù)集,所以耗時較少9q后綴樹包含了一個或者多個字符串的所有后綴,空字符串也算是其中的一個后綴q例如:banana
5、后綴為:banana anana nana ana na a 空q一般來說后在字符串末尾加$特殊字符作為結(jié)束標(biāo)記q后綴樹:n有根節(jié)點(diǎn)的有序的樹n每個內(nèi)部節(jié)點(diǎn)至少有2個子節(jié)點(diǎn)n每條邊以s的非空子字符串做標(biāo)簽,節(jié)點(diǎn)的標(biāo)簽定義為從根節(jié)點(diǎn)到該節(jié)點(diǎn)路徑上的標(biāo)簽的串聯(lián)n同一節(jié)點(diǎn)出發(fā)的兩條路徑不可能以同一詞開始10example11nstc步驟:n一、文檔清洗qtagger stemmer 句子邊界界定 stop wordn二、標(biāo)識基礎(chǔ)類簇q(1)通過文本預(yù)處理將文檔表示為詞的序列,構(gòu)成后綴樹;q(2)利用后綴樹找到基類簇,至少被兩個文檔包含的短語稱為短語束,基類簇就是要找到最大短語束b,用來描述相關(guān)短語m
6、b和出現(xiàn)該短語的文檔db,并計算各個基類簇的值s(b);n三、合并基礎(chǔ)類簇q合并基類簇,為了避免出現(xiàn)非常類似的基類簇,可以設(shè)置一個閾值k( ) |* (|)*()is bbfbtf idf w|mnmbbkb|mnnbbkb12carrot2 applicationsnworkbench carrot2文檔聚類平臺,是一個獨(dú)立的gui程序,可以用來對一般搜索引擎數(shù)據(jù)或你自己的數(shù)據(jù)進(jìn)行聚類實(shí)驗(yàn)。ndcs carrot2文檔聚類服務(wù)器,將carrot2聚類作為rest服務(wù)呈現(xiàn)。nwebapp carrot2網(wǎng)絡(luò)應(yīng)用,可以將carrot2聚類作為終端用戶的網(wǎng)絡(luò)應(yīng)用呈現(xiàn)。13workbench聚類平臺
7、n下載carrot2-workbench-win32.win32.x86-3.1-dev.zip解壓,執(zhí)行carrot2-workbench.exen!problemq源碼運(yùn)行出錯q上次的問題,查詢lucene索引時沒有聚類結(jié)果,需要重啟workbenchq聚類效果不佳,類簇標(biāo)簽多是期刊號等非重要信息,前期預(yù)處理沒有過濾掉。1415webappn下載carrot2-webapp-3.0.warn將其放于tomcat的webapps文件夾下自動解壓n訪問http:/localhost:8080/carrot2-webapp-3.016webapp的lucene索引配置nwebapp的war包解壓
8、后,web-inf/classes/carrot2-defaultn修改suite-webapp.xmln添加lucene-attributes.xmln重新啟動tomcatn訪問http:/localhost:8080/carrot2-webapp-3.01718基于lucene索引的聚類結(jié)果19可視化效果圖20!problemnwar包解壓q英文可以聚類,中文無結(jié)果,分詞問題q沒有aduna map可視化效果n!查詢本地lucene索引時只能索引標(biāo)題出現(xiàn)的詞n源碼問題q聚類無結(jié)果21carrot2 source code下載ncarrot2是sourceforge(全球最大的開放源代碼軟件
9、開發(fā)平臺和倉庫)代理n步驟1:安裝svn工具。下載:http:/ ,安裝n建立源碼地址文件夾,右擊 svn checkout在url of repository輸入源碼網(wǎng)址svn url https:/ source code導(dǎo)入eclipsen打開eclipsenimportgeneralexsiting projects to workspace選擇carrot2源碼路徑n去除org.carrot2.antlib工程n執(zhí)行n若出錯說明沒有ant ?將carrot的lib下的jar包和core包放到classpath下23example: clusteringdatafromlucenen修
10、改屬性:n final string contentfieldname = content;nindexpath路徑(設(shè)置運(yùn)行時參數(shù))nindexpath=“your own lucene index path”;n查詢關(guān)鍵字:n final map processingattributes = new hashmap();nprocessingattributes.put(attributenames.query, 教育);24ncollected 27 documentsn 0 _電化教育研究_投稿須知n 1 對教育技術(shù)學(xué)科名稱及定位的反思n 2 從cssci看新世紀(jì)中國教育技術(shù)學(xué)學(xué)科地位
11、的變化n 3 邊遠(yuǎn)地區(qū)高校教育信息化建設(shè)與和諧發(fā)展的理性思考nncreated 16 clustersn電化教育研究 (16 documents)n 0 _電化教育研究_投稿須知n 2 從cssci看新世紀(jì)中國教育技術(shù)學(xué)學(xué)科地位的變化nn2008年第4期 總第180期 (3 documents)n 4 從歷史使命談教育技術(shù)的定位n 20 大學(xué)生信息素養(yǎng)培養(yǎng)模式及實(shí)施途徑研究n 23 cscl環(huán)境中基于對話學(xué)習(xí)理論的教學(xué)設(shè)計nattributes:nquery: 教育nresults-total: 27nprocessing-time-algorithm: 1091nprocessing-tim
12、e-source: 2253nlingoclusteringalgorithm.nativematrixused: falsenprocessing-time-total: 334425carrot2運(yùn)行nworkbenchqrunexternal toolsattribute metadata xmlqrunrun configuration 選擇eclipse applicationworkbenchnwebappqrunexternal toolsattribute metadata xmlqrunexternal toolsweb application setupqrunrun co
13、nfiguration26carrot2 coreqorg.carrot2.corendocument, cluster, processingresultqorg.carrot2.core.attributeninit (注釋類型), attributenames, processingqorg.carrot2.sourcensearchenginebase, searchengineresponse, simplesearchengineqorg.carrot2.source.lucenenlucenedocumentsource, fsdirectorywrapperqorg.carro
14、t2.clustering.lingonclusterbuilder, lingoclusteringalgorithm, lingoprocessingcontextqorg.carrot2.clustering.stcnorg.carrot2.text.suffixtree, org.carrot2.text.suffixtree2nbasecluster, phrase, stcclusteringalgorithm, stcclusteringparameters, stcengine, stctree27qorg.carrot2.text.analysisnextendedwhite
15、spaceanalyzer, extendedwhitespacetokenizer,qorg.carrot2.text.preprocessingntokenizer, phraseextractorqorg.carrot2.text.lingusticnlanguagecode, defaultlanguagemodelqorg.carrot2.text.preprocessing.filternclusterbuilder, lingoclusteringalgorithm, lingoprocessingcontextqorg.carrot2.text.utilnchararrayco
16、mparator, mutablechararrayqorg.carrot2.text.vsmnitremweighting, vectorspacemodelcontext, tftermweighting, lineartfidftermweighting, logtfidftermweighting, termdocumentmatrixbuilder28qorg.carrot2.matrixneigenvaluecaculator, matrixutils, nnidensedoublematrix2dqorg.carrot2.matrix.factorizationnkmeansma
17、trixfactorization, iterativematrixfactorizationqorg.carrot2.matrix.factorization.seedingnkmeansseedingstraegy, randomseedingstrategyqorg.carrot2.util.xmlqorg.carrot2.webappnwebapp.javaqorg.carrot2.workbench.corenapplication.java29可用資源n/index.html官方網(wǎng)站nhttp:/download.carrot2.o
18、rg/head/manual/index.html幫助n/forum.html論壇nreference參考文獻(xiàn)qcarrot2 and language properties in web search results clusteringqintroducing usability practices to oss: the insiders experienceqcarrot2: design of a flexible and efficient web information retrieval frameworkqan indexing and clustering architecture to support document retrieval in the main
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 輕型鋼架棚承攬合同范本
- 醫(yī)療器械委托生產(chǎn)協(xié)議正規(guī)
- 銷售人員薪資合同范本
- 臨時雇傭合同范本
- 2025年池州貨運(yùn)從業(yè)資格證考試題
- 工程造價咨詢協(xié)議書
- 的安全協(xié)議書年
- 安全生產(chǎn)及環(huán)境保護(hù)協(xié)議
- 電子商務(wù)貨物銷售合同
- 廣告牌租賃合同參考
- mil-std-1916抽樣標(biāo)準(zhǔn)(中文版)
- 城鄉(xiāng)環(huán)衛(wèi)一體化內(nèi)部管理制度
- 廣匯煤炭清潔煉化有限責(zé)任公司1000萬噸年煤炭分級提質(zhì)綜合利用項(xiàng)目變更環(huán)境影響報告書
- 小學(xué)數(shù)學(xué)六年級解方程練習(xí)300題及答案
- 大數(shù)據(jù)在化工行業(yè)中的應(yīng)用與創(chuàng)新
- 光伏十林業(yè)可行性報告
- 小學(xué)綜合實(shí)踐《我做環(huán)保宣傳員 保護(hù)環(huán)境人人有責(zé)》
- 鋼煤斗內(nèi)襯不銹鋼板施工工法
- 出國勞務(wù)派遣合同(專業(yè)版)電子版正規(guī)范本(通用版)
- 公路工程安全風(fēng)險辨識與防控手冊
- 供應(yīng)商評估報告范本
評論
0/150
提交評論