對(duì)科技論文的分類研究

上傳人：灰*** IP屬地：寧夏上傳時(shí)間：2021-11-03 格式：PPT 頁(yè)數(shù)：19 大小：179KB 積分：10.8 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩14頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、對(duì)科技論文的數(shù)字文檔的自動(dòng)分對(duì)科技論文的數(shù)字文檔的自動(dòng)分類研究類研究山東大學(xué)計(jì)算機(jī)學(xué)院引言文本自動(dòng)分類傳統(tǒng)的論文分類法對(duì)普通的文獻(xiàn)進(jìn)行分類時(shí)準(zhǔn)確率為78%左右, 但是利用它對(duì)計(jì)算機(jī)和自動(dòng)化類的科技文獻(xiàn)按照中圖分類法進(jìn)行分類時(shí)準(zhǔn)確率僅為56 %左右。背景介紹傳統(tǒng)的論文分類方法傳統(tǒng)的論文分類方法由于傳統(tǒng)的算法不適用于處理文本信息這種非結(jié)構(gòu)的數(shù)據(jù)，因此必須將其進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換。近年來應(yīng)用較多的是向量空間模型(vector space model，vsm)。計(jì)算權(quán)值的方法有多種：詞頻統(tǒng)計(jì)法、詞頻逆文本頻率(tfidf)、widf算法、shannon信息熵等.。在對(duì)文本進(jìn)行向量化后，利用學(xué)

2、習(xí)算法對(duì)文本向量進(jìn)行學(xué)習(xí)，以得到分類器（knn，svm，n-bayes）。我們的工作我們注意到科技論文是一種半結(jié)構(gòu)化文擋，可以把論文的標(biāo)題、關(guān)鍵詞集合和摘要看作為論文的元數(shù)據(jù)，因?yàn)樗鼈兙?jiǎn)地反映了文章的核心內(nèi)容，本文介紹了利用元數(shù)據(jù)單獨(dú)分類的效果和利用元數(shù)據(jù)和分類法相結(jié)合的多層分類法。和單純地使用支持向量機(jī)相比，本方法在分類精度和效率上均優(yōu)于前者。準(zhǔn)備工作準(zhǔn)備工作實(shí)驗(yàn)：我們考慮比較用文本全文信息與僅用科技論文的標(biāo)題、關(guān)鍵詞和摘要部分作為測(cè)試集進(jìn)行分類的差異。我們從搜集的文獻(xiàn)中隨機(jī)地抽出中圖法分類號(hào)為tp391、tp392、tp393、tp399的文獻(xiàn)：416篇作為測(cè)試集，500篇作為訓(xùn)練

3、集。得到分類結(jié)果如下：結(jié)論1：僅僅根據(jù)標(biāo)題、關(guān)鍵詞、摘要信息進(jìn)行分類其分類精度是略低于依靠文本全文信息進(jìn)行分類的，有些類別的分類要明顯好于其他類別. 原因1：1)因?yàn)闃?biāo)題、關(guān)鍵詞和摘要信息中的特征項(xiàng)遠(yuǎn)遠(yuǎn)少于全文文本信息中的特征項(xiàng)；2)普通的分詞軟件對(duì)包含了較多專用名詞的科技文獻(xiàn)進(jìn)行分詞時(shí)的效果不太好；3)比較重要的一點(diǎn)是科技文獻(xiàn)的某個(gè)類(特別是較細(xì)的類)的各個(gè)子類的文本中存在很多交叉的詞項(xiàng)(詞或短語(yǔ))，易造成混亂。改進(jìn)實(shí)驗(yàn)改進(jìn)實(shí)驗(yàn)改進(jìn)實(shí)驗(yàn)：，首先將文本類別擴(kuò)展到中圖法分類號(hào)為tp31、tp37、tp39、tp3x，然后相同程度的擴(kuò)展測(cè)試集與訓(xùn)練集。測(cè)試集計(jì) 算機(jī) 軟件（tp31）多媒

4、體技術(shù)（tp37）計(jì) 算機(jī) 應(yīng) 用(tp39)其他（tp3x）信息處理(tp391)各專用數(shù) 據(jù) 庫(kù)(tp392)計(jì)算機(jī)網(wǎng)絡(luò)(tp393)其他應(yīng)用(tp399) 得到分類結(jié)果如下：結(jié)論2:在較高一層的類別分類中,無論是使用文本全文信息分類還是僅僅利用標(biāo)題、關(guān)鍵詞、摘要信息進(jìn)行分類其分類結(jié)果都有極大的提高,而利用標(biāo)題、關(guān)鍵詞、摘要信息進(jìn)行分類的分類精度(查準(zhǔn)率與查全率)也接近甚至在個(gè)別類別超過了使用文本全文信息進(jìn)行分類的結(jié)果。原因2：（1）較高一層的類別中存在較少的交叉子項(xiàng)，不容易造成混亂。（2）標(biāo)題、關(guān)鍵詞、摘要信息中存在較少的噪聲，并且為高層的類別提供了足夠的分類信息。我

5、們的想法將待分類的文本進(jìn)行粗分類，然后再對(duì)粗分類的結(jié)果進(jìn)行細(xì)分類，其中，在進(jìn)行粗分類的時(shí)候僅僅依靠其標(biāo)題、關(guān)鍵詞、摘要信息內(nèi)容，而在細(xì)分類的時(shí)候再采用文本全文信息進(jìn)行分類，并在每一步分類中采用各自的學(xué)習(xí)算法和相應(yīng)參數(shù)進(jìn)行學(xué)習(xí)。我們的想法我們的想法基于層次的科技論文分類模型實(shí)驗(yàn)與評(píng)測(cè)實(shí)驗(yàn)與評(píng)測(cè) 樣本的選取-科技論文文本數(shù)據(jù)庫(kù)的建立. 我們分別使用k-nn與svm兩種經(jīng)典分類方法對(duì)科技論文進(jìn)行了分類，再使用基于層次的分類模型對(duì)相同測(cè)試集進(jìn)行了分類，得到結(jié)果如下：實(shí)驗(yàn)與評(píng)測(cè)實(shí)驗(yàn)與評(píng)測(cè)svm實(shí)驗(yàn)與評(píng)測(cè)實(shí)驗(yàn)與評(píng)測(cè) knn實(shí)驗(yàn)與評(píng)測(cè)實(shí)驗(yàn)與評(píng)測(cè) 基于層次的分類模型實(shí)驗(yàn)與評(píng)測(cè)實(shí)驗(yàn)與評(píng)測(cè) 綜合的比較：結(jié)

6、論互聯(lián)網(wǎng)和科學(xué)研究的高速發(fā)展迫切需要對(duì)科技類文本進(jìn)行精確而有效的分類。傳統(tǒng)的科技文獻(xiàn)分類方法無法對(duì)處于類邊緣的論文進(jìn)行準(zhǔn)確地分類。本文提出一種基于層次的科技論文的分類模型，并通過實(shí)驗(yàn)證明，該方法是一種行之有效的提高文本分類的精度與效率的途徑。未來的工作包括：在現(xiàn)有基礎(chǔ)上，考慮增加參考文獻(xiàn)的信息以提高對(duì)分類的精度，該模型在不同性質(zhì)類別（如基于大量文本內(nèi)容的文學(xué)類別和基于大量字符、公式的數(shù)學(xué)類別等）分類中的應(yīng)用等等。參考文獻(xiàn)參考文獻(xiàn)：1 中國(guó)圖書館分類法編輯委員會(huì)中國(guó)圖書館分類法使用手冊(cè)m第4版北京：北京圖書館出版社，19992 j gary auguston j，jack minkeran

7、analysis of some graphtheoretical cluster techniquesjjacm，1970，17(4)：571 5883 y yang ， xin liu a re-examination of text categorization methods， proceedings of acm sigir conference on research and development in information retrieval(sigir)，1999：42494 masao fuketa，sangkon lee，takako tsuji et a1a document classification method by using field association wordsjinformation sciences，2000：126(14)：57-705 marie-francine moens，jos dumortiertext categorization：the assignment of subject descriptors to magazine articlesjinformation process

人人文庫(kù)> 全部分類> 生活休閑 > 科普知識(shí)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

對(duì)科技論文的分類研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

對(duì)科技論文的分類研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔