基于SVM的宋詞風(fēng)格分類的設(shè)計(jì)與開發(fā)_第1頁
基于SVM的宋詞風(fēng)格分類的設(shè)計(jì)與開發(fā)_第2頁
基于SVM的宋詞風(fēng)格分類的設(shè)計(jì)與開發(fā)_第3頁
基于SVM的宋詞風(fēng)格分類的設(shè)計(jì)與開發(fā)_第4頁
基于SVM的宋詞風(fēng)格分類的設(shè)計(jì)與開發(fā)_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

題目:基于SVM的詩詞風(fēng)格分類(自然語言處理結(jié)課論文)姓名: 學(xué)院: 系: 專業(yè): 年級: 學(xué)號: 2013年12月29日

[摘要]為了提高宋詞風(fēng)格劃分的準(zhǔn)確性,本文提出了基于SVM和協(xié)同學(xué)習(xí)的宋詞風(fēng)格自動(dòng)判定方法,在小規(guī)模人工標(biāo)注訓(xùn)練語料上,利用協(xié)同學(xué)習(xí)方法,在大規(guī)模未標(biāo)注全宋詞語料庫上進(jìn)行半監(jiān)督學(xué)習(xí),并訓(xùn)練得到風(fēng)格SVM分類器。在本文搭建的模型系統(tǒng)上進(jìn)行的實(shí)驗(yàn)表明,本文所提出的研究方法,初步解決了宋詞的風(fēng)格劃分,也為后繼的相關(guān)研究提供了理論依據(jù)和實(shí)驗(yàn)基礎(chǔ)。[關(guān)鍵詞]風(fēng)格劃分宋詞SVM分類

目錄第1章引言 -4-1.1研究背景及意義 -4-1.2計(jì)算詩學(xué)綜述 -4-1.3本文的工作和主要內(nèi)容 -5-第2章基于SVM的古詩場景時(shí)間判定 -6-2.1SVM概述 -6-2.2基于SVM的宋詞風(fēng)格判定 -6-2.3訓(xùn)練樣本的獲取 -7-2.3.1文本預(yù)處理 -7-2.3.2文本表示模型 -8-2.3.3特征選取 -8-2.3.4文本特征權(quán)重計(jì)算 -9-2.3.5訓(xùn)練集的標(biāo)注與構(gòu)建 -9-2.4SVM分類器的構(gòu)建 -10-2.4.1協(xié)同訓(xùn)練算法概述 -10-2.4.2基于協(xié)同訓(xùn)練算法的半監(jiān)督學(xué)習(xí) -11-2.5實(shí)驗(yàn)與結(jié)果分析 -11-2.5.1實(shí)驗(yàn)數(shù)據(jù) -11-2.5.2實(shí)驗(yàn)結(jié)果分析 -12-第3章總結(jié)與展望 -13-參考文獻(xiàn) -14-

第1章引言1.1研究背景及意義中國古典詩詞源遠(yuǎn)流長,博大精深,是中華民族文化藝術(shù)寶庫中的瑰寶。在信息化高度發(fā)展的今天,如何運(yùn)用新的技術(shù)形式來傳承、保護(hù)及開發(fā)中國古典詩詞,對于傳統(tǒng)文化的傳承與發(fā)展至關(guān)重要。其中的宋詞作為宋代文學(xué)的典范,贏得了眾多文人騷客的青睞,成為中國古代詩詞中的一顆璀璨的明珠。因此,通過對宋詞進(jìn)行研究進(jìn)而了解宋代文化一直是語言文學(xué)研究工作者的一個(gè)研究熱點(diǎn)。本文以宋詞為研究對象,研究宋詞風(fēng)格的計(jì)算機(jī)自動(dòng)分類。宋詞的分類研究,可以幫助讀者更好地把握整個(gè)詩歌的整體意境,了解詩歌的思想感情。1.2計(jì)算詩學(xué)綜述本設(shè)計(jì)所依托的理論研究基礎(chǔ)主要是計(jì)算詩學(xué)。廈門大學(xué)周昌樂教授在其著作《心腦計(jì)算舉要》中首次提出了計(jì)算詩學(xué)這一概念。所謂計(jì)算詩學(xué)[1],指的是采用計(jì)算思想、方法和技術(shù)等從事詩歌(推而廣之,也可以包括其他文學(xué)形式)的研究工作。廣義的計(jì)算詩學(xué),主要是對詩歌文本的各種規(guī)律的研究,例如詩歌機(jī)器分類、詩歌風(fēng)格的計(jì)算機(jī)輔助歸納、詩學(xué)知識的計(jì)算機(jī)輔助發(fā)現(xiàn)、詩歌創(chuàng)作的計(jì)算機(jī)輔助系統(tǒng)工作、詩歌用詞用語的統(tǒng)計(jì)、詩學(xué)語料庫、文獻(xiàn)庫等等。而狹義的計(jì)算詩學(xué),則主要是指使計(jì)算機(jī)系統(tǒng)具備詩歌理解、欣賞和創(chuàng)作的能力,如詩歌作品的計(jì)算機(jī)理解、計(jì)算機(jī)詩歌創(chuàng)作系統(tǒng)以及計(jì)算機(jī)歌曲創(chuàng)作系統(tǒng)等。由于詩歌語言的獨(dú)特復(fù)雜性,計(jì)算詩學(xué)是計(jì)算語言學(xué)研究領(lǐng)域中充滿挑戰(zhàn)的一個(gè)年輕的研究分支。就中國古典詩詞而言,自20世紀(jì)90年代后,北京大學(xué)計(jì)算語言學(xué)研究所、臺灣元智大學(xué)中國語文學(xué)系、重慶大學(xué)計(jì)算機(jī)學(xué)院以及廈門大學(xué)藝術(shù)認(rèn)知與計(jì)算實(shí)驗(yàn)室等不少學(xué)術(shù)機(jī)構(gòu)和學(xué)者陸續(xù)在詩歌語料庫及知識庫的建設(shè)[2-4]、韻律分析[5]、風(fēng)格分析[6-8]、情感分析[9]和詩歌自動(dòng)生成[10-13]等領(lǐng)域開展了漢語計(jì)算詩學(xué)的廣泛研究。北京大學(xué)計(jì)算語言學(xué)研究所與臺灣元智大學(xué)合作,在90年代后期開發(fā)了“古詩研究的計(jì)算機(jī)支持環(huán)境”模型系統(tǒng)[14],初步實(shí)現(xiàn)了超文本閱讀,全文檢索、關(guān)鍵詞檢索以及計(jì)算機(jī)語言學(xué)輔助研究等功能。其隨后開發(fā)的“宋代名家詩自動(dòng)注音系統(tǒng)”將基于統(tǒng)計(jì)的語言模型與宋詞的音韻特點(diǎn)相結(jié)合,采用條件概率策略、互信息策略以及規(guī)則策略三種多音字自動(dòng)注音策略,實(shí)現(xiàn)宋詞的自動(dòng)注音[2]。重慶大學(xué)計(jì)算機(jī)學(xué)院的易勇博士在其論文“計(jì)算機(jī)輔助詩詞創(chuàng)作中的風(fēng)格辨析及聯(lián)語應(yīng)對研究”[15]中,對詩詞采用向量空間模型表示,并用基于機(jī)器學(xué)習(xí)中的Na?veBayes等方法,首次提出了古典詩詞的豪放婉約風(fēng)格判析計(jì)算模型,并利遺傳算法等方法對模型進(jìn)行改進(jìn),取得了較好的判定效果。北京大學(xué)計(jì)算語言學(xué)研究所運(yùn)用語言學(xué)的手段對古詩詞進(jìn)行研究,相供的研究成果能夠?qū)旁娫~、古漢語領(lǐng)域的研究提供有益的幫助。在胡俊峰博士的論文“基于詞匯語義分析的唐宋詩計(jì)算機(jī)輔助深層研究”[16]中,將計(jì)算語言學(xué)的技術(shù)根據(jù)古詩詞的特點(diǎn)加以改造,取得了有益的成果。其系統(tǒng)提取積累了有關(guān)中國古詩詞的語料及語言信息知識庫,也為今后的古詩詞、古漢語相關(guān)領(lǐng)域的研究奠定了良好的基礎(chǔ)。廈門大學(xué)自2001年以來,在周昌樂教授帶領(lǐng)下開始中國古典詩詞計(jì)算化的研究工作,主要開展?jié)h語隱喻分析與理解研究、詩詞計(jì)算分析與創(chuàng)作研究以及詩歌機(jī)器翻譯系統(tǒng)的開發(fā)等,并取得了不少科研成果,其中,周昌樂教授2010年在《軟件學(xué)報(bào)》第3期發(fā)表的“一種宋詞自動(dòng)生成的遺傳算法及其機(jī)器實(shí)現(xiàn)”[17]一文,在國內(nèi)學(xué)術(shù)界具有比較大的影響,并引起了網(wǎng)民的廣泛關(guān)注。1.3本文的工作和主要內(nèi)容中國古典詩歌有著極高的文學(xué)造詣,在漢語言文化的成長、演變與傳播中占有著極重要的地位。詩歌作為一種用高度凝結(jié)的語言表達(dá)豐富含義的特殊文體,是人類智慧在語言乃至思維層面的一個(gè)閃光點(diǎn)。本文結(jié)合了計(jì)算詩學(xué)領(lǐng)域相關(guān)研究成果對宋詞的風(fēng)格劃分進(jìn)行研究。主要研究內(nèi)容涉及宋詞特征的選取、協(xié)同訓(xùn)練的研究、宋詞的風(fēng)格判定。我們的最終目標(biāo)是希望通過本文的研究,構(gòu)建一個(gè)較完善的計(jì)算模型和系統(tǒng),實(shí)現(xiàn)基于SVM的宋詞風(fēng)格劃分。第2章基于SVM的古詩場景時(shí)間判定2.1SVM概述SVM(SupportVectormachine,支持向量機(jī))[18]是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)之上發(fā)展起來的一種全新的機(jī)器學(xué)習(xí)算法。它適合大樣本分類,特別是文本分類。SVM基于統(tǒng)計(jì)學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,將原始數(shù)據(jù)集合壓縮到支持向量集合,然后用子集學(xué)習(xí)得到新的知識,同時(shí)給出了支持向量決定的規(guī)則。將最大化分類間隔的思想和基于核的方法結(jié)合在一起,表現(xiàn)出很好的泛化能力。由于SVM方法有統(tǒng)計(jì)學(xué)習(xí)理論作為其堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),并且可以很好地克服“維數(shù)災(zāi)難”和“過擬合”等傳統(tǒng)算法不可避免的問題,所以受到越來越多的研究人員的關(guān)注[19]。2.2基于SVM的宋詞風(fēng)格判定文本分類的歷史可以追溯到20實(shí)際60年代,直到90年代結(jié)合互聯(lián)網(wǎng)應(yīng)用后得到了廣泛的研究和應(yīng)用。隨著信息技術(shù)的不斷發(fā)展,文本信息量的急劇增加,人們開始研究基于機(jī)器學(xué)習(xí)的文本分類方法。通過機(jī)器學(xué)習(xí),文本分類不再需要過多人工參與,其準(zhǔn)確性和穩(wěn)定性也具有明顯的優(yōu)勢。基于機(jī)器學(xué)習(xí)的文本分類系統(tǒng)主要包括文本預(yù)處理、文本特征的表示、分類器訓(xùn)練、分類器分類和分類評估,大致流程如下圖所示。文本預(yù)處理訓(xùn)練文本文本預(yù)處理訓(xùn)練文本測試文本特征選取特征權(quán)值計(jì)算特征權(quán)值計(jì)算分類器訓(xùn)練分類器分類評估人工分類結(jié)果分類器評判結(jié)果訓(xùn)練過程文本測試過程圖1基于機(jī)器學(xué)習(xí)的文本分類系統(tǒng)框圖本文結(jié)合了相關(guān)文獻(xiàn)及語料庫的分析,將宋詞的風(fēng)格判定看作是兩個(gè)文本分類問題,提取每一單句中的相關(guān)句法語義信息為特征,在相關(guān)宋詞詞典的基礎(chǔ)上人工加工的小規(guī)模帶標(biāo)注的訓(xùn)練語料,采用半監(jiān)督學(xué)習(xí)方法中的協(xié)同訓(xùn)練法,在大規(guī)模的不帶標(biāo)注的《全詩詞》語料庫上進(jìn)行半監(jiān)督學(xué)習(xí),訓(xùn)練得到風(fēng)格判定的SVM分類器,并對分類器的性能進(jìn)行了測試和分析。2.3訓(xùn)練樣本的獲取2.3.1文本預(yù)處理文本預(yù)處理作為文本分類的第一個(gè)環(huán)節(jié),有著十分重要的作用。對于文本的預(yù)處理,主要的目的在于減少文本噪聲,改善文本質(zhì)量,同時(shí)對文本進(jìn)行適當(dāng)?shù)恼Z義處理,為后續(xù)工作做好鋪墊。本文中文本預(yù)處理過程主要是對古詩進(jìn)行分詞。這里所使用的分詞工具是史曉東教授開發(fā)的專門針對古詩詞訓(xùn)練的分詞標(biāo)注工具segtag。用此分詞工具,本文對《全宋詞》語料庫中2萬多首宋詞進(jìn)行分詞標(biāo)注。2.3.2文本表示模型自然語言形式的文本結(jié)構(gòu)非常復(fù)雜,并不適合計(jì)算機(jī)處理。因而在分類前有必要將文本化成一個(gè)數(shù)學(xué)模型,該模型要能夠盡量反映出文本內(nèi)容,同時(shí)還要有對不同文本的區(qū)分能力。由此引入了文本表示模型的概念,即以一定的的文本特征的組合來表示文本,將非結(jié)構(gòu)化的文本表示為結(jié)構(gòu)化的模型。常用的模型有向量空間模型(VectotSpaceModel)、布爾模型(BooleanModel)和概率模型(ProbabilisticModel)三種。其中向量空間模型是當(dāng)前應(yīng)用最為廣泛的文本表示模型[20],因此本文采取的文本表示模型為向量空間模型。向量空間模型最初由Salton等人在20世紀(jì)60年代提出,并在著名的SMART系統(tǒng)中得到應(yīng)用[21]。其主要思想是將每篇文檔映射到一組規(guī)范正交化特征向量張成的向量空間中的一個(gè)點(diǎn),其形式化表示為文本,其中tij表示文檔di的第j個(gè)特征,wij標(biāo)識該特征的權(quán)重,反映特征項(xiàng)tij對表示文檔di的重要程度,簡記為。當(dāng)所有文本都映射到向量空間中,文本間的相似程度可轉(zhuǎn)為向量間的距離度量,常用的方法為計(jì)算向量間夾角的余弦(式1)。(式1)2.3.3特征選取本文在建模過程中,選擇詞作為文本的特征項(xiàng)。所謂特征選取,其實(shí)就是一個(gè)維數(shù)壓縮的過程。如果將語料庫中所有出現(xiàn)的詞都作為特征,會使形成的空間向量維數(shù)過于復(fù)雜,而且對于不相關(guān)的特征的引入,有可能會影響之后訓(xùn)練的效果。因此,在前期的特征提取中,本文只選用了含義具體的名詞(\n)以及反映時(shí)間信息的時(shí)間詞(\t)作為訓(xùn)練集的特征,從而大大減少了特征空間維數(shù)。2.3.4文本特征權(quán)重計(jì)算通過特征選取,我們已經(jīng)獲取了最能表示文本的特征項(xiàng)集合,但是這些特征項(xiàng)對于文本的重要程度各不相同,有些區(qū)分類別的能力較強(qiáng),有的則很弱。因此需要對特征進(jìn)行加權(quán),對于區(qū)分類別能力較大的特征項(xiàng)賦予較大的權(quán)重。常用的特征加權(quán)方法有很多,本文采用現(xiàn)今信息檢索與文本挖掘領(lǐng)域最為常用的詞頻-逆向文件頻率(TF-IDF)。這種方法考慮了特征項(xiàng)在文檔中的重要程度和整個(gè)文檔集中的區(qū)分能力。特征項(xiàng)ti在文檔dj中的TF-IDF權(quán)重計(jì)算見式2。(式2)其中TFij表示特征項(xiàng)ti在文檔dj中的詞頻,IDFi表示特征項(xiàng)ti在所有文檔D中的逆向文件頻率。nij表示ti在dj中出現(xiàn)的次數(shù),nij的值越大,TFij越大;|D|表示所有文檔的總數(shù),表示出現(xiàn)過ti的文檔數(shù)量,特征項(xiàng)ti在文檔集中出現(xiàn)的越頻繁,對于的IDFi越低。在本文的研究中,dj表示古詩的單句。由此可知TF-IDF權(quán)重傾向選擇在特定文檔里出現(xiàn)頻率高,在整個(gè)文檔集出現(xiàn)頻率較低的特征項(xiàng)。利用這一方法,能夠排除一些常用詞所帶來的影響。2.3.5訓(xùn)練集的標(biāo)注與構(gòu)建考慮到宋詞中的風(fēng)格一般分為豪放和婉約兩類,所以在SVM訓(xùn)練集的標(biāo)注的過程中也分為以上兩類。本文選擇《全宋詞》語料庫中的一部分古詩的單句,在《宋詞鑒賞辭典》及相關(guān)詩詞網(wǎng)站的基礎(chǔ)上對其人工加工得到小規(guī)模帶標(biāo)注的文本訓(xùn)練語料。人工標(biāo)注類別時(shí)由于語料庫的數(shù)據(jù)較多,逐句人工判定標(biāo)注的方法費(fèi)時(shí)費(fèi)力。因此,本文研究過程中,利用相關(guān)詩詞網(wǎng)站中所提供的豪放與婉約分類下的宋詞,將語料庫中的宋詞進(jìn)行風(fēng)格標(biāo)注。通過上述方法,我們得到小規(guī)模帶標(biāo)注的語料,并在其基礎(chǔ)上根據(jù)上述文本預(yù)處理、表示模型和特征選取以及權(quán)重計(jì)算等方法,最終獲得宋詞風(fēng)格判定初始的SVM訓(xùn)練集。2.4SVM分類器的構(gòu)建本設(shè)計(jì)的SVM訓(xùn)練采用的是目前比較流行的SVM工具LIBSVM,并利用協(xié)同訓(xùn)練方法,在大規(guī)模的不帶標(biāo)注的《全宋詞》語料庫上進(jìn)行半監(jiān)督學(xué)習(xí),分別訓(xùn)練得到風(fēng)格判定的SVM分類器。2.4.1協(xié)同訓(xùn)練算法概述協(xié)同訓(xùn)練算法(Co-TrainingAlgorithm)是半監(jiān)督學(xué)習(xí)算法的一種,它由A.Blum和T.Mitchell在1998年提出。協(xié)同訓(xùn)練隱含利用聚類假設(shè)和流行假設(shè),使用兩個(gè)或多個(gè)分類器,挑選標(biāo)注未標(biāo)注樣本進(jìn)行相互標(biāo)注學(xué)習(xí),從而不斷更新訓(xùn)練樣本集和學(xué)習(xí)模型。之后又有很多研究者對協(xié)同訓(xùn)練進(jìn)行了研究和分析,取得了很大進(jìn)展,使協(xié)同訓(xùn)練成為半監(jiān)督學(xué)習(xí)中非常重要的方面和成果。A.Blum和T.Mitchell對標(biāo)準(zhǔn)的協(xié)同訓(xùn)練算法提出了三個(gè)基本假設(shè):(1)屬性集可以被劃分為兩個(gè)集合;(2)每一個(gè)屬性集的子集都足以訓(xùn)練一個(gè)分類器;(3)在給定類標(biāo)記情況下,兩個(gè)屬性集是相互獨(dú)立的。其中每個(gè)屬性集構(gòu)成一個(gè)視圖,滿足上述假設(shè)的視圖稱為充分冗余的視圖。但是這一的前提條件比較苛刻,真實(shí)的數(shù)據(jù)中,滿足充分冗余的要求往往很難達(dá)到。因此Z.H.Zhou和M.Li在2005年提出了Tri-training的算法[22],使用三個(gè)分類器,如果兩個(gè)分類器分類結(jié)果一致,那么就將該未標(biāo)記樣本加入到已標(biāo)記的樣本中去。其算法流程如下圖所示:算法:Tri-training輸入:未標(biāo)記樣本集U,已標(biāo)記樣本集L,某種分類算法K輸出:協(xié)同學(xué)習(xí)后得到的帶標(biāo)注樣本new_L迭代:隨機(jī)抽取樣本L,分成3份,得到3個(gè)訓(xùn)練集L1,L2,L3,分別用于同一種學(xué)習(xí)算法訓(xùn)練出分類器C1,C2,C3。對于任意一個(gè)由算法K訓(xùn)練出的分類器Ci維護(hù)其對立訓(xùn)練集Li,將滿足的樣本加入到Li中,遍歷U后,得到更新后的Li’,對于每個(gè)Ci,若,則對Ci利用新的訓(xùn)練集Li’重新訓(xùn)練,得到新的分類器Ci’對于每個(gè)Ci,若不滿足Ci=Ci’,繼續(xù)迭代終止條件:3個(gè)分類器都不再更新將3個(gè)訓(xùn)練器的訓(xùn)練集合并后得到new_L圖2Tri-Training算法過程2.4.2基于協(xié)同訓(xùn)練算法的半監(jiān)督學(xué)習(xí)本文基于傳統(tǒng)的協(xié)同訓(xùn)練算法思想,選擇人工標(biāo)注的語料庫作為初始樣本集,采用協(xié)同訓(xùn)練中的Tri-training算法,在大量未標(biāo)注的樣本集上進(jìn)行半監(jiān)督學(xué)習(xí)。本文所采用的基于協(xié)同訓(xùn)練算法的半監(jiān)督學(xué)習(xí)步驟如下圖3所示。實(shí)驗(yàn)中已標(biāo)記樣本集L為1.3節(jié)中人工標(biāo)注的數(shù)據(jù)集,未標(biāo)注的樣本集U選擇《全宋詞》數(shù)據(jù)庫中大量未標(biāo)注的宋詞生語料,分類算法K選擇目前常用的支持向量機(jī)的算法SVM。通過上述協(xié)同訓(xùn)練的方法,訓(xùn)練得到大量準(zhǔn)確且已標(biāo)注的SVM訓(xùn)練樣本集。2.5實(shí)驗(yàn)與結(jié)果分析2.5.1實(shí)驗(yàn)數(shù)據(jù)本文以上節(jié)基于協(xié)同學(xué)習(xí)得到的大規(guī)模帶標(biāo)注的樣本集作為實(shí)驗(yàn)數(shù)據(jù),將其按2:1的比例分為訓(xùn)練集與測試集兩部分,分別訓(xùn)練得到風(fēng)格SVM分類器。整理得到季節(jié)和晝夜兩個(gè)分類器所需的訓(xùn)練集與測試集數(shù)據(jù)如下表所示。表1風(fēng)格SVM分類器實(shí)驗(yàn)數(shù)據(jù)介紹類別豪放婉約訓(xùn)練集340420測試集1712102.5.2實(shí)驗(yàn)結(jié)果分析對于分類器的評價(jià)指標(biāo)有準(zhǔn)確率(Precision,亦稱查對率)和查全率(Recall,亦稱召回率)。分類器在類別上的準(zhǔn)確率(Precision)定義如下:(式3)同樣的,分類器在類別上的查全率(Recall)定義如下:(式4)其中a表示測試文檔集中本來屬于類別而且被分類器分到類別的文檔數(shù),b表示測試文檔集中本來不屬于類別而且被分類器錯(cuò)誤分到類別的文檔數(shù),c表示測試文檔集中本來屬于類別而且被分類器錯(cuò)誤分到其他類別的文檔數(shù)[29]。整個(gè)實(shí)驗(yàn)過程分為訓(xùn)練階段和測試階段,訓(xùn)練階段我們將季節(jié)與晝夜兩個(gè)分類實(shí)驗(yàn)中的訓(xùn)練集整理,利用SVM分類算法構(gòu)造出季節(jié)分類器和晝夜分類器,并對兩個(gè)分類器分別進(jìn)行封閉測試和開放測試,結(jié)果如下表所示。表2風(fēng)格分類器測試結(jié)果類別封閉測試開放測試準(zhǔn)確率查全率準(zhǔn)確率查全率豪放100%100%82.14%81.18%婉約100%100%84.16%85.00%平均指標(biāo)100%100%83.15%83.09%圖3風(fēng)格分類器測試結(jié)果從上述結(jié)果看,季節(jié)分類器在開放測試和封閉測試中,準(zhǔn)確率與查全率都比較理想,開放測試結(jié)果的準(zhǔn)確率與查全率都在80%以上。對風(fēng)格分類器的測試結(jié)果表明SVM分類器可以較好地完成了對宋詞的分類要求,達(dá)到了預(yù)期的效果第3章總結(jié)與展望古典詩詞作為中華民族文化藝術(shù)寶庫中的瑰寶,對它的研究具有重要而深遠(yuǎn)的意義。本文主要著眼于對宋詞風(fēng)格的判定,采用專門針對古文的分詞工具以及結(jié)合相關(guān)研究基礎(chǔ),人工加工了小規(guī)模帶標(biāo)注的語料,并利用協(xié)同訓(xùn)練,在全宋詞大規(guī)模不帶標(biāo)注的語料上進(jìn)行半監(jiān)督學(xué)習(xí),分別建立的對宋詞風(fēng)格(豪放與婉約)判定的SVM分類器。本文構(gòu)建的實(shí)驗(yàn)系統(tǒng)采用全過程計(jì)算機(jī)自動(dòng)執(zhí)行方法,用戶只需要輸入宋詞,確認(rèn)后,從分詞開始到最后輸出場景劃分結(jié)果每一步都由計(jì)算機(jī)自動(dòng)完成,無需人工參與。系統(tǒng)測試結(jié)果表明,該系統(tǒng)可以較合理地完成宋詞風(fēng)格的判定過程,且全過程運(yùn)行速度快,基本達(dá)到了預(yù)期的效果。今后待于進(jìn)一步開展的主要研究工作有以下方面:(1)當(dāng)前的研究用于訓(xùn)練模型的語料庫較少,分類的方法也僅僅局限于支持向量機(jī)。在后繼的研究中,一方面要適當(dāng)?shù)財(cái)U(kuò)大訓(xùn)練語料庫,一方面也可以嘗試?yán)枚喾N分類方法綜合地應(yīng)用于宋詞的風(fēng)格分類,從而提高分類的準(zhǔn)確性。(2)關(guān)于宋詞熟語料庫和相關(guān)知識庫的建立有待于進(jìn)一步完善,目前對于宋詞的分類,主要基于分詞的結(jié)果在風(fēng)格(豪放與婉約)方面展開,對于詩歌的主題方面的研究較少,為了使系統(tǒng)具有更強(qiáng)的實(shí)用性,有必要編撰相關(guān)宋詞語義詞典。參考文獻(xiàn)[1]周昌樂.心腦計(jì)算[M].清華大學(xué)出版社.2003:195-203[2]穗志方、俞士汶、羅鳳珠.宋代名家詩自動(dòng)注音研究及系統(tǒng)實(shí)現(xiàn)[J].中文信息學(xué)報(bào).1998(2)[3]俞士汶、胡俊峰.唐宋詩之詞匯自動(dòng)分析及應(yīng)用[J].臺灣中研院第3屆漢學(xué)會議(2000).LanguageandLinguistics.2003-4(3):631~647[4]蘇勁松、周昌樂、李翼鴻.基于統(tǒng)計(jì)抽詞和格律的全宋詞切分語料庫建立[J].中文信息學(xué)報(bào),2007(2)[5]羅鳳珠、李元萍.中國古代詩詞格律自動(dòng)檢索與教學(xué)系統(tǒng)[J].中文信息學(xué)報(bào),1999(1)[6]YiYong、HeZhongshi、LiLiangyan.AdvancedstudiesontraditionalChinesepoetrystyleidentification[J].ICMLC05.2005[7]ZhongshiHe、WentingLiang、LiangyanLi、YufangTian.SVM-Basedclassificationmethodforpoetrystyle[J].ProceedingsofthesixthInternationalConferenceonMachineLearningandCybernetics.HongKong.19-22August2007(I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論