版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、本文檔下載自HYPERLINK /文檔下載網(wǎng),內(nèi)容可能不完整,您可以點擊以下網(wǎng)址繼續(xù)閱讀或下載:HYPERLINK /doc/29cf0ec7c296011f0ce488d5/doc/29cf0ec7c296011f0ce488d5一種新的復(fù)合核函數(shù)及在問句檢索中的應(yīng)用第33卷第1期 電 子 與 信 息 學(xué) 報 Vol.33No.1 2011年1月 Journal of Electronics & Information Technology Jan. 2011一種新的復(fù)合核函數(shù)及在問句檢索中的應(yīng)用王 君* 李舟軍 胡 俠 胡必云(北京航空航天大學(xué)計算機學(xué)院 北京 100191)(新加坡國立大
2、學(xué)計算機學(xué)院 新加坡 117590)摘 要:問句檢索在問答系統(tǒng)中有著重要的作用,其核心問題在于研究查詢問句與候選問句之間的相似性計算問題,實現(xiàn)問句之間的高精度匹配。該文采用樹核函數(shù)的方法計算問句之間的結(jié)構(gòu)相似性,并針對原有算法的不足,做了相應(yīng)的改進。為降低句法解析器性能對樹核函數(shù)的影響,該文在改進的樹核函數(shù)基礎(chǔ)上,將其與字符串核結(jié)合,提出了一種能同時融合問句的句法信息,詞性信息和詞序信息的復(fù)合核函數(shù),用以計算問句之間的綜合語義相似性。在社區(qū)問答系統(tǒng)Yahoo!Answer的數(shù)據(jù)上進行測試,相對傳統(tǒng)的基于詞頻的特征向量法,問句檢索平均準(zhǔn)確率提高了24.02%。關(guān)鍵詞:信息檢索;問答系統(tǒng);問句檢索
3、;復(fù)合核函數(shù)中圖分類號:TP391 文獻標(biāo)識碼: A 文章編號:1009-5896(2011)01-0129-07 DOI: 10.3724/SP.J.1146.2010.00268Novel Composite Kernel and Application to Question RetrievalJun Li Zhou-jun Hu Xia Hu Bi-yun(Sch/doc/29cf0ec7c296011f0ce488d5ool of Computer Science and Engineering, Beihang University, Beijing 100191, China)(
4、 School of Computing, National University of Singapore, Singapore 117590): Question retrieval plays important role in question and answering systems. The main problem is how to measure the similarity between candidate questions and query question. This paper presents a tree kernel based method, name
5、d weighted tree kernel, to calculate the similarity of sentences structures and proposes improvements to the original tree kernel algorithm. In order to reduce the effect on tree kernel bringing by syntactic parsing, a composite kernel is proposed based on the weighted tree kernel and two other stri
6、ng kernels, which can capture syntax, part-of-speech and lexical level information of a sentence, to calculate the semantic similarity between question sentences. Experimental results on Yahoo!Answers dataset show that the p/doc/29cf0ec7c296011f0ce488d5roposed method outperforms traditional vector s
7、pace model based methods by 24.02% in question retrieval accuacry.words: Information retrieval; Question answering system; Question retrieval; Composite kernel 引言問答系統(tǒng)是一種自然語言檢索,也稱作問答式信息檢索。它既能夠讓用戶用自然語言句子提問,又能夠為用戶返回一個簡潔、準(zhǔn)確的答案,而不是一些相關(guān)的網(wǎng)頁??紤]到自然語言理解技術(shù)的難度和魯棒性,問答系統(tǒng)從研究初期就提出并開展了基于問答對的技術(shù)路線的研究,即從問答對庫中檢索出于用戶問題最為
8、相似的問答對并把答案部分直接反饋給用戶的技術(shù)路線。(Frequent Ask Questions,F(xiàn)AQ)頁面是早期獲取問答對的主要來源。2010-03-23收到,2010-07-05改回國家973規(guī)劃項目( 2007CB310803)資助課題 *通信作者:王君 wangjun07061491是第1個此技術(shù)路線下實現(xiàn)的較大規(guī)模的自動問答系統(tǒng)。近年來,隨著社區(qū)問答系統(tǒng)(Community Question Answering,CQA)的急速增長,如百度知道、雅虎知識堂、新浪愛問等,這些網(wǎng)站聚集了千萬級的可直接下載的問答對,因此更多的研究開始轉(zhuǎn)向以這些問答對作為語料庫?;趩柎饘Φ膯柎鹣到y(tǒng),即從問
9、答對庫中搜索出與用戶問題最為相似的已回答問題,并把該相似問答對的答案部分反饋給用戶,其核心問題是研究查詢問句與候選問句之間的相似性計算問題,實現(xiàn)問句之間的高精度匹配。目前針對問句的大多數(shù)相似性計算,相關(guān)的研究有:文獻1,2提出向量空間模型,計算查詢問句向量和候選問句向量的夾角余弦。文獻3,4提出將 /doc/29cf0ec7c296011f0ce488d5 電 子 與 信 息 學(xué) 報 第33卷語言模型應(yīng)用到社區(qū)問答系統(tǒng)問句檢索中;文獻5提出了基于翻譯模型的問答系統(tǒng)檢索模型。以上這些方法以特征向量為處理對象,難以表示結(jié)構(gòu)化的特征,存在數(shù)據(jù)稀疏的問題。針對上述問題,文獻6使用樹核7對結(jié)構(gòu)化特征進行
10、建模并取得了不錯的效果。文獻6使用問句的句法樹(syntactic parsing tree),簡稱為句法樹,表示問句的結(jié)構(gòu)特征。在一棵句法樹中,樹中節(jié)點的深度越深,如葉子節(jié)點,則該節(jié)點表達的信息越具體,包含的信息越多;深度越淺,如根節(jié)點,則該節(jié)點表達的信息越抽象,包含的信息越少。此外,對于一個句子,根據(jù)語言學(xué)知識,通常有主要成分(如主語、謂語、賓語等),和次要成分(如定語、狀語、補語等)構(gòu)成,不同的成分對于表達一個句子的語義起著不同的作用,因此在比較兩個句子的相似度時應(yīng)予以區(qū)別對待。文獻7提出的樹核,通過計算兩棵句法樹之間的相同子樹的數(shù)量來比較句法樹之間的相似度,沒有區(qū)別節(jié)點的深度特征和句法
11、成分特征。為此,本文在文獻7基礎(chǔ)上,在核函數(shù)的設(shè)計中,做了進一步的改進,針對句法樹節(jié)點的成分特征和深度特征,引入加權(quán)機制,提出一種加權(quán)樹核,并在問句檢索問題中取得了預(yù)期的效果?;趩柎饘Φ膯柎鹣到y(tǒng)中問句檢索所面向的處理對象是相對簡短的問句,問句通常包含較少的詞,因此,要使檢索性能得以提高,就需要從簡短的問句中盡可能多地提取對檢索有幫助的信息。但是,自然語言處理中一個不可避免的問題是,隨著處理層次的深入,處理結(jié)果的準(zhǔn)確率越低。以英語的分詞、分塊和句子解析為例,其準(zhǔn)確率分別是99%,%和90%8。為充分利用問答系統(tǒng)中問句的各種特征,同時降低句法分析精度對問句檢索性能的影響,本文提出一種以加權(quán)樹核和
12、字符串核為基礎(chǔ)的復(fù)合核函數(shù),通過融合問句的結(jié)構(gòu)特征,詞性特征和詞序特征,進一步提高問句檢索的性能。該方法不需要構(gòu)造高維特征向量,直接計算離散對象之間的相似度。理論上,可探索隱含的高維特征空間,易于實現(xiàn)對新的特征提取以及與新的核函數(shù)的組合,具有良好的/doc/29cf0ec7c296011f0ce488d5擴展性和適應(yīng)性。在社區(qū)問答系統(tǒng)Yahoo!Answer的問答對測試數(shù)據(jù)上的實驗表明,與傳統(tǒng)的基于詞頻的特征向量法相比,本文提出的復(fù)合核函數(shù)法,顯著提高了問答系統(tǒng)中問句搜索的性能。 基于核函數(shù)的問句相似性度量方法樹核函數(shù)簡介樹核(tree kernel)是由文獻7提出的,通過計算兩句法樹之間的相
13、同樹片段的數(shù)量來比較句法樹之間的相似度。為了獲得句子中的語法結(jié)構(gòu)信息,文獻7將句法樹中的所有樹片段(Syntactic Tree Fragments,STFs)作為特征空間。每個樹片段(STF)是句法樹的一部分,至少包含一條語法產(chǎn)生式,并且要保證每條產(chǎn)生式的完整性。以問句“What is an atom”為例,圖1(a)表示了該問句的句法樹,圖1(b)表示了句法樹(a)的一棵子樹以及生成該子樹的產(chǎn)生式,圖1(c)列出了子樹(b)包含的所有STFs。此處圖片未下載成功此處圖片未下載成功 圖1 句法樹、子樹及其樹片段兩棵句法樹T1, T2的樹核函數(shù)定義為(T1,T2)=C(n1,n2) (1)N1
14、n2N2其中N1, N2分別是兩棵樹T1, T2中節(jié)點的集合,C(n1,n2)表示分別以n1,n2為根節(jié)點的子樹中相同的樹片段的個數(shù),計算方法如下: 0, n1n2 1, n1=n2并且n1,n2是葉子節(jié)點C(n ,n2)= , n1=n2并且n1,n2是葉子節(jié)點(2) 的直接父節(jié)點 nc(n 1)1 C(ch(n1,j),ch(n2,j), 其它 j=1其中nc(n)表示節(jié)點n 的子節(jié)點的個數(shù),ch(n,j)表示節(jié)點n 的第j個子節(jié)點,n1=n2表示節(jié)點n1, n2的標(biāo)簽和產(chǎn)生式都相同,是一個權(quán)值參數(shù)。 2.2 加權(quán)樹核函數(shù)文獻7中提出的樹核函數(shù)是針對語義標(biāo)注這/doc/29cf0ec7c2
15、96011f0ce488d5一問題提出的,沒有考慮問題系統(tǒng)中問句的特點,如果直接使用,進行問句檢索可能并不合適。此外,文獻7在樹核的定義中假定,每個樹片段對句法樹的貢獻是相同的,沒有區(qū)分問句中主要成分和次要成分的區(qū)別。本文針對這一問題提出了一種改進的加權(quán)樹核函數(shù),并將其用于比較問句的句法樹相似性。第1期 王 君等:一種新的復(fù)合核函數(shù)及在問句檢索中的應(yīng)用 131在一棵句法樹中,樹中節(jié)點的深度越深,如葉子節(jié)點,則該節(jié)點表達的信息越具體,包含的信息越多;深度越淺,如根節(jié)點,則該節(jié)點表達的信息越抽象,包含的信息越少。定義1 節(jié)點的深度:令j表示句法樹T中的一個非葉子節(jié)點,depj表示節(jié)點j在T中的深度
16、,其值等于i在T中所在的層次,其中deproot=0, root 是T的根節(jié)點。如圖1(c)所示,這6棵STF在圖1(a)所示的句法樹中的深度分別是:2,2,2,2,3,3(按從左到右,從上到下順序)。根據(jù)語言學(xué)知識可知,任何句子都是由關(guān)鍵成分(主語、謂語、賓語等)和修飾成分(定語、狀語、補語等)構(gòu)成的。關(guān)鍵成分對句子起了主要作用,修飾成分對句子起了次要作用。在一棵句法樹中,不同的節(jié)點代表不同的句子成分。在通常情況下,一個句子中作為主語和賓語的多數(shù)為名詞或代詞,作為謂語的多為動詞。疑問詞在問題檢索中也有著重要的作用。本文用節(jié)點的權(quán)重來表示節(jié)點在一棵句法樹中的重要性。定義2 節(jié)點的權(quán)重:令j表示
17、句法樹T中的一個非葉子節(jié)點,j表示節(jié)點j在T中的權(quán)重,label(j)表示節(jié)點j的標(biāo)簽,如 WP, VP, NN等,節(jié)點j的權(quán)重等于:(1) j=Q, label(j)=W*(表示任意字母);(2) j=NV, label(j)=N*或lable(j)=V*;(3) 0.1j=,其它。其中Q表示和疑問詞相關(guān)的節(jié)點的權(quán)重,NV表示和名詞或代詞相關(guān)的節(jié)點的權(quán)重。根據(jù)節(jié)點的深度和節(jié)點的權(quán)重的定義,定義3 為STF/doc/29cf0ec7c296011f0ce488d5的權(quán)重定義。定義3 STF的權(quán)重:令i表示句法樹T中一個STF, i表示i的權(quán)重,則此處圖片未下載成功 (i)(i)i= (3)=其
18、中d(i)表示i的根節(jié)點的深度,是一個常量表示i的影響因子,s(i)表示i中包含的非葉子節(jié)點的個數(shù),j表示每個非葉子節(jié)點的權(quán)重。將要處理的數(shù)據(jù)映射到一個m維空間中,令每棵句法樹T用一個m維向量表示,V(T)=(v1(T), v2(T),vm(T),其中第i個分量表示在m 維空間第i個STF在T中權(quán)重。加權(quán)樹核函數(shù)定義為(T1,T2)=V(T1),V(T2) (4) 由于m是一個很大的值,并且不容易求得具體值,用下面的方法計算WTK(T1,T2)的值。令N表示句法樹T 中所有非葉子節(jié)點的集合,是N中的一個節(jié)點,i是m維空間中第i個STF,定義Ii(n)為這樣的一個指示函數(shù),= 1, i以節(jié)點n為
19、根節(jié)點(n) , 其它 (5)可推導(dǎo)出如下等式:此處圖片未下載成功此處圖片未下載成功 )(T)=(n)=(n)Ns(i)(ij=nNs(i(n)Iij=(6)則加權(quán)樹核函數(shù)WTK(T1,T2)等于(T1,T2)=V(T1) V(T2)=vi(T1)vi(T2)=d(n1) d(n2)2(n,n2)(7)N1nN2其中(i)(n1,n2)=jIi(n1)Ii(n2) /doc/29cf0ec7c296011f0ce488d5 (8)=1計算方法為 0, n1n2 n1, ,n1=n2并且n1n2是葉子節(jié)點 (nn ,2)= 的直接父節(jié)點 nc( n1)n11 (ch(n1,j),ch(n2,j)
20、, j=1 n1=n2且非葉子節(jié)點或葉子直接父節(jié)點(9) 其中nc(n)表示節(jié)點n 的子節(jié)點個數(shù)。如果n1和n2節(jié)點處有相同產(chǎn)生式則nc(n1)=nc(n2), ch(n,j)表示節(jié)點n 的第j個子節(jié)點。 2.3 字符串核和復(fù)合核樹核能有效地挖掘句子中的結(jié)構(gòu)化信息,但是樹核只捕獲了句子的語法信息,而對于計算句子相似度有用的詞序、詞性等信息需要另外獲取。本文用字符串核來挖掘句子中的詞序列和詞性序列信息。字符串核函數(shù)的思想是通過比較兩個字符串共同包含的子串個數(shù)和連續(xù)程度來衡量兩個字符串的相似程度。共同的子串越多,兩個字符串就越相似。這里的子串不一定是連續(xù)的,但是它的連續(xù)程度被用來作為衡量相似度的一
21、個指標(biāo)。字符串核函數(shù)的形式化定義如文獻9。定義4 設(shè)是一個有限字符集合,S=S1, S2,S|S|是上的一個字母序列,其中Si, 1i|S|。設(shè)i=i1,i2,in,且1i1i20.5,則rel(qi,Cij)=1,否則rel(qi,Cij)=0。在此基礎(chǔ)上,再采用人工方法,對自動判斷結(jié)果進行確認和更正,并將人工判斷的結(jié)果作為本文實驗的標(biāo)準(zhǔn)測試集,記為Cdataset。對于每個查詢問句qi和它的候選相似性問句集Ci,采用不同的相似性度量方法,對候選相似性問句集中的問句進行相似度判斷,并根據(jù)相似度的值按從高到低的順序進行排序,采用MRR(Mean Reciprocal Rank),Precisi
22、onn 和MAP(Mean Average of Precision)3種評價標(biāo)準(zhǔn)對所采用的相似性度量方法進行評價。MRR,Precisionn和MAP的計算方法分別如下:(1)MRR:=|Q r|q (13) Qrrq):/answers/V1/questionSearch.html第1期 王 君等:一種新的復(fù)合核函數(shù)及在問句檢索中的應(yīng)用 133其中Qr表示查詢測問句試集,rq是第一個相關(guān)問句的順序。(2)Precisionn:n(j)n=1(14) 其中rel(j)表示第j個候選問句和查詢問句是否相關(guān),值域為/doc/29cf0ec7c296011f0ce488d50,1。Precisio
23、nn表示前n個候選相似問句中相關(guān)的問句的個數(shù)所占的比例。(3)MAP:n(r)rel(r)=1=1|Qr|qQr|R (15)|其中Qr表示查詢問句集,Rq表示和查詢問句相關(guān)的問句,r是其排列次序,N是檢索的問句的個數(shù),rel(r) 表示第r個候選問句和查詢問句是否相關(guān),值域為0,1, P(r)表示前r個檢索的問句的相關(guān)問句所占比例。加權(quán)樹核(WTK)參數(shù)設(shè)置本文提出的樹核函數(shù)WTK與文獻7中提出的樹核TK的區(qū)別是引入了深度影響因子,節(jié)點權(quán)值影響因子Q和NV,當(dāng)=1,Q=NV=0.1時,WTK等價于TK。本節(jié)分析比較了上述3個因子對問句搜索性能的影響,其中句法解析器采用stanford par
24、ser3)。(1)權(quán)重因子Q和NV 圖2(a)顯示了在UIUC數(shù)據(jù)集和Cdatasets數(shù)據(jù)集上進行相似問句搜索時,=1,NV=0.1,Q取值從0.05-0.19時所對應(yīng)的MAP值。該實驗測試了和疑問詞相關(guān)的節(jié)點的權(quán)重因子Q對實驗性能的影響。圖中,橫坐標(biāo)表示Q的取值,曲線TK表示采用未改進的樹核作為相似性度量標(biāo)準(zhǔn)時所對應(yīng)的MAP值,曲線TK vQ表示采用本文提出的對和疑問詞相關(guān)節(jié)點進行權(quán)值計算的樹核函數(shù)作為相似性度量標(biāo)準(zhǔn)時所對應(yīng)的MAP值。圖2(a)顯示,隨著Q取值的增加,相應(yīng)的MAP值逐漸下降。當(dāng)Q0.05,0.07時,MAP取得最大值。圖2(a)說明,當(dāng)和疑問詞相關(guān)的節(jié)點的權(quán)重小于其它節(jié)點
25、的權(quán)重時,問句檢索的性能得到提高。出現(xiàn)這一現(xiàn)象的原因可能是因為檢索的數(shù)據(jù)中每個(或大多數(shù))候選問句中都包含有查詢問句中出現(xiàn)的疑問詞,因此降低了疑問詞這一特征的區(qū)分類別能力。因此,降低和疑問詞相關(guān)的節(jié)點的權(quán)重,對于提高檢索性能是有用的。圖2(b)顯示了在UIUC數(shù)據(jù)集和Cdatasets數(shù)據(jù)集上進行相似問句搜索時,=1,Q=0.1,N/doc/29cf0ec7c296011f0ce488d5V取值從0.05-0.19時所對應(yīng)的MAP值。該實驗測試3):/software/lex-parser.shtml了和名詞或動詞相關(guān)的節(jié)點的權(quán)重因子NV對實驗性能的影響。圖中,橫坐標(biāo)表示NV的取值,曲線TK表
26、示采用未改進的樹核作為相似性度量標(biāo)準(zhǔn)時所對應(yīng)的MAP值,曲線TK vNV表示采用本文提出的對和名詞或動詞相關(guān)節(jié)點進行權(quán)值計算的樹核函數(shù)作為相似性度量標(biāo)準(zhǔn)時所對應(yīng)的MAP值。圖2(b)顯示,隨著Q取值的增加,相應(yīng)的MAP值逐漸下降。當(dāng)NV=0.13時,MAP取得最大值。當(dāng)NV0.11或NV0.16時,TK vNV曲線所示的樹核對應(yīng)的MAP值小于曲線TK所示的樹核對應(yīng)的MAP值。實驗結(jié)果說明適當(dāng)?shù)卦黾雍椭饕煞?如名詞、動詞)相關(guān)的節(jié)點的權(quán)重有助于提高問句檢索的性能。(2)深度影響因子 對深度影響因子,進行了類似實驗,實驗表明,當(dāng)=0.9時,本文提出的樹核(不考慮節(jié)點權(quán)重因子)取得最好的實驗結(jié)果。
27、表2中,TK表示沒有改進的樹核,TK 表示帶有深度影響因子的樹核。Impr.表示改進率。該表列出了兩種樹核分別取得Precision10, MRR和MAP的值。和沒有改進的樹核相比,改進的樹核在3種評價標(biāo)準(zhǔn)下分別提高了21.56%,3.48% 和2.45%。這說明句法樹中樹片段的深度及其影響因子在計算問句相似性上是有用的,同樹核相比,帶有深度影響因子的樹核在捕獲句子的結(jié)構(gòu)信息上更加有效。表2 深度影響因子對實驗性能的影響核函數(shù) MRR MAP 10(Impr.)(Impr.)(Impr.)0.285(N.A) 0.383(N.A) 0.364(N.A) TK ( 21.56%)( 3.48%)
28、 0.372( 2.45%)復(fù)合核函數(shù)性能評價為了測試本文提出的復(fù)合核函數(shù)在問句搜索上的性能,本文分別采用/doc/29cf0ec7c296011f0ce488d57種獨立方法進行比較。表3列出了這7種方法的名稱和描述,其中帶星號(*)的為本文提出方法。每種方法參數(shù)設(shè)置如下:TKtree中 =0.9,WTKtree 中=0.9,Q=0.05,NV= 0.13,WKword 中=0.9,n=1,PKPOS中=0.9, n=3,CKword POS tree中1=0.4,2=0.4,3=0.4,其它方法均采用默認參數(shù)設(shè)置。表4列出了實驗結(jié)果,表中括號里的數(shù)值是相對于VSMBOW的相對提高幅度。表4
29、說明:(1)本文提出的加權(quán)樹核WTKtree在問句搜索性能上優(yōu)于沒有實現(xiàn)加權(quán)機制的樹核TKtree。其TKtree Precision10, MRR, MAP相比分別提高39.65%, 電 子 與 信 息 學(xué) 報 第33卷此處圖片未下載成功此處圖片未下載成功此處圖片未下載成功此處圖片未下載成功 圖2 MAP 與vQ, vNV的關(guān)系表3 實驗方法和描述方法名稱 VSMBOW LMBOW TKtree WTKtree* WKword PKPOS CKword POS tree*方法描述基于詞袋(bag-of-words)表示的空間向量模型法基于詞袋(bag-of-words)表示的語言模型法 基于
30、語法樹的樹核函數(shù)法基于語法樹的加權(quán)樹核函數(shù)法(本文提出方法) 基于詞序列的詞序列核函數(shù)法 基于詞性序列的詞序列核函數(shù)法 基于詞序列,詞性序列和語法樹的復(fù)合 核函數(shù)法(本文提出方法)(3)詞序列核WKword和詞性序列核PKPOS性能 好于基于詞袋表示的空間向量模型VSMBOW方法和說明基于字符串的核在計算語言模型LMBOW方法;:/doc/29cf0ec7c296011f0ce488d5par問句相似性上是有效的。(4)本文提出的復(fù)合核CKword POS tree性能上明顯好于上述幾種方法,說明混合的3種核相互補充,充分利用了句子的詞序,詞性序列,和句子結(jié)構(gòu)信息。 結(jié)論本文在原有樹核的基礎(chǔ)上
31、引入了加權(quán)機制,提出了一種加權(quán)樹核函數(shù),區(qū)分不同成分的節(jié)點在句子中的重要性,從而能更加有效捕獲句子的句法結(jié)構(gòu)信息。此外,在加權(quán)樹核,詞序列核和詞性序列核的基礎(chǔ)上,本文還提出了一種復(fù)合核,利用詞序,詞性等簡單特征與句子結(jié)構(gòu)特征的融合,降低句法解析器的性能對檢索性能的影響。實驗表明,復(fù)合核能充分利用句子的詞序、詞性、和句法信息,在計算句子相似度,用于進行基于問答系統(tǒng)的問句搜索任務(wù)中,檢索性能取得了明顯改進。本文中提到的檢索性能是針對檢索準(zhǔn)確率而言的,對于檢索時間效率沒有考慮,如何在提高檢索性能的同時提高時間效率是本文今后進一步研究方向。%和9.07%。這說明本文提出的加權(quán)機制是有效的,在捕獲句子的
32、結(jié)構(gòu)信息上,WTKtree比TKtree更加有效。(2)基于樹核的方法TKtree和WTKtree總體評價上性能略低于VSMBOW 和LMBOW, 出現(xiàn)這一現(xiàn)象的原因之一可能是在句法解析過程中錯誤的解析造成的。由于本文中直接使用了Stanford Parser用于進行問句的句法解析,由于該解析器是離線解析器,訓(xùn)練集不是專門針對問答系統(tǒng)的問句,因此,降低了其解析準(zhǔn)確率,從而影響了基于句法樹的樹核方法在問句檢索中的性能。表4 實驗結(jié)果方法10(Impr.) MRR(Impr.)(Impr.)0.268(N.A) 0.439(N.A.) 0.403(N.A.) LMBOW( 23.12%) 0.47
33、2( 7.64%) 0.445( 10.37%)0.285( 6.20%) 0.383(-12.72%) 0.364(-9.78%) WTKtree*:/doc/29cf0ec7c296011f0ce488d5parWKword PKPOS CKword POS tree*( 48.51%) 0.394(-10.17%) 0.397(-1.36%)( 34.33%) 0.4889( 11.21%) 0.465( 15.45%) 0.350( 30.56%) 0.5189( 18.22%) 0.483( 19.76%) 0.400( 49.25%) 0.506( 15.35%) 0.499( 2
34、4.02%)第1期 王 君等:一種新的復(fù)合核函數(shù)及在問句檢索中的應(yīng)用 135參 考 文 獻1R D, Hammond K J, and Kulyukin V A, et al. Question answering from frequently asked question files: experiments with the faq finder systemJ. AI Magazine, 1997, 18(2): 57-66. 2V and De Rijke M. Retrieving answers from frequently asked questions pages on t
35、he web C. In CIKM05: Proceedings of the 14th ACM international conference on Information and knowledge management, Bremen, Germany, 2005: 84-90. 3Xin, Cong Gao, and Cui Bin, et al. The use of categorization information in language models for question retrieval C. In CIKM09: Proceeding of the /doc/29
36、cf0ec7c296011f0ce488d518th ACM conference on Information and knowledge management, Hong Kong, China, 2009: 256-274. 4Hui-zhong, Cao Yun-bo, and Lin Chin-yew, et al. Searching questions by identifying questions topic and question focus C. In ACL-08: HLT: Proceeding of the 46th annual meeting of the a
37、ssociation for computational linguistics: Human Language Technologies, Columbus, OH, USA, 2008: 156-164. 5Xiao-bing, Jeon J, and Croft W B. Retrieval models for question and answer archives C. In SIGIR 08: Proceedings of the 31st annual international ACM SIGIR conference on Research and development
38、in information retrieval, New York, NY, USA, 2008: 475-482. 6Kai, Ming Zhao-yan, and Chua Tat-seng. A syntactic tree matching approach to finding similar questions in community-based QA services C. In SIGIR09: Proceedings of the 32nd international ACM SIGIR conference on Researchdevelopment in info/doc/29cf0ec7c296011f0ce488d5rmation retrieval, Boston, MA, USA, 2009: 187-194.7M and Duffy N. Convolution Kernels for Natural Language M. Advances in
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度專業(yè)演出場地租賃及活動策劃服務(wù)協(xié)議3篇
- 2025年度碼頭貨物短途運輸及環(huán)保處理服務(wù)合同4篇
- 2024-2025學(xué)年高中歷史第五單元近現(xiàn)代中國的先進思想第20課西學(xué)東漸課后習(xí)題含解析岳麓版必修3
- 二零二五版生態(tài)修復(fù)工程承攬合同模板-施工與生態(tài)保護2篇
- 2025年度門衛(wèi)人員安全教育與聘用合同
- 2024版派遣員工合同樣本2篇
- 2025版高端商務(wù)辦公空間租賃合同4篇
- 2024碼頭場地租賃合同
- 2024版天然氣安全運輸合同
- 2024鐵路旅客運輸服務(wù)質(zhì)量監(jiān)督合同3篇
- 運輸供應(yīng)商年度評價表
- 機械點檢員職業(yè)技能知識考試題庫與答案(900題)
- 成熙高級英語聽力腳本
- 北京語言大學(xué)保衛(wèi)處管理崗位工作人員招考聘用【共500題附答案解析】模擬試卷
- 肺癌的診治指南課件
- 人教版七年級下冊數(shù)學(xué)全冊完整版課件
- 商場裝修改造施工組織設(shè)計
- (中職)Dreamweaver-CC網(wǎng)頁設(shè)計與制作(3版)電子課件(完整版)
- 統(tǒng)編版一年級語文上冊 第5單元教材解讀 PPT
- 加減乘除混合運算600題直接打印
- ASCO7000系列GROUP5控制盤使用手冊
評論
0/150
提交評論