版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔傾情為你奉上精選優(yōu)質(zhì)文檔傾情為你奉上專心專注專業(yè)專心專注專業(yè)精選優(yōu)質(zhì)文檔傾情為你奉上專心專注專業(yè)3.5語料庫常用統(tǒng)計(jì)方法第3章前幾節(jié)對(duì)語料庫應(yīng)用中的幾種主要技術(shù)做了介紹。通過語料檢索、詞表和主題詞表的生成,可以得到一定數(shù)量的句子、詞匯或結(jié)構(gòu)。為能更好說明所得到的結(jié)果的真正意義,常常需要對(duì)它們加以統(tǒng)計(jì)學(xué)分析。本章主要介紹語料分析中的一些常用統(tǒng)計(jì)方法。3.5.1 語料庫與統(tǒng)計(jì)方法介紹相關(guān)統(tǒng)計(jì)方法之前,首先需要了解為什么語料庫應(yīng)用中需要運(yùn)用統(tǒng)計(jì)方法。在2.1節(jié)講到文本采集時(shí),我們知道文本或會(huì)話構(gòu)成了最終的語料庫樣本。這些樣本是通過一定的抽樣方法獲得的。研究中,我們需要描述這些樣本的出現(xiàn)和
2、分布情況。此外,我們還經(jīng)常需要觀察不同語言項(xiàng)目之間在一定語境中共同出現(xiàn)(簡稱共現(xiàn))的概率;以及觀察某個(gè)(些)語言項(xiàng)目在不同文本之間出現(xiàn)多少的差異性。這些需要借助統(tǒng)計(jì)學(xué)知識(shí)來加以描寫和分析。理論上說,幾乎所有統(tǒng)計(jì)方法都可以用于語料庫分析。本章只擇其中一些常用方法做一介紹。我們更注重相關(guān)統(tǒng)計(jì)方法的實(shí)際應(yīng)用,不過多探討其統(tǒng)計(jì)學(xué)原理。這一章我們主要介紹語料分析中的頻數(shù)標(biāo)準(zhǔn)化(normalization)、頻數(shù)差異檢驗(yàn)和搭配強(qiáng)度的計(jì)算方法。3.5.2 頻數(shù)標(biāo)準(zhǔn)化基本原理通常語料檢索、詞表生成結(jié)果中都會(huì)報(bào)告頻數(shù)(frequency, freq或raw frequency)。那么某詞(如many)在某語料庫
3、中出現(xiàn)頻數(shù)為100次說明什么呢?這個(gè)詞在另一個(gè)語料庫中出現(xiàn)頻數(shù)為105次,是否可以說many在第二個(gè)語料庫中更常用呢?顯然,不能因?yàn)?05大于100,就認(rèn)定many在第二個(gè)語料庫中更常用。這里大家很容易想到,兩個(gè)語料庫的大小未必相同。按照通常的思維,我們可以算出many在兩個(gè)語料庫中的出現(xiàn)百分比,這樣就可比了。這種情況下,我們是將many在兩個(gè)語料庫中的出現(xiàn)頻數(shù)歸到一個(gè)共同基數(shù)100之上,即每100詞中出現(xiàn)多少個(gè)many。這里通過百分比得到的頻率即是一種標(biāo)準(zhǔn)化頻率。有些文獻(xiàn)中標(biāo)準(zhǔn)化頻率也稱歸一頻率或標(biāo)稱頻率,即基于一個(gè)統(tǒng)一基準(zhǔn)得出的頻率。實(shí)例及操作頻數(shù)標(biāo)準(zhǔn)化,首先需要用某個(gè)(些)檢索項(xiàng)的實(shí)際觀
4、察頻數(shù)(原始頻數(shù),raw frequency)除以總體頻數(shù)(通常為文本或語料庫的總詞數(shù)),這樣得到每一個(gè)單詞里會(huì)出現(xiàn)該檢索項(xiàng)多少次。在頻數(shù)標(biāo)準(zhǔn)化操作中,我們通常會(huì)在此基礎(chǔ)上乘以1千(1萬、1百萬)得到平均每千(萬、百萬)詞的出現(xiàn)頻率。即:(注:觀測頻數(shù)即檢索詞項(xiàng)實(shí)際出現(xiàn)的次數(shù);總體頻數(shù)即語料庫的大小或總形符數(shù)。)例如,more在中國學(xué)生的作文里出現(xiàn)251次,在英語母語者語料中出現(xiàn)475次。兩個(gè)語料庫的大小分別為37,655詞次和174,676詞次。我們可以根據(jù)上面的公式很容易計(jì)算出251和475對(duì)應(yīng)的標(biāo)準(zhǔn)化頻率。另外,我們還可以利用Excel或SPSS等工具來計(jì)算標(biāo)準(zhǔn)化頻率。比如,可以將實(shí)際觀
5、察頻數(shù)和語料庫大小如圖3.5.1輸入相應(yīng)的單元格,然后在C1單元格里輸入=(A1/B1)*1000即可得到中國學(xué)生每千詞使用more約為6.67次。要得到母語者more使用的每千詞頻率,只需點(diǎn)擊C1單元格,將光標(biāo)移至單元格右下角直至光標(biāo)變?yōu)楹?時(shí),按住鼠標(biāo)左鍵,順勢下拉至C2格即可得到母語者每千詞使用more的次數(shù)約為2.72次。如有更多頻數(shù)數(shù)據(jù)需要標(biāo)準(zhǔn)化處理,可依同樣方法求得。圖3.5.1 頻數(shù)標(biāo)準(zhǔn)化3.5.3 頻數(shù)差異檢驗(yàn)上節(jié),我們通過將頻數(shù)歸到一個(gè)共同的基數(shù),從而可以對(duì)不同頻數(shù)加以比較。然而,在統(tǒng)計(jì)學(xué)中,常常需要對(duì)參與比較的數(shù)據(jù)之間的差異是否具有顯著性加以綜合檢驗(yàn)。在語料庫數(shù)據(jù)分析中,最
6、常用的是卡方檢驗(yàn)(chi-square或2)和對(duì)數(shù)似然比(log-likelihood ratio,常簡寫為LL)。兩種檢驗(yàn)方法的作用和實(shí)際操作類似,以下我們重點(diǎn)講解卡方檢驗(yàn)。這兩種檢驗(yàn)方法也可以用作搭配強(qiáng)度計(jì)算?;驹砼c頻數(shù)標(biāo)準(zhǔn)化不同,卡方檢驗(yàn)除了考慮到某個(gè)檢索項(xiàng)在兩個(gè)不同語料庫中的出現(xiàn)頻數(shù)和語料庫大小外,還考慮到檢索項(xiàng)在語料庫不出現(xiàn)的情況。例如,在1000詞的文本中the出現(xiàn)50次,那么它不出現(xiàn)的情況就是余下的950次。類似的頻數(shù)數(shù)據(jù),我們用到的是22連列表(contingency table)方法的卡方檢驗(yàn)。在統(tǒng)計(jì)學(xué)上,綜合該檢索項(xiàng)在兩個(gè)語料庫中出現(xiàn)和不出現(xiàn)的情況,統(tǒng)計(jì)學(xué)家提出了該檢索
7、項(xiàng)理論上的預(yù)期頻數(shù),其算法是:表3.5.1 22連列表某檢索項(xiàng)出現(xiàn)頻數(shù)所有詞出現(xiàn)頻數(shù)合計(jì)語料庫A語料庫Bacbda +bc + d合計(jì)a +cb + da +b + c + d其中:a = 檢索項(xiàng)X在語料庫A中的實(shí)際頻數(shù)b = 檢索項(xiàng)X在語料庫A中的不出現(xiàn)的頻數(shù)c = 檢索項(xiàng)X在語料庫B中的實(shí)際頻數(shù)d = 檢索項(xiàng)X在語料庫B中的不出現(xiàn)的頻數(shù)N = a + b +c + d = 各項(xiàng)頻數(shù)總和,即兩個(gè)語料庫累計(jì)大小而卡方檢驗(yàn)的基本公式為:卡方檢驗(yàn)的具體計(jì)算公式為: = 實(shí)例及操作研究問題:有兩個(gè)語料庫,一個(gè)為口語語料庫,總詞數(shù)為1,714,443,另一個(gè)為書面語語料庫,總詞數(shù)2,593,452。其
8、中填充停頓(filled pause)詞er分別出現(xiàn)9,589次和9,307次。那么9,589和9,307是否存在顯著性差異呢?這里可以采用卡方檢驗(yàn)的方法(參見圖3.5.2)。在配套光盤中,找到名為X2的Excel文件。在打開的工作表中,按界面提示,分別輸入Corpus 1的總字?jǐn)?shù)1,714,443和Corpus 2的總字?jǐn)?shù)2,593,452。然后,在主體數(shù)據(jù)表框中Freq in Corpus 1和Freq in Corpus 2分別輸入er分別的次數(shù)9,589和9,307。這時(shí),Chi-square列會(huì)自動(dòng)出現(xiàn)相應(yīng)的卡方值,這里是949.5474??ǚ街担ㄗ杂啥葹?時(shí))如果大于臨界值3.83
9、, 6.64和10.83,則表明該值在顯著性水平0.05, 0.01和0.001的情況下是有意義的,即參與比較的兩個(gè)數(shù)值(9,589和9,307)具有顯著性差異。為便于辨識(shí)和解讀卡方值,我們將所得的卡方值對(duì)應(yīng)的顯著性水平的p值也同時(shí)提供,并按所處的置信區(qū)間標(biāo)定星號(hào)(*),在0.05, 0.01和0.001顯著性水平下分別標(biāo)為*、*和*。表格最后一列的“+”表明er在Corpus 1中使用頻數(shù)要多于其在Corpus 2中的頻數(shù),即我們常說的頻數(shù)過多使用(overuse);反之,“-”號(hào)為使用不足(underuse)?;氐轿覀兊膯栴},er一詞在兩個(gè)語料庫中的使用頻數(shù)具有顯著性差異,且er明顯在第一
10、個(gè)口語語料庫較多使用,可理解為屬于口語特征詞。為方便批量實(shí)施卡方檢驗(yàn),判別詞項(xiàng)在兩個(gè)語料庫中出現(xiàn)頻數(shù)的差異。該卡方檢驗(yàn)計(jì)算器支持一次完成多個(gè)卡方檢驗(yàn)運(yùn)算。操作方法是,先輸入Corpus 1的總字?jǐn)?shù)和Corpus 2的總字?jǐn)?shù),然后將某組詞項(xiàng)在Corpus 1和Corpus 2中的出現(xiàn)頻數(shù)分別拷貝到Freq in Corpus 1和Freq in Corpus 2列中,即可得到所有詞項(xiàng)跨語料庫差異的卡方值和顯著性水平。圖3.5.2 卡方檢驗(yàn)計(jì)算器界面配套光盤中同時(shí)附有對(duì)數(shù)似然比計(jì)算工具(Log-likelihood Ratio Calculator),文件名為LL.xls。也是檢驗(yàn)詞項(xiàng)跨語料庫差異
11、顯著性的常用方法。其操作步驟與卡方檢驗(yàn)計(jì)算器相同,數(shù)據(jù)的解讀方法也一樣。在此不贅述。3.5.4 搭配強(qiáng)度計(jì)算基本原理搭配分析的計(jì)算方法在實(shí)際應(yīng)用中主要有兩種處理方法:以Mike Scott的WordSmith為代表的經(jīng)典搭配計(jì)算法,以及以Stefan Evert提出的BNCweb的搭配計(jì)算方法。兩種方法的主要不同在于是否將跨距作為搭配的核心考查要素(WordSmith計(jì)算Z值時(shí)用到跨距,BNCweb的算法中多數(shù)都用到跨距)。計(jì)算搭配強(qiáng)度的主要算法包括:互信息(MI,mutual information和MI3)、Z值(Z score)、T值(T score)、Log-Log值、卡方值(2)、對(duì)
12、數(shù)似然比(Log-likelihood)、Dice系數(shù)等。這些方法各有優(yōu)劣。需要略加說明的是,卡方和對(duì)數(shù)似然比既可用作檢驗(yàn)單個(gè)詞項(xiàng)跨語料庫頻數(shù)差異的顯著性。也可作為檢驗(yàn)兩個(gè)詞在同一個(gè)語料庫中,一定跨距內(nèi)的共現(xiàn)強(qiáng)度。以下對(duì)不同搭配強(qiáng)度計(jì)算方法的適用性做一簡介(這里以BFSU Collocator工具為例)。更多相關(guān)介紹可參閱本章結(jié)尾處提供的相關(guān)參考文獻(xiàn)和網(wǎng)絡(luò)上有關(guān)collocation的討論。以下是利用BFSU Collocator工具提取的but一詞的搭配情況。在下面的示例中,我們選用的是光盤中NS_writtenraw文件夾下的TEXT001.txt?!維ettings】中【Set Data
13、 Type】選的是【Raw】。點(diǎn)擊【Collocate】選項(xiàng)卡后,跨距設(shè)為左5右5。點(diǎn)擊【Run】即可得結(jié)果。圖3.5.3顯示的結(jié)果是以搭配詞的實(shí)際出現(xiàn)頻數(shù)排序的。雙擊搭配結(jié)果的每一行,界面窗口下方即會(huì)顯示含節(jié)點(diǎn)詞和搭配詞的索引行。本節(jié)所舉實(shí)例使用的檢索詞(節(jié)點(diǎn)詞)為but。搭配強(qiáng)度值小于0的情況,在BFSU Collocator工具里都?xì)w為零。圖3.5.3 按搭配詞頻數(shù)高低排序的搭配結(jié)果從圖3.5.3可以看出BFSU Collocator工具運(yùn)行后可以一次同時(shí)得到MI、MI3、Z值、T值、Log-log值和對(duì)數(shù)似然比。如果我們需要得到按互信息值排序的搭配詞時(shí),只需點(diǎn)擊MI(或MI3列的標(biāo)題行
14、即可,如果點(diǎn)擊第一次所列結(jié)果為升序排列,再點(diǎn)擊一次,則可獲得降序排列的結(jié)果)。圖3.5.3中的結(jié)果顯示的是以第3列f(c),即搭配詞(collocates)的頻數(shù)降序排列的,界面下方窗口顯示的是含but和最高頻搭配詞the的索引行?;バ畔ⅲ∕I,mutual information和MI3)圖3.5.4 按互信息值高低排序的搭配結(jié)果互信息值體現(xiàn)的是節(jié)點(diǎn)詞和搭配詞之間的互相吸引關(guān)系?;バ畔⒅翟酱螅f明兩個(gè)詞之間的搭配強(qiáng)度越高。互信息值可能為正值或負(fù)值。如互信息值為負(fù),則表明兩詞之間出現(xiàn)互相排斥的現(xiàn)象,即兩詞不傾向于在一定語境內(nèi)共現(xiàn)。Hunston(2002:71)提出在實(shí)際操作中以互信息值3作為
15、臨界值,即互信息值大于3的搭配詞視作強(qiáng)搭配詞。然而,從圖3.5.4中的結(jié)果可以看出,互信息值算法存在一個(gè)明顯不足,即互信息容易將低頻詞(如出現(xiàn)2次的cannon和出現(xiàn)一次的數(shù)字詞255等)視作強(qiáng)搭配。為了降低低頻詞在經(jīng)典互信息算法中的權(quán)重,有學(xué)者將低頻詞同節(jié)點(diǎn)詞的共現(xiàn)頻數(shù)做了立方處理,經(jīng)過取對(duì)數(shù)后,最終的互信息值大大降低了。這即是下面看到的互信息3(MI3)值的算法。MI3圖3.5.5 按互信息3值高低排序的搭配結(jié)果從圖3.5.5中可以看到,高頻詞the、of、a,以及標(biāo)點(diǎn)符號(hào)(,)。這些本身在語料庫中的總體頻數(shù)很高,同時(shí)也與節(jié)點(diǎn)詞but共現(xiàn)頻數(shù)非常高的詞被提到前面。這些詞項(xiàng)被認(rèn)定為強(qiáng)搭配詞比
16、經(jīng)典互信息算法所得的搭配詞似乎更符合but的語言使用實(shí)際。Z值圖3.5.6 按Z值高低排序的搭配結(jié)果雖然同互信息算法和原理不一樣,但Z值計(jì)算出的搭配詞結(jié)果與經(jīng)典互信息得出的結(jié)果有些相似,依然有偏重低頻詞的問題。T值圖3.5.7 按T值高低排序的搭配結(jié)果在我們這個(gè)例子中(見圖3.5.7),出現(xiàn)的搭配詞以高頻詞為主。文獻(xiàn)中一般認(rèn)為T值搭配計(jì)算有偏重高頻詞的問題。T值的約定俗成的臨界值是2。Log-log值為避免搭配計(jì)算中偏重高頻詞(以功能詞居多靠前)的問題,英國學(xué)者Adam Kilgarriff提出了搭配log-log計(jì)算公式,主要是在公式中增加了節(jié)點(diǎn)詞和搭配詞共現(xiàn)頻數(shù)的對(duì)數(shù)值,將高頻詞的權(quán)重降低
17、,從而使其他實(shí)詞搭配詞的權(quán)重得以提高。從圖3.5.8可以看到,排在前面的搭配詞是以實(shí)義詞為主。如果我們要借助搭配詞進(jìn)行內(nèi)容分析的話,那么log-log似乎更適合。圖3.5.8 按log-log值高低排序的搭配結(jié)果對(duì)數(shù)似然比圖3.5.9 按對(duì)數(shù)似然比高低排序的搭配結(jié)果對(duì)數(shù)似然比是被認(rèn)為比較好的一種搭配發(fā)現(xiàn)方法。然而,一般認(rèn)為各種搭配統(tǒng)計(jì)方法,很難說哪種方法是最合理或最正確。我們建議一方面可根據(jù)研究實(shí)際選擇搭配統(tǒng)計(jì)方法;另一方面,還可以兼顧不同的統(tǒng)計(jì)方法,關(guān)注不同統(tǒng)計(jì)方法中都排在前面的一些詞。3.5.5 小結(jié)不同工具(WordSmith、AntConc、BNCweb、Co-occurrence、C
18、ollocate、BFSU Collocator等)得出的MI值、Z值、T值、2值、對(duì)數(shù)似然比值常常有差別。這些差別一種情況是由公式不同引起的,即我們上面提到的以Mike Scott的WordSmith為代表的經(jīng)典搭配計(jì)算法和以Stefan Evert提出的BNCweb的搭配計(jì)算方法。在相同計(jì)算公式下,如果出現(xiàn)數(shù)值差別,可能有如下原因:各軟件對(duì)形符或單詞的定義不一致,比如BFSU Collocator中,我們將數(shù)字和不同的標(biāo)點(diǎn)符號(hào)視作單獨(dú)的形符。再有,含有連字符的單詞(如255)視作一個(gè)單詞,而不是兩個(gè)。有些工具中會(huì)將所有的阿拉伯?dāng)?shù)字都?xì)w并成一個(gè)#。這些都是造成最后的搭配統(tǒng)計(jì)值不一致的一些可能因素。所得的不同搭配強(qiáng)度值,一般來說無對(duì)錯(cuò)之虞,只是我們需要弄清產(chǎn)生數(shù)值差異的主要原因。另外,我們應(yīng)該在同一個(gè)課題中堅(jiān)持用同一種搭配計(jì)算工具,并在報(bào)告結(jié)果時(shí)言明。從搭配信息的結(jié)果呈現(xiàn)方式來說,有兩種,一種是基于整個(gè)語料庫中每個(gè)詞項(xiàng)的所有強(qiáng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年房產(chǎn)銷售聯(lián)盟合同
- 小學(xué)生期末總結(jié)(27篇)
- 2024年數(shù)據(jù)中心UPS設(shè)備租賃合同
- 2024年店鋪經(jīng)營權(quán)轉(zhuǎn)手合同
- 2024年技術(shù)合同登記流程圖標(biāo)
- 2024年度三人合伙開展區(qū)塊鏈技術(shù)研究合同
- 《戈雷茨基《第二弦樂四重奏》的結(jié)構(gòu)組織》
- 《基于陣列聲波測井信號(hào)的儲(chǔ)層識(shí)別研究》
- 2024年房屋建設(shè)施工合同
- 《基于EVA的ZC物流公司業(yè)績?cè)u(píng)價(jià)研究》
- 平陽港區(qū)西灣作業(yè)區(qū)防浪導(dǎo)流堤工程海域使用論證報(bào)告書
- 管道保溫計(jì)算公式
- 錄音行業(yè)的就業(yè)生涯發(fā)展報(bào)告
- 報(bào)廢汽車拆解工藝流程
- 生化報(bào)告解讀
- 胃癌科普講座課件
- 熔煉車間工安全培訓(xùn)
- 《多彩的職業(yè)》參考課件
- 醫(yī)用放射儀器的工作原理
- 抖音傳媒管理制度
- 家畜繁殖學(xué)課件
評(píng)論
0/150
提交評(píng)論