




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
關于英語語篇結構標注研究綜述〔作者:___________單位:___________:___________〕
論文關鍵詞:修辭結構理論篇章結構標注
論文摘要:語篇結構標注起步較晚,但以修辭結構理論〔RST〕為指導的篇章修辭結構標注最近取得了令人矚目的成績。目前,已經建成并公布的篇章結構標注語料庫是由美國南加州大學信息科學學院的一個課題小組完成的,由385篇文章組成,是一個大規(guī)模、高質量、高一致性的帶多層語言學標注信息的參照篇章語料庫。語料庫建設的主要成就為:確立了如何將語篇切分為根本語篇單位的理論,擴展了修辭關系集,為RST理論的運用提供了廣闊的前景。本文綜述該語料庫建設的研究成果。
0.概述
隨著計算機技術的普及和開展,語料為機器可讀成為語料庫建設的最根本的要求之一。要到達語料機讀化這一目的,關鍵在于語料的標注。所謂標注,就是對語料庫中的原始語料進行加工,把各種表示語言特征的附碼標注在相應的語言成分上,以便計算機的識讀。
語料標注的類型主要包括語篇背景信息、詞性、詞形、句法分析、語義、語篇結構等。從當前的研究現(xiàn)狀來看,雖然語篇結構標注起步較晚,但以修辭結構理論〔RST〕為指導的篇章修辭結構標注最近取得了令人矚目的成績。目前,已經建成并已公布的篇章結構標注語料庫是由美國南加州大學信息科學學院的一個課題小組完成的,由385篇文章組成,是一個大規(guī)模、高質量、高一致性的帶多層語言學標注信息的參照篇章語料庫。在這根底上研究小組還進行了自動篇章標注算法、自動文摘、機器翻譯等具體應用工程方面的研究。
該參照篇章語料庫的建成不但為篇章結構標注建立了理論體系,而且為語篇結構的應用研究開辟了新的領域。本文將綜述該參照篇章語料庫建設的研究成果。
1.理論支撐的建立
根據(jù)Carlson〔2001〕的介紹,用于話語分析的理論有很多,如Groz和Sidner(1986)Mann和Thompson(1987)等都提出了自己的篇章分析理論,但這些理論主要用于單個的文本分析,往往著眼于語篇的某一個方面,如指代關系、語篇的風格、語篇的多維性以及某一理論在語篇中的表達等,很少被用于大規(guī)模的語料分析或語料標注。在建立參照語料庫時,Carlson〔2001〕等研究者將Mann和Thompson(1987)提出的修辭結構理論〔RST〕用于大批量的語篇標注和語篇分析。他們認為用修辭結構理論〔RST〕對語篇進行標注有三點優(yōu)勢:可以同時捕捉到特定文本的交際意圖、語義信息和文本本身的特征;先前的研究說明該理論可以使不同的標注者在標注不同的文本時到達一定的統(tǒng)一;用該理論標注的語篇樹形圖對構建自然語篇生成系統(tǒng)、自動文摘系統(tǒng)、文本測評系統(tǒng)起著關鍵的作用,也可以用來增強機器翻譯的自然性。參照篇章語料庫的建成確立了篇章結構標注的理論根底。
2.根本語篇單位確實定
語篇結構標注的另一成就是確定了英語根本語篇單位。在確定根本語篇單位時,不同的研究者往往運用不同的理論。Givon〔1983〕認為從句應該成為語篇的根本單位,Sacks〔1974〕認為談話的話輪應該成為語篇的根本單位,Polanyi〔1988〕堅持語篇應該以自然句為切分單位,Grosz和Sindner〔1986〕認為語篇的根本單位應該從語篇的上下文中獲取,它是由一定的符號所反映的信息載體,能反映事物的單個狀態(tài)或局部狀態(tài),最有影響的修辭結構理論認為從句應該是語篇的根本單位,不管從句有沒有語法標記或詞匯標記。
然而,在具體標注時,Marcu等研究者對根本語篇單位有了新的規(guī)定:所有有詞匯或句法標記的起狀語作用的從句都屬于根本語篇單位,包括起狀語作用的非謂語動詞詞組;充當主語、賓語、補語的從句不屬于根本語篇單位;定語從句、后置的名詞修飾短語或將其他根本語篇單位割裂開的從句或非謂語動詞短語為內置語篇單位;除此而外,還有一定數(shù)量的有明顯語篇標記的短語作為根本語篇單位,如由inspiteof〔盡管〕,accordingto〔根據(jù)〕等引導的短語。
Marcu的切分方法綜合了Grosz和Sindner〔1986〕和Mann(1987)和Thompson〔1987〕的理論,在確定根本語篇單位時考慮到詞匯、句法、語義和在句中的位置等因素。
3.修辭關系的擴展
當初,Mann和Thompson〔1987〕提出修辭結構理論時只給出20多種修辭關系,但他們明確指出這是一個開放關系集,既然是開放性的,就意味著讀者在給定話語的內部可以定義出其他的關系類型。Marcu〔2000〕根據(jù)標注的語料庫總結出53種單層核心關系和25種多層核心關系,78種定義關系又分成16個組別,每組都具有相同的修辭功能。
就如同當初的定義關系集一樣,這些關系覆蓋了根本語篇單位、語段乃至整個語篇。通過這些關系,不同層級的語言片段被連接起來,構成一定的抽象形式。
4.標注標準和方法的制定
為了建立高質量的前后一致的標注標準和方法,Carlson〔2001〕等研究者采用人工標注的方法。他們所選用的標注者都是有過標注經歷的、從事語篇分析和新聞報道的專業(yè)人員。在正式標注之前,他們都接受專門的語篇結構標注培訓,培訓包括3個階段。
在第一階段,向標注者介紹修辭結構理論和語篇分析工具。在培訓的第二階段,標注者開始探索語篇結構的特征。在培訓的最后一個階段,標注小組謀求在構建語篇總結構圖時保持一致,盡量減少分歧。
最終,標注小組研制出兩個根本策略用于文獻分析并建立相關的語篇結構圖。策略之一是對文本的直接分析,可以在頁邊空白處標出記號,也可以將文獻切分成一定的語段并標出記號,根據(jù)這些標注建立語篇結構圖。以這種方式建立樹型結構圖,標注者必須預測到隨后的語篇結構。然而,其后語段的修辭關系,尤其是較大的語段,可能不是太明顯,這就是為什么這一標注策略更適用于短篇文獻的標注。
另一策略是將文本分析與建立語篇結構兩項任務同時進行,很可能是成塊地標注而不是循序漸進地一步一步地增加。以這種策略進行標注,標注者一次可以切分很多語篇單位,并為每個自然句建立結構圖,然后將相鄰的自然句連接起來,構成較大的語段結構樹。最終的語篇結構樹是通過連接語篇結構中主要語塊而建成的。
5.標注質量的檢驗
標注質量的控制是通過標注者對標注結果的反復修改和局部隨機的自動交叉核實來實現(xiàn)的。為了確保標注語料庫的質量,研究小組采取了很多措施,這些措施主要涉及到兩個方面,即檢驗語篇結構樹的效度和保持標注者內部的一致性。
5.1效度檢驗
效度檢驗從兩個方面進行,即句法和語義。句法檢驗確保每棵樹只有一個根結,并將樹與文獻進行比照以防句子或語段被遺漏。語義檢驗主要是關系到核心語段的指派、修辭關系的選擇以及語篇結構樹的層次。為了保證檢驗質量,研究小組研制出語篇分析器以及圖形掃描儀。所謂圖形掃描儀,就是指,在圖形環(huán)境下,自左而右漸進地為各個篇章單元給出一種最有可能的修辭關系和篇章結構地位。分析器和圖形掃描儀經??梢源_認出人工檢驗無法覺察的錯誤,都可以成功地作用于所有語篇結構樹。
5.2標注一致性
在整個語料庫的建設過程中,研究者一直設法保證標注者之間內部的一致性。首先,他們研制出一種算法,該算法可以計算出語篇層級結構的Kappa數(shù)據(jù)?!睰appa算法曾被廣泛地運用于語篇實證研究中,該算法可以測算出研究者在作出分類決策、預測可能性方面的一致性?!橙绻鸎appa數(shù)據(jù)大于0.8,就意味著具有較高的一致性;如果數(shù)據(jù)值在0.6和0.8之間,就意味著較好的一致性。
6.標注語料庫的挖掘
借助于以RST理論為支撐的語篇標注語料庫,研究者可以對語篇進行三個層次的分析,即語篇標記詞功能的分析、不同類型的語篇結構圖的描述和比擬、語篇中從句間修辭關系的描述和比擬。
6.1篇章連詞的研究
篇章連詞功能研究一直是理論語言學和計算機語言學研究的主題,而且網(wǎng)絡語料庫方便了研究者對關聯(lián)詞語的研究,但利用豐富的標注語料庫資源進行分析的研究不多。語篇結構標注語料庫可以使研究者在多種語境中對關聯(lián)詞進行元語言分析,使人們能了解到它們在語篇中出現(xiàn)的頻數(shù)、在句中的位置、所發(fā)揮的篇章修辭作用、核心性、輔助性等方面信息。
例如,研究小組總結了since和as在語篇中的功能。經研究發(fā)現(xiàn),就這兩個詞在語篇中出現(xiàn)的頻率而言,在語篇中起連接兩個根本語篇單位修辭作用的情況只有1/3,因為它們往往在命題層面上發(fā)揮作用而不是在語篇層面上。就它們在語篇中發(fā)揮的修辭作用而言,as涉及到的關系類型遠遠地多于since,但兩者所引導的語篇單位往往都處于輔助位置而非核心位置。
6.2語篇結構圖的描述和比擬
除了Lancaster大學的OBC語料庫〔Garside等,1987;Biber等,1998,轉自Carlson,2001〕提供的語體或語域研究,以及TDT語料庫〔Wayne,2000,轉自Carlson,2001〕提供的話題確認研究之外,能幫助研究者對語篇進行全面分析的語言資源不多。然而,以RST理論為支撐的語篇結構標注語料庫,勾畫出每一份文獻的多層次的語篇修辭結構圖,據(jù)此可以對結構樹的各個層次進行分析。例如,結構樹的抽象層面,對修辭關系和文獻的內容進行非詞匯化的概括,為研究交際意圖帶來很多方便。
又如,語篇研究結果說明在文本的總體框架上新聞類語篇不同于故事類,因為新聞類語篇的結構多呈倒三角形,但這些研究很難解釋產生差異的根本性原因。語篇結構樹可以彌補這一缺陷,這些樹使研究者清楚地看到在實現(xiàn)作者的交際意圖時、在表達篇章的互文性時,同樣的句式在不同的文本中發(fā)揮的作用是不同的,在有的文獻中起核心作用,而在有的文獻中起輔助作用。事實上,這些結構樹很清楚地反映出,即使是同一類型的語篇,隨著語境的改變、主題的變化,文本的結構也會發(fā)生相應的變化。
6.3語篇內修辭關系的研究
通過對標注語料庫的分析和挖掘,研究者發(fā)現(xiàn)從句間的修辭關系在文本中發(fā)揮作用的頻率是很不一樣的。例如,研究者發(fā)現(xiàn)“詳述-補充〞修辭關系使用的頻率最高,因為作者在表達過程中往往要借助于前面的背景,通過對前面的背景補充說明來闡發(fā)新的觀點。與此類似的還有列舉關系和解析關系。修辭關系的元語言分析使人們能了解到它們在語篇中出現(xiàn)的頻數(shù)、在句中的位置、核心性、輔助性等方面信息。除此之外,語篇結構樹還勾畫了修辭關系如何發(fā)揮語篇銜接與連貫的功能。例如,研究者通過對篇章標注語料庫的分析發(fā)現(xiàn),“列舉〞關系不但起到舉例的作用,而且在連接平行語篇單位、平行語段和平行語篇時發(fā)揮巨大的作用。事實上,這一研究結果驗證了Halliday和Hasan〔1976〕的觀點,即平行結構是一種語篇銜接手段。
6.4應用性研究
語篇結構標注語料庫為文獻檢索、自動剖析、自動文摘、自動翻譯等提供相關數(shù)據(jù),例如,研究小組所設計的在線文件剪接系統(tǒng)。借助于篇章結構標注語料庫,研究者發(fā)現(xiàn)并非所有的句子都是根本語篇單位,也不是所有的語篇單位都具有相同的作用,有的屬于核心的,有的屬于輔助的,有的在實現(xiàn)作者的交際意圖時、在表達篇章的互文性時發(fā)揮關鍵作用,有的并沒有。以此類推,篇章中的詞匯、短語也有核心與輔助之別。篇章結構標注語料庫可以幫助創(chuàng)立一個以篇章結構為指導、以詞匯短語有界和無界合并為手段的文件剪接系統(tǒng)。同時,篇章結構標注語料庫幫助創(chuàng)立了一個以篇章結構為指導、以機械文摘為根本手段、再配合消除冗余、可讀性加工的綜合自動文摘系統(tǒng)。
7.結論
2001年,由DanielMarcu博士主持的研究小組以RST理論為支撐創(chuàng)立了語篇標注語料庫。研究小組所標注的385篇華爾街報文章皆取自賓州樹庫,篇幅長度不等,從31個詞到2,124個詞,總詞數(shù)到達176,000,平均每篇文章458個詞。文章的內容涉及到各種話題,如財政報道、商業(yè)新聞、文化點評、編者按、讀者來信等。語料庫建設的主要成就為:確立了如何將語篇切分為根本語篇單位的理論、擴展了修辭關系集、為RST理論的運用提供了廣闊的前景。
參考文獻:
[1][ZK(#]Carlson,L.,Marcu.D.OkurowskiM.BuildingaDiscourse_taggedCorpusintheFrameworkofRhetoricalStructureTheory.ProceedingsoftheFirstAnnualMeeting
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 膳食因素和食管癌
- 林業(yè)年度工作總結范文11篇
- 江蘇開放大學2025年春服務營銷1單項選擇題題庫
- 河北省邢臺市2024~2025學年 高二下冊第四次質量檢測數(shù)學試卷附解析
- 2024年廈門市第十中學招聘真題
- 公司春節(jié)活動方案
- 社區(qū)社區(qū)服務管理學研究管理基礎知識點歸納
- 石大學前兒童保育學課件2-3早期發(fā)育與科學喂養(yǎng)
- 極地浮游生物的種群動態(tài)與棲息地重構-洞察闡釋
- 新時代高校輔導員職業(yè)能力提升策略
- 2025山東“才聚齊魯成就未來”水發(fā)集團高校畢業(yè)招聘241人筆試參考題庫附帶答案詳解
- 2024年度江蘇省數(shù)據(jù)集團有限公司社會招聘筆試參考題庫附帶答案詳解
- GB/T 45355-2025無壓埋地排污、排水用聚乙烯(PE)管道系統(tǒng)
- 《愛蓮說》對比閱讀-2024-2025中考語文文言文閱讀專項訓練(含答案)
- DZ∕T 0214-2020 礦產地質勘查規(guī)范 銅、鉛、鋅、銀、鎳、鉬(正式版)
- GB 4806.7-2016食品安全國家標準食品接觸用塑料材料及制品
- 2022年北京市西城區(qū)八年級下學期期末語文試卷
- 中班繪本《跑跑鎮(zhèn)》微課件
- 基于崗位拓展模型和KPI的主基二元考核績效體系的構建
- 初三英語畢業(yè)考試補考試卷
- 消防安全工作臺賬表格匯總
評論
0/150
提交評論