語料庫基本知識課件_第1頁
語料庫基本知識課件_第2頁
語料庫基本知識課件_第3頁
語料庫基本知識課件_第4頁
語料庫基本知識課件_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、語言分析工具語料庫(corpus,復數為corpora)一詞來源于拉丁語,本意為body。一般情況下,語料庫往往指的是一個“電子文本集”(a collection of texts stored in an electronic database) 。真正意義上,語料庫是一個按照一定的采樣標準采集而來的、能夠代表一種語言或者某語言的一種變體或文類的電子文本集。以一個語料庫為數據源(data source) 進行的研究可以看作是對該語料庫所代表語肓、語言變體或文類的研究,研究所得到的結論可以推廣到整個語言、語言變體或文類。語料庫語料庫(corpus)是語言材料的倉庫,是計算機進行語言檢索、比較、

2、分析等處理的重要基礎。(張普1999)語言學名詞審定委員會2011年推出的語言學名詞中,對語料庫的定義、作用及應用領域的闡述為: (語料庫是)為語言研究和應用而收集的,在計算機中存儲的語言材料,由自然出現(xiàn)的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經過科學選材和標注,具有適當規(guī)模的語科庫能夠反映和記錄語言的實際使用恃況。通過語科庫能夠觀察和把握語言事實,分析和研究語言系統(tǒng)的規(guī)律。語料庫可以應用于語言學理論研究、語言應用和語言工程。由此可見,語料庫并不是語言材料的簡單堆砌或隨意集合。而是有著嚴格要求的有序的語料集合。語料庫語言學對語料庫語言學(corpus linguistics

3、)的兩種看法:語料庫語言學是一個獨立的學科,它有自己獨到的理論體系和操作方法。語科庫語言學并非語言學的又一個分支學科,而是一種研究方法,這種方法基于大量的真實語言,可以用來回答通過其他途徑很難回答的問題,從而極大地豐富已有的研究方法。語料庫語言學以大量精心采集而來的真實文本(authentic texts) 為研究素材,主要通過概率統(tǒng)計的方法得出結論,因此語料庫語言學從本質上講是實證性的(empirical)。語料庫語言學統(tǒng)計語言學使用概率論、數理統(tǒng)計等統(tǒng)計學的方法來對語言進行研究。(馮志偉 2012)統(tǒng)計語言學計量語言學計量語言學(quantitative linguistics)以真實的語

4、言交際活動中呈現(xiàn)的各種語言現(xiàn)象、語言結構、結構屬性以及它們之間的相互關系作為研究對象,通過概率論、隨機過程、微分與微分方程、函數論等數學的定量方法(與代數等數學的定性方法相對)對其進行精確的測量、觀察、模擬、建模和解釋,尋找語言現(xiàn)象背后的數理規(guī)律,揭示各種語言現(xiàn)象形成的內在原因,探索語言系統(tǒng)的自適應機制和語言演化的動因。(劉海濤 2012)計量語言學計算語言學“計算語言學是研究用機器來處理自然語言的學科。它是由信息技術和語言學交叉而成的”(CuS:1)。SLP沒有直接提出計算語言學的確切定義。SLP的作者在開篇借用了Stanley Kubrick科幻片中的人物 HAL,HAL是一個通曉英語的機

5、器人。作者引入HAL的目的在于說明,為了構建這樣一個可與人通過自然語言進行交流的機器人,需要哪些知識和技術:語言理解方面有語音識別和自然語言理解(包括唇讀技術),表達方面需要自然語言生成和語音合成,另外HAL也需要信息檢索、信息提取和推理方面的技能。而解決這些問題一般涉及以下學科:自然語言處理,計算語言學,語音識別和合成。SLP的作者將這三者合起來稱為語音及語言處理,除了以上HAL所用的這些技能外,SLP也囊括了其他重要的語言處理領域,如:拼寫校正、語法檢查和機器翻譯。計算語言學聯(lián)系:都是涉及語言學、數學、統(tǒng)計學以及計算機科學等多個學科和領域,是典型的文理工交叉學科,具有鮮明的跨學科研究性質。

6、研究對象都是自然語言組成的大規(guī)模語料庫。研究工具都是利用計算機的軟硬件。研究的理論基礎是數學的概率統(tǒng)計知識和語言學的語音、詞匯、句法、語義、語篇和語用知識。都可以對語言學的語音、詞匯、句法和語義等層面進行統(tǒng)計和研究。四種語言學的聯(lián)系與區(qū)別聯(lián)系:統(tǒng)計語言學和計量語言學都是利用統(tǒng)計方法來實現(xiàn)對語言成分的統(tǒng)計,計量語言學以發(fā)現(xiàn)語言成分或語言成分間的數學規(guī)律為目標。而統(tǒng)計語言學以所統(tǒng)計的語言特征在統(tǒng)計學上顯著和不顯著為目標。語料庫語言學對大規(guī)模語料庫進行詞匯、句法和語義等統(tǒng)計,依據統(tǒng)計數據和實例上下文對所研究的對象進行語言學層面定性的分析,是定量分析和定性分析的結合,以研究語言的結構和運用為目標。計算

7、語言學以語言結構的理解與生成為研究目標,以統(tǒng)計和規(guī)則為基本研究方法。計算語言學的統(tǒng)計模型隱馬爾科夫模型、最大熵模型、條件隨機場模型等和實現(xiàn)算法更復雜。四種語言學的聯(lián)系與區(qū)別對“詞”的定義,語言學界一直很難達成共識。我們暫且撇開語義問題,考慮一下當一個句子里出現(xiàn)兩個it,它們應該被視作一個詞還是兩個詞呢?形符(token) 類似于我們日常說的“詞”(如一篇300詞的作文)。句子A computer almost necessarily has a Keyboard and a monitor中共有10 個形符 ( 即A, computer, almost, necessarily, has, a

8、, Keyboard, and,a, monitor) 。這看起來似乎沒有什么歧義,但是我們仍然需要考慮its是一個形符還是兩個形符。語料庫語言學中一般的處理方法是,對its,cant等縮略詞進行切分,使其成為it和s 兩個成分(cant 切分為ca 和nt 兩個成分) ,這一過程被稱作為分詞(tokenization) 。換言之,語料庫語言學中一般將its視作為兩個形符??傂畏麛凳钦Z料庫容量的最常用的測量單位。如英國英國國家語料庫約有1億詞,說的就是該語料庫中包含有約1億個形符。分詞詞、形符、類符、類符/形符比形符:在處理英語時,較為通用的做法是,把所有的單詞視為 “形符”。這里說的形符,大

9、概有這樣幾種類型:1、全部由英語字母構成(如computer 由8 個英文字母構成)2、由數字或數字和字母構成(如3、1985、 21th、3D等)3、除了數字和/或字母之外,還帶有連字符(-)4、帶有英語26 個字母之外的外來字母 (如德語中的音變)5、部分符號 (如&、$等)。統(tǒng)計形符時,我們通常不把標點符號 (如逗號、句號等) 包括在內,但這一點有例外,如數字3.1415925 和整數的千分位分隔符 (如100,000) 中的逗號等。為了便于統(tǒng)計,對英語進行分詞時通常在以上我們所說的 “形符” 后加空格,使得他們與文本中的其他形符或符號分離開來。分詞詞、形符、類符、類符/形符比類符(ty

10、pe)作為一個統(tǒng)計量,指語料庫文本中任何一個獨特的詞形(word form)。換言之,在一個文本中,重復出現(xiàn)的形符只能記作一個類符。以美國作家Gertrude Stein的作品Sacred Emily中的詩句Rose is a rose is a rose is a rose. 為例,這句中:共有10個形符,而類符只有3個 ( 即rose, is, a)。據此,我們可以計算這個句子的類符/形符比(type-token ratio,TTR,又稱為形次比或類形比),即TTR = (3/10)*100% = 30%類符/形符比是衡量文本中詞匯密度(lexical density)的常用方法。然而由于

11、文本中有大量的功能詞(如the、a、of等)反復出現(xiàn),文本越大,形符量越大,但類符量卻不會等量增加。文本越長,功能詞重復的次數也就越多,類符/形符比也就會越低。因此,如果采用類符/形符比來計算長度不等的文本的詞匯密度就顯得很不合理。常用的補救方法是用標準化類符/形符比(standardized type-token ratio) 來計算詞匯密度。計算方法是:計算每個文本每1000詞的類符/形符比。分詞詞、形符、類符、類符/形符比所謂分詞(tokenization) ,指將一連串的字符轉換成相互分離、容易識別的形符(tokens) 的過程。在文本采集的過程中,由于文本來源不一,格式各異,文本內部

12、存在很大的不一致性,如果不進行分詞處理,一來容易導致檢索困難,二來可能會使得語料庫的頻率統(tǒng)計出現(xiàn)誤差,還可能會影響語料庫的標注和后期加工。分詞詞、形符、類符、類符/形符比漢語的分詞比英語要復雜的多。詞與詞之間連寫,沒有空格。對漢語“詞”的理解眾說紛紜。分詞軟件filelist.ini,修改分詞文件目錄路徑批處理分詞軟件分詞語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫分析索引,又稱為“語境中的關鍵詞”語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析ConcordanceConcordance PlotFile ViewWord ClusterN-GramsCollocatesWord ListKeyword ListAntConc-語料庫分析軟件AntConc-Concordance索引,又稱為語境中的關鍵詞AntConc-Concordance Plot索引定位AntConc-File ViewAntConc-Word Cluster詞簇表,又稱詞塊,詞匯短語,短語結構等等??稍O定長度。AntConc-N-Gra

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論