版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
語言分析工具語言分析工具語料庫(corpus,復數為corpora)一詞來源于拉丁語,本意為body。一般情況下,語料庫往往指的是一個“電子文本集”(acollectionoftextsstoredinanelectronicdatabase)。真正意義上,語料庫是一個按照一定的采樣標準采集而來的、能夠代表一種語言或者某語言的一種變體或文類的電子文本集。以一個語料庫為數據源(datasource)進行的研究可以看作是對該語料庫所代表語肓、語言變體或文類的研究,研究所得到的結論可以推廣到整個語言、語言變體或文類。語料庫語料庫(corpus,復數為corpora)一詞來源于拉丁語語料庫(corpus)是語言材料的倉庫,是計算機進行語言檢索、比較、分析等處理的重要基礎。(張普1999)語言學名詞審定委員會2011年推出的《語言學名詞》中,對語料庫的定義、作用及應用領域的闡述為:
(語料庫是)為語言研究和應用而收集的,在計算機中存儲的語言材料,由自然出現的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經過科學選材和標注,具有適當規(guī)模的語科庫能夠反映和記錄語言的實際使用恃況。通過語科庫能夠觀察和把握語言事實,分析和研究語言系統(tǒng)的規(guī)律。語料庫可以應用于語言學理論研究、語言應用和語言工程。由此可見,語料庫并不是語言材料的簡單堆砌或隨意集合。而是有著嚴格要求的有序的語料集合。語料庫語言學語料庫(corpus)是語言材料的倉庫,是計算機進行語言檢索對語料庫語言學(corpuslinguistics)的兩種看法:語料庫語言學是一個獨立的學科,它有自己獨到的理論體系和操作方法。語科庫語言學并非語言學的又一個分支學科,而是一種研究方法,這種方法基于大量的真實語言,可以用來回答通過其他途徑很難回答的問題,從而極大地豐富已有的研究方法。語料庫語言學以大量精心采集而來的真實文本(authentictexts)為研究素材,主要通過概率統(tǒng)計的方法得出結論,因此語料庫語言學從本質上講是實證性的(empirical)。語料庫語言學對語料庫語言學(corpuslinguistics)的兩種統(tǒng)計語言學使用概率論、數理統(tǒng)計等統(tǒng)計學的方法來對語言進行研究。(馮志偉2012)統(tǒng)計語言學統(tǒng)計語言學統(tǒng)計語言學計量語言學計量語言學(quantitativelinguistics)以真實的語言交際活動中呈現的各種語言現象、語言結構、結構屬性以及它們之間的相互關系作為研究對象,通過概率論、隨機過程、微分與微分方程、函數論等數學的定量方法(與代數等數學的定性方法相對)對其進行精確的測量、觀察、模擬、建模和解釋,尋找語言現象背后的數理規(guī)律,揭示各種語言現象形成的內在原因,探索語言系統(tǒng)的自適應機制和語言演化的動因。(劉海濤2012)計量語言學計量語言學計量語言學計算語言學“計算語言學是研究用機器來處理自然語言的學科。它是由信息技術和語言學交叉而成的”(CuS:1)。SLP沒有直接提出計算語言學的確切定義。SLP的作者在開篇借用了StanleyKubrick科幻片中的人物HAL,HAL是一個通曉英語的機器人。作者引入HAL的目的在于說明,為了構建這樣一個可與人通過自然語言進行交流的機器人,需要哪些知識和技術:語言理解方面有語音識別和自然語言理解(包括唇讀技術),表達方面需要自然語言生成和語音合成,另外HAL也需要信息檢索、信息提取和推理方面的技能。而解決這些問題一般涉及以下學科:自然語言處理,計算語言學,語音識別和合成。SLP的作者將這三者合起來稱為語音及語言處理,除了以上HAL所用的這些技能外,SLP也囊括了其他重要的語言處理領域,如:拼寫校正、語法檢查和機器翻譯。計算語言學計算語言學計算語言學聯系:都是涉及語言學、數學、統(tǒng)計學以及計算機科學等多個學科和領域,是典型的文理工交叉學科,具有鮮明的跨學科研究性質。研究對象都是自然語言組成的大規(guī)模語料庫。研究工具都是利用計算機的軟硬件。研究的理論基礎是數學的概率統(tǒng)計知識和語言學的語音、詞匯、句法、語義、語篇和語用知識。都可以對語言學的語音、詞匯、句法和語義等層面進行統(tǒng)計和研究。四種語言學的聯系與區(qū)別聯系:四種語言學的聯系與區(qū)別聯系:統(tǒng)計語言學和計量語言學都是利用統(tǒng)計方法來實現對語言成分的統(tǒng)計,計量語言學以發(fā)現語言成分或語言成分間的數學規(guī)律為目標。而統(tǒng)計語言學以所統(tǒng)計的語言特征在統(tǒng)計學上顯著和不顯著為目標。語料庫語言學對大規(guī)模語料庫進行詞匯、句法和語義等統(tǒng)計,依據統(tǒng)計數據和實例上下文對所研究的對象進行語言學層面定性的分析,是定量分析和定性分析的結合,以研究語言的結構和運用為目標。計算語言學以語言結構的理解與生成為研究目標,以統(tǒng)計和規(guī)則為基本研究方法。計算語言學的統(tǒng)計模型——隱馬爾科夫模型、最大熵模型、條件隨機場模型等和實現算法更復雜。四種語言學的聯系與區(qū)別聯系:四種語言學的聯系與區(qū)別對“詞”的定義,語言學界一直很難達成共識。我們暫且撇開語義問題,考慮一下當一個句子里出現兩個it,它們應該被視作一個詞還是兩個詞呢?形符(token)類似于我們日常說的“詞”(如一篇300詞的作文)。句子AcomputeralmostnecessarilyhasaKeyboardandamonitor中共有10個形符(即A,computer,almost,necessarily,has,a,Keyboard,and,a,monitor)。這看起來似乎沒有什么歧義,但是我們仍然需要考慮it’s是一個形符還是兩個形符。語料庫語言學中一般的處理方法是,對it’s,can’t等縮略詞進行切分,使其成為it和’s兩個成分(can’t切分為ca和n’t兩個成分),這一過程被稱作為分詞(tokenization)。換言之,語料庫語言學中一般將it’s視作為兩個形符??傂畏麛凳钦Z料庫容量的最常用的測量單位。如英國英國國家語料庫約有1億詞,說的就是該語料庫中包含有約1億個形符。分詞—詞、形符、類符、類符/形符比對“詞”的定義,語言學界一直很難達成共識。我們暫且撇開語義問形符:在處理英語時,較為通用的做法是,把所有的單詞視為“形符”。這里說的形符,大概有這樣幾種類型:1、全部由英語字母構成(如computer由8個英文字母構成)2、由數字或數字和字母構成(如3、1985、21th、3D等)3、除了數字和/或字母之外,還帶有連字符(-)4、帶有英語26個字母之外的外來字母(如德語中的音變)5、部分符號(如&、$等)。統(tǒng)計形符時,我們通常不把標點符號(如逗號、句號等)包括在內,但這一點有例外,如數字3.1415925和整數的千分位分隔符(如100,000)中的逗號等。為了便于統(tǒng)計,對英語進行分詞時通常在以上我們所說的“形符”后加空格,使得他們與文本中的其他形符或符號分離開來。分詞—詞、形符、類符、類符/形符比形符:在處理英語時,較為通用的做法是,把所有的單詞視為“形類符(type)作為一個統(tǒng)計量,指語料庫文本中任何一個獨特的詞形(wordform)。換言之,在一個文本中,重復出現的形符只能記作一個類符。以美國作家GertrudeStein的作品SacredEmily中的詩句Roseisaroseisaroseisarose.為例,這句中:共有10個形符,而類符只有3個(即rose,is,a)。據此,我們可以計算這個句子的類符/形符比(type-tokenratio,TTR,又稱為形次比或類形比),即 TTR=(3/10)*100%=30%類符/形符比是衡量文本中詞匯密度(lexicaldensity)的常用方法。然而由于文本中有大量的功能詞(如the、a、of等)反復出現,文本越大,形符量越大,但類符量卻不會等量增加。文本越長,功能詞重復的次數也就越多,類符/形符比也就會越低。因此,如果采用類符/形符比來計算長度不等的文本的詞匯密度就顯得很不合理。常用的補救方法是用標準化類符/形符比(standardizedtype-tokenratio)來計算詞匯密度。計算方法是:計算每個文本每1000詞的類符/形符比。分詞—詞、形符、類符、類符/形符比類符(type)作為一個統(tǒng)計量,指語料庫文本中任何一個獨特的所謂分詞(tokenization),指將一連串的字符轉換成相互分離、容易識別的形符(tokens)的過程。在文本采集的過程中,由于文本來源不一,格式各異,文本內部存在很大的不一致性,如果不進行分詞處理,一來容易導致檢索困難,二來可能會使得語料庫的頻率統(tǒng)計出現誤差,還可能會影響語料庫的標注和后期加工。分詞—詞、形符、類符、類符/形符比所謂分詞(tokenization),指將一連串的字符轉換漢語的分詞比英語要復雜的多。詞與詞之間連寫,沒有空格。對漢語“詞”的理解眾說紛紜。分詞漢語的分詞比英語要復雜的多。分詞軟件filelist.ini,修改分詞文件目錄路徑批處理分詞軟件分詞軟件分詞軟件分詞語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫分析索引,又稱為“語境中的關鍵詞”語料庫分析索引,又稱為“語境中的關鍵詞”語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析ConcordanceConcordancePlotFileViewWordClusterN-GramsCollocatesWordListKeywordListAntConc-語料庫分析軟件ConcordanceAntConc-語料庫分析軟件AntConc-Concordance索引,又稱為語境中的關鍵詞AntConc-Concordance索引,又稱為語境中的關AntConc-ConcordancePlot索引定位AntConc-ConcordancePlot索引定位AntConc-FileViewAntConc-FileViewAntConc-WordCluster詞簇表,又稱詞塊,詞匯短語,短語結構等等??稍O定長度。AntConc-WordCluster詞簇表,又稱詞塊,詞AntConc-N-GramsAntConc-N-GramsAntConc-Collocates搭配。AntConc-Collocates搭配。AntConc-WordList詞表。詞頻表。AntConc-WordList詞表。詞頻表。AntConc-Wo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高級餐飲食品安全管理員技能鑒定理論考試題庫500題(含答案)
- 2025年河南農業(yè)職業(yè)學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年池州職業(yè)技術學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年江蘇農牧科技職業(yè)學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 《醫(yī)療機構管理培訓》課件
- 2025民用航空運輸行業(yè)未來發(fā)展與市場展望
- 物業(yè)管理人員培訓與發(fā)展
- 煙霧探測與報警系統(tǒng)的原理與應用
- 智能電網虛假數據注入攻擊建模及檢測方法研究
- 2025年浙科版選修4地理上冊階段測試試卷含答案
- 江蘇省揚州市蔣王小學2023~2024年五年級上學期英語期末試卷(含答案無聽力原文無音頻)
- 數學-湖南省新高考教學教研聯盟(長郡二十校聯盟)2024-2025學年2025屆高三上學期第一次預熱演練試題和答案
- 決勝中層:中層管理者的九項修煉-記錄
- 派出所績效考核總結分析報告
- 鑄石防磨施工工藝
- 臨時用電安全培訓(匯編)
- 玻璃鋼煙囪方案
- 中小學教師師德師風法律法規(guī)培訓
- 醫(yī)療器械質量管理體系文件模板
- 在馬克思墓前的講話說課稿公開課一等獎市賽課獲獎課件
- 送養(yǎng)收養(yǎng)合同協議書
評論
0/150
提交評論