版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
...v.語料庫簡單DIY第二講a.開場進入語料庫軟件的應用領域,我們應該從什么地方下手?
b.如何培養(yǎng)一種理性地邏輯思維,從而對語料進展加工和處理?
c.MonoConcPro是什么?它能幫助我們做什么?
語料庫簡單DIY
第二講
語料庫軟件初探--MonoConcPro2.2
主講
葉城
日本國立廣島大學綜合科學研究中心
計算機輔助語言教學博士一年
聯(lián)系方式:
QQ47354211
:sery2004hotmail.
朋友們,首先我們想想上一講我們都談到了哪些問題?!踩绻邢氩黄饋淼?,可以翻看上一講的帖子〕
通過上一講的學習,大家了解到了語料庫CORPUS的定義,語料庫語言學的定義,以及語料庫語言學的特征;并且,在我的苦口婆心威逼利誘之下,朋友們硬著頭皮和我一起簡單地回憶了一些對于大家來說并不熟悉的語料庫產品,了解了一些語料庫開展的歷史等等??偠灾?,算是拋了個磚頭出去,至于有沒有起到磚頭的作用,砸沒砸到點兒上,這就不得而知啦。上一次講義之后,縱觀朋友們的留言,根本上都是對今后講座的期待等等。沒有疑問,沒有質疑。這一點不是太好,我覺得這里面還是能提出很多問題的。不過,既然算是一種科普性質的講座,我也不能對大家要求過于苛刻,總而言之,希望我講的東西,真的對大家有用,不至于回國下了飛機就被西紅柿和板磚兒砸得看不清方向。
下面進入今天的正題:
語料庫軟件初探--MonoConcPro2.2
本軟件是Athelstan開發(fā)小組athel./,于1996年開發(fā)的語料庫比擬檢索工具。目前,我的效勞器上提供學術性下載,下載地址:
〔本軟件為學術交流使用,所有權歸本軟件開發(fā)小組所有,一切商務性盈利目的的XX使用,所帶來的連帶責任關系與本人及本論壇無關。請慎重下載,小心使用?。?!〕
功能介紹:軟件主界面
根本功能:
MonoConcPro2.2的軟件界面比擬簡單。適合語料庫初學者和初級研究人員使用。
本軟件據(jù)作者的研究,其內部主核使用UTF-8編碼,根本支持歐洲幾種主要語言。當然,其主要的應用領域還是針對英語。本軟件主要處理的文本素材是以TXT結尾的記事本文件,當然,本軟件還可以導入RTF文檔和其他格式的操作系統(tǒng)默認文檔格式。不過,從DIY的角度來說,我們自己收集到的語料,為了免除格式,字體,行距等等文本要求,最好全部使用TXT文檔,方便,省事!用了都說好!〔誰用誰知道〕
我們按照自己的研究目的,研究方向,收集我們所需要的語料素材,具體的收集方法因人而異??梢詮膱蠹堧s志的電子文文檔上直接下載,也可以從上直接下載整理好的TXT版本的小說,資料素材等,還可以直接從各大語料庫中檢索需要的語用素材,然后拷貝粘貼到TXT文本中。由于MonoConcPro強大的跨文檔處理系統(tǒng),一次可以同時導入多個TXT文檔進展比擬處理,所以我們可以把文章或者資料按照自己喜好的分類標準進展分類,然后存成不同的TXT文件名。檢索的時候,只需要同時導入這些文件就可以了。〔異常強大~〕
下載好軟件,解壓縮,然后翻開MP22.EXE文件,你就可以看到上圖那個簡單的主界面了。
之后,選擇File→LordCorpusFile(s),找到你需要導入處理的TXT文檔,一個或者多個都可以,然后選擇[翻開]。指定的TXT文件就被全部導入進MonoConcPro中了。
如果導入了過多的TXT文檔,比方您導入了莎士比亞全集+馬克思選+恩格斯選+列寧選+選+選.....〔不能否認,真的有這樣的朋友存在〕。那么,為了方便您查詢檢索結果所出現(xiàn)的文章,你可以選擇File→ViewCorpusFile/URL,這樣就能看到查詢結果所在的文章,還可以刪除不需要的文章,或者添加新的文章,非常簡單。
*這里的URL,指的是在HTTP或者FTP上,可以直接翻開的文字頁面的。一般朋友們DIY的語料庫都是存在本地硬盤上的,所以根本上可以無視這個選項。不過,將來我們的個人語料庫要實現(xiàn)點對點,點對多的平臺連接。連接后,我們就可以相互查詢對方個人語料庫中的資料,此時在導入對方語料庫中的文檔的時候,就要用這個了?!策@個目前還很遙遠,大家還是踏踏實實做自己的DIY語料庫吧!〕
當我們要刪除所有的文章的時候,這個時候僅僅關閉文章的窗口,是不能實現(xiàn)刪除文章內容的。關閉了窗口,只是你看不見了而已,但是文章實際上已經寫入了內存,你必須將它去除出內存,才能在搜索的結果中排出掉不需要使用的文章。這個時候,你就需要File→UnloadCorpus功能了。這里Unload只是卸載掉內存中的TXT文檔,不是刪除你的文章,所以不要害怕,大膽卸。
以上就是MonoConcPro操作的根本功能。這里需要說明一個問題,MonoConcPro的File里面有一個Language的選項,里面你可以發(fā)現(xiàn)軟件支持很多語言。這里所謂的支持,只是顯示TXT文檔時所支持的語言編碼。也就是說,在MonoConcPro里面是可以顯示字母體系文字,和漢字體系文字的。但是,但是,但是!在內存中處理的時候,軟件是使用UTF-8歐洲語言進展處理的〔ANSI〕,所以無法直接處理漢字編碼Unicode或者ASCII編碼。不過,通過WORD或者其他的專碼工具,也可以進展操作,但是本人研究了很多編,對于漢字編碼的處理,系統(tǒng)總是出現(xiàn)很多錯誤,所以建議不要使用這個軟件來處理漢字文本。當然,有鉆研精神的人,還是很鼓勵的。沒有鉆研精神也不要怕,MonoConcPro介紹完了之后,我們會介紹專門處理漢字編碼的軟件Antconc3.2.0W,要好好支持我,我才講哦!
*有的朋友在翻開自己所整理的TXT文本文件時,在MonoConcPro進展操作的時候,會出現(xiàn)軟件報錯,或者軟件自動關閉等狀況。這就是我在上面提到的編碼問題。在我們進展MonoConcPro操作之前,我們有必要將我們的TXT文檔,用寫字板翻開,然后選擇另存為,編碼選擇ANSI,然后用新保存的文件進展MonoConcPro操作,就會防止這個問題;當然也可以使用Word等更加強大的軟件進展編碼轉換。如果在這一點上有疑問,請聯(lián)系我。--------------------------------------------------課間休息------------------------------------------課間休息-------------------------------------------------
進階功能介紹:
前半節(jié)的課程上,我們認識了MonoConcPro軟件的根本功能?,F(xiàn)在我們來學習今天課程的精華中的精華中的精華局部。要好好聽,不要走神哦!
Word
List功能
這個功能看名字很簡單,但是實際上這是一個很了不起的功能。首先我發(fā)上來兩個圖,大家可以參考一下。
第一副圖是對于英文文章WordList---詞匯頻率出現(xiàn)的統(tǒng)計;第二幅圖是對于漢語文章WordList的統(tǒng)計結果。從第一幅圖上我們就可以很清楚的看到〔可能這里看得不是很清楚〕,軟件能夠把英文單詞準確地提取出來,按照單個詞來統(tǒng)計頻率。而第二幅圖就明顯地看到,軟件不能把漢字處理成為單個漢字來統(tǒng)計,也不能按照任何一種詞匯規(guī)律來統(tǒng)計,根本上說,廢了。
那么WordList的功能怎么實現(xiàn)呢?首先,導入你需要統(tǒng)計的所有TXT文檔文件,這一步我想大家根本上都能實現(xiàn)。當你導入文件之后,你會發(fā)現(xiàn),主頁面的登陸畫面上,出現(xiàn)了很多新的功能菜單。這些菜單就是今后我們需要逐個介紹的進階和高級搜索功能菜單。今天我們先選擇Frequency→CorpusFrequencyData→FrequencyOrder。這時候軟件就開場自己統(tǒng)計詞匯頻率了,之后會出現(xiàn)一個統(tǒng)計表。就像上面的圖里面表示的東西一樣。表中的左邊開場依次是指定單詞出現(xiàn)的次數(shù),指定單詞出現(xiàn)的頻率,指定單詞。從表中一下子就對文章中的詞匯的出現(xiàn)頻率有了整體的了解,是不是也就有助于你做一些詞類研究呢?!
我們注意到了Frequency→CorpusFrequencyData→AlphabeticalOrder這個選項。這個也是一個很有用的選項。它會將WordList的統(tǒng)計結果,按照字母表順序排列,這樣你就可以看到,同一個字母開頭的詞匯,哪些詞出現(xiàn)的頻率較高,對于詞性研究,詞類比照,使用比照等,想必是非常有用處的吧。我也不是語言學的專家,有用沒有用,還需要大家自己的判斷。
Frequency下面還有一個選項,F(xiàn)requencyOptions。這個選項主要對于我們的頻率檢索做一些簡單的設定。里面規(guī)定了,結果顯示行數(shù),最低頻率數(shù),最高頻率數(shù),大小寫區(qū)別,TAG區(qū)別等,沒有特殊的需求,初學者一般不要修改這個選項比擬好。
好了!我們現(xiàn)在已經學習了WordList的制作方法,也懂得了一些查詢的選項。在開頭我也提到了,語料庫軟件的學習,其實也是培養(yǎng)一種理性地邏輯思維能力。用這種邏輯思維去思考和設計語料庫檢索處理軟件,來為自己的語料研究效勞。剛剛我們講了單詞頻率的統(tǒng)計。那么,我向大家提出一個問題,如果遇到了兩篇巨長的文章,我們要同時比擬某個單詞在這兩篇文章中的出現(xiàn)頻率,應該怎么做呢?!
細心的你,一定注意到,在Frequency菜單下,有一個SaveasFile選項。這是一個偉大的選項。雖然實現(xiàn)的是一個很不起眼,Save存儲這樣的小破功能。但是,對于后來我們的比擬研究,確是必不可少的一步。
在我給大家提供的下載文件里面,我放入了很多DEMO用的TXT文檔文件在SIMPLE文件夾中,還有一篇巨長的小說?罪與罰?。這都是用來講解和大家實踐用的。
首先,我們運行軟件,導入SIMPLE中的TXT文檔〔poorfolk.txt,demo.txt,demo2.txt,demo3.txt〕!對!就是不要那個?罪與罰?。
然后我們統(tǒng)計這四篇TXT文檔的WordList。具體統(tǒng)計的操作方法,不會的朋友看上面的教程。
然后我們就看到了下面這個圖:
然后我們選擇Frequency→SaveasFile這個時候會出現(xiàn)一個對話框,這個對話框是提示需要用多少行來表示所統(tǒng)計的數(shù)據(jù),一般我們默認為0,也就是用無限行來表示。然后選擇OK,這個時候出現(xiàn)保存程序的對話框。我強烈建議,大家把文件不要存成TXT,存文件的時候,把保存類型選擇為Allfiles。然后我們給文件隨便命名為mantou。這樣就保存成了一個叫做mantou,但是不能直接運行的程序文件。為什么這樣?呵呵!這是一個小訣竅。使用Allfiles來保存這種文本處理的統(tǒng)計文件,你會驚奇的發(fā)現(xiàn),我們可以使用EXCEL輕松地翻開這個叫做mantou的文件,然后可以用EXCEL的強大表格功能來進展編輯。還可以用SQL,MYSQL,ACCESS等數(shù)據(jù)庫文件翻開這個叫做mantou的文件,輕松導入到各種數(shù)據(jù)庫文件中。非常方便!
好了,繼續(xù)!
現(xiàn)在我們使用UnloadCorpus,卸載掉駐留內存的所有文檔,然后翻開罪與罰.txt〔抱歉里面使用了日語,將就吧〕。然后對這一篇文章進展WordList頻率統(tǒng)計。就會出現(xiàn)下列圖:
同樣地,為了保險起見,我們也把這篇文章的WordList存成名叫qianqian的無指定程序運行的文件。
這個時候,我們選擇Frequency→Corpusparison,在翻開的對話框的文件類型中選擇AllFiles。然后我們就可以看到mantou那個文件了,選中它,然后翻開。這個時候我們就能看到下面這個圖。
也許這里看不清,我說說。在這個圖表中,左邊開場依次是:指定單詞目前出現(xiàn)次數(shù),指定單詞目前出現(xiàn)頻率,指定單詞,指定單詞上次出現(xiàn)次數(shù),指定單詞上次出現(xiàn)頻率,兩次比擬頻率差,對數(shù)尤度比。
這樣就可以清晰地比擬出來詞匯在不同的文章中出現(xiàn)的頻率。不過,這里的比擬只能進展1:1的單次比,不能實現(xiàn)復數(shù)次數(shù)以上的多數(shù)比。如果要進展多數(shù)比,也就是復數(shù)文章以上的,針對指定單詞的出現(xiàn)頻率和出現(xiàn)次數(shù)的比擬的話,那么最好是用EXCEL翻開多個保存WordList的文件,直接在EXCEL上做統(tǒng)計,表格,圖形處理,會比擬直觀〔
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人裝修工程石材安裝合同
- 個人專屬高效勞務協(xié)議(2024優(yōu)化版)
- 2025版無人機植保作業(yè)質量控制合同樣本3篇
- 教育信息化與學生成長檔案的建設研究
- 二零二五年度誠意金支付及旅游產品預購協(xié)議4篇
- 二零二五年度綠色食品生產設備按揭購買協(xié)議2篇
- 提升學生網路素養(yǎng)助力其終身學習與發(fā)展
- 2025版無子女離婚協(xié)議書:離婚后子女權益保障與家庭責任協(xié)議12篇
- 二零二五年度車庫門故障診斷與快速修復服務協(xié)議3篇
- 二零二五年度潔具綠色生產認證合同范本共20套3篇
- 2025年山東省濟南市第一中學高三下學期期末統(tǒng)一考試物理試題含解析
- 中學安全辦2024-2025學年工作計劃
- 網絡安全保障服務方案(網絡安全運維、重保服務)
- 2024年鄉(xiāng)村振興(產業(yè)、文化、生態(tài))等實施戰(zhàn)略知識考試題庫與答案
- 現(xiàn)代科學技術概論智慧樹知到期末考試答案章節(jié)答案2024年成都師范學院
- 軟件模塊化設計與開發(fā)標準與規(guī)范
- 2024年遼寧鐵道職業(yè)技術學院高職單招(英語/數(shù)學/語文)筆試歷年參考題庫含答案解析
- 無痛人工流產術課件
- 有機農業(yè)種植模式
- 勞務派遣招標文件
- 法醫(yī)病理學課件
評論
0/150
提交評論