常見語料庫使用入門(課堂PPT)_第1頁
常見語料庫使用入門(課堂PPT)_第2頁
常見語料庫使用入門(課堂PPT)_第3頁
常見語料庫使用入門(課堂PPT)_第4頁
常見語料庫使用入門(課堂PPT)_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、.1常見語料庫使用入門語言研究中的小技能get華中師范大學(xué)語言研究所華中師范大學(xué)語言研究所20152015級級 秦志君秦志君.2PPT模板下載: 行業(yè)PPT模板: 節(jié)日PPT模板: PPT素材下載: PPT圖表下載: 優(yōu)秀PPT下載: PPT教程: Word教程: Excel教程: 資料下載: PPT課件下載: 范文下載: 試卷下載: 教案下載: PPT論壇: 主要部分第一節(jié) 語料庫及其分類第二節(jié)公共語料庫檢索第三節(jié) 個人語料庫創(chuàng)建0.3第一節(jié)語料庫及其分類.4語料庫及其分類1語料庫(corpus):存放語言材料的倉庫?,F(xiàn)代的語料庫是指存放在計算機里的原始語料文本或經(jīng)過加工后帶有語言學(xué)信息標(biāo)注

2、的語料文本的匯集。三點基本認識:A.必須是實際使用中真實出現(xiàn)過的語言材料;B.須以計算機為必要載體;C.材料分析加工后才有用。.5語料庫及其分類2.6語料庫及其分類3.7第二節(jié)公共語料庫檢索.8公共語料庫檢索4統(tǒng)計頻率統(tǒng)計頻率 查找例句查找例句驗證分析驗證分析參數(shù)設(shè)置帶著問題收集證據(jù)基于檢索.9公共語料庫檢索5我國21個知名語料庫01.中央研究院近代漢語標(biāo)記語料:.tw/Early_Mandarin/ 02.中央研究院漢籍電子文獻:.tw/ftms-bin/ftmsw3 03.國家現(xiàn)代漢語語料庫:http:/124

3、.207.106.21:8080/04.國家語委現(xiàn)代漢語語料庫:http:/ 13.閩南語典藏:.tw/14.香港城市大學(xué)LIVAC共時語料庫:/search.php.11公共語料庫檢索7我國21個知名語料庫15.浙江師范大學(xué)的歷史文獻語庫:http:/ (ICE):http: /www.ucl.ac.uk/english-usage/ice/htm02.美國國家語料庫(ANC):/03.美國當(dāng)代英語語料庫(COCA):http:/www.americancorpus

4、.org/04.美國近當(dāng)代英語語料庫(COHA):/coha/05.英國國家語料庫(BNC):/bnc/06.柯林斯英語語料庫(BOE):http:/ /www.ucl.ac.uk/english-usage/08.澳大利亞英語語料庫(ACE):http: /khnt.hit.uib.no/icame/manuals/ 09.新規(guī)范語料庫(NMC):http: /www.sketchengine.co.uk/.13公共語料庫檢索9國外18個知名英語語料庫10.LLC口語語料庫: http:/khnt.hit.uib

5、.no/icame/manuals/11.COBUILD語料庫:http:/www.collins.co.uk/Corpus/CorpusSearch.aspx12.ICE東非等分庫:http:/www.ucl.ac.uk/english-usage/ice/avail. htm13.ARCHER語料庫:/english/degree_programs. asp14.CEECS語料庫:http:/www.eng.helsinki.fi/varieng/main/corporal.htm15.SCTS語料庫:http: /www.scottishcorp

6、us.ac.uk/16.VOICE語料庫:http: /www.univie.ac.at/Anglistik/voice/17.ELFA語料庫:http: /www.uta.fi/laitokset/kielet/engf/research/elfa/18.朗曼語料庫:http: /www.long- 一種語言現(xiàn)象我們至少得收集多少條語料呢?徐杰教授認為,語料多多益善,至少應(yīng)收集500條。大數(shù)定律(Law of Large Numbers): 指在隨機試驗中,每次出現(xiàn)的結(jié)果不同,但是大量重復(fù)試驗出現(xiàn)的結(jié)果的平均值卻幾乎總是接近于某個確定的值。.15公共語料庫檢索11由收集驗證到實證分析需要學(xué)點

7、統(tǒng)計學(xué)抽樣與調(diào)查離散與連續(xù)頻率與分布描述與圖示樣本與總體估計與檢驗統(tǒng)計統(tǒng)計置信區(qū)間T檢驗.16公共語料庫檢索12由收集驗證到實證分析需要學(xué)點統(tǒng)計學(xué)集中趨勢的特征數(shù):平均數(shù)、眾數(shù)、中位數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)變異程度的特征數(shù):極差、四分位差、平均差、方差、標(biāo)準(zhǔn)差參數(shù)估計與假設(shè)檢驗以樣本對總體的推斷一般步驟(1)明確問題(2)收集信息(3)提出假設(shè)(4)構(gòu)建模型(5)模型求解(6)分析檢測.17公共語料庫檢索13由收集驗證到實證分析需要學(xué)點統(tǒng)計學(xué)在自然現(xiàn)象和社會現(xiàn)象中,大量的隨機變量都服從或近似地服從正態(tài)分布。大部分參數(shù)檢驗,比如t檢驗,方差分析,回歸分析等,要求數(shù)據(jù)符合正態(tài)分布。三個基本點:三

8、個基本點:1)呈鐘形,形態(tài)如左圖;2)兩個參數(shù),均值和標(biāo)準(zhǔn)差;3)圖象大致表示:平均數(shù)周圍的屬性值在總體上占到大多數(shù)。正態(tài)分布正態(tài)分布.18公共語料庫檢索14公共語料庫的檢索說明以BCC語料庫為例初階的進階的僅輸入關(guān)鍵字查找關(guān)鍵字特殊符號檢索式搜索語料庫檢索百度一下.19公共語料庫檢索15公共語料庫的檢索說明以BCC語料庫為例統(tǒng)計統(tǒng)計.20公共語料庫檢索16公共語料庫的檢索說明以BCC語料庫為例檢索式說明檢索式可以是字串、詞串、詞性的組合而成的查詢模式。例如:如果檢索“我想吃”后面緊接著一個名詞的語言實例,檢索式為:我想吃n,這里 n 是詞性符號,表示名詞。.21公共語料庫檢索17公共語料庫的

9、檢索說明以BCC語料庫為例檢索式示例.22公共語料庫檢索18公共語料庫的檢索說明以BCC語料庫為例檢索式示例.23公共語料庫檢索19公共語料庫的檢索說明以BCC語料庫為例特殊含義符號.24公共語料庫檢索20公共語料庫的檢索說明以BCC語料庫為例特殊含義符號.25公共語料庫檢索21公共語料庫的檢索說明以BCC語料庫為例詞性列表.26公共語料庫檢索22公共語料庫的檢索說明以BCC語料庫為例構(gòu)詞.27公共語料庫檢索23公共語料庫的檢索說明以BCC語料庫為例構(gòu)詞合成詞.28公共語料庫檢索24公共語料庫的檢索說明以BCC語料庫為例搭配.29公共語料庫檢索25公共語料庫的檢索說明以BCC語料庫為例離合.3

10、0公共語料庫檢索26公共語料庫的檢索說明以BCC語料庫為例句型.31公共語料庫檢索27公共語料庫的檢索說明以BCC語料庫為例定界.32公共語料庫檢索28公共語料庫的檢索說明以BCC語料庫為例構(gòu)式.33公共語料庫檢索29公共語料庫的檢索說明以BCC語料庫為例構(gòu)式.34公共語料庫檢索30公共語料庫的檢索說明以BCC語料庫為例自定義搜索.35公共語料庫檢索31公共語料庫的檢索說明以BCC語料庫為例檢索結(jié)果.36公共語料庫檢索32公共語料庫的檢索說明以BCC語料庫為例歷時檢測.37公共語料庫檢索33公共語料庫的檢索說明以BCC語料庫為例檢索統(tǒng)計.38公共語料庫檢索34公共語料庫的檢索說明以BCC語料庫

11、為例篩選查看上下文如果想對檢索結(jié)果進一步篩選,可以使用篩選功能,對檢索結(jié)果進一步剔除或者僅僅保留符合篩選檢索式的實例。.39公共語料庫檢索35公共語料庫的檢索說明以BCC語料庫為例下載高級設(shè)置.40公共語料庫檢索36公共語料庫的檢索說明以BCC語料庫為例句法樹.41注意檢索格式注意檢索格式 多摸索多使用多摸索多使用 依據(jù)調(diào)查需要依據(jù)調(diào)查需要設(shè)置調(diào)查項目設(shè)置調(diào)查項目學(xué)點兒統(tǒng)計學(xué)學(xué)點兒統(tǒng)計學(xué) 學(xué)點編程語言學(xué)點編程語言 公共語料庫檢索37.42第三節(jié) 個人語料庫創(chuàng)建.43個人語料庫創(chuàng)建38材料/工具準(zhǔn)備階段1、電腦、辦公軟件2、語料的選取標(biāo)準(zhǔn)3、語料庫大小設(shè)定4、已收好集的語料5、采取txt格式保存

12、生語料庫熟語料庫加工標(biāo)注詞性標(biāo)記句法標(biāo)記詞義標(biāo)記篇章指代標(biāo)記韻律標(biāo)記若只是要詞頻數(shù)據(jù),則生語料庫足夠,word/wps或txt記事本都可以建立word/wps的“查找替換”工具即可,txt記事本的“編輯-查找”工具也行。“宏”.44個人語料庫創(chuàng)建39熟語料庫加工階段需要工具/材料:1、電腦、辦公軟件2、語料庫加工工具2、語料的選取標(biāo)準(zhǔn)3、語料庫大小設(shè)定4、已存的生語料庫5、采取txt格式保存.45個人語料庫創(chuàng)建40熟語料庫加工階段可以采用這個工具雙擊雙擊 打開軟件打開軟件.46個人語料庫創(chuàng)建41熟語料庫加工階段需要說明的是:自己找到的語料庫必須是已經(jīng)集中放好到“語料庫”這樣的文件夾中。點擊點擊

13、 打開文件打開文件.47個人語料庫創(chuàng)建42熟語料庫加工階段打開打開“語料庫語料庫”文件夾文件夾.48個人語料庫創(chuàng)建43熟語料庫加工階段比如,比如,選擇選擇“癡人癡人”這個語料這個語料.49個人語料庫創(chuàng)建44熟語料庫加工階段然后,點擊然后,點擊“切分標(biāo)注切分標(biāo)注”即可即可.50個人語料庫創(chuàng)建45熟語料庫加工階段然后,然后,點擊全選,點擊全選,復(fù)制復(fù)制到到新建新建的一個的一個txt文檔,文檔,保存保存文件,得到一個熟語料文件,得到一個熟語料然后,把新存的那個熟然后,把新存的那個熟語料文件語料文件保存保存到一個到一個新建新建的的“熟熟語料庫語料庫”文件夾文件夾中中依據(jù)此法,逐一對生語料庫中的單個語料

14、進行“詞性標(biāo)注”,然后逐一保存到“熟語料庫”中。這時,初加工的自建熟語料庫的完成了。.51個人語料庫創(chuàng)建46語料庫的檢索階段雙擊雙擊該軟件該軟件進入界面進入界面推薦使用的軟件AntConc.52個人語料庫創(chuàng)建47語料庫的檢索階段接下來,英語不好的話,可以設(shè)置語言,點擊“Global Settings”菜單,找到“Language Encodings”,點擊該菜單,再點擊右手邊的“Edit”,這時會彈出一些選項,選擇“Chinese Encodings”,在選擇該項目右邊的“Chinese(euc-cn),最后點擊右下方的“Apply”。.53個人語料庫創(chuàng)建48語料庫的檢索階段這時,會這時,會自

15、動回到自動回到這個這個界面界面.54個人語料庫創(chuàng)建49語料庫的檢索階段點擊點擊“File”選項,再選擇選項,再選擇“open files”,然后得找到然后得找到“熟語料庫熟語料庫”文文件夾件夾,點擊點擊。.55個人語料庫創(chuàng)建50語料庫的檢索階段選中選中全部全部語料,語料,然后點擊然后點擊“打開打開”。.56個人語料庫創(chuàng)建51語料庫的檢索階段所有所有“熟語料庫熟語料庫”中的單個語料都出現(xiàn)在了中的單個語料都出現(xiàn)在了Antconc軟件的左側(cè)欄軟件的左側(cè)欄中,中,接下來,我們就可檢索了。比如,你檢索、研究的是接下來,我們就可檢索了。比如,你檢索、研究的是“很很+X”,那么由,那么由于轉(zhuǎn)成了熟語料庫,于轉(zhuǎn)成了熟語料庫,檢索式檢索式應(yīng)為應(yīng)為“很很/d */a”(很接形容詞)、(很接形容詞)、“很很/d */v”(很接動詞)等等,然后依檢索式進行檢索。(很接動詞)等等,然后依檢索式進行檢索。需要說明的是需要說明的是“很很/d */a”詞與詞之間得空一格詞與詞之間得空一格,就像英語中,就像英語中“I have ”得空一格。得空一格。.57個人語料庫創(chuàng)建52語料庫的檢索階段比如說,檢索“很/d */a”,在檢索欄中寫上“很/d */a”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論