antconc使用(課堂PPT)_第1頁
antconc使用(課堂PPT)_第2頁
antconc使用(課堂PPT)_第3頁
antconc使用(課堂PPT)_第4頁
antconc使用(課堂PPT)_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、.1Antconc使用20免費(fèi)軟件下載網(wǎng)址:http:/www.antlab.sci.waseda.ac.jp/antconc_index.html 下載版本:antconc3.2.1w使用指南:http:/www.antlab.sci.waseda.ac.jp/software/README_antconc3.2.1.txt 鏈接時(shí)間:2008年4月13日.3 英語詞頻 日本人開發(fā),支持中文。 北大計(jì)算所98年1月份人民日?qǐng)?bào)分詞語料為例 計(jì)算詞頻,生成詞頻表; 計(jì)算n元組的出現(xiàn)頻率; 保存結(jié)果 處理中文之間要做個(gè)語言設(shè)置,否則顯示亂碼.4Antconc包括以下工具: 索引

2、 Concordance 索引定位 Concordance Plot 文件查看 File View 詞叢Clusters N元模式(部分詞叢) N-grams 搭配Collocates 詞單Wordlist 關(guān)鍵詞單Keyword List .5索引工具使用步驟:選擇文件(一個(gè)或多個(gè));輸入檢索詞;使用“Search Window size”(檢索窗口大小)選擇檢索詞兩邊顯示的字符數(shù);按“start”開始產(chǎn)生索引行的檢索結(jié)果,按stop隨時(shí)停止;使用“Kwic Sort”(上下文關(guān)鍵詞分類)選擇一個(gè)目標(biāo)詞賴重排索引行,0是檢索詞,1L、2L是檢索詞左邊第一、第二個(gè)單詞;按sort鍵重新分類排序

3、;.6 將指針移到其中一行索引行突出的檢索詞上,指針變成手形工具,點(diǎn)擊檢索詞,可以看到檢索詞在原文出現(xiàn)的情況。 注意:索引行的總數(shù)在“concordance hits”下顯示,處理結(jié)束時(shí),會(huì)“FINISHED”;如果沒有產(chǎn)生索引行,則“NO HITS”,并且索引行的窗口不會(huì)更新。.7 檢索詞可以通過“search term”上面的word選項(xiàng)設(shè)定為“詞(默認(rèn))”或“詞的片段”,也可以通過case來選擇不區(qū)分大小寫,也可選擇“Regex”使用完整的正則表達(dá)式。 /quickstart.html 按Advanced鍵,可以進(jìn)行更為復(fù)雜的搜索。.

4、8 兩個(gè)高級(jí)搜索項(xiàng): 定義一組檢索詞,可以一行一個(gè)的輸入,也可以直接載入文件中的檢索詞單,這個(gè)特征允許用戶使用一大組檢索詞,但不用每次重復(fù)輸入; 定義上下文詞(context words)和一個(gè)上下文的范圍,在這個(gè)范圍中必須出現(xiàn)檢索詞;.9索引定位(concordance plot) 進(jìn)行索引定位的步驟與索引工具的使用方法一樣,索引定位工具提供了索引行另一個(gè)不同的視角。 每一個(gè)文件的所有索引條數(shù)都在一個(gè)條形碼上定位出來,表示文中有檢索詞的索引行的位置所在。 可以查看哪些文件包含目標(biāo)檢索詞,也可以確定檢索詞在哪兒遇到詞叢。 索引條數(shù)、文件長度在條形碼右側(cè)顯示,.10文件查看 任何時(shí)候,目標(biāo)文件都

5、可以使用該工具來查看原文。 選擇一個(gè)要查看的文件; “File View”按鈕,start,得到檢索詞在原文中出現(xiàn)的情況; 使用Hit Location,可以跳到上一個(gè)或下一個(gè)檢索詞上; 改變檢索詞,點(diǎn)擊開始鍵,查看其它檢索項(xiàng).11詞叢(Clusters) 用來生成目標(biāo)文件檢索詞周圍排列成序的詞叢列表的。 詞叢既可以按照頻率也可以按照詞頭或詞尾排序,也可以按照詞叢第一個(gè)單詞的出現(xiàn)概率排序。 用戶可以選擇每個(gè)詞叢的最大或最小長度,以及列出詞叢的最小頻率。 可以選擇檢索詞是否總出現(xiàn)詞叢左邊或右邊。.12 使用詞叢的操作: 選定主窗口上的clusters按鈕,選擇合適的排序選項(xiàng); 按start鍵,任

6、何時(shí)候都可以stop; 點(diǎn)擊詞叢會(huì)產(chǎn)生一組上下文關(guān)鍵詞行或者索引行。.13N元模式(部分詞叢) 生成目標(biāo)文件有序的N元組。 N元模式是單詞的N元,大的文件將會(huì)產(chǎn)生大量的N元。 排序和詞叢工具一樣,可以選擇N元的最大或最小尺寸,顯示N元的最小詞頻。.14 生成N元模式的操作: 選擇Clusters窗口模式下search term右邊的N-grams選項(xiàng); 選擇合適的排列選項(xiàng); 按開始鍵,任何時(shí)候都可以中止; 點(diǎn)擊詞匯束會(huì)產(chǎn)生一組上下文關(guān)鍵詞行。.15搭配(collocates)工具 用來生成目標(biāo)文件的一組有序的搭配列表。 搭配可以按詞頻,也可以按檢索詞左邊或右邊的搭配頻率,或者詞頭或詞尾排序。也

7、可以按照檢索詞和搭配間的統(tǒng)計(jì)量來排列。 統(tǒng)計(jì)量的值測的是檢索詞和搭配之間的相關(guān)程度。 可以選擇檢索詞左右兩邊的單詞跨度,顯示搭配的最小頻率。.16要列一個(gè)搭配列表,需要進(jìn)行的操作:選擇合適的排列選項(xiàng),及相關(guān)設(shè)置;按開始鍵,任何時(shí)候都可以中止;點(diǎn)擊搭配會(huì)產(chǎn)生一組上下文關(guān)鍵詞行。.17詞表(word list) 生成目標(biāo)文件的有序的詞表。 詞表既可以按詞頻也可以按詞頭或詞尾的順序排列。 選擇合適的排列選項(xiàng); 按開始鍵,任何時(shí)候都可以中止; 點(diǎn)擊單詞會(huì)產(chǎn)生一組上下文關(guān)鍵詞行。.18關(guān)鍵詞單(Keyword List) 可以比較目標(biāo)文件中的單詞和“參照語料庫”中的單詞生成Keyword List,Keyword List列出的往往是目標(biāo)文件中頻率很高或頻率很低的詞。 為了列出Keyword list,需進(jìn)行操作: 選擇一組目標(biāo)文件; 到“Preferences”菜單中,選擇“Keyword Preferences”選項(xiàng); 選擇一個(gè)統(tǒng)計(jì)量估計(jì)目標(biāo)文件單詞的關(guān)鍵性;.19 選擇顯示的關(guān)鍵詞數(shù)極限值; 選擇是否顯示負(fù)關(guān)鍵詞(show negative keywords),即與參照語料庫相比目標(biāo)語料庫中不同尋常的低頻詞; 選擇一個(gè)文本文件的參照語料庫; 參照語料庫的文件列表將在參照語料庫選項(xiàng)下的窗口中顯示出來; 點(diǎn)擊Apply,返回主窗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論