中文信息處理和漢語研究現(xiàn)狀和發(fā)展.ppt_第1頁
中文信息處理和漢語研究現(xiàn)狀和發(fā)展.ppt_第2頁
中文信息處理和漢語研究現(xiàn)狀和發(fā)展.ppt_第3頁
中文信息處理和漢語研究現(xiàn)狀和發(fā)展.ppt_第4頁
中文信息處理和漢語研究現(xiàn)狀和發(fā)展.ppt_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1 中文信息處理與漢語研究 現(xiàn)狀和發(fā)展 詹衛(wèi)東北京大學(xué)中文系北京大學(xué)漢語語言學(xué)研究中心北京 100871zwd 全國語言文字信息化工作會議 湖南 長沙 2003 10 5 10 6 2 提綱 中文信息處理研究的格局中文信息處理的現(xiàn)狀和發(fā)展趨勢語言知識資源的建設(shè)面向中文信息處理的漢語研究 3 一中文信息處理研究的格局 信息的兩個層次 符號層 中文 漢語 漢字內(nèi)容層 符號所承載的意義中文信息處理的兩個層次 字符處理 輸入 存儲 輸出等 內(nèi)容處理 詞語切分 詞性標(biāo)注 結(jié)構(gòu)分析 意義理解 推理 翻譯 等等 信號vs 信息 4 符號層的信息處理 拼音文字 小字符集 比較容易非拼音文字 大字符集 難度很大 漢字是一個大字符集 說文解字 東漢 9353字 玉篇 南朝 收錄16 917字 廣韻 宋代 收字26 194字 字匯 明朝 收錄33 197字 康熙字典 清朝 收錄47 043字 漢語大字典 1992年 5 6萬 中華字海 1994年 8 6萬 拉丁字母只有26個符號斯拉夫字母只有33個符號阿爾明尼亞字母只有38個符號泰米爾字母只有36個符號緬甸字母只有52個符號泰文字母只有44個符號老撾字母只有27個符號藏文字母只有35個符號韓文字母只有24個符號日文假名只有48個符號 5 符號層的信息處理 漢字輸入 自動輸入 鍵盤輸入 字形識別 聲音識別 手寫體識別 印刷體識別 在線手寫 脫機(jī)手寫 整字鍵盤 通用鍵盤 主輔式 感應(yīng)式 形碼 音碼 形音結(jié)合碼 1 2 3 4 5 6 7 8 9 6 內(nèi)容層的信息處理 形態(tài)豐富的語言 inflectinglanguage 處理難形態(tài)不豐富的語言 analyticlanguage 處理更難 7 內(nèi)容層的信息處理 機(jī)器翻譯全過程 8 內(nèi)容層處理對符號層處理的反作用 9 內(nèi)容層處理對符號層處理的反作用 10 內(nèi)容層處理對符號層處理的反作用 11 內(nèi)容層處理對符號層處理的反作用 12 二中文信息處理的現(xiàn)狀和發(fā)展趨勢 現(xiàn)狀符號層的處理成果已經(jīng)得到廣泛應(yīng)用 中文輸入 字庫 字處理軟件 排版 內(nèi)容層的處理目前在詞語識別和詞性標(biāo)注方面已經(jīng)取得重要進(jìn)展 句子結(jié)構(gòu)分析和語義分析方面仍有待探索 13 系統(tǒng)演示 北京大學(xué)現(xiàn)代漢語分詞 詞性標(biāo)注 句法分析系統(tǒng) 孫斌 劉群 常寶寶 詹衛(wèi)東等 14 中文信息處理的發(fā)展趨勢 發(fā)展趨勢信息產(chǎn)品的多樣化網(wǎng)絡(luò)的迅速發(fā)展積累更多基礎(chǔ)資源 開發(fā)更多應(yīng)用系統(tǒng) 內(nèi)容層的處理將受到越來越多的重視 信息家電 內(nèi)容計算 15 三語言知識資源的建設(shè) 現(xiàn)代漢語語法信息詞典基于配價理論的現(xiàn)代漢語語義詞典現(xiàn)代漢語短語結(jié)構(gòu)信息庫2700萬字現(xiàn)代漢語分詞與詞性標(biāo)注語料庫句子對齊的漢英雙語語料庫現(xiàn)代漢語樹庫現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則庫 16 資源演示 現(xiàn)代漢語語義詞典 詹衛(wèi)東 王惠等 漢英平行語料庫 常寶寶 柏曉靜等 現(xiàn)代漢語樹庫 詹衛(wèi)東 常寶寶等 17 四面向中文信息處理的語言學(xué)研究 充分重視各個層次上的語言歧義研究拓展語言現(xiàn)象的研究面強(qiáng)調(diào)研究結(jié)果的可操作性 推動語言知識的形式化 系統(tǒng)化和規(guī)?;?加強(qiáng)語言知識庫的工程建設(shè) 為中文信息處理 內(nèi)容層的處理 積累更多基礎(chǔ)資源 18 歧義示例 張店區(qū)大學(xué)生不看重大城市戶口 19 歧義示例 續(xù) 有三百多種樹 20 歧義示例 續(xù) 請轉(zhuǎn)告李宇明司長下午三點出發(fā) vvnnttv 21 要讓計算機(jī) 理解 一個句子 實際上要解決下面兩個核心問題 1 一個句子的結(jié)構(gòu)和意義是什么 2 如何得到一個句子的結(jié)構(gòu)和意義 第一個問題是 What 的問題 這是理論語言學(xué)關(guān)心的問題 第二個問題是 How 的問題 這是計算語言學(xué)關(guān)心的問題 也就是面向中文信息處理的語言研究需要關(guān)心的問題 結(jié)語 22 參考文獻(xiàn) 慈林林魯元魁 1999 中文信息處理新技術(shù)展望 計算機(jī)世界 1999年第44期 產(chǎn)品與技術(shù) 版 專題報道 劉夢松 1998 中文信息處理軟件概述 計算機(jī)世界 1998年第26期 技術(shù)專題 版 許嘉璐 2002 現(xiàn)狀和設(shè)想 試論中文信息處理與現(xiàn)代漢語研究 中國語文 2000年第6期 俞士汶 朱學(xué)鋒 2002 關(guān)于漢語信息處理的認(rèn)識及其研究方略 語言文字應(yīng)用 2002年第3期 俞士汶 朱學(xué)鋒 王惠 2001 的新進(jìn)展 中文信息學(xué)報 2001年第1期 詹衛(wèi)東 常寶寶 俞士汶 2002 機(jī)器翻譯與語言研究 語言科學(xué) 2002年第1期 創(chuàng)刊號 詹衛(wèi)東 2000 80年代以來漢語信息處理研究述評 當(dāng)代語言學(xué) 2000年第2期 張華平 2003 中文信息處理技術(shù)發(fā)展簡史 中文信息處理開放平臺網(wǎng)站 23 國內(nèi)外重要的語言知識資源舉例 WordNet http www cogsci princeton edu wn FrameN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論