中文信息處理課件_第1頁
中文信息處理課件_第2頁
中文信息處理課件_第3頁
中文信息處理課件_第4頁
中文信息處理課件_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

中文信息處理

ChineseInformationProcessingxxx哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院1謝謝觀賞2019-5-21中文信息處理

ChineseInformationPro主要教材朱巧明,李培峰,吳嫻,朱曉旭等編著。中文信息處理技術(shù)教程,清華大學(xué)出版社。2005年9月第一版ChristopherD.Manning,HinrichSchutze。統(tǒng)計自然語言處理基礎(chǔ),電子工業(yè)出版社。2005年1月第一次印刷2019-5-21謝謝觀賞2主要教材朱巧明,李培峰,吳嫻,朱曉旭等編著。中文信息處理技術(shù)2019-5-21謝謝觀賞32019-5-21謝謝觀賞3主要內(nèi)容信息處理中文信息處理計算機(jī)中文信息處理主要研究對象現(xiàn)代漢語的特點(diǎn)中文信息處理的發(fā)展中文信息處理技術(shù)發(fā)展問題的探討2019-5-21謝謝觀賞4主要內(nèi)容信息處理2019-5-21謝謝觀賞4信息控制論創(chuàng)始人(維納NorbertWiener)信息既不是物質(zhì)也不是能量,是人類在適應(yīng)外部世界時以及在感知外部世界時而作出協(xié)調(diào)時與外部環(huán)境交換內(nèi)容的總和。信息論奠基者(香農(nóng)ClauseShannon)信息就是能夠用來消除不確定性的東西,是一個事件發(fā)生概率的對數(shù)的負(fù)值RobertM.Losee信息可以被定義為一個處理過程的特征,這些特征就是輸入和處理過程中產(chǎn)生的信息2019-5-21謝謝觀賞5信息控制論創(chuàng)始人(維納NorbertWiener)201信息的分類按照計算機(jī)處理的信息形式文本信息多媒體信息超媒體信息按照信息的結(jié)構(gòu)化程度結(jié)構(gòu)化信息半結(jié)構(gòu)化信息非結(jié)構(gòu)化信息按照信息的保密程度公開信息一般保密信息絕密信息2019-5-21謝謝觀賞6信息的分類按照計算機(jī)處理的信息形式2019-5-21謝謝觀賞信息處理信息處理就是對信息的接收、存儲、轉(zhuǎn)化、傳送和發(fā)布信息的接收:包括信息的感知、信息的測量、信息的識別、信息的獲取以及信息的輸入等;信息的存儲:把接收到的信息或轉(zhuǎn)換、傳送或發(fā)布中間的信息通過存儲設(shè)備進(jìn)行緩沖、保存、備份等處理;信息的轉(zhuǎn)化:把信息根據(jù)人們的特定需要進(jìn)行分類、計算、分析、檢索、管理和綜合等處理;信息的傳送:把信息通過計算機(jī)內(nèi)部的指令或者計算機(jī)之間構(gòu)成的網(wǎng)絡(luò)從一地傳送到另外一地;信息的發(fā)布:把信息通過各種表示形式展示出來。2019-5-21謝謝觀賞7信息處理信息處理就是對信息的接收、存儲、轉(zhuǎn)化、傳送和發(fā)布20中文信息處理中文信息處理是用計算機(jī)對漢語的音、形、義等語言文字信息進(jìn)行的加工和操作,包括對字、詞、短語、句、篇章的輸入、輸出、識別、轉(zhuǎn)換、壓縮、存儲、檢索、分析、理解和生成等各方面的處理技術(shù)?!队嬎銠C(jī)科學(xué)技術(shù)百科全書》清華大學(xué)出版社,19982019-5-21謝謝觀賞8中文信息處理中文信息處理是用計算機(jī)對漢語的音、形、義等語言文計算機(jī)中文信息處理主要研究對象漢字鍵盤輸入技術(shù)漢字輸出技術(shù)軟件漢化技術(shù)漢字字形識別技術(shù)漢語語音識別技術(shù)激光照排技術(shù)中文平臺文本分類信息檢索2019-5-21謝謝觀賞9計算機(jī)中文信息處理主要研究對象漢字鍵盤輸入技術(shù)2019-5-漢字鍵盤輸入技術(shù)漢字鍵盤輸入技術(shù)是一種通過鍵盤使?jié)h字進(jìn)入計算機(jī)的技術(shù)漢字編碼采用四位十進(jìn)制數(shù)把常用的漢字用“0”—”9”十個數(shù)字按照次序進(jìn)行編碼四角碼(字形碼)用“0”—”9”十個數(shù)字鍵對漢字的四個角的形狀進(jìn)行編碼機(jī)內(nèi)碼用2字節(jié)、3字節(jié)、4字節(jié)來表示一個漢字的機(jī)器內(nèi)部碼國際標(biāo)準(zhǔn)化組織(ISO)、Unicode聯(lián)盟以及IEEE下屬的專門委員會研究制訂的字符編碼標(biāo)準(zhǔn)2019-5-21謝謝觀賞10漢字鍵盤輸入技術(shù)漢字鍵盤輸入技術(shù)是一種通過鍵盤使?jié)h字進(jìn)入計算漢字輸出技術(shù)漢字輸出是指把存儲在計算機(jī)內(nèi)的漢字字形信息轉(zhuǎn)換成符合顯示或打印需要的形式,并送輸出設(shè)備輸出漢字字庫點(diǎn)陣字庫GB5199.1-2001和GB5007-2001是典型的16點(diǎn)陣和24點(diǎn)陣字庫矢量字庫采用矢量的方法,對每個漢字信息用一組矢量進(jìn)行描述2019-5-21謝謝觀賞11漢字輸出技術(shù)漢字輸出是指把存儲在計算機(jī)內(nèi)的漢字字形信息轉(zhuǎn)換成軟件漢化技術(shù)軟件漢化是把西文軟件直接改造成中文軟件的一種技術(shù)西文操作系統(tǒng)漢化成中文操作系統(tǒng)內(nèi)核漢化外掛漢化西文應(yīng)用軟件經(jīng)過漢化后能夠具備處理中文的能力界面的漢化應(yīng)用程序中中文的通行2019-5-21謝謝觀賞12軟件漢化技術(shù)軟件漢化是把西文軟件直接改造成中文軟件的一種技術(shù)漢字字形識別技術(shù)漢字識別技術(shù)是利用計算機(jī)技術(shù)對漢字靜態(tài)圖形和動態(tài)漢字信息進(jìn)行特征提取,與預(yù)先存儲在計算機(jī)內(nèi)的標(biāo)準(zhǔn)漢字特征信息進(jìn)行匹配,并選擇符合特征的漢字作為所需識別的漢字內(nèi)碼聯(lián)機(jī)識別脫機(jī)識別漢字字形識別過程漢字識別前處理漢字分類和判別漢字識別后處理2019-5-21謝謝觀賞13漢字字形識別技術(shù)漢字識別技術(shù)是利用計算機(jī)技術(shù)對漢字靜態(tài)圖形和漢語語音識別技術(shù)漢語語音識別技術(shù)是自然語言處理的一個重要組成部分,包括語音的識別、處理、合成等語音識別的過程語音識別單元的選取特征參數(shù)提取技術(shù)模式匹配及模型訓(xùn)練技術(shù)2019-5-21謝謝觀賞14漢語語音識別技術(shù)漢語語音識別技術(shù)是自然語言處理的一個重要組成激光照排技術(shù)激光照排,即電子排版系統(tǒng)1946年,美國人發(fā)明了手動光學(xué)照相排版機(jī)20世紀(jì)60年代,德國人制造了陰極射線管式照排1975年,英國人開始了激光照排的研究1974年8月,國家設(shè)立了748工程2019-5-21謝謝觀賞15激光照排技術(shù)激光照排,即電子排版系統(tǒng)2019-5-21謝謝觀中文平臺中文平臺是指處理中文信息的軟件系統(tǒng)的集合,包括支持中文的系統(tǒng)軟件、支撐軟件和應(yīng)用軟件漢化平臺:西文系統(tǒng)上外掛一層軟件,使系統(tǒng)可以接收和輸出漢字API平臺:操作系統(tǒng)提供有關(guān)中文信息處理所需要的一套API接口中文平臺:在API平臺上再增加一些典型的與中文信息處理有關(guān)的應(yīng)用軟件工具或產(chǎn)品2019-5-21謝謝觀賞16中文平臺中文平臺是指處理中文信息的軟件系統(tǒng)的集合,包括支持中文本分類文本分類是一種確定文章所屬類別的情報分析方法基于詞的歸類技術(shù)基于知識的歸類技術(shù)基于信息的歸類技術(shù)2019-5-21謝謝觀賞17文本分類文本分類是一種確定文章所屬類別的情報分析方法2019信息檢索文本檢索包括了文本信息的存儲、組織、表現(xiàn)、查詢及存取等各個方面索引的建立自動分類自動聚類文摘(單文檔文摘、多文檔文摘)檢索結(jié)果的排序(ranking)分布式信息檢索…………2019-5-21謝謝觀賞18信息檢索文本檢索包括了文本信息的存儲、組織、表現(xiàn)、查詢及存取現(xiàn)代漢語的特點(diǎn)語音字形詞匯句子字頻詞頻2019-5-21謝謝觀賞19現(xiàn)代漢語的特點(diǎn)語音2019-5-21謝謝觀賞19語音漢字讀音的標(biāo)記方法直音法用一個漢字給另一個漢字進(jìn)行注音“厶”→“司”,“翯”→“賀”反切法用兩個漢字給另外一個漢字注音“魯”→“郎古切”,第一個漢字為聲母,第二個漢字是韻母和聲調(diào)注音字符漢語拼音21個聲母,35個韻母,4聲調(diào)2019-5-21謝謝觀賞20語音漢字讀音的標(biāo)記方法2019-5-21謝謝觀賞20字形漢字結(jié)構(gòu)筆畫漢字字形最小連筆單位五種基本筆畫:橫、豎、撇、點(diǎn)、折部首字形歸類的部件,是字典根據(jù)漢字形體偏旁所分的門類繁體字和簡體字“進(jìn)”→“進(jìn)”,“裏”→“里”繁體字和簡體字并不是一一對應(yīng)的關(guān)系字序義序、音序、形序2019-5-21謝謝觀賞21字形漢字結(jié)構(gòu)2019-5-21謝謝觀賞21詞匯1詞匯是語言中所有的詞和短語的總和漢語的詞根和詞綴詞根:意義實(shí)在、在合成內(nèi)位置不固定的粘著語素(不能單獨(dú)構(gòu)成詞的語素,如偉、豐、型)和自由語素(能獨(dú)立成詞的語素,如金、木、水、火、土)詞綴:意義不實(shí)在、在合成內(nèi)位置固定在前或后的粘著語素“筷子”→“筷”是詞根語素,“子”是詞綴語素2019-5-21謝謝觀賞22詞匯1詞匯是語言中所有的詞和短語的總和2019-5-21謝謝詞匯2詞的種類單純詞由一個語素構(gòu)成的詞,如人、走、天雙音節(jié)連綿詞,如鴛鴦、垃圾、琳瑯、葡萄音譯詞,如沙發(fā)(sofa),咖啡(coffee)譯自少數(shù)民族的地名,如哈爾濱、呼和浩特合成詞重疊詞:兩個相同的詞根相疊構(gòu)成的詞,如哥哥、姐姐、星星附加詞:由詞根和詞綴構(gòu)成,如老虎、石頭、刀子、桌子復(fù)合詞:內(nèi)部結(jié)構(gòu)基本上是和句法結(jié)構(gòu)一致的,有主謂、偏正、聯(lián)合等,如質(zhì)量、體制、開關(guān)2019-5-21謝謝觀賞23詞匯2詞的種類2019-5-21謝謝觀賞23句子句子:能夠表達(dá)一個相對完整意思的并且有一個特定語調(diào)的語言單位漢語句子是“以意為本”的,生成的第一要素是語義無論是否是主謂結(jié)構(gòu)的,只要完成表意功能,就是一個句子2019-5-21謝謝觀賞24句子句子:能夠表達(dá)一個相對完整意思的并且有一個特定語調(diào)的語言字頻字頻:就是一個漢字的相對使用頻率,也就是一個漢字使用次數(shù)與所統(tǒng)計的材料的總字?jǐn)?shù)的比例如果在一篇2000字的文章中,“的”使用了78次,則“的”的頻率就是78/2000*100%=3.9%在信息檢索中有著重要的應(yīng)用文本分類信息檢索中索引表的建立……2019-5-21謝謝觀賞25字頻字頻:就是一個漢字的相對使用頻率,也就是一個漢字使用次數(shù)詞頻詞頻:就是一個詞的相對使用頻率對于詞典的編撰、中文信息處理有著重要的作用新詞的出現(xiàn):非典、超女、網(wǎng)友信息檢索2019-5-21謝謝觀賞26詞頻詞頻:就是一個詞的相對使用頻率2019-5-21謝謝觀賞中文信息處理的發(fā)展學(xué)習(xí)和理論探索的萌芽階段這一階段以介紹國外計算語言學(xué)領(lǐng)域的理論方法為主對國外相關(guān)領(lǐng)域的介紹,理論內(nèi)容相對較少,主要偏重在各種上機(jī)實(shí)現(xiàn)的系統(tǒng)方面。范繼淹、徐志敏、李家治、陳永明、馮志偉等人的介紹及其所研制的實(shí)驗(yàn)系統(tǒng)報告,是這方面的代表早期將國外的理論方法進(jìn)行全面系統(tǒng)漢化的主要刊物有:86年底創(chuàng)刊的《中文信息學(xué)報》、語言學(xué)界的《國外語言學(xué)》和《語言文字應(yīng)用》學(xué)者們在介紹國外先進(jìn)的理論和方法同時,也有不少人結(jié)合漢語自身的特點(diǎn),對這些理論和方法做了深入一步的探索,極少數(shù)人對自然語言理解做了深層次的帶有哲學(xué)色彩的思考80年代中期寧春巖發(fā)表的《自然語言理解中的幾個根本問題》,以及他譯介的美國哲學(xué)家休伯特.德雷福斯(HubertL.Dreyfus)的專著《計算機(jī)不能做什么--人工智能的極限》語言學(xué)界袁毓林1993年發(fā)表了《自然語言理解的語言學(xué)假設(shè)》這些早期的的研究和探索對確立中文信息處理的宏觀格局起到了決定性的作用,奠定了中文信息處理后期的理論基礎(chǔ)

2019-5-21謝謝觀賞27中文信息處理的發(fā)展學(xué)習(xí)和理論探索的萌芽階段2019-5-21中文信息處理的發(fā)展?jié)h字信息處理為主的早期階段1974年周恩來總理親自批準(zhǔn)了“七四八”工程它標(biāo)志著計算機(jī)中文信息處理技術(shù)受到了國家高度重視并且進(jìn)入了他的第一個發(fā)展階段——漢字信息處理時代2019-5-21謝謝觀賞28中文信息處理的發(fā)展?jié)h字信息處理為主的早期階段2019-5-2中文信息處理的發(fā)展字、詞等表層處理為特征的初級階段北京大學(xué)開發(fā)的華光排版系統(tǒng)被評為1985年中國十大科技成就之一,并榮獲中國發(fā)明協(xié)會發(fā)明獎“六五”期間(1981-1985),北京航空學(xué)院主持,中國人民大學(xué)等十幾個院校,研究機(jī)構(gòu)參加的“現(xiàn)代漢語詞頻統(tǒng)計”工程是這一階段代表性的重大科研成果,這是國內(nèi)首次使用計算機(jī)進(jìn)行大規(guī)模語料(2000萬字)的詞頻統(tǒng)計研究的大型語言工程第一個漢語自動分詞系統(tǒng)——CDWS,建立了一個有13萬余詞條的計算機(jī)詞典,研制了一個有52個屬性的漢字信息庫1988年初,北京航空航天大學(xué)在承擔(dān)國家“七五”科技攻關(guān)項(xiàng)目《信息處理用規(guī)范現(xiàn)代漢語詞庫》的同時,制定了《信息處理用規(guī)范現(xiàn)代漢語分詞規(guī)范》2019-5-21謝謝觀賞29中文信息處理的發(fā)展字、詞等表層處理為特征的初級階段2019-中文信息處理的發(fā)展句法和語義等深層處理為代表的中期階段“八五”期間,中文信息處理技術(shù)的研究開發(fā)重點(diǎn)逐步由字,詞的表層處理轉(zhuǎn)向了以句法,語義分析為核心的深層處理2019-5-21謝謝觀賞30中文信息處理的發(fā)展句法和語義等深層處理為代表的中期階段201中文信息處理的發(fā)展語料庫統(tǒng)計方法興起的近期階段1979年,武漢大學(xué)建設(shè)的漢語現(xiàn)代文學(xué)作品語料庫,共計527萬字,是我國最早的機(jī)器可讀語料庫《人民日報》收集了48年的全部文字和圖像內(nèi)容,公開發(fā)行北京大學(xué)計算語言學(xué)研究所與富士通公司(Fujitsu)合作,加工2700萬字的《人民日報》

語料庫1998年,清華大學(xué)建立了1億漢字的語料庫,著重研究歧義切分問題,現(xiàn)在生語料庫已達(dá)7-8億字香港城市理工大學(xué)語言資訊科學(xué)研究中心建立了LIVAC(LinguisticvarietyinChinesecommunities)語料庫,其宗旨在于研究使用中文的各個地區(qū)使用語言的異同??傋?jǐn)?shù)為15,234,551字,經(jīng)過自動切詞和人工校對之后總詞數(shù)約為8,869,900詞用來翻譯和研究各種不同語言對比的語料庫北大、哈工大、東北大學(xué)建立的英漢雙語語料庫北京外國語大學(xué)的北京日本學(xué)研究中心建立了2000萬字的漢語和日語并行語料庫2019-5-21謝謝觀賞31中文信息處理的發(fā)展語料庫統(tǒng)計方法興起的近期階段2019-5-中文信息處理的發(fā)展以Internet為主要應(yīng)用對象,大規(guī)模真實(shí)文本,智能信息訪問的現(xiàn)階段Internet迅猛發(fā)展,根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的報告,截止到2002年6月30日,中國上網(wǎng)計算機(jī)總數(shù)1613萬,上網(wǎng)用戶總數(shù)4580萬主要需求有信息分類,信息提取,自動問答,基于內(nèi)容的快速信息檢索,基于個性的信息推送,數(shù)字化圖書館和信息網(wǎng)格等2019-5-21謝謝觀賞32中文信息處理的發(fā)展以Internet為主要應(yīng)用對象,大規(guī)模真中文信息處理技術(shù)發(fā)展問題的探討漢語言學(xué)家沒有為中文信息處理作好語言分析的準(zhǔn)備,長期以來,對漢語的研究方法基本上是例舉性的,而非窮盡的;材料和對象基本上是書面的,而非口語的中文信息處理研究力量分散而且存在著低層次重復(fù),缺乏統(tǒng)一規(guī)范和標(biāo)準(zhǔn)的問題現(xiàn)代漢語研究領(lǐng)域和計算機(jī)領(lǐng)域的隔絕狀態(tài)沒有出現(xiàn)根本性的改變2019-5-21謝謝觀賞33中文信息處理技術(shù)發(fā)展問題的探討漢語言學(xué)家沒有為中文信息處理作2019-5-21謝謝觀賞342019-5-21謝謝觀賞34中文信息處理

ChineseInformationProcessingxxx哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院35謝謝觀賞2019-5-21中文信息處理

ChineseInformationPro主要教材朱巧明,李培峰,吳嫻,朱曉旭等編著。中文信息處理技術(shù)教程,清華大學(xué)出版社。2005年9月第一版ChristopherD.Manning,HinrichSchutze。統(tǒng)計自然語言處理基礎(chǔ),電子工業(yè)出版社。2005年1月第一次印刷2019-5-21謝謝觀賞36主要教材朱巧明,李培峰,吳嫻,朱曉旭等編著。中文信息處理技術(shù)2019-5-21謝謝觀賞372019-5-21謝謝觀賞3主要內(nèi)容信息處理中文信息處理計算機(jī)中文信息處理主要研究對象現(xiàn)代漢語的特點(diǎn)中文信息處理的發(fā)展中文信息處理技術(shù)發(fā)展問題的探討2019-5-21謝謝觀賞38主要內(nèi)容信息處理2019-5-21謝謝觀賞4信息控制論創(chuàng)始人(維納NorbertWiener)信息既不是物質(zhì)也不是能量,是人類在適應(yīng)外部世界時以及在感知外部世界時而作出協(xié)調(diào)時與外部環(huán)境交換內(nèi)容的總和。信息論奠基者(香農(nóng)ClauseShannon)信息就是能夠用來消除不確定性的東西,是一個事件發(fā)生概率的對數(shù)的負(fù)值RobertM.Losee信息可以被定義為一個處理過程的特征,這些特征就是輸入和處理過程中產(chǎn)生的信息2019-5-21謝謝觀賞39信息控制論創(chuàng)始人(維納NorbertWiener)201信息的分類按照計算機(jī)處理的信息形式文本信息多媒體信息超媒體信息按照信息的結(jié)構(gòu)化程度結(jié)構(gòu)化信息半結(jié)構(gòu)化信息非結(jié)構(gòu)化信息按照信息的保密程度公開信息一般保密信息絕密信息2019-5-21謝謝觀賞40信息的分類按照計算機(jī)處理的信息形式2019-5-21謝謝觀賞信息處理信息處理就是對信息的接收、存儲、轉(zhuǎn)化、傳送和發(fā)布信息的接收:包括信息的感知、信息的測量、信息的識別、信息的獲取以及信息的輸入等;信息的存儲:把接收到的信息或轉(zhuǎn)換、傳送或發(fā)布中間的信息通過存儲設(shè)備進(jìn)行緩沖、保存、備份等處理;信息的轉(zhuǎn)化:把信息根據(jù)人們的特定需要進(jìn)行分類、計算、分析、檢索、管理和綜合等處理;信息的傳送:把信息通過計算機(jī)內(nèi)部的指令或者計算機(jī)之間構(gòu)成的網(wǎng)絡(luò)從一地傳送到另外一地;信息的發(fā)布:把信息通過各種表示形式展示出來。2019-5-21謝謝觀賞41信息處理信息處理就是對信息的接收、存儲、轉(zhuǎn)化、傳送和發(fā)布20中文信息處理中文信息處理是用計算機(jī)對漢語的音、形、義等語言文字信息進(jìn)行的加工和操作,包括對字、詞、短語、句、篇章的輸入、輸出、識別、轉(zhuǎn)換、壓縮、存儲、檢索、分析、理解和生成等各方面的處理技術(shù)?!队嬎銠C(jī)科學(xué)技術(shù)百科全書》清華大學(xué)出版社,19982019-5-21謝謝觀賞42中文信息處理中文信息處理是用計算機(jī)對漢語的音、形、義等語言文計算機(jī)中文信息處理主要研究對象漢字鍵盤輸入技術(shù)漢字輸出技術(shù)軟件漢化技術(shù)漢字字形識別技術(shù)漢語語音識別技術(shù)激光照排技術(shù)中文平臺文本分類信息檢索2019-5-21謝謝觀賞43計算機(jī)中文信息處理主要研究對象漢字鍵盤輸入技術(shù)2019-5-漢字鍵盤輸入技術(shù)漢字鍵盤輸入技術(shù)是一種通過鍵盤使?jié)h字進(jìn)入計算機(jī)的技術(shù)漢字編碼采用四位十進(jìn)制數(shù)把常用的漢字用“0”—”9”十個數(shù)字按照次序進(jìn)行編碼四角碼(字形碼)用“0”—”9”十個數(shù)字鍵對漢字的四個角的形狀進(jìn)行編碼機(jī)內(nèi)碼用2字節(jié)、3字節(jié)、4字節(jié)來表示一個漢字的機(jī)器內(nèi)部碼國際標(biāo)準(zhǔn)化組織(ISO)、Unicode聯(lián)盟以及IEEE下屬的專門委員會研究制訂的字符編碼標(biāo)準(zhǔn)2019-5-21謝謝觀賞44漢字鍵盤輸入技術(shù)漢字鍵盤輸入技術(shù)是一種通過鍵盤使?jié)h字進(jìn)入計算漢字輸出技術(shù)漢字輸出是指把存儲在計算機(jī)內(nèi)的漢字字形信息轉(zhuǎn)換成符合顯示或打印需要的形式,并送輸出設(shè)備輸出漢字字庫點(diǎn)陣字庫GB5199.1-2001和GB5007-2001是典型的16點(diǎn)陣和24點(diǎn)陣字庫矢量字庫采用矢量的方法,對每個漢字信息用一組矢量進(jìn)行描述2019-5-21謝謝觀賞45漢字輸出技術(shù)漢字輸出是指把存儲在計算機(jī)內(nèi)的漢字字形信息轉(zhuǎn)換成軟件漢化技術(shù)軟件漢化是把西文軟件直接改造成中文軟件的一種技術(shù)西文操作系統(tǒng)漢化成中文操作系統(tǒng)內(nèi)核漢化外掛漢化西文應(yīng)用軟件經(jīng)過漢化后能夠具備處理中文的能力界面的漢化應(yīng)用程序中中文的通行2019-5-21謝謝觀賞46軟件漢化技術(shù)軟件漢化是把西文軟件直接改造成中文軟件的一種技術(shù)漢字字形識別技術(shù)漢字識別技術(shù)是利用計算機(jī)技術(shù)對漢字靜態(tài)圖形和動態(tài)漢字信息進(jìn)行特征提取,與預(yù)先存儲在計算機(jī)內(nèi)的標(biāo)準(zhǔn)漢字特征信息進(jìn)行匹配,并選擇符合特征的漢字作為所需識別的漢字內(nèi)碼聯(lián)機(jī)識別脫機(jī)識別漢字字形識別過程漢字識別前處理漢字分類和判別漢字識別后處理2019-5-21謝謝觀賞47漢字字形識別技術(shù)漢字識別技術(shù)是利用計算機(jī)技術(shù)對漢字靜態(tài)圖形和漢語語音識別技術(shù)漢語語音識別技術(shù)是自然語言處理的一個重要組成部分,包括語音的識別、處理、合成等語音識別的過程語音識別單元的選取特征參數(shù)提取技術(shù)模式匹配及模型訓(xùn)練技術(shù)2019-5-21謝謝觀賞48漢語語音識別技術(shù)漢語語音識別技術(shù)是自然語言處理的一個重要組成激光照排技術(shù)激光照排,即電子排版系統(tǒng)1946年,美國人發(fā)明了手動光學(xué)照相排版機(jī)20世紀(jì)60年代,德國人制造了陰極射線管式照排1975年,英國人開始了激光照排的研究1974年8月,國家設(shè)立了748工程2019-5-21謝謝觀賞49激光照排技術(shù)激光照排,即電子排版系統(tǒng)2019-5-21謝謝觀中文平臺中文平臺是指處理中文信息的軟件系統(tǒng)的集合,包括支持中文的系統(tǒng)軟件、支撐軟件和應(yīng)用軟件漢化平臺:西文系統(tǒng)上外掛一層軟件,使系統(tǒng)可以接收和輸出漢字API平臺:操作系統(tǒng)提供有關(guān)中文信息處理所需要的一套API接口中文平臺:在API平臺上再增加一些典型的與中文信息處理有關(guān)的應(yīng)用軟件工具或產(chǎn)品2019-5-21謝謝觀賞50中文平臺中文平臺是指處理中文信息的軟件系統(tǒng)的集合,包括支持中文本分類文本分類是一種確定文章所屬類別的情報分析方法基于詞的歸類技術(shù)基于知識的歸類技術(shù)基于信息的歸類技術(shù)2019-5-21謝謝觀賞51文本分類文本分類是一種確定文章所屬類別的情報分析方法2019信息檢索文本檢索包括了文本信息的存儲、組織、表現(xiàn)、查詢及存取等各個方面索引的建立自動分類自動聚類文摘(單文檔文摘、多文檔文摘)檢索結(jié)果的排序(ranking)分布式信息檢索…………2019-5-21謝謝觀賞52信息檢索文本檢索包括了文本信息的存儲、組織、表現(xiàn)、查詢及存取現(xiàn)代漢語的特點(diǎn)語音字形詞匯句子字頻詞頻2019-5-21謝謝觀賞53現(xiàn)代漢語的特點(diǎn)語音2019-5-21謝謝觀賞19語音漢字讀音的標(biāo)記方法直音法用一個漢字給另一個漢字進(jìn)行注音“厶”→“司”,“翯”→“賀”反切法用兩個漢字給另外一個漢字注音“魯”→“郎古切”,第一個漢字為聲母,第二個漢字是韻母和聲調(diào)注音字符漢語拼音21個聲母,35個韻母,4聲調(diào)2019-5-21謝謝觀賞54語音漢字讀音的標(biāo)記方法2019-5-21謝謝觀賞20字形漢字結(jié)構(gòu)筆畫漢字字形最小連筆單位五種基本筆畫:橫、豎、撇、點(diǎn)、折部首字形歸類的部件,是字典根據(jù)漢字形體偏旁所分的門類繁體字和簡體字“進(jìn)”→“進(jìn)”,“裏”→“里”繁體字和簡體字并不是一一對應(yīng)的關(guān)系字序義序、音序、形序2019-5-21謝謝觀賞55字形漢字結(jié)構(gòu)2019-5-21謝謝觀賞21詞匯1詞匯是語言中所有的詞和短語的總和漢語的詞根和詞綴詞根:意義實(shí)在、在合成內(nèi)位置不固定的粘著語素(不能單獨(dú)構(gòu)成詞的語素,如偉、豐、型)和自由語素(能獨(dú)立成詞的語素,如金、木、水、火、土)詞綴:意義不實(shí)在、在合成內(nèi)位置固定在前或后的粘著語素“筷子”→“筷”是詞根語素,“子”是詞綴語素2019-5-21謝謝觀賞56詞匯1詞匯是語言中所有的詞和短語的總和2019-5-21謝謝詞匯2詞的種類單純詞由一個語素構(gòu)成的詞,如人、走、天雙音節(jié)連綿詞,如鴛鴦、垃圾、琳瑯、葡萄音譯詞,如沙發(fā)(sofa),咖啡(coffee)譯自少數(shù)民族的地名,如哈爾濱、呼和浩特合成詞重疊詞:兩個相同的詞根相疊構(gòu)成的詞,如哥哥、姐姐、星星附加詞:由詞根和詞綴構(gòu)成,如老虎、石頭、刀子、桌子復(fù)合詞:內(nèi)部結(jié)構(gòu)基本上是和句法結(jié)構(gòu)一致的,有主謂、偏正、聯(lián)合等,如質(zhì)量、體制、開關(guān)2019-5-21謝謝觀賞57詞匯2詞的種類2019-5-21謝謝觀賞23句子句子:能夠表達(dá)一個相對完整意思的并且有一個特定語調(diào)的語言單位漢語句子是“以意為本”的,生成的第一要素是語義無論是否是主謂結(jié)構(gòu)的,只要完成表意功能,就是一個句子2019-5-21謝謝觀賞58句子句子:能夠表達(dá)一個相對完整意思的并且有一個特定語調(diào)的語言字頻字頻:就是一個漢字的相對使用頻率,也就是一個漢字使用次數(shù)與所統(tǒng)計的材料的總字?jǐn)?shù)的比例如果在一篇2000字的文章中,“的”使用了78次,則“的”的頻率就是78/2000*100%=3.9%在信息檢索中有著重要的應(yīng)用文本分類信息檢索中索引表的建立……2019-5-21謝謝觀賞59字頻字頻:就是一個漢字的相對使用頻率,也就是一個漢字使用次數(shù)詞頻詞頻:就是一個詞的相對使用頻率對于詞典的編撰、中文信息處理有著重要的作用新詞的出現(xiàn):非典、超女、網(wǎng)友信息檢索2019-5-21謝謝觀賞60詞頻詞頻:就是一個詞的相對使用頻率2019-5-21謝謝觀賞中文信息處理的發(fā)展學(xué)習(xí)和理論探索的萌芽階段這一階段以介紹國外計算語言學(xué)領(lǐng)域的理論方法為主對國外相關(guān)領(lǐng)域的介紹,理論內(nèi)容相對較少,主要偏重在各種上機(jī)實(shí)現(xiàn)的系統(tǒng)方面。范繼淹、徐志敏、李家治、陳永明、馮志偉等人的介紹及其所研制的實(shí)驗(yàn)系統(tǒng)報告,是這方面的代表早期將國外的理論方法進(jìn)行全面系統(tǒng)漢化的主要刊物有:86年底創(chuàng)刊的《中文信息學(xué)報》、語言學(xué)界的《國外語言學(xué)》和《語言文字應(yīng)用》學(xué)者們在介紹國外先進(jìn)的理論和方法同時,也有不少人結(jié)合漢語自身的特點(diǎn),對這些理論和方法做了深入一步的探索,極少數(shù)人對自然語言理解做了深層次的帶有哲學(xué)色彩的思考80年代中期寧春巖發(fā)表的《自然語言理解中的幾個根本問題》,以及他譯介的美國哲學(xué)家休伯特.德雷福斯(HubertL.Dreyfus)的專著《計算機(jī)不能做什么--人工智能的極限》語言學(xué)界袁毓林1993年發(fā)表了《自然語言理解的語言學(xué)假設(shè)》這些早期的的研究和探索對確立中文信息處理的宏觀格局起到了決定性的作用,奠定了中文信息處理后期的理論基礎(chǔ)

2019-5-21謝謝觀賞61中文信息處理的發(fā)展學(xué)習(xí)和理論探索的萌芽階段2019-5-21中文信息處理的發(fā)展?jié)h字信息處理為主的早期階段1974年周恩來總理親自批準(zhǔn)了“七四八”工程它標(biāo)志著計算機(jī)中文信息處理技術(shù)受到了國家高度重視并且進(jìn)入了他的第一個發(fā)展階段——漢字信息處理時代2019-5-21謝謝觀賞62中文信息處理的發(fā)展?jié)h字信息處理為主的早期階段2019-5-2中文信息處理的發(fā)展字、詞等表層處理為特征的初級階段北京大學(xué)開發(fā)的華光排版系統(tǒng)被評為1985年中國十大科技成就之一,并榮獲中國發(fā)明協(xié)會發(fā)明獎“六五”期間(1981-1985),北京航空學(xué)院主持,中國人民大學(xué)等十幾個院校,研究機(jī)構(gòu)參加的“現(xiàn)代漢語詞頻統(tǒng)計”工程是這一階段代表性的重大科研成果,這是國內(nèi)首次使用計算機(jī)進(jìn)行大規(guī)模語料(2000萬字)的詞頻統(tǒng)計研究的大型語言工程第一個漢語自動分詞系統(tǒng)——CD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論