中文信息處理課件_第1頁(yè)
中文信息處理課件_第2頁(yè)
中文信息處理課件_第3頁(yè)
中文信息處理課件_第4頁(yè)
中文信息處理課件_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中文信息處理

ChineseInformationProcessingxxx哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院1謝謝觀賞2019-5-21中文信息處理

ChineseInformationPro主要教材朱巧明,李培峰,吳嫻,朱曉旭等編著。中文信息處理技術(shù)教程,清華大學(xué)出版社。2005年9月第一版ChristopherD.Manning,HinrichSchutze。統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ),電子工業(yè)出版社。2005年1月第一次印刷2019-5-21謝謝觀賞2主要教材朱巧明,李培峰,吳嫻,朱曉旭等編著。中文信息處理技術(shù)2019-5-21謝謝觀賞32019-5-21謝謝觀賞3主要內(nèi)容信息處理中文信息處理計(jì)算機(jī)中文信息處理主要研究對(duì)象現(xiàn)代漢語(yǔ)的特點(diǎn)中文信息處理的發(fā)展中文信息處理技術(shù)發(fā)展問(wèn)題的探討2019-5-21謝謝觀賞4主要內(nèi)容信息處理2019-5-21謝謝觀賞4信息控制論創(chuàng)始人(維納NorbertWiener)信息既不是物質(zhì)也不是能量,是人類(lèi)在適應(yīng)外部世界時(shí)以及在感知外部世界時(shí)而作出協(xié)調(diào)時(shí)與外部環(huán)境交換內(nèi)容的總和。信息論奠基者(香農(nóng)ClauseShannon)信息就是能夠用來(lái)消除不確定性的東西,是一個(gè)事件發(fā)生概率的對(duì)數(shù)的負(fù)值RobertM.Losee信息可以被定義為一個(gè)處理過(guò)程的特征,這些特征就是輸入和處理過(guò)程中產(chǎn)生的信息2019-5-21謝謝觀賞5信息控制論創(chuàng)始人(維納NorbertWiener)201信息的分類(lèi)按照計(jì)算機(jī)處理的信息形式文本信息多媒體信息超媒體信息按照信息的結(jié)構(gòu)化程度結(jié)構(gòu)化信息半結(jié)構(gòu)化信息非結(jié)構(gòu)化信息按照信息的保密程度公開(kāi)信息一般保密信息絕密信息2019-5-21謝謝觀賞6信息的分類(lèi)按照計(jì)算機(jī)處理的信息形式2019-5-21謝謝觀賞信息處理信息處理就是對(duì)信息的接收、存儲(chǔ)、轉(zhuǎn)化、傳送和發(fā)布信息的接收:包括信息的感知、信息的測(cè)量、信息的識(shí)別、信息的獲取以及信息的輸入等;信息的存儲(chǔ):把接收到的信息或轉(zhuǎn)換、傳送或發(fā)布中間的信息通過(guò)存儲(chǔ)設(shè)備進(jìn)行緩沖、保存、備份等處理;信息的轉(zhuǎn)化:把信息根據(jù)人們的特定需要進(jìn)行分類(lèi)、計(jì)算、分析、檢索、管理和綜合等處理;信息的傳送:把信息通過(guò)計(jì)算機(jī)內(nèi)部的指令或者計(jì)算機(jī)之間構(gòu)成的網(wǎng)絡(luò)從一地傳送到另外一地;信息的發(fā)布:把信息通過(guò)各種表示形式展示出來(lái)。2019-5-21謝謝觀賞7信息處理信息處理就是對(duì)信息的接收、存儲(chǔ)、轉(zhuǎn)化、傳送和發(fā)布20中文信息處理中文信息處理是用計(jì)算機(jī)對(duì)漢語(yǔ)的音、形、義等語(yǔ)言文字信息進(jìn)行的加工和操作,包括對(duì)字、詞、短語(yǔ)、句、篇章的輸入、輸出、識(shí)別、轉(zhuǎn)換、壓縮、存儲(chǔ)、檢索、分析、理解和生成等各方面的處理技術(shù)。《計(jì)算機(jī)科學(xué)技術(shù)百科全書(shū)》清華大學(xué)出版社,19982019-5-21謝謝觀賞8中文信息處理中文信息處理是用計(jì)算機(jī)對(duì)漢語(yǔ)的音、形、義等語(yǔ)言文計(jì)算機(jī)中文信息處理主要研究對(duì)象漢字鍵盤(pán)輸入技術(shù)漢字輸出技術(shù)軟件漢化技術(shù)漢字字形識(shí)別技術(shù)漢語(yǔ)語(yǔ)音識(shí)別技術(shù)激光照排技術(shù)中文平臺(tái)文本分類(lèi)信息檢索2019-5-21謝謝觀賞9計(jì)算機(jī)中文信息處理主要研究對(duì)象漢字鍵盤(pán)輸入技術(shù)2019-5-漢字鍵盤(pán)輸入技術(shù)漢字鍵盤(pán)輸入技術(shù)是一種通過(guò)鍵盤(pán)使?jié)h字進(jìn)入計(jì)算機(jī)的技術(shù)漢字編碼采用四位十進(jìn)制數(shù)把常用的漢字用“0”—”9”十個(gè)數(shù)字按照次序進(jìn)行編碼四角碼(字形碼)用“0”—”9”十個(gè)數(shù)字鍵對(duì)漢字的四個(gè)角的形狀進(jìn)行編碼機(jī)內(nèi)碼用2字節(jié)、3字節(jié)、4字節(jié)來(lái)表示一個(gè)漢字的機(jī)器內(nèi)部碼國(guó)際標(biāo)準(zhǔn)化組織(ISO)、Unicode聯(lián)盟以及IEEE下屬的專(zhuān)門(mén)委員會(huì)研究制訂的字符編碼標(biāo)準(zhǔn)2019-5-21謝謝觀賞10漢字鍵盤(pán)輸入技術(shù)漢字鍵盤(pán)輸入技術(shù)是一種通過(guò)鍵盤(pán)使?jié)h字進(jìn)入計(jì)算漢字輸出技術(shù)漢字輸出是指把存儲(chǔ)在計(jì)算機(jī)內(nèi)的漢字字形信息轉(zhuǎn)換成符合顯示或打印需要的形式,并送輸出設(shè)備輸出漢字字庫(kù)點(diǎn)陣字庫(kù)GB5199.1-2001和GB5007-2001是典型的16點(diǎn)陣和24點(diǎn)陣字庫(kù)矢量字庫(kù)采用矢量的方法,對(duì)每個(gè)漢字信息用一組矢量進(jìn)行描述2019-5-21謝謝觀賞11漢字輸出技術(shù)漢字輸出是指把存儲(chǔ)在計(jì)算機(jī)內(nèi)的漢字字形信息轉(zhuǎn)換成軟件漢化技術(shù)軟件漢化是把西文軟件直接改造成中文軟件的一種技術(shù)西文操作系統(tǒng)漢化成中文操作系統(tǒng)內(nèi)核漢化外掛漢化西文應(yīng)用軟件經(jīng)過(guò)漢化后能夠具備處理中文的能力界面的漢化應(yīng)用程序中中文的通行2019-5-21謝謝觀賞12軟件漢化技術(shù)軟件漢化是把西文軟件直接改造成中文軟件的一種技術(shù)漢字字形識(shí)別技術(shù)漢字識(shí)別技術(shù)是利用計(jì)算機(jī)技術(shù)對(duì)漢字靜態(tài)圖形和動(dòng)態(tài)漢字信息進(jìn)行特征提取,與預(yù)先存儲(chǔ)在計(jì)算機(jī)內(nèi)的標(biāo)準(zhǔn)漢字特征信息進(jìn)行匹配,并選擇符合特征的漢字作為所需識(shí)別的漢字內(nèi)碼聯(lián)機(jī)識(shí)別脫機(jī)識(shí)別漢字字形識(shí)別過(guò)程漢字識(shí)別前處理漢字分類(lèi)和判別漢字識(shí)別后處理2019-5-21謝謝觀賞13漢字字形識(shí)別技術(shù)漢字識(shí)別技術(shù)是利用計(jì)算機(jī)技術(shù)對(duì)漢字靜態(tài)圖形和漢語(yǔ)語(yǔ)音識(shí)別技術(shù)漢語(yǔ)語(yǔ)音識(shí)別技術(shù)是自然語(yǔ)言處理的一個(gè)重要組成部分,包括語(yǔ)音的識(shí)別、處理、合成等語(yǔ)音識(shí)別的過(guò)程語(yǔ)音識(shí)別單元的選取特征參數(shù)提取技術(shù)模式匹配及模型訓(xùn)練技術(shù)2019-5-21謝謝觀賞14漢語(yǔ)語(yǔ)音識(shí)別技術(shù)漢語(yǔ)語(yǔ)音識(shí)別技術(shù)是自然語(yǔ)言處理的一個(gè)重要組成激光照排技術(shù)激光照排,即電子排版系統(tǒng)1946年,美國(guó)人發(fā)明了手動(dòng)光學(xué)照相排版機(jī)20世紀(jì)60年代,德國(guó)人制造了陰極射線(xiàn)管式照排1975年,英國(guó)人開(kāi)始了激光照排的研究1974年8月,國(guó)家設(shè)立了748工程2019-5-21謝謝觀賞15激光照排技術(shù)激光照排,即電子排版系統(tǒng)2019-5-21謝謝觀中文平臺(tái)中文平臺(tái)是指處理中文信息的軟件系統(tǒng)的集合,包括支持中文的系統(tǒng)軟件、支撐軟件和應(yīng)用軟件漢化平臺(tái):西文系統(tǒng)上外掛一層軟件,使系統(tǒng)可以接收和輸出漢字API平臺(tái):操作系統(tǒng)提供有關(guān)中文信息處理所需要的一套API接口中文平臺(tái):在API平臺(tái)上再增加一些典型的與中文信息處理有關(guān)的應(yīng)用軟件工具或產(chǎn)品2019-5-21謝謝觀賞16中文平臺(tái)中文平臺(tái)是指處理中文信息的軟件系統(tǒng)的集合,包括支持中文本分類(lèi)文本分類(lèi)是一種確定文章所屬類(lèi)別的情報(bào)分析方法基于詞的歸類(lèi)技術(shù)基于知識(shí)的歸類(lèi)技術(shù)基于信息的歸類(lèi)技術(shù)2019-5-21謝謝觀賞17文本分類(lèi)文本分類(lèi)是一種確定文章所屬類(lèi)別的情報(bào)分析方法2019信息檢索文本檢索包括了文本信息的存儲(chǔ)、組織、表現(xiàn)、查詢(xún)及存取等各個(gè)方面索引的建立自動(dòng)分類(lèi)自動(dòng)聚類(lèi)文摘(單文檔文摘、多文檔文摘)檢索結(jié)果的排序(ranking)分布式信息檢索…………2019-5-21謝謝觀賞18信息檢索文本檢索包括了文本信息的存儲(chǔ)、組織、表現(xiàn)、查詢(xún)及存取現(xiàn)代漢語(yǔ)的特點(diǎn)語(yǔ)音字形詞匯句子字頻詞頻2019-5-21謝謝觀賞19現(xiàn)代漢語(yǔ)的特點(diǎn)語(yǔ)音2019-5-21謝謝觀賞19語(yǔ)音漢字讀音的標(biāo)記方法直音法用一個(gè)漢字給另一個(gè)漢字進(jìn)行注音“厶”→“司”,“翯”→“賀”反切法用兩個(gè)漢字給另外一個(gè)漢字注音“魯”→“郎古切”,第一個(gè)漢字為聲母,第二個(gè)漢字是韻母和聲調(diào)注音字符漢語(yǔ)拼音21個(gè)聲母,35個(gè)韻母,4聲調(diào)2019-5-21謝謝觀賞20語(yǔ)音漢字讀音的標(biāo)記方法2019-5-21謝謝觀賞20字形漢字結(jié)構(gòu)筆畫(huà)漢字字形最小連筆單位五種基本筆畫(huà):橫、豎、撇、點(diǎn)、折部首字形歸類(lèi)的部件,是字典根據(jù)漢字形體偏旁所分的門(mén)類(lèi)繁體字和簡(jiǎn)體字“進(jìn)”→“進(jìn)”,“裏”→“里”繁體字和簡(jiǎn)體字并不是一一對(duì)應(yīng)的關(guān)系字序義序、音序、形序2019-5-21謝謝觀賞21字形漢字結(jié)構(gòu)2019-5-21謝謝觀賞21詞匯1詞匯是語(yǔ)言中所有的詞和短語(yǔ)的總和漢語(yǔ)的詞根和詞綴詞根:意義實(shí)在、在合成內(nèi)位置不固定的粘著語(yǔ)素(不能單獨(dú)構(gòu)成詞的語(yǔ)素,如偉、豐、型)和自由語(yǔ)素(能獨(dú)立成詞的語(yǔ)素,如金、木、水、火、土)詞綴:意義不實(shí)在、在合成內(nèi)位置固定在前或后的粘著語(yǔ)素“筷子”→“筷”是詞根語(yǔ)素,“子”是詞綴語(yǔ)素2019-5-21謝謝觀賞22詞匯1詞匯是語(yǔ)言中所有的詞和短語(yǔ)的總和2019-5-21謝謝詞匯2詞的種類(lèi)單純?cè)~由一個(gè)語(yǔ)素構(gòu)成的詞,如人、走、天雙音節(jié)連綿詞,如鴛鴦、垃圾、琳瑯、葡萄音譯詞,如沙發(fā)(sofa),咖啡(coffee)譯自少數(shù)民族的地名,如哈爾濱、呼和浩特合成詞重疊詞:兩個(gè)相同的詞根相疊構(gòu)成的詞,如哥哥、姐姐、星星附加詞:由詞根和詞綴構(gòu)成,如老虎、石頭、刀子、桌子復(fù)合詞:內(nèi)部結(jié)構(gòu)基本上是和句法結(jié)構(gòu)一致的,有主謂、偏正、聯(lián)合等,如質(zhì)量、體制、開(kāi)關(guān)2019-5-21謝謝觀賞23詞匯2詞的種類(lèi)2019-5-21謝謝觀賞23句子句子:能夠表達(dá)一個(gè)相對(duì)完整意思的并且有一個(gè)特定語(yǔ)調(diào)的語(yǔ)言單位漢語(yǔ)句子是“以意為本”的,生成的第一要素是語(yǔ)義無(wú)論是否是主謂結(jié)構(gòu)的,只要完成表意功能,就是一個(gè)句子2019-5-21謝謝觀賞24句子句子:能夠表達(dá)一個(gè)相對(duì)完整意思的并且有一個(gè)特定語(yǔ)調(diào)的語(yǔ)言字頻字頻:就是一個(gè)漢字的相對(duì)使用頻率,也就是一個(gè)漢字使用次數(shù)與所統(tǒng)計(jì)的材料的總字?jǐn)?shù)的比例如果在一篇2000字的文章中,“的”使用了78次,則“的”的頻率就是78/2000*100%=3.9%在信息檢索中有著重要的應(yīng)用文本分類(lèi)信息檢索中索引表的建立……2019-5-21謝謝觀賞25字頻字頻:就是一個(gè)漢字的相對(duì)使用頻率,也就是一個(gè)漢字使用次數(shù)詞頻詞頻:就是一個(gè)詞的相對(duì)使用頻率對(duì)于詞典的編撰、中文信息處理有著重要的作用新詞的出現(xiàn):非典、超女、網(wǎng)友信息檢索2019-5-21謝謝觀賞26詞頻詞頻:就是一個(gè)詞的相對(duì)使用頻率2019-5-21謝謝觀賞中文信息處理的發(fā)展學(xué)習(xí)和理論探索的萌芽階段這一階段以介紹國(guó)外計(jì)算語(yǔ)言學(xué)領(lǐng)域的理論方法為主對(duì)國(guó)外相關(guān)領(lǐng)域的介紹,理論內(nèi)容相對(duì)較少,主要偏重在各種上機(jī)實(shí)現(xiàn)的系統(tǒng)方面。范繼淹、徐志敏、李家治、陳永明、馮志偉等人的介紹及其所研制的實(shí)驗(yàn)系統(tǒng)報(bào)告,是這方面的代表早期將國(guó)外的理論方法進(jìn)行全面系統(tǒng)漢化的主要刊物有:86年底創(chuàng)刊的《中文信息學(xué)報(bào)》、語(yǔ)言學(xué)界的《國(guó)外語(yǔ)言學(xué)》和《語(yǔ)言文字應(yīng)用》學(xué)者們?cè)诮榻B國(guó)外先進(jìn)的理論和方法同時(shí),也有不少人結(jié)合漢語(yǔ)自身的特點(diǎn),對(duì)這些理論和方法做了深入一步的探索,極少數(shù)人對(duì)自然語(yǔ)言理解做了深層次的帶有哲學(xué)色彩的思考80年代中期寧春巖發(fā)表的《自然語(yǔ)言理解中的幾個(gè)根本問(wèn)題》,以及他譯介的美國(guó)哲學(xué)家休伯特.德雷福斯(HubertL.Dreyfus)的專(zhuān)著《計(jì)算機(jī)不能做什么--人工智能的極限》語(yǔ)言學(xué)界袁毓林1993年發(fā)表了《自然語(yǔ)言理解的語(yǔ)言學(xué)假設(shè)》這些早期的的研究和探索對(duì)確立中文信息處理的宏觀格局起到了決定性的作用,奠定了中文信息處理后期的理論基礎(chǔ)

2019-5-21謝謝觀賞27中文信息處理的發(fā)展學(xué)習(xí)和理論探索的萌芽階段2019-5-21中文信息處理的發(fā)展?jié)h字信息處理為主的早期階段1974年周恩來(lái)總理親自批準(zhǔn)了“七四八”工程它標(biāo)志著計(jì)算機(jī)中文信息處理技術(shù)受到了國(guó)家高度重視并且進(jìn)入了他的第一個(gè)發(fā)展階段——漢字信息處理時(shí)代2019-5-21謝謝觀賞28中文信息處理的發(fā)展?jié)h字信息處理為主的早期階段2019-5-2中文信息處理的發(fā)展字、詞等表層處理為特征的初級(jí)階段北京大學(xué)開(kāi)發(fā)的華光排版系統(tǒng)被評(píng)為1985年中國(guó)十大科技成就之一,并榮獲中國(guó)發(fā)明協(xié)會(huì)發(fā)明獎(jiǎng)“六五”期間(1981-1985),北京航空學(xué)院主持,中國(guó)人民大學(xué)等十幾個(gè)院校,研究機(jī)構(gòu)參加的“現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)”工程是這一階段代表性的重大科研成果,這是國(guó)內(nèi)首次使用計(jì)算機(jī)進(jìn)行大規(guī)模語(yǔ)料(2000萬(wàn)字)的詞頻統(tǒng)計(jì)研究的大型語(yǔ)言工程第一個(gè)漢語(yǔ)自動(dòng)分詞系統(tǒng)——CDWS,建立了一個(gè)有13萬(wàn)余詞條的計(jì)算機(jī)詞典,研制了一個(gè)有52個(gè)屬性的漢字信息庫(kù)1988年初,北京航空航天大學(xué)在承擔(dān)國(guó)家“七五”科技攻關(guān)項(xiàng)目《信息處理用規(guī)范現(xiàn)代漢語(yǔ)詞庫(kù)》的同時(shí),制定了《信息處理用規(guī)范現(xiàn)代漢語(yǔ)分詞規(guī)范》2019-5-21謝謝觀賞29中文信息處理的發(fā)展字、詞等表層處理為特征的初級(jí)階段2019-中文信息處理的發(fā)展句法和語(yǔ)義等深層處理為代表的中期階段“八五”期間,中文信息處理技術(shù)的研究開(kāi)發(fā)重點(diǎn)逐步由字,詞的表層處理轉(zhuǎn)向了以句法,語(yǔ)義分析為核心的深層處理2019-5-21謝謝觀賞30中文信息處理的發(fā)展句法和語(yǔ)義等深層處理為代表的中期階段201中文信息處理的發(fā)展語(yǔ)料庫(kù)統(tǒng)計(jì)方法興起的近期階段1979年,武漢大學(xué)建設(shè)的漢語(yǔ)現(xiàn)代文學(xué)作品語(yǔ)料庫(kù),共計(jì)527萬(wàn)字,是我國(guó)最早的機(jī)器可讀語(yǔ)料庫(kù)《人民日?qǐng)?bào)》收集了48年的全部文字和圖像內(nèi)容,公開(kāi)發(fā)行北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所與富士通公司(Fujitsu)合作,加工2700萬(wàn)字的《人民日?qǐng)?bào)》

語(yǔ)料庫(kù)1998年,清華大學(xué)建立了1億漢字的語(yǔ)料庫(kù),著重研究歧義切分問(wèn)題,現(xiàn)在生語(yǔ)料庫(kù)已達(dá)7-8億字香港城市理工大學(xué)語(yǔ)言資訊科學(xué)研究中心建立了LIVAC(LinguisticvarietyinChinesecommunities)語(yǔ)料庫(kù),其宗旨在于研究使用中文的各個(gè)地區(qū)使用語(yǔ)言的異同??傋?jǐn)?shù)為15,234,551字

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論