中文信息處理的應(yīng)用研究報(bào)告_第1頁
中文信息處理的應(yīng)用研究報(bào)告_第2頁
中文信息處理的應(yīng)用研究報(bào)告_第3頁
中文信息處理的應(yīng)用研究報(bào)告_第4頁
中文信息處理的應(yīng)用研究報(bào)告_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中文信息處理的應(yīng)用爭(zhēng)論報(bào)告在多元化的信息中,文字信息是一種最普遍的形式。例如:文件、信函、報(bào)表、記錄、印刷品等根本上承受文字表達(dá)的形式。“中文信息處理”2070年月流行起來的,實(shí)際上,自古以來,中文信息〔漢字從開頭編制第一部漢字字典和編寫第一篇文摘起就開頭了中文信息的分析與綜合處理的研“中文信息處理”加工、轉(zhuǎn)換、傳輸、復(fù)制、等各種處理的一項(xiàng)興的科學(xué)技術(shù)。其穿插性使之成為“信息科學(xué)”的分支;其綜合性應(yīng)用使之成為“系統(tǒng)工程”的一個(gè)實(shí)例。它涉及到語言文字學(xué)、計(jì)算機(jī)科學(xué)、信息科學(xué)、工程心理學(xué)、數(shù)理統(tǒng)計(jì)學(xué)、聲學(xué)、自動(dòng)識(shí)別技術(shù)、人工智能、網(wǎng)絡(luò)技術(shù)、用。7020多年,完成了由初級(jí)階段向比較成熟階段的過渡,這是微電子技術(shù)和IT技術(shù)高速進(jìn)展以及迫切的應(yīng)用需求所促成的。現(xiàn)在,很多移動(dòng)都已具備中文菜單和顯示中文短信息功能,但都有缺陷,還不是真正意義上的“全中文”。只有當(dāng)它既能顯示中文又能輸入和處理中文,也就是說,能直接利用手機(jī)進(jìn)展中文輸入時(shí),才可以說是“全中文”。然而,一般移動(dòng)僅有數(shù)字鍵,這無疑對(duì)漢字?jǐn)?shù)字輸入法〔簡(jiǎn)稱數(shù)字碼)WAP技術(shù)成為的熱點(diǎn)之時(shí),連英文也面臨著需要編碼輸入的嚴(yán)峻事實(shí)。當(dāng)前,美國、日本及我國香港特區(qū)都在大力進(jìn)展一種雙向?qū)ず魴C(jī),它同時(shí)具有輸入功能,即,它同樣也面臨著中文處理問題。還有電子詞典,如何高效、標(biāo)準(zhǔn)化地利用電子字典查找漢字和單詞,也是只能各位信息處理應(yīng)當(dāng)解決的問題。信息家電也會(huì)是一個(gè)熱門話題,它也面臨著中文信息處理的問題。另外,從計(jì)算機(jī)本身的進(jìn)展來看,手持機(jī)〔包括PDA和汽車電腦〕和可佩帶式計(jì)算機(jī)的中文信息處理尚有諸多問題需要解決??膳鍘接?jì)算機(jī)還處于進(jìn)展初期,其應(yīng)用領(lǐng)域廣泛,尤其在軍事上有很大的用途,面臨軍事革命的挑戰(zhàn),我國在爭(zhēng)論其相應(yīng)設(shè)備時(shí),首先遇到的就是中文信息處理問題。微軟和IBM信息處理。在計(jì)算機(jī)網(wǎng)絡(luò)方面,中文信息處理將具有更加寬闊的前景。高效的中文搜尋引擎、電子郵件、中文電子商務(wù)等技術(shù)均與中文信息處理親熱相關(guān)。移動(dòng)、信息終端等電子設(shè)備入方面,硬件的進(jìn)一步微型化、連續(xù)語音識(shí)別、噪聲背景下的語音識(shí)別以及漢語口語理解等都是亟待解決的難點(diǎn)。手寫漢字識(shí)別技術(shù)方面,聯(lián)機(jī)狀態(tài)下的筆寫入方式,通常的麻煩就是寫得快了,或字與字之間的停頓太短,會(huì)將兩個(gè)單字拼湊成一個(gè)字,又成了錯(cuò)字。盡管有調(diào)整轉(zhuǎn)變手寫速度“快速、中速、慢速”等技術(shù)措施,有用中卻使人感到頻繁換用鼠標(biāo)時(shí)的不便乃至產(chǎn)生厭煩心情而不愿使用了。非特定的脫機(jī)手寫漢字識(shí)別的困難則更多。因此,在今后數(shù)十年內(nèi),中文鍵盤輸入方法任然會(huì)是處于主導(dǎo)地位的輸入技術(shù)。文字信息的表現(xiàn)形式是多元化的。文字信息是大多數(shù)信息表現(xiàn)形式的根底,而文字信的各種治理系統(tǒng)和效勞性系統(tǒng)。20世紀(jì)中期以來的事,它包含有輸入、存儲(chǔ)、處理、傳送、輸出等環(huán)節(jié)。下面著重介紹輸入和輸出兩個(gè)環(huán)節(jié)。漢字的輸入技術(shù)。單字、詞匯和語句的鍵盤輸入〔1〕專用型的中鍵盤或大鍵盤整字輸入方式大鍵盤:一鍵一字輸入方式。中鍵盤:一鍵多字輸入方式?!?〕通用小鍵盤拼音方式:利用字音編碼輸入。漢語拼音方式:全拼音方式。雙拼方式。拼形方式:利用字形特征編碼輸入。筆畫筆形式偏旁部首式字形構(gòu)造式混合式。音形混合:以音為主,以形為輔形音混合:以形為主,以音為輔手寫輸入方式語音輸入方式掃描方式方式漢字的輸出技術(shù)漢字的輸出有多種方式屏幕顯示:顯像管顯示器、液晶顯示器;打印機(jī):針打式、噴墨式、激光打印;語音輸出;繪圖儀;機(jī)。漢字輸入輸出所必需的漢字庫計(jì)算機(jī)系統(tǒng)中存儲(chǔ)漢字字形信息的字庫,字庫分為三種類型:點(diǎn)陣字庫;(2)矢量字庫;曲線字庫:整字輪廓字庫、壓縮字庫。中文信息處理根底理論方面的爭(zhēng)論內(nèi)容漢字識(shí)別〔包括印刷字體、限制性手寫字體及一般手寫字體〕;漢語語音識(shí)別〔包括語音波形編碼和解碼、語音的分解與合成〕;漢語自然語言的理解與處理;漢語的機(jī)器翻譯;中文文獻(xiàn)的自動(dòng)訂正、自動(dòng)標(biāo)引和自動(dòng)文摘;漢字的單字、詞匯使用頻度的爭(zhēng)論;漢語的詞語、語法、語料庫爭(zhēng)論;中文信息處理應(yīng)用平臺(tái)爭(zhēng)論;漢字編碼理論爭(zhēng)論;漢字編碼方法爭(zhēng)論;漢字編碼方案評(píng)測(cè)標(biāo)準(zhǔn)爭(zhēng)論。中文文獻(xiàn)信息處理工作內(nèi)容利用各種編輯軟件進(jìn)展編輯排版。利用制表軟件編制各種表格。利用數(shù)據(jù)庫軟件建立各種各樣的文獻(xiàn)信息數(shù)據(jù)庫及其他各種應(yīng)用軟件系統(tǒng),例如理系統(tǒng)、檢索系統(tǒng);出版社、書店的集成式治理系統(tǒng)、檢索系統(tǒng);各種書刊文獻(xiàn)、檔案的自動(dòng)分類系統(tǒng)、自動(dòng)編文摘系統(tǒng)或其他的智能式文獻(xiàn)處理系統(tǒng)。應(yīng)用中文的各種治理系統(tǒng)和效勞性系統(tǒng)國家各部門、廠礦企業(yè)、銀行、醫(yī)院、酒店的治理系統(tǒng),專家系統(tǒng),信息詢問檢索系統(tǒng),電化教學(xué)系統(tǒng),遠(yuǎn)程教育系統(tǒng),電子印刷排版系統(tǒng),辦公自動(dòng)化系統(tǒng),翻譯系統(tǒng),通信系統(tǒng),財(cái)會(huì)系統(tǒng),售票系統(tǒng),詢問效勞系統(tǒng),系統(tǒng)等等,多不勝數(shù)。隨著計(jì)算機(jī)信息處理應(yīng)用范圍的擴(kuò)大,中文信息處理技術(shù)還將逐步深入和提高。中文信息處理的特點(diǎn)是與西文信息處理相比較而言的,特點(diǎn)和任務(wù)是相互聯(lián)系的。下面從文字、詞匯、語音、語法以及軟硬件系統(tǒng)等方面作一下介紹。一、中文信息處理的特點(diǎn)〔一〕大字符集“小字符集”。例如:拉丁字母2633個(gè);日文假名號(hào)稱“五十音圖”48個(gè),平假9610個(gè)元音字母,1424個(gè);4026個(gè)字母。漢字屬于“大字符集350070006萬。千百年來,代有遞增:從東漢末年的《說文解字》到清代《康熙字典》,1500多年的時(shí)間9353470433007000多字。1994年《中華字典》制造了字典收字?jǐn)?shù)量之最——86000個(gè)。國家標(biāo)準(zhǔn)《信息處理交換用漢字編碼字符集.根本集》〔GB2312-80〕共收漢字圖形676313053〔CJK〕收字20902個(gè)。這僅僅是中國〔包括臺(tái)灣〕、日本、韓國,當(dāng)前電腦中所使用的漢字。要實(shí)現(xiàn)“全漢字”的信息處理大目標(biāo),單是漢字庫的研制就任重道遠(yuǎn)?!捕尘幋a方案眾多使用字母數(shù)字鍵盤輸入漢字信息,必需通過漢字編碼。由于漢字是形音義的統(tǒng)一體,編碼時(shí)所承受的信息類型不同,會(huì)有不同的編碼規(guī)章和方案。因此,無論從編碼的角度,還是從使用者的角度,都面臨多樣化的選擇?!踩承误w多樣,構(gòu)造簡(jiǎn)單“橫”“豎”“撇”“點(diǎn)”“折”存在多種筆形變體。如:“千”、“面”、“令”、“木”、“才”等字中的“撇”,“方”、“房”、“放”、“芳”、“游”等字中的“方”。漢字構(gòu)造層疊錯(cuò)落,筆畫、字根、偏旁、部首、部件、字元,見仁見智,難以統(tǒng)一,這些漢字字庫的研制以及字形的標(biāo)準(zhǔn)化都帶來了相當(dāng)打的困難。〔四〕漢字方言分歧嚴(yán)峻現(xiàn)代漢語有七大方言區(qū),每個(gè)方言區(qū)內(nèi)又有次方言區(qū),次方言區(qū)下還有不同的方言點(diǎn)。一般話普及應(yīng)用水平遠(yuǎn)未到達(dá)語音識(shí)別、人機(jī)對(duì)話所要求的標(biāo)準(zhǔn)化和標(biāo)準(zhǔn)化的程度。因此,方言語音分歧成為語音信息處理的瓶頸?!参濉惩衄F(xiàn)象突出41256763個(gè)漢字計(jì)算,每個(gè)音節(jié)約16.454678132.7個(gè)。〔六〕書面含有沒有分詞標(biāo)志西方承受拼音文字,書面上詞與詞之間用空格加以分隔,因此很簡(jiǎn)潔進(jìn)展詞匯的統(tǒng)計(jì)分析和認(rèn)知處理?!财摺碀h語沒有形態(tài)漢語的詞無論沖當(dāng)什么成分,構(gòu)成什么關(guān)系,詞形本身沒有任何變化,只有依靠虛詞、語序進(jìn)展語法分析,不利于計(jì)算機(jī)的處理?!舶恕吃~的兼類與活用簡(jiǎn)單詞類劃分不一,存在大量“兼類”。〔九〕語法規(guī)章多有例外詞語搭配缺乏標(biāo)準(zhǔn)化的約束,人們習(xí)慣于意會(huì)而不留意形式標(biāo)志的規(guī)章?!彩称缌x現(xiàn)象突出詞匯歧義原來是語言中的一個(gè)比較普遍的現(xiàn)象。二、中文信息處理的展望中文信息處理三十年來的進(jìn)展,在幾個(gè)重要領(lǐng)域,如漢字編碼、漢字語音模式識(shí)別、字型技術(shù)中文電子辭典,計(jì)算機(jī)關(guān)心翻譯、全文檢索等方面,都取得了舉世矚目的成就。由于距離。將來中文信息處理的創(chuàng)進(jìn)展,概括起來主要有以下幾個(gè)方面:〔一〕信息化當(dāng)代世界已經(jīng)進(jìn)入信息網(wǎng)絡(luò)化時(shí)代,全面信息化是社會(huì)進(jìn)展和科技進(jìn)步的主流。信息處理技術(shù)的水平反映了一個(gè)國家和民族的生存力量、生存質(zhì)量、綜合競(jìng)爭(zhēng)力。在這樣一個(gè)時(shí)代,充分必要的信息和先進(jìn)的信息處理技術(shù)都是極其重要的資源,假設(shè)不把握它、掌握它和利用它,無論對(duì)個(gè)人還是對(duì)整個(gè)社會(huì),都將是一種悲劇。因此,一切競(jìng)爭(zhēng)都集中反映在信息的獵取、傳輸、處理和運(yùn)用技術(shù)上。應(yīng)當(dāng)把推動(dòng)社會(huì)全面信息化作為中文信息處理根底應(yīng)用爭(zhēng)論的首要任務(wù)?!捕持悄芑瘡挠?jì)算機(jī)實(shí)現(xiàn)由數(shù)據(jù)處理到信息處理跨越的那一刻,就竭力信息工程界的先驅(qū)者們開頭了計(jì)算靈巧能化的爭(zhēng)論。雖然歷史不長(zhǎng),但是,初始化的靈感與沖動(dòng)給人們描述了奇特而迷人的前景。機(jī)器人戰(zhàn)勝國際象棋冠軍的實(shí)例,演示了計(jì)算靈巧能在與“個(gè)體人”的智能之間的一次較量,證明白計(jì)算機(jī)能夠戰(zhàn)勝“個(gè)體人”。從這個(gè)意義上說,計(jì)算靈巧能是具有無限前景的一個(gè)領(lǐng)域。計(jì)算機(jī)到底能不能獲得智能,如何獲得智能,以及計(jì)算靈巧能與人類智能的同質(zhì)性和異質(zhì)性,等等,盡管目前還沒有答案,但可以確定地說,計(jì)算機(jī)人工智能與語言文字信息處理智能化親熱相關(guān)。應(yīng)當(dāng)充分生疏到,中文信息處理智能化與我國的社會(huì)進(jìn)展、科技進(jìn)步、文化教育、經(jīng)濟(jì)場(chǎng)關(guān)系到民族和國家生存、進(jìn)展的競(jìng)爭(zhēng)中,只能前進(jìn),不能后退,只能成功,不能失敗?!踩彻こ袒瘜W(xué)問經(jīng)濟(jì)是計(jì)算機(jī)信息革命引發(fā)的概念,語言應(yīng)用爭(zhēng)論成果的產(chǎn)品化和市場(chǎng)化是學(xué)問系。中國人對(duì)國外軟件硬件產(chǎn)品和技術(shù)漢化的過程,存在一個(gè)消化理解和改造創(chuàng)的問題。理領(lǐng)域,主動(dòng)漢化與兼容,開放了全方位、友好界面的系統(tǒng)攻關(guān),不斷推出訪用便利、效勞周到、技術(shù)含量高的包括簡(jiǎn)繁兼容、中日韓漢字兼容等的應(yīng)用系統(tǒng),成為市場(chǎng)的主流產(chǎn)品。著對(duì)我國中文信息處理軟件行業(yè)的生存和進(jìn)展、對(duì)中文信息處理技術(shù)的進(jìn)步和數(shù)據(jù)安全等,都是一個(gè)巨大的挑戰(zhàn)。〔四〕國際化中國擁有世界四分之一的人口,中國改革開放和經(jīng)濟(jì)騰飛不僅轉(zhuǎn)變了中國人民的生活水平和生存方式,也使中國的和平崛起戰(zhàn)略在全球一體化大潮中直接間接的影響和轉(zhuǎn)變著世界。中文信息處理技術(shù)已成為世界矚目的熱點(diǎn)。單純從經(jīng)濟(jì)目的動(dòng)身,也足以吸引世界興旺國家信息工程界有識(shí)之士的目光。微軟、IBM等多家外國計(jì)算機(jī)公司在我國設(shè)立爭(zhēng)論所,聘用我國信息處理人才,在漢字編碼、漢字識(shí)別、語音識(shí)別等很多領(lǐng)域,投入巨額經(jīng)費(fèi),從事中文信息處理智能化的爭(zhēng)論。事實(shí)證明,中國要走向世界,中文也要走向世界,國際化是鮮紅

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論