



免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
讓中文信息處理與世界同步專(zhuān)訪海量科技前言:四十人的公司中有近十人從事基礎(chǔ)研究,他們研究的漢語(yǔ)自動(dòng)分詞技術(shù)取得突破性進(jìn)展,在北大人民日?qǐng)?bào)一千多萬(wàn)漢字的人工語(yǔ)料上測(cè)試,分詞準(zhǔn)確率達(dá)到99.5以上。原美國(guó)朗訊科技總公司副總裁葉祖禹博士以個(gè)人身份投資入股并出任公司董事,原Intel中國(guó)研究中心周富秋博士出任公司董事。這些都來(lái)自于一家天津的軟件公司海量科技?!叭绻形哪芟裼⑽囊粯釉~之間也有空格,那我們公司也就不存在了。”海量科技總經(jīng)理郝璽龍口中說(shuō)這句話的時(shí)候,他顯得輕松。然而,就是這樣一個(gè)看似簡(jiǎn)單的問(wèn)題卻給中文處理帶來(lái)了巨大的包袱,使得中文處理很難達(dá)到英文那樣易用、精確的水平,并制約著很多中文應(yīng)用領(lǐng)域,從中文智能信息處理到檢索、分類(lèi),甚至到中文輸入法,分詞都成為了最大的絆腳石。“沒(méi)有中文分詞,其他一切深入的中文信息處理都無(wú)從談起?!币晃粚?zhuān)家這樣說(shuō)。正因?yàn)槿绱?,?guó)家投入了大量的人力物力研究中文分詞技術(shù)。然而幾十年過(guò)去了,中文分詞準(zhǔn)確率仍然在97%以下徘徊,而這3%的差誤率便讓很多中文信息智能處理的下一步工作無(wú)法開(kāi)展。2001年10月的一天,在Intel中國(guó)研究中心會(huì)議室,當(dāng)中心副主任周富秋博士看到海量的分詞演示效果時(shí),非常驚訝。周博士是世界上著名的自然語(yǔ)言理解科學(xué)家,手下有來(lái)自多所著名學(xué)府的不同學(xué)術(shù)流派的博士。其中多項(xiàng)研究都是基于中文分詞的應(yīng)用技術(shù),他深知該技術(shù)的難度。2002年,周富秋博士成為海量科技董事會(huì)董事。雖然現(xiàn)在他已經(jīng)擔(dān)任中興通訊主管軟件的副總裁,但只要一有機(jī)會(huì),周富秋博士就指點(diǎn)海量智能計(jì)算技術(shù)的基礎(chǔ)研究。初步研究分詞技術(shù)到底海量科技是如何起步,瞄上中文分詞技術(shù)的呢?這要從海量的總經(jīng)理郝璽龍說(shuō)起。郝璽龍上大學(xué)時(shí)學(xué)的是情報(bào)專(zhuān)業(yè),畢業(yè)后在一家上市公司作投資分析工作。1997年他開(kāi)始構(gòu)思自己的證券情報(bào)咨詢(xún)服務(wù),他知道分析工作必須基于龐大情報(bào)數(shù)據(jù)庫(kù)。然而,實(shí)際操作中他發(fā)現(xiàn)中文情報(bào)資料庫(kù)無(wú)法實(shí)現(xiàn)有效的查找,細(xì)究根源,竟然發(fā)現(xiàn)分詞技術(shù)是整個(gè)中文信息處理的瓶頸。 在看過(guò)一些相關(guān)的資料和實(shí)例后,郝璽龍覺(jué)得有些思路,便開(kāi)始在家里嘗試。隨著研究的深入,他逐漸意識(shí)到中文分詞技術(shù)的價(jià)值遠(yuǎn)高于情報(bào)咨詢(xún)。當(dāng)時(shí)的中文分詞技術(shù)一般都是通過(guò)與詞典的對(duì)比來(lái)區(qū)分詞,而郝璽龍手頭沒(méi)有一個(gè)數(shù)字化的詞典,打字速度也不快,于是他決定從另外的角度出發(fā),研究沒(méi)有詞典的分詞技術(shù)。當(dāng)然這個(gè)研究開(kāi)始并不順利。不過(guò),一個(gè)偶然的機(jī)會(huì),電視上播放原教育部副部長(zhǎng)韋玨談中國(guó)基因技術(shù)取得突破并申請(qǐng)專(zhuān)利的節(jié)目。韋玨舉了一個(gè)例子:把基因片段從一個(gè)完整的DNA序列中分離出來(lái),很難去切割,因?yàn)閷?duì)一個(gè)基因序列來(lái)說(shuō),既沒(méi)有尺,又沒(méi)有刀。而中國(guó)的研究者提出了一種方法,將基因片段按照基本單元堆積,然后進(jìn)行校驗(yàn),使整體上分割的基因達(dá)到一個(gè)動(dòng)態(tài)的最優(yōu)。相當(dāng)于假設(shè)很多片段,雖然它們之間有交迭,但每個(gè)片段都有獨(dú)立性和完整性。最后再進(jìn)行模型校驗(yàn),從整體上判斷是否具有完整性。通過(guò)這種方法證明每個(gè)基因的排列都是恰當(dāng)?shù)?,?shí)現(xiàn)基因片段的正確分割。聽(tīng)到這里,郝璽龍有些激動(dòng),因?yàn)檫@與在一個(gè)句子中如何判斷和分詞是異曲同工。采用這種理論,又經(jīng)過(guò)了長(zhǎng)時(shí)間研究,他們創(chuàng)建了自己的中文分詞算法。不過(guò),在測(cè)試的過(guò)程發(fā)現(xiàn)了一個(gè)問(wèn)題,這就是一些很難識(shí)別的詞可能識(shí)別很準(zhǔn)確,但容易識(shí)別的詞卻識(shí)別不對(duì)。于是,他們又引入了詞典,并創(chuàng)建了一個(gè)動(dòng)態(tài)分析的算法,叫無(wú)縫分析。這時(shí)他們的中文分詞準(zhǔn)確率一下就提升到了滿意的效果。有了這些突破,郝璽龍和其他兩位創(chuàng)始人在1999年10月份注冊(cè)了海量科技公司,主要以研究中文分詞技術(shù)并實(shí)現(xiàn)應(yīng)用化為主。分詞也是工程問(wèn)題郝璽龍表示,他們是以技術(shù)為核心的公司,核心團(tuán)隊(duì)盡管都不是專(zhuān)業(yè)出身,沒(méi)有在學(xué)校進(jìn)行過(guò)這方面的研究,但這也讓它們擺脫了以前各種思想的束縛。難理解的是,做中文分詞卻要擺脫“詞”的束縛。郝璽龍表示,因?yàn)樵跐h語(yǔ)中“詞”并沒(méi)有一個(gè)準(zhǔn)確的定義,有時(shí)候很難說(shuō)這是不是一個(gè)詞。其實(shí)分詞是一種底層技術(shù),其目的不是只為分詞,而是為了如何更好應(yīng)用。如果思想只限制在“詞”這個(gè)層次,那一定會(huì)被“什么是詞”這個(gè)無(wú)法得到答案的問(wèn)題所束縛和迷惑。舉個(gè)例子:雞蛋、鴨蛋、照明、照亮這些詞語(yǔ),用戶(hù)和專(zhuān)家的看法就不一樣。在海量?jī)?nèi)部的理論研究小組,早就不叫分詞,他們用更嚴(yán)格的叫法:切分單位的描述與識(shí)別。至于什么被定為單位就由應(yīng)用來(lái)確定。就像笑傲江湖中令狐沖“無(wú)招勝有招”一樣,當(dāng)我們還在沉迷于“招式”奇妙的時(shí)候,又如何能夠體會(huì)到武學(xué)的真諦呢!擺脫了學(xué)術(shù)上的束縛,思想便得到了解放。海量科技在切分單位處理問(wèn)題上提出了獨(dú)特的看法:在不同應(yīng)用中應(yīng)該有不同的分詞標(biāo)準(zhǔn)。首先,各種應(yīng)用對(duì)分詞要求的顆粒度(切分單位的細(xì)致程度)是不同的。比如自動(dòng)分類(lèi)、關(guān)鍵詞抽取比搜索需要的分詞顆粒度要大,因?yàn)檫@樣表示文本語(yǔ)義特征時(shí)效果會(huì)更好,而檢索有一個(gè)查全率的要求,就需要把分詞單位做的更為細(xì)致,不然就會(huì)造成漏查。到現(xiàn)在為止,海量已經(jīng)做了五種類(lèi)型的分詞標(biāo)準(zhǔn),分別是:檢索、自動(dòng)分類(lèi)、聚類(lèi)、自動(dòng)摘要和關(guān)鍵詞抽取。新詞的識(shí)別也是海量科技取得的重要突破。外來(lái)語(yǔ)音譯詞的識(shí)別一直是中文分詞技術(shù)的難關(guān),比如“摩托羅拉”這樣的詞匯,詞典中根本沒(méi)有,也不會(huì)收錄,但如果分成“摩托”和“羅拉”,在應(yīng)用中就會(huì)出現(xiàn)很多麻煩。而這種詞匯在漢語(yǔ)中大量存在,而且每天都在出現(xiàn)。海量科技開(kāi)發(fā)了一套人機(jī)互動(dòng)的半人工學(xué)習(xí)體系來(lái)解決新詞識(shí)別的問(wèn)題。這套體系可以學(xué)習(xí),可以由人告訴計(jì)算機(jī)哪些分詞可能是錯(cuò)誤,并人為修正這種錯(cuò)誤。系統(tǒng)再進(jìn)行學(xué)習(xí)之后,會(huì)自動(dòng)完善算法,分詞的準(zhǔn)確率就會(huì)不斷提升。這也符合現(xiàn)代人工智能系統(tǒng)理論,就是用半自動(dòng)代替全自動(dòng),通過(guò)自上而下的灌輸,不斷的學(xué)習(xí),依靠人的智慧來(lái)提升系統(tǒng)的智能程度。不過(guò),以上都是單點(diǎn)的突破。分詞不是一個(gè)算法所能描述的,它涉及了多個(gè)難點(diǎn),比如交叉、組合歧義的分析、新詞的識(shí)別、還有復(fù)合詞的分析與識(shí)別,而這些識(shí)別之間又相互影響和干擾。在近三十年的分詞研究中,很多高校的學(xué)者往往關(guān)注某一個(gè)難點(diǎn)的算法,例如交叉歧義,姓名識(shí)別等等,所以分詞總體的準(zhǔn)確率很難達(dá)到理想的效果。隨著海量科技對(duì)中文分詞技術(shù)的深入研究,借助自身的某些單點(diǎn)算法突破和前人優(yōu)秀的算法思想,郝璽龍和他的研究團(tuán)隊(duì)提出了中文分詞技術(shù)的“復(fù)方概念”。復(fù)方是中藥的術(shù)語(yǔ),因?yàn)橛行┎『軓?fù)雜,很多處方之間最后需要調(diào)理達(dá)到一個(gè)平衡。根據(jù)復(fù)方理論,把各種算法不拘泥于是統(tǒng)計(jì)算法還是基于規(guī)則,最后在一個(gè)評(píng)測(cè)層面上進(jìn)行平衡,使之達(dá)到最好的分詞效果,現(xiàn)在海量已經(jīng)把分詞中的部分技術(shù)注冊(cè)了專(zhuān)利。當(dāng)郝璽龍總結(jié)海量分詞的技術(shù)特點(diǎn)時(shí),他說(shuō):“海量中文分詞技術(shù)的核心特點(diǎn)是復(fù)方概念的應(yīng)用,以及系統(tǒng)的半人工學(xué)習(xí)架構(gòu)。該架構(gòu)的設(shè)立使海量的分詞準(zhǔn)確率每天都在進(jìn)步。因此中文分詞不僅僅是個(gè)技術(shù)問(wèn)題,也應(yīng)該是一個(gè)工程問(wèn)題。”中文分詞技術(shù)研究經(jīng)驗(yàn)做了這么多年中文分詞和相關(guān)技術(shù)研究和開(kāi)發(fā),郝璽龍總結(jié)了一些經(jīng)驗(yàn)。好的評(píng)測(cè)帶來(lái)滿意研究成果。不管進(jìn)行那一項(xiàng)研究,都首先需要建立一個(gè)能夠量化的評(píng)測(cè)體系。郝璽龍認(rèn)為,如果沒(méi)有三年時(shí)間建立的分詞量化的評(píng)測(cè)體系,不可能有今天海量的成就。因?yàn)樵u(píng)測(cè)體系可以使任何的算法改進(jìn)得到直觀體現(xiàn)。同時(shí),評(píng)測(cè)也是衡量研究人員工作成果的標(biāo)準(zhǔn)。建立一個(gè)評(píng)測(cè)體系,一點(diǎn)不比研究本身簡(jiǎn)單。首先要定準(zhǔn)確率標(biāo)準(zhǔn)、語(yǔ)料的標(biāo)準(zhǔn)、不同的應(yīng)用、分詞的不同詞典、不同復(fù)合詞構(gòu)造標(biāo)準(zhǔn)和不同的語(yǔ)料。在標(biāo)準(zhǔn)的建立過(guò)程中,海量科技投入了巨大的人力物力。不管是基礎(chǔ)技術(shù)還是應(yīng)用技術(shù),中文智能計(jì)算的任何一個(gè)問(wèn)題都是復(fù)雜問(wèn)題,因此要專(zhuān)注。郝璽龍非常驕傲的是,他們的研究核心團(tuán)隊(duì)從創(chuàng)建之初到現(xiàn)在,沒(méi)有人員流失。他說(shuō):“做這種事情會(huì)經(jīng)歷幾個(gè)階段,開(kāi)始有一個(gè)突破,但會(huì)有一個(gè)停滯期,可能會(huì)徘徊很多年。這中間有誘惑,也有苦難。有人選擇轉(zhuǎn)變,有人選擇放棄,而我們選擇了專(zhuān)注和艱苦。公司的核心智能計(jì)算研究中心始終做基礎(chǔ)研究,不承擔(dān)任何項(xiàng)目的壓力,從來(lái)不和客戶(hù)打交道,考核他們就是看創(chuàng)新的成果和評(píng)測(cè)的指標(biāo)。對(duì)于一個(gè)四十多人的小公司,有近十個(gè)人做基礎(chǔ)性的研究工作,這不是普通公司所能做到的?!钡谌c(diǎn)就是細(xì)致,細(xì)致是研究員必須的素質(zhì)。郝璽龍說(shuō):“做基礎(chǔ)研究工作需要像繡花般細(xì)致的工作。我們把幾十萬(wàn)個(gè)中文詞,反復(fù)整理,人工加注各種屬性,嘗試進(jìn)行各種分類(lèi),這是細(xì)致而智力水平又很高的體力勞動(dòng),沒(méi)有繡花的精神很難做到?!?未來(lái)公司技術(shù)的發(fā)展郝璽龍認(rèn)為,在分詞技術(shù)取得突破的基礎(chǔ)上,基于語(yǔ)義的智能計(jì)算技術(shù)將會(huì)有革命性的發(fā)展。同時(shí)應(yīng)用技術(shù)的發(fā)展也必將推動(dòng)分詞的深入研究。下一個(gè)階段的分詞研究不是難點(diǎn)和特例的研究,而是分成什么樣的形態(tài)和屬性才能更好的滿足不同的實(shí)際應(yīng)用。郝璽龍和他的同事們一直有個(gè)理想,這就是在未來(lái)幾十年中,所有進(jìn)行中文信息處理的計(jì)算機(jī)的底層系統(tǒng)上都運(yùn)行著中文分詞程序,在語(yǔ)義層面進(jìn)行中文處理,讓中文處理更智能、更高效。郝璽龍說(shuō):“語(yǔ)言、文字是一個(gè)國(guó)家、民族文化的載體,世界上很多曾經(jīng)興盛一時(shí)的民族,因?yàn)檎Z(yǔ)言文字的失傳而從世界文化之林中消失。如果國(guó)外的某個(gè)公司在這方面注冊(cè)了專(zhuān)利,中國(guó)人每進(jìn)行一次中文處理,還需要向別人付專(zhuān)利費(fèi),這是一件非常可笑和不能接受的事情。到那時(shí),我們就會(huì)受制于他人,中文處理水平會(huì)落后于其他語(yǔ)言。我們一定要讓最好的中文分詞技術(shù)掌握在中國(guó)人自己的手中,讓中文信息處理與世界同步?!本C述:自從中國(guó)有了第一臺(tái)計(jì)算機(jī),中文技術(shù)就成為了關(guān)注的焦點(diǎn)。從最初的漢卡到后來(lái)的CCDOS,從五筆字型的發(fā)明到各種各樣的中文輸入法,從四通打字機(jī)到WPS,都在力圖幫助中國(guó)人更好的使用計(jì)算機(jī),進(jìn)行中文信息處理。而當(dāng)時(shí)的這些技術(shù)也催生了中國(guó)第一代的軟件英雄。然而,隨著微軟推出中文操作系統(tǒng),很多中文技術(shù)被無(wú)情的吞沒(méi)了,人去樓空。中文化技術(shù)還有沒(méi)有市場(chǎng),還有沒(méi)有必要做中文化技術(shù),哪些領(lǐng)域是我們可以做的?海量科技的例子給了我們很好的啟示。應(yīng)該說(shuō),.之前中文化技術(shù)還是在I/O層面上,比如中文輸入、輸出等輔助性技術(shù),這種技術(shù)壁壘不高,容易被操作系統(tǒng)所集成而失去市場(chǎng)。在這種情況下,中文化技術(shù)的發(fā)展開(kāi)始逐漸向系統(tǒng)更高層面,和中文本身更深層次的研究發(fā)展了。中文的特點(diǎn)就是具有“音”、“形”、“義”,這些本質(zhì)內(nèi)容決定了中文與英文的差別所在,海量科技所研究的技術(shù)主要集中在了“義”這個(gè)范疇上并取得了成績(jī),漢王或者紫光這樣的公司研究手寫(xiě)輸入或者OCR技術(shù)是在“形”上做了很好的文章,而諸如科大訊飛這樣做中文語(yǔ)音合成的公司更多的技
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 尊重的心理課件圖片
- 27 必修2 第四單元 第23講 人類(lèi)遺傳病及遺傳系譜分析
- 尊重兒童課件下載
- 課文囚歌教學(xué)課件
- 車(chē)輛轉(zhuǎn)讓與二手車(chē)交易稅費(fèi)減免合作協(xié)議
- 車(chē)輛借用與租賃押金合同范本
- 完美離婚協(xié)議書(shū)范本及子女撫養(yǎng)財(cái)產(chǎn)分割方案
- 數(shù)學(xué)文化七巧板教學(xué)課件
- 模塊化建筑設(shè)計(jì)考核試卷
- 家電行業(yè)客戶(hù)服務(wù)滿意度提升的顧客旅程優(yōu)化考核試卷
- 2025年中國(guó)夜間經(jīng)濟(jì)行業(yè)研究報(bào)告:市場(chǎng)規(guī)模、供需態(tài)勢(shì)、發(fā)展前景預(yù)測(cè)
- 重慶市森林資源二類(lèi)調(diào)查操作細(xì)則2012年
- 民航危險(xiǎn)品運(yùn)輸學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- IEC31010-2019風(fēng)險(xiǎn)管理 風(fēng)險(xiǎn)評(píng)估技術(shù)(雷澤佳譯-2024)
- 新生兒黃疸的護(hù)理常規(guī)
- ISOIEC38507-2022信息技術(shù)-IT治理-組織使用人工智能的治理影響(中文版-雷澤佳譯2024)
- 國(guó)家開(kāi)放大學(xué)本科《西方行政學(xué)說(shuō)》期末紙質(zhì)考試總題庫(kù)珍藏版
- 2024年萊蕪市萊城區(qū)小升初素養(yǎng)數(shù)學(xué)檢測(cè)卷含解析
- DL∕T 1552-2016 變壓器油儲(chǔ)存管理導(dǎo)則
- 廣東省茂名市2023-2024學(xué)年八年級(jí)下學(xué)期期末語(yǔ)文試題
- 鐵路道砟買(mǎi)賣(mài)合同學(xué)習(xí)
評(píng)論
0/150
提交評(píng)論