




已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于internet的商業(yè)信息抽取.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
摘要 摘要 i n t e m e t 上數(shù)據(jù)量急劇膨脹使其成為企業(yè)競(jìng)爭(zhēng)情報(bào)獲取的重要來源,然而如 何從這個(gè)信息海洋中找到企業(yè)所需要的情報(bào)成為困擾企業(yè)競(jìng)爭(zhēng)情報(bào)獲取的難題。 商業(yè)信息抽取作為解決這難題的重要手段,其抽取結(jié)果的好壞對(duì)最終競(jìng)爭(zhēng)情報(bào) 的形成有著重要的影響。 本文對(duì)w e b 環(huán)境上的商業(yè)信息抽取技術(shù)進(jìn)行了研究,主要關(guān)注兩個(gè)方面: 商業(yè)信息中的關(guān)系抽取和實(shí)體抽取。針對(duì)抽取對(duì)象的不同特征,研究不同的技術(shù) 方法,以提高抽取的召回率和準(zhǔn)確率。其中關(guān)系信息抽取以職位關(guān)系抽取為例, 分析了職位關(guān)系實(shí)例在網(wǎng)頁中的呈現(xiàn)特征,設(shè)計(jì)了基于結(jié)構(gòu)特征的職位關(guān)系抽取 算法:實(shí)體抽取以機(jī)構(gòu)名識(shí)別為例,基于語言學(xué)中語法對(duì)語義的依賴關(guān)系和共生 性詞場(chǎng)兩個(gè)觀點(diǎn),提出了語義隱馬爾可夫模型的機(jī)構(gòu)名識(shí)別算法。兩個(gè)算法有效 改善了商業(yè)信息抽取效果,同時(shí)也為其它商業(yè)信息抽取提供了參考。 本文的主要貢獻(xiàn)主要有: ( 1 ) 提出了基于w e b 的職位關(guān)系抽取算法。職位關(guān)系反映了一個(gè)人在一個(gè) 組織所占據(jù)的職位,是一種重要的競(jìng)爭(zhēng)情報(bào)。本文分析了網(wǎng)頁中職位關(guān)系實(shí)例的 特征,并利用結(jié)構(gòu)化系數(shù)和結(jié)構(gòu)化文件片斷對(duì)這些特征進(jìn)行描述,最后利用模式 匹配的方法從結(jié)構(gòu)化文件片斷中抽取出職位關(guān)系。實(shí)驗(yàn)結(jié)果表明算法達(dá)到了準(zhǔn)確 率超過9 6 、召回率超過8 7 的較好結(jié)果。 ( 2 ) 提出了基于語義隱馬爾可夫模型的中文機(jī)構(gòu)名識(shí)別算法。語義隱馬爾 可夫模型的構(gòu)建以語言學(xué)中的語法對(duì)語義的依賴關(guān)系和共生性詞場(chǎng)兩個(gè)重要觀 點(diǎn)為理論依據(jù)。一個(gè)句子可以看作是一個(gè)詞的序列,這個(gè)序列背后隱含著一個(gè)語 義序列,且語義序列決定了句子的組成。我們首先對(duì)機(jī)構(gòu)名及其上下文中的詞進(jìn) 行語義標(biāo)注,然后構(gòu)建語義隱馬爾可夫模型。在機(jī)構(gòu)名上下文選擇時(shí)利用共生性 詞場(chǎng)現(xiàn)象來決定上下文的邊界。事實(shí)上,算法試圖利用機(jī)構(gòu)名與其上下文之間的 語義關(guān)聯(lián)性來提高機(jī)構(gòu)名識(shí)別的效果。實(shí)驗(yàn)表明算法改善了機(jī)構(gòu)名識(shí)別效果,而 且普適性更好。 關(guān)鍵詞:商業(yè)信息競(jìng)爭(zhēng)情報(bào)信息抽取關(guān)系抽取命名實(shí)體識(shí)別 a b s t r a c t a b s t r a c t a st h er a p i di n c r e a s i n go ft h ed a t av o l u m ei ni n t e m e t ,w e bh a sb e c o m ea l l i m p o r t a n ts o u r c ef o rc o m p e t i t i v ei n t e l l i g e n c ea c q u i s i t i o n h o w e v e r , i ti ss t i l l a d i f f i c u l tt a s kf o re n t e r p r i s e st oo b t a i nc o m p e t i t i v ei n t e l l i g e n c ef r o mt h i si n f o r m a t i o n o c e a n t os o l v et h i sp r o b l e m ,r e s e a r c h e r si n t r o d u c e dt h et e c h n o l o g yo fb u s i n e s s i n f o r m a t i o ne x t r a c t i o ni n t oc o m p e t i t i v ei n t e l l i g e n c ea c q u i s i t i o n ,i nw h i c ht h er e s u l to f i n f o r m a t i o ne x t r a c t i o n p l a y s a ni m p o r t a n tr o l ei nt h eq u a l i t yo fc o m p e t i t i v e i n t e l l i g e n c e i nt h i sp a p e r , w es t u d yt h ei s s u e so fb u s i n e s si n f o r m a t i o ne x t r a c t i o nf r o mt h e w e ba n df o c u so nt w oa s p e c t si nt h i sa r e a :r e l a t i o ne x t r a c t i o na n de n t i t yr e c o g n i t i o n f o rd i f f e r e n te x t r a c t i n go b j e c t s ,w ea n a l y z et h e i rd i s t i n c t i v ef e a t u r e sa n dd e v e l o p a p p r o p r i a t em e t h o d st oe x t r a c tt h e s eo b j e c t si no r d e rt oi m p r o v et h ee f f e c to fb u s i n e s s i n f o r m a t i o ne x t r a c t i o n p o s i t i o nr e l a t i o ne x t r a c t i o ni ss e ta sa ne x a m p l ef o rb u s i n e s s r e l a t i o ne x t r a c t i o n w e i n v e s t i g a t et h ea p p e a r a n c ef e a t u r e so fp o s i t i o nr e l a t i o n i n s t a n c e so nt h ew e ba n da d o p ts t r u c t u r e - b a s e da l g o r i t h mt oe x t r a c tp o s i t i o nr e l a t i o n s f r o mt h ew e b f o re n t i t yr e c o g n i t i o n ,w er e s e a r c ht h eo r g a n i z a t i o nn a m ee n t i t y r e c o g n i t i o na n dp r e s e n ta l lo r g a n i 磊t i o nn a m ee n t i t yr e c o g n i t i o na l g o r i t h mb a s e do n s e m a n t i ch i d d e nm a r k o vm o d e l t w oa l g o r i t h m se f f e c t i v e l yi m p r o v et h ee f f e c to f t w ok i n d so fi n f o r m a t i o ne x t r a c t i o nr e s p e c t i v e l ya n dp r o v i d er e f e r e n c ei n f o r m a t i o n f o ro t h e rb u s i n e s si n f o r m a t i o ne x t r a c t i o n t h em a i nc o n t r i b u t i o no ft h i sp a p e rc a nb es u m m a r i z e da sf o l l o w s : ( 1 ) w ep r e s e n ta na l g o r i t h mt oe x t r a c tp o s i t i o nr e l a t i o n sf r o mt h ew e b p e o p l e s p o s i t i o ni nac o r p o r a t i o n ,w h i c ht h et e r mp o s i t i o nr e l a t i o nr e f e r st o ,i sak i n do f s i g n i f i c a n tc o m p e t i t i v ei n t e l l i g e n c ef o re n t e r p r i s e s o u ra l g o r i t h mi sb a s e do nt h e s t r u c t u r a lf e a t u r eo fp o s i t i o nr e l a t i o ni nw e bc o n t e n t s w ef i r s ti n t r o d u c es t r u c t u r a l c o e f f i c i e n ta n ds t r u c t u r a lf i l es e g m e n tt od e s c r i b et h e s ef e a t u r e sa n dt h e ne m p l o ya p a t t e r n m a t c h i n gm e t h o dt oe x t r a c tp o s i t i o nr e l a t i o n sf r o mt h es t r u c t u r a lf i l es e g m e n t s f i n a l l y , w ec o n d u c te x p e r i m e n t so nar e a ld a t as e ta n de v a l u a t et h ep r e c i s i o na n d r e c a l lo f0 1 1 1 a p p r o a c h t h ee x p e r i m e n t a lr e s u l t ss h o wt h a to u ra l g o r i t h mh a sah i g h p r e c i s i o no v e r9 6 a sw e l la sar e c a l lo v e r8 7 ( 2 ) w eb r i n gf o r w a r das h m m - b a s e dc h i n e s eo r g a n i z a t i o nn a m er e c o g n i t i o n a l g o r i t h m s e m a n t i ch i d d e nm a r k o vm o d e li sb a s e do nt w oi m p o r t a n tl i n g u i s t i c s v i e w p o i n t s :t h ed e p e n d e n c eo fs y n t a xo ns e m a n t i c sa n ds y m b i o t i cw o r df i e l d a i i i s e n t e n c e1 sc o n s i d e r e da sas e q u e n c eo fw o r d s ,t h i s s e q u e n c ei m p l i e sas e m a n t i c s e q u e n c ew h l c hd e c i d e st h ec o n s t r u c t i o no ft h es e n t e n c e w ef i r s tc o n d u c ts e m 枷i c t a g g i n g0 nt h ew o r d sf r o mo r g a n i z a t i o nn a l t l e i n t e r i o ra n di t s c o n t e x t ,a 1 1 dm e n c o n s 仃u c ts e m 枷i ch i d d e nm a r k o vm o d e lf o ro r g a n i z a t i o n l a m e r e c o g n i t i o n d u f f n g m es e l e c t i o no fo r g a n i z a t i o n n a l l l e c o n t e x t , w ee m p l o y s y m b i o t i cw o r df i e l d p n e n o m e n o nt od e c i d et h eb o u n d a r yo ft h ec o n t e x t i nf a c t ,t h ea l g o r i m m a n e m p tt 0 m a k eu s eo f h er e l e v a n c yb e t w e e n o r g a n i z a t i o nn a m ea n di t sc o n t e x tt o 螂r o v em e e n e c t0 士?,攁 1 1 i z a t i o nn a m er e c o g n i t i o n t h e e x p e r i m e n t a lr e s u l t ss h o wm a to u r a l g o n t t u i lg a l n sb e n e ro u t c o m ec o m p a r e dt o o t h e ra p p r o a c h e sa n dh a sa 咖n 2 e r a b i l i t yt op r o c e s sd i f f e r e n tt y p eo fc o n t e n t s k e yw 。r d s :b u s i n e s si n f o r m a t i 。n ,c 。m p e t i t i v ei n t e l l i g e n c e ,i n f o 加a t i o n e x 咖c t j o n , r e l a t i o ne x t r a c t i o n ,n a m e d e n t i t yr e c o g n i t i o n i v 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)位論文原創(chuàng)性聲明 本人聲明所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下進(jìn)行研究工作所取得的成 果。除已特別加以標(biāo)注和致謝的地方外,論文中不包含任何他人已經(jīng)發(fā)表或撰寫 過的研究成果。與我一同工作的同志對(duì)本研究所做的貢獻(xiàn)均已在論文中作了明確 的說明。 作者簽名:麴鑫! 丕簽字日期:塑壘:查:絲 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)位論文授權(quán)使用聲明 作為申請(qǐng)學(xué)位的條件之一,學(xué)位論文著作權(quán)擁有者授權(quán)中國(guó)科學(xué)技術(shù)大學(xué)擁 有學(xué)位論文的部分使用權(quán),即:學(xué)校有權(quán)按有關(guān)規(guī)定向國(guó)家有關(guān)部門或機(jī)構(gòu)送交 論文的復(fù)印件和電子版,允許論文被查閱和借閱,可以將學(xué)位論文編入有關(guān)數(shù)據(jù) 庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。本人 提交的電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。 保密的學(xué)位論文在解密后也遵守此規(guī)定。 d 公開口保密( 年) 作者簽名:出盞! 銎 簽字日期:復(fù)叢:圭:坦 導(dǎo)師簽名:歷旎書導(dǎo)師簽名:蘭互耋盜疊 簽字日期:鯊p l _ 第一章緒論 第一章緒論 互聯(lián)網(wǎng)的迅猛發(fā)展和快速普及使其成為人們獲取各類信息的重要源泉。在改 變?nèi)藗兩詈凸ぷ鞣绞降耐瑫r(shí),互聯(lián)網(wǎng)也使企業(yè)的商業(yè)活動(dòng)方式發(fā)生重大變化。 越來越多的企業(yè)通過互聯(lián)網(wǎng)來推廣它們的產(chǎn)品、宣傳它們的服務(wù);各類網(wǎng)絡(luò)媒體 也爭(zhēng)搶在第一時(shí)間將企業(yè)的相關(guān)信息發(fā)布到網(wǎng)上。在這樣的環(huán)境下,互聯(lián)網(wǎng)成為 企業(yè)競(jìng)爭(zhēng)的新戰(zhàn)場(chǎng),誰能夠以最快的速度獲取到真實(shí)、有效的商業(yè)信息,特別是 競(jìng)爭(zhēng)對(duì)手的信息,誰就能在這個(gè)新戰(zhàn)場(chǎng)上獲勝。然而互聯(lián)網(wǎng)上的信息紛繁復(fù)雜, 想要在海量的網(wǎng)頁中找到對(duì)企業(yè)有價(jià)值的商業(yè)信息來還需要克服許多技術(shù)上的 難題,這也是本文研究的重點(diǎn)。 1 1 研究背景與意義 市場(chǎng)經(jīng)濟(jì)的繁榮和發(fā)展加劇了企業(yè)間的競(jìng)爭(zhēng),一個(gè)企業(yè)要想在激烈的市場(chǎng)競(jìng) 爭(zhēng)中生存并獲勝,不但要清楚自己的優(yōu)勢(shì)和劣勢(shì),還需要了解行業(yè)政策、市場(chǎng)需 求變化、競(jìng)爭(zhēng)對(duì)手等商業(yè)信息。以住的商業(yè)信息一般通過人際關(guān)系、紙制傳媒等 方式獲取。但近幾年,隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)成為獲取商業(yè)信息的一個(gè)重 要途徑,基于互聯(lián)網(wǎng)的商業(yè)信息抽取成為企業(yè)和學(xué)術(shù)界研究的重點(diǎn)。 ( 1 ) 互聯(lián)網(wǎng)成為世界上最大的信息庫 毫無疑問,互聯(lián)網(wǎng)是世界上容量最大、內(nèi)容最豐富的信息庫,而且平均每天 以千萬級(jí)網(wǎng)頁的數(shù)量增長(zhǎng)。根據(jù)瑞典互聯(lián)網(wǎng)流量監(jiān)測(cè)機(jī)構(gòu)p i n g d o m 近期公布的 數(shù)據(jù)【l 】,2 0 0 9 年全球網(wǎng)站數(shù)量已達(dá)到2 3 4 億家,其中2 0 0 9 年新增4 7 0 0 萬家。 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心( q 州i c ) 2 0 1 0 年1 月發(fā)布的第2 5 次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā) 展?fàn)顩r統(tǒng)計(jì)報(bào)告顯示,截止2 0 0 9 年1 2 月中國(guó)的網(wǎng)站總數(shù)達(dá)到3 2 3 萬個(gè),網(wǎng)頁 總數(shù)達(dá)到3 3 6 億個(gè)【2 】。從2 0 0 3 年開始,中國(guó)的網(wǎng)頁規(guī)?;颈3址鲩L(zhǎng),年 增長(zhǎng)率超過1 0 0 。這些數(shù)據(jù)充分表明互聯(lián)網(wǎng)是世界上最大的電子圖書館,且無 地理位置限制,使用成本低,已經(jīng)成為人們獲取信息的重要源泉。 ( 2 ) 互聯(lián)網(wǎng)上存在大量有價(jià)值的信息 第2 5 次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告中關(guān)于主要網(wǎng)絡(luò)應(yīng)用使用行為 的調(diào)查顯示,基于網(wǎng)絡(luò)新聞和搜索引擎的信息獲取成為主要的網(wǎng)絡(luò)行為,使用率 分別達(dá)到8 0 1 和7 3 3 ,使用率排名分別占到第二位和第三位,僅次于網(wǎng)絡(luò)音 樂的使用率,而且兩項(xiàng)應(yīng)用的用戶增長(zhǎng)率分別達(dá)到3 1 5 和3 8 6 。c n n i c 分析 師認(rèn)為網(wǎng)絡(luò)應(yīng)用的日趨豐富和網(wǎng)絡(luò)信息量的與日俱增是網(wǎng)絡(luò)信息獲取行為增長(zhǎng) 的主要原因。網(wǎng)絡(luò)使用行為能夠反映人們的需求態(tài)勢(shì),以上數(shù)據(jù)表明,互聯(lián)網(wǎng)不 1 第一章緒論 僅信息量巨大,而且是一部百科全書。對(duì)于一個(gè)企業(yè)來說,最想獲取的信息莫過 于對(duì)自身成長(zhǎng)和發(fā)展有利的商業(yè)信息。這些信息涉及行業(yè)政策、市場(chǎng)環(huán)境、競(jìng)爭(zhēng) 對(duì)手等,其中關(guān)于競(jìng)爭(zhēng)對(duì)手的信息最為重要。商業(yè)信息經(jīng)過匯總、分析后可以成 為有價(jià)值的競(jìng)爭(zhēng)情報(bào),給企業(yè)的決策提供有力支持。由于互聯(lián)網(wǎng)上存在大量的商 業(yè)信息,基于互聯(lián)網(wǎng)的競(jìng)爭(zhēng)情報(bào)獲取成為當(dāng)前的研究熱點(diǎn)。據(jù)美國(guó)海軍高級(jí)情報(bào) 分析員埃利斯扎卡利亞斯講,9 5 的競(jìng)爭(zhēng)情報(bào)來自于公開資料,4 來自于半 公開資料,僅l 或更少來自機(jī)密資料。而互聯(lián)網(wǎng)無疑是獲取競(jìng)爭(zhēng)情報(bào)最重要的 公開信息源。 ( 3 ) 信息獲取難度大 互聯(lián)網(wǎng)上的海量信息在豐富信息來源的同時(shí),也給信息的獲取造成了困擾。 互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)以百億計(jì),靠人工一個(gè)一個(gè)地瀏覽網(wǎng)頁來收集信息無疑是大海 撈針。搜索引擎和門戶類網(wǎng)站的產(chǎn)生給人們獲取信息的方式帶來了革命性的變 化,使信息獲取變得容易了很多。為了進(jìn)一步提高信息獲取的準(zhǔn)確性,還發(fā)展出 了垂直搜索技術(shù)。目前,利用網(wǎng)絡(luò)獲取商業(yè)信息的途徑有利用搜索引擎技術(shù)、利 用行業(yè)站點(diǎn)和黃頁、利用競(jìng)爭(zhēng)對(duì)手的網(wǎng)站、競(jìng)爭(zhēng)情報(bào)獲取軟件等,然而這些方法 仍不能很好地滿足的企業(yè)對(duì)商業(yè)信息的需求。以搜索引擎為例,針對(duì)一個(gè)查詢返 回的網(wǎng)頁往往數(shù)以百萬計(jì),人工從這些網(wǎng)頁中找到所需的信息仍需大量的工作。 另外,有時(shí)為了獲取某種商業(yè)信息,需要使用不同的查詢關(guān)鍵字進(jìn)行多次查詢, 并將找到的信息進(jìn)行匯總,這大大加大了商業(yè)信息獲取的工作量。在這種背景下, 信息抽取技術(shù)應(yīng)運(yùn)而生。信息抽取就是從文本中獲取感興趣的知識(shí)點(diǎn),并以結(jié)構(gòu) 化的形式保存在數(shù)據(jù)庫中,以便以后的查詢和使用。信息抽取技術(shù)能夠進(jìn)一步把 人們從人工查找信息的繁重勞動(dòng)中解放出來,提高信息獲取的效率。比爾蓋茨 在其著作未來時(shí)速一書中講到:“將您的公司和您的競(jìng)爭(zhēng)對(duì)手區(qū)別開來的最 有意義的方法,使您的公司領(lǐng)先于眾多公司的最好方法,就是利用信息來干最好 的工作。您怎樣收集、管理和使用信息將決定您的輸贏。 ??梢?,及時(shí)、全面、 準(zhǔn)確地獲取商業(yè)信息是決定一個(gè)企業(yè)成敗的關(guān)鍵?;ヂ?lián)網(wǎng)為商業(yè)信息的獲取提供 了資源,而如何從這個(gè)信息海洋中找到企業(yè)所需要的那根“針”是重點(diǎn)要解決的 問題。 1 2 商業(yè)信息與競(jìng)爭(zhēng)情報(bào) 我國(guó)著名情報(bào)專家包昌火指出:競(jìng)爭(zhēng)情報(bào)是關(guān)于競(jìng)爭(zhēng)環(huán)境、競(jìng)爭(zhēng)對(duì)手與競(jìng)爭(zhēng) 策略的信息和研究【3 】。競(jìng)爭(zhēng)情報(bào)獲取分為規(guī)劃與定向、信息采集、信息加工、 情報(bào)分析及情報(bào)傳播五個(gè)階段。商業(yè)信息獲取涵蓋了信息采集與信息加工兩個(gè)階 2 第一章緒論 段。信息采集階段主要是原始信息的收集,如網(wǎng)頁、紙制資料等。在信息加工階 段,對(duì)采集到的信息進(jìn)行初步處理,主要采用一些自動(dòng)化的技術(shù),如自動(dòng)分類、 自動(dòng)摘要、文檔去重、信息抽取等。經(jīng)過加工后的信息必須經(jīng)過情報(bào)分析后才能 成為真正意義的競(jìng)爭(zhēng)情報(bào),主要的分析方法有s w o t 分析法、德爾斐法和定標(biāo) 比超法及數(shù)據(jù)挖掘的方法。 表1 1 競(jìng)爭(zhēng)情報(bào)具體內(nèi)容 編號(hào) 調(diào)研分類調(diào)研內(nèi)容 l基本概況企業(yè)簡(jiǎn)介、組織框架、股本結(jié)構(gòu)、行業(yè)背景、產(chǎn)品概況、行業(yè)地位 員工數(shù)量、素質(zhì)、學(xué)歷結(jié)構(gòu)、主要管理者背景、經(jīng)驗(yàn)、培訓(xùn)制度、 2 人力資源 聘用程序、獎(jiǎng)懲制度、薪資水平結(jié)構(gòu)、福利體系人力資源 3 管理團(tuán)隊(duì)高層架構(gòu)、重要決策權(quán)利分布、高層領(lǐng)導(dǎo)背景 生產(chǎn)線情況( 設(shè)備明細(xì)、投資渠道、技術(shù)水平、生產(chǎn)能力、使用率、 4 生產(chǎn)能力凈值率) 、技術(shù)人員分布、主要技術(shù)人員介紹( 特長(zhǎng)、背景、學(xué)歷、 工程項(xiàng)目) 、生產(chǎn)員工操作熟練程度、生產(chǎn)環(huán)境、是否o e m 研發(fā)隊(duì)伍資歷( 人數(shù)、學(xué)歷、結(jié)構(gòu)) 、專利資源( 數(shù)量、技術(shù)含量) 、 5 研發(fā)能力開發(fā)費(fèi)用現(xiàn)狀( 金額、來源) 、與其他企業(yè)學(xué)校政府機(jī)關(guān)合作情 況( 合作數(shù)量、技術(shù)含量、未來發(fā)展趨勢(shì)) 認(rèn)證情況、質(zhì)量控制流程、方案、質(zhì)量控制專員( 數(shù)量、素質(zhì)、經(jīng) 6質(zhì)量檢查 驗(yàn)、背景) 、主要產(chǎn)品質(zhì)量指標(biāo)( 產(chǎn)品平均壽命、合格率等) 原材料采購(gòu) 原材料( 采購(gòu)量、來源、平均價(jià)格) 、供應(yīng)商情況( 數(shù)量、供貨評(píng) 7 價(jià)、供應(yīng)商關(guān)系) 、采購(gòu)支付情況( 結(jié)款方式、期限、信用額度等) 、 供應(yīng)商的挑選機(jī)制采供銷 產(chǎn)品明細(xì)、種類、詳細(xì)介紹( 規(guī)格、型號(hào)、性能、用途、優(yōu)勢(shì)) 、 8產(chǎn)品結(jié)構(gòu) 產(chǎn)品服務(wù)、產(chǎn)品技術(shù)含量( 技術(shù)水平、技術(shù)參數(shù)、技術(shù)性能) 、原 材料采購(gòu)成本、產(chǎn)品價(jià)格體系、市場(chǎng)定位、供貨能力 銷售部門設(shè)置、直接銷售渠道( 分產(chǎn)品、區(qū)域、行業(yè)) 、分銷渠道 ( 代理商數(shù)目、結(jié)算方式、分銷商評(píng)價(jià)、關(guān)系、未來的發(fā)展戰(zhàn)略) 、 9產(chǎn)品銷售 歷年銷售情況( 數(shù)量、金額、趨勢(shì)) 、市場(chǎng)占有率及趨勢(shì)、銷售策 略( 利潤(rùn)為主或開拓市場(chǎng)為主) 、銷售價(jià)格體系( 分出廠價(jià)、批發(fā) 價(jià)、零售價(jià)) 、價(jià)格回扣與折扣( 同扣條件、折扣率) 品牌模式、廣告營(yíng)銷情況( 現(xiàn)有媒體數(shù)量、廣告投入金額、占銷售 1 0廣告推銷 比重、未來發(fā)展趨勢(shì)) 、主要營(yíng)銷分布( 分產(chǎn)品、形象) 、主要使 用廣告媒體( 報(bào)紙、雜志、電視、廣播、網(wǎng)絡(luò)、交通廣告、戶外) 主要客戶( 數(shù)量、購(gòu)買力、購(gòu)買的產(chǎn)品情況) 、客戶分布( 區(qū)域、 1 1 客戶情況 行業(yè)、金額) 、客戶滿意程度、客戶投訴及退貨、客戶維護(hù)模式 連續(xù)n 年的資產(chǎn)負(fù)債表、損益表、現(xiàn)金流量表、財(cái)務(wù)指標(biāo)( 銷售增 1 2財(cái)務(wù)情況 長(zhǎng)率、資產(chǎn)負(fù)債率、存貨周轉(zhuǎn)、流動(dòng)資產(chǎn)周轉(zhuǎn)、總資產(chǎn)周轉(zhuǎn)) 3 第一章緒論 商業(yè)信息抽取屬于信息加工階段的最后一個(gè)環(huán)節(jié),銜接著情報(bào)分析階段,隨 著信息量的急增,這部分工作變的越來越重要。信息加工階段的其它工作都是基 于文檔一級(jí)的處理,處理的結(jié)果仍是文檔,還需用戶人工在這些文檔中查找信息, 而隨著采集到的信息成倍增長(zhǎng),使得這部分工作單純依靠人工操作變得不太現(xiàn) 實(shí)。在這種情景下,信息抽取工作變得尤為重要,抽取結(jié)果的質(zhì)量直接關(guān)系到后 面情報(bào)分析的準(zhǔn)確性,進(jìn)而影響企業(yè)決策的正確性。 廣義的商業(yè)信息包括行業(yè)環(huán)境、市場(chǎng)態(tài)勢(shì)、競(jìng)爭(zhēng)對(duì)手等信息。狹義的商業(yè)信 息主要是關(guān)于競(jìng)爭(zhēng)對(duì)手的信息,也就是以一個(gè)企業(yè)為中心的相關(guān)信息。表1 1 是 北京東方策略科技有限公司能夠提供的關(guān)于某個(gè)企業(yè)的競(jìng)爭(zhēng)情報(bào)具體內(nèi)容 4 1 。 它將企業(yè)的競(jìng)爭(zhēng)情報(bào)分為十二個(gè)大類,每個(gè)大類又分若干小類??梢哉f,這些競(jìng) 爭(zhēng)情報(bào)都是由零散的商業(yè)信息整合而成,如管理團(tuán)隊(duì)是由多個(gè)職位關(guān)系信息組成 的。 本文主要研究?jī)深惿虡I(yè)信息的抽取:實(shí)體信息和關(guān)系信息。實(shí)體信息抽取是 從文本中抽取商業(yè)信息涉及的命名實(shí)體,如機(jī)構(gòu)名、人名、地名、產(chǎn)品名等。關(guān) 系信息抽取主要是抽取實(shí)體間關(guān)系的描述信息。文獻(xiàn)【5 】通過本體來描述競(jìng)爭(zhēng)情 報(bào)中的實(shí)體信息和關(guān)系信息,表1 1 中的商業(yè)信息可以按同樣的方法進(jìn)行描述, 然后再抽取具體的實(shí)體信息和關(guān)系信息。 1 3 商業(yè)信息抽取的國(guó)內(nèi)外研究現(xiàn)狀 目前,商業(yè)信息抽取的研究主要集中在競(jìng)爭(zhēng)情報(bào)研究領(lǐng)域,下面主要介紹國(guó) 內(nèi)外的競(jìng)爭(zhēng)情報(bào)研究中關(guān)于商業(yè)信息抽取的研究現(xiàn)狀。 1 3 1 國(guó)外研究現(xiàn)狀 國(guó)外競(jìng)爭(zhēng)情報(bào)研究中關(guān)于商業(yè)信息抽取方面的工作已經(jīng)比較多,開始從只是 簡(jiǎn)單地將現(xiàn)有的信息抽取工具集成到競(jìng)爭(zhēng)情報(bào)系統(tǒng)中向?qū)iT研究特定應(yīng)用的信 息抽取技術(shù)轉(zhuǎn)變。另外,一些商用的競(jìng)爭(zhēng)情報(bào)軟件也開始加入信息抽取的功能, 使其更加實(shí)用化。 b y r o nm a r s h a l l 等提出一個(gè)商業(yè)信息集成工具e b i z p o r t 【6 】,采用元搜索 ( m e t a - s e a r c h ) 技術(shù)來收集信息,以提高信息收集的召回率和質(zhì)量。另外,該工具 還對(duì)收集到信息作了進(jìn)一步的處理,如摘要提取、自動(dòng)分類、可視化設(shè)計(jì)等,也 涉及了信息整合問題,但只是文檔級(jí)的,仍需要用戶人工到返回的文檔中尋找所 需的信息。 f r a n c o i sp a r a d i s 等設(shè)計(jì)的m b o i ( m a t c h i n gb u s i n e s so p p o r t u n i t i e so nt h e 4 第一章緒論 i n t e m e t ) 系統(tǒng) 7 】試圖從互聯(lián)網(wǎng)上尋找與企業(yè)相關(guān)的招標(biāo)( c a l lf o rt e n d e r s ) 信息。 系統(tǒng)使用n s t e i nn f i n d e r 工具進(jìn)行命名實(shí)體抽取,目的是為了查詢時(shí)更準(zhǔn)確地定 位所需要的信息和改善后續(xù)的信息分類效果。n s t e i nn f i n d e r 工具采用詞法規(guī)則 與詞典相結(jié)合的方法進(jìn)行命名實(shí)體識(shí)別,主要是針對(duì)一些結(jié)構(gòu)規(guī)范的網(wǎng)頁,如表 格和列表。 r o b e r tb a u m g a r t n e r 等提出一個(gè)基于w e b 的商業(yè)情報(bào)抽取系統(tǒng)l i x t o 8 。該 系統(tǒng)采用包裝器( w r a p p e r ) 信息抽取技術(shù)從半結(jié)構(gòu)化的電子商務(wù)網(wǎng)站中抽取商 品信息,如商品的名稱、制造商及價(jià)格等,并將抽取結(jié)果以x m l 文檔的形式保 存。包裝器是出現(xiàn)最早的基于w e b 的信息抽取技術(shù),專門針對(duì)結(jié)構(gòu)化較強(qiáng)的網(wǎng) 站,如招聘網(wǎng)站、購(gòu)物網(wǎng)站。 h t e c h s i g h t 是d i a n am a y n a r d 等設(shè)計(jì)的一個(gè)知識(shí)管理系統(tǒng) 9 】,其功主要功能 是對(duì)網(wǎng)上的敏感信息進(jìn)行實(shí)時(shí)監(jiān)控。系統(tǒng)對(duì)網(wǎng)頁中敏感的概念信息進(jìn)行抽取,并 對(duì)這些概念的變化進(jìn)行實(shí)時(shí)監(jiān)控。概念抽取使用了g a t e 工具中的信息抽取( i e ) 組件,該組件采用基于規(guī)則的方法進(jìn)行概念的識(shí)別,但抽取規(guī)則需要人工總結(jié), 不能自動(dòng)生成。 2 0 0 7 年,d i a n am a y n a r d 等又提出了一個(gè)基于領(lǐng)域本體( d o m a i no n t o l o g y ) 的商業(yè)情報(bào)系統(tǒng)【1 0 】。系統(tǒng)采用本體來描述領(lǐng)域概念、概念間的關(guān)系及屬性,根 據(jù)本體定義來抽取領(lǐng)域信息。該系統(tǒng)主要是針對(duì)跨國(guó)公司的商業(yè)情報(bào)需求開發(fā) 的,主要抽取有關(guān)公司概況( 公司名、所在國(guó)家、電話、郵編、分支機(jī)構(gòu)、主要 業(yè)務(wù)、進(jìn)出口業(yè)務(wù)、營(yíng)業(yè)額、雇員數(shù)量、股東及其它相關(guān)人員) 、國(guó)家區(qū)域概況 ( 國(guó)家名字、人口數(shù)量、土地面積、官方語言、貨幣、匯率、外債、失業(yè)率、 g d p 、海外投資) 等信息,主要為跨國(guó)公司的海外投資提供決策支持。系統(tǒng)采用 a n n i e 工具進(jìn)行概念抽取。a n n i e 是一個(gè)基于規(guī)則的通用的概念抽取工具,主 要抽取人名、地名和機(jī)構(gòu)名。為了適應(yīng)金融領(lǐng)域的概念,d i a n am a y n a r d 等對(duì) a n n i e 工具進(jìn)行了修改以適應(yīng)新的需求。系統(tǒng)對(duì)不同來源的文本設(shè)計(jì)了不同的 抽取規(guī)則,這些文本既有結(jié)構(gòu)化的( 主要是表格) ,也有非結(jié)構(gòu)化的,并且對(duì)來 源不同但涉及同一概念的信息進(jìn)行了整合。 隨著互聯(lián)網(wǎng)上信息量急劇增長(zhǎng)和信息處理技術(shù)的進(jìn)步,國(guó)外開始出現(xiàn)了一些 可以實(shí)用的商用競(jìng)爭(zhēng)情報(bào)軟件。起初這些軟件只具備以文檔為單位的信息收集功 能以及一些簡(jiǎn)單預(yù)處理功能。近幾年,信息抽取和數(shù)據(jù)挖掘技術(shù)逐步被集成到競(jìng) 爭(zhēng)情報(bào)軟件中,提高了其實(shí)用價(jià)值。表1 2 列出了目前國(guó)外主要競(jìng)爭(zhēng)情報(bào)軟件的 功能??梢钥闯觯瑪?shù)據(jù)挖掘技術(shù)( 自動(dòng)分類、自動(dòng)摘要) 在競(jìng)爭(zhēng)情報(bào)軟件中應(yīng)用 已經(jīng)比較廣泛,而信息抽取技術(shù)剛剛開始集成到競(jìng)爭(zhēng)情報(bào)軟件中,還有很大的發(fā) 展空間。 5 第一章緒論 表1 2 國(guó)外競(jìng)爭(zhēng)情報(bào)軟件功能 支持 關(guān)系關(guān)鍵監(jiān)視自然 多種自動(dòng)自動(dòng)關(guān)系自動(dòng)情報(bào) 語言 競(jìng)爭(zhēng)情報(bào)軟件 文件分類摘要抽取 可視 排序 字搜和預(yù) 發(fā)布 化索警搜索 格式 w e b q l k n o w l e d g e 、,、, 、,、, w o r k s t e x ta n a l y t i 娼 t e x t a n a l y s t 、, 、, p o l y a n a l y s t 00、,0 0 t r a c k e n g i n e 、, t 化n d i c a t e00、,00 w i n c i t e、, 1 3 2 國(guó)內(nèi)研究現(xiàn)狀 與國(guó)外相比,國(guó)內(nèi)的競(jìng)爭(zhēng)情報(bào)研究和信息抽取研究都處于探索階段,技術(shù)都 不夠成熟。表1 3 是2 0 0 7 年1 月到2 0 0 8 年3 月國(guó)內(nèi)競(jìng)爭(zhēng)情報(bào)核心期刊上發(fā)表的 有關(guān)競(jìng)爭(zhēng)情報(bào)的8 3 篇文獻(xiàn)的統(tǒng)計(jì)信息。可以看出,信息加工已成為國(guó)內(nèi)競(jìng)爭(zhēng)情 報(bào)研究的熱點(diǎn),主要采用數(shù)據(jù)挖掘方法,如文本分類、文本挖掘、w e b 挖掘等對(duì) 收集的文本或網(wǎng)頁進(jìn)行初步處理,還沒有涉及句子級(jí)的處理,如實(shí)體和關(guān)系抽取 等。 6 表1 。3 競(jìng)爭(zhēng)情報(bào)研究方向統(tǒng)計(jì)表 研究方向 篇數(shù)研究方向篇數(shù) 信息加工 1 7 研究現(xiàn)狀 5 情報(bào)理論 9 情報(bào)評(píng)估 4 人際網(wǎng)絡(luò) 7 情報(bào)教育 3 網(wǎng)絡(luò)組織 7 情報(bào)分析 3 知識(shí)管理5其它1 8 產(chǎn)業(yè)發(fā)展 5 第一章緒論 2 0 0 5 年,劉非凡等提出了基于層級(jí)隱馬可夫模型( h h m m ) 的產(chǎn)品名識(shí)別 算法【1 1 1 ,從自由文本中抽取產(chǎn)品名。這是第一次專門針對(duì)中文商業(yè)信息抽取的 研究,突破了信息抽取研究只專注傳統(tǒng)信息抽取的禁錮,推動(dòng)信息抽取技術(shù)向?qū)?用化方向邁進(jìn)了一步。 2 0 0 6 年,w e il i 等提出并實(shí)現(xiàn)了一個(gè)中文競(jìng)爭(zhēng)情報(bào)系統(tǒng)c c i s 1 2 ,實(shí)現(xiàn) 了四項(xiàng)功能:情報(bào)定制、信息采集、信息加工、和情報(bào)發(fā)布。信息加工模塊包含 了自動(dòng)分類、文檔去重和信息抽取三項(xiàng)功能。其中信息抽取子模塊采用基于規(guī)則 和詞典相結(jié)合的技術(shù),可以抽取命名實(shí)體、事件等信息。 2 0 0 8 年,y a nc h e n 等提出了基于本體的競(jìng)爭(zhēng)情報(bào)抽取系統(tǒng) 5 】,利用本體來 描述企業(yè)對(duì)競(jìng)爭(zhēng)情報(bào)的需求,然后采用基于規(guī)則和模板匹配的方法將抽取的信息 填充到實(shí)例本體中。 目前,中文競(jìng)爭(zhēng)情報(bào)軟件主要提供網(wǎng)頁收集功能,如天下互聯(lián)的網(wǎng)絡(luò)情報(bào)中 心。給定關(guān)鍵字后,這些軟件到事先定制好的網(wǎng)站上實(shí)時(shí)爬取網(wǎng)頁,將包含關(guān)鍵 字的網(wǎng)頁返回給客戶。一些功能較強(qiáng)的競(jìng)爭(zhēng)情報(bào)軟件還提供了自動(dòng)分類、自動(dòng)摘 要等功能,如t r s 競(jìng)爭(zhēng)情報(bào)軟件。然而這些軟件沒有提供對(duì)網(wǎng)頁內(nèi)部的關(guān)鍵信 息進(jìn)行抽取和集成,還需要人工從返回的網(wǎng)頁中尋找所需的信息。 國(guó)內(nèi)競(jìng)爭(zhēng)情報(bào)領(lǐng)域關(guān)于商業(yè)信息抽取研究較少的一個(gè)原因是中文信息抽取 技術(shù)目前還沒有突破性的進(jìn)展,這使得中文信息抽取技術(shù)無法集成到競(jìng)爭(zhēng)情報(bào)系 統(tǒng)中,成為影響競(jìng)爭(zhēng)情報(bào)獲取的重要技術(shù)瓶頸,所以研究中文商業(yè)信息抽取技術(shù), 使其達(dá)到實(shí)用化水平,對(duì)企業(yè)競(jìng)爭(zhēng)情報(bào)獲取有著重要意義。 綜上所述,目前,國(guó)外商業(yè)信息抽取研究比較多,一般是將現(xiàn)有的信息抽取 技術(shù)應(yīng)用到商業(yè)信息抽取中,并開始探索專門針對(duì)特定領(lǐng)域的商業(yè)信息抽取技 術(shù),一些商用競(jìng)爭(zhēng)情報(bào)軟件己具備商用價(jià)值。而中文商業(yè)信息抽取研究比較少, 中文競(jìng)爭(zhēng)情報(bào)軟件的商用價(jià)值不高,探索和發(fā)展中文商業(yè)信息抽取技術(shù)迫在眉 睫。 傳統(tǒng)信息抽取的處理對(duì)象主要是自由文本,且只對(duì)的常規(guī)信息( 如人名、地 名、機(jī)構(gòu)名等) 進(jìn)行抽取。隨著互聯(lián)網(wǎng)上信息量的急劇增長(zhǎng),基于網(wǎng)頁的信息抽 取研究隨之成為研究的熱點(diǎn)。與自由文本相比,網(wǎng)頁具有兩個(gè)特征: ( 1 ) 網(wǎng)頁是一種半結(jié)構(gòu)化的文本。除了常規(guī)文本外,網(wǎng)頁中包含了大量的 h t m l 標(biāo)簽,這些標(biāo)簽使得網(wǎng)頁文本具有了半結(jié)構(gòu)化的特征。一方面,可以利 用這些標(biāo)簽提高信息抽取的效果:另一方面,網(wǎng)頁標(biāo)簽復(fù)雜多樣,往往與常規(guī)文 本混雜在一起,也成為信息抽取的障礙。因此,如何利用網(wǎng)頁文本半結(jié)構(gòu)化的優(yōu) 點(diǎn),避免其缺點(diǎn),成為網(wǎng)頁信息抽取成敗的關(guān)鍵因素。 ( 2 ) 網(wǎng)頁文本規(guī)范性較差。自由文本一般來自報(bào)紙或書籍,在詞法、句法 7 第一章緒論 和表述方式上比較規(guī)范。而網(wǎng)頁文本缺乏嚴(yán)格要求,行文較自由,不像紙制文本 那樣規(guī)范。因此,基于紙制文本的信息抽取方法應(yīng)用于網(wǎng)頁信息抽取時(shí),效果不 一定理想。對(duì)于網(wǎng)頁信息抽取,需要設(shè)計(jì)容錯(cuò)能力更強(qiáng)的信息抽取系統(tǒng)。 i n t e m e t 是商業(yè)信息的重要來源,研究基于網(wǎng)頁的商業(yè)信息抽取技術(shù)既要利 用傳統(tǒng)信息抽取技術(shù)已有的成果,又要充分考慮網(wǎng)頁自身的特性,利用網(wǎng)頁提供 的便利信息來提高信息抽取的效果,同時(shí)避免一些不利信息的負(fù)面影響。 1 4 本文的主要工作 本文以i n t e r n e t 中的網(wǎng)頁為信息源,研究基于w e b 的商業(yè)信息抽取技術(shù)。并 以職位關(guān)系和機(jī)構(gòu)名兩種具體的商業(yè)信息為對(duì)象,設(shè)計(jì)具體的信息抽取算法。主 要研究?jī)?nèi)容有: ( 1 ) 商業(yè)信息中實(shí)體抽取技術(shù)研究 實(shí)體是商業(yè)信息中的基本信息單元,實(shí)體識(shí)別是實(shí)現(xiàn)其它商業(yè)信息抽取的基 礎(chǔ)。商業(yè)信息中的實(shí)體主要有機(jī)構(gòu)名、人名、地名、產(chǎn)品名、商標(biāo)名等。目前, 中文命名實(shí)體識(shí)別的研究主要集中在機(jī)構(gòu)名、人名和地名,其中機(jī)構(gòu)名由于構(gòu)成 比較復(fù)雜,識(shí)別效果不佳,而機(jī)構(gòu)名又是商業(yè)信息中最最要的一個(gè)實(shí)體。研究國(guó) 內(nèi)外現(xiàn)有命名實(shí)體識(shí)別技術(shù),特別是機(jī)構(gòu)名識(shí)別技術(shù),設(shè)計(jì)網(wǎng)頁環(huán)境下中文機(jī)構(gòu) 名識(shí)別技術(shù),提高機(jī)構(gòu)名識(shí)別的召回率和準(zhǔn)確率是本文的主要研究工作之一。 ( 2 ) 商業(yè)信息中關(guān)系抽取技術(shù)研究 商業(yè)信息中的實(shí)體關(guān)系描述了現(xiàn)實(shí)世界中兩個(gè)實(shí)體由于企業(yè)的生產(chǎn)、銷售等 活動(dòng)而發(fā)生的相互聯(lián)系。實(shí)體關(guān)系是一種更為重要的商業(yè)信息,與實(shí)體相比,實(shí) 體關(guān)系已經(jīng)是一種淺層的知識(shí),透過這種關(guān)系可以對(duì)某些事實(shí)有所了解。當(dāng)將相 關(guān)的實(shí)體關(guān)系組織起來,形成一個(gè)信息網(wǎng)時(shí),商業(yè)信息就會(huì)成為一種重要的競(jìng)爭(zhēng) 情報(bào),為企業(yè)的決策提供支持。中文關(guān)系抽取的研究較少,基于w e b 的關(guān)系抽 取研究則更少。采用的方法主要借鑒國(guó)外現(xiàn)有的技術(shù),如模式匹配方法和機(jī)器學(xué) 習(xí)方法等。研究基于w e b 的中文商業(yè)關(guān)系抽取技術(shù),并以職位關(guān)系抽取為例, 設(shè)計(jì)具體的關(guān)系抽取算法是本文的另一項(xiàng)研究工作。 1 5 本文的組織結(jié)構(gòu) 本文的組織結(jié)構(gòu)如下: 第一章緒論。對(duì)基于i n t e r n e t 的商業(yè)信息抽取研究作了整體介紹,包括研究 的背景、意義,商業(yè)信息抽取在企業(yè)競(jìng)爭(zhēng)情報(bào)獲取中的地位,以及商業(yè)信息抽取 8 第一章緒論 的國(guó)內(nèi)外研究現(xiàn)狀。 第二章信息抽取技術(shù)。簡(jiǎn)要介紹了信息抽取技術(shù)研究的發(fā)展歷程、研究?jī)?nèi)容、 國(guó)內(nèi)外主要的信息抽取系統(tǒng)以及信息抽取技術(shù)的評(píng)測(cè)指標(biāo)。 第三章詳細(xì)論述了基于w e b 的職位關(guān)系抽取方法,提出了結(jié)構(gòu)化系數(shù)、結(jié) 構(gòu)化文件片斷、標(biāo)準(zhǔn)模式等概念,并利用這些概念來描述網(wǎng)頁中職位關(guān)系的結(jié)構(gòu) 特征。最后,通過在真實(shí)語料集上的實(shí)驗(yàn)來檢驗(yàn)算法的有效性。 第四章基于中文句子中語法與語義之間的關(guān)聯(lián)性,提出語義隱馬爾可夫模型 的機(jī)構(gòu)名識(shí)別算法,并進(jìn)行了具體的討論。另外,通過實(shí)驗(yàn)比較對(duì)所提方法效果 進(jìn)行了驗(yàn)證。 第五章總結(jié)與展望。對(duì)本文做出了總結(jié),并指出其中的不足之處,展望下一 步的研究方向。 9 第二章信息抽取技術(shù) 2 1 前言 第二章信息抽取技術(shù) 在日益信息化和網(wǎng)絡(luò)化的當(dāng)代社會(huì),如何找到感興趣的信息并對(duì)些信息進(jìn)行 歸類、過濾和提取,一直是一個(gè)比較緊迫的實(shí)際問題。信息量的急增使得早期單 純依靠人工收集信息的方法不再可行,自動(dòng)化的信息采集工具成為迫切需求。在 這樣的背景下,信息抽取技術(shù)應(yīng)用而生。信息抽取的目標(biāo)是對(duì)文本中感興趣的信 息進(jìn)行提取,并以結(jié)構(gòu)化的形式集中存儲(chǔ)起來,以便于以后的查詢和更高一級(jí)的 應(yīng)用。信息抽取系統(tǒng)的輸入是一系列原始文本,輸出的是具有一定格式的結(jié)構(gòu)化 信息集。 信息抽取的文本可以分為三類:自由文本、半結(jié)構(gòu)化文本和結(jié)構(gòu)化文本,后 兩者主要是指網(wǎng)頁文本。對(duì)于不同類型的文本,所采用的信息抽取技術(shù)可能會(huì)有 所不同。目前,由于網(wǎng)頁數(shù)量的急劇膨脹,基于網(wǎng)頁的信息抽取技術(shù)成為研究的 重點(diǎn)。 2 2 信息抽取研究簡(jiǎn)史 根據(jù)信息抽取研究的發(fā)展軌跡,一般將信息抽取的研究劃分為三個(gè)階段:前 期、中期和近期。 信息抽取研究的前期開始于2 0 世紀(jì)6 0 年代中期,結(jié)束于8 0 年代中期,這 是信息抽取研究的初始階段,主要以兩個(gè)長(zhǎng)期的自然語言處理項(xiàng)目為代表。第一 個(gè)項(xiàng)目是美國(guó)紐約大學(xué)的l i n g u i s t i cs t r i n g 項(xiàng)目【1 3 】。該項(xiàng)目研究如何構(gòu)建一個(gè)大 規(guī)模的英語計(jì)算語法,其中與信息抽取相關(guān)的應(yīng)用是從醫(yī)療領(lǐng)域的x 光報(bào)告和 醫(yī)院的出院記錄中生成信息格式。事實(shí)上這種信息格式就是后來消息理解會(huì)議定 義的模板。第二個(gè)項(xiàng)目是耶魯大學(xué)r o g e rs c h a n k 及同事開展的有關(guān)故事理解的 研究。他的學(xué)生g e r a l dd ej o n g 設(shè)計(jì)實(shí)現(xiàn)了一個(gè)叫作f r u m p 的信息抽取系統(tǒng) 【1 4 】。該系統(tǒng)從新聞報(bào)道中抽取信息,內(nèi)容涉及地震、工人罷工等很多領(lǐng)域或場(chǎng) 景。系統(tǒng)采用了期望驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)相結(jié)合的處理方法。后來,這種方法被許多 信息抽取系統(tǒng)所吸納。 2 0 世紀(jì)8 0 年代末期到9 0 年代是信息抽取研究的中期發(fā)展階段。這一時(shí)期 出現(xiàn)了一個(gè)對(duì)于信息抽取發(fā)展具有里程碑意義的研討會(huì)一一消息理解會(huì)議 ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ,m u c ) 。m u c 會(huì)議由美國(guó)國(guó)防高級(jí)研究計(jì)劃 1 1 第二章信息抽取技術(shù) 委員會(huì)( d a r p a ,t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 資助,從1 9 8 7 年到1 9 9 8 年共舉辦了七屆。m u c 系列會(huì)議對(duì)于信息抽取這一研究方向的確立及 發(fā)展起了極大的推動(dòng)作用。每屆的m u c 會(huì)議吸引若干學(xué)術(shù)機(jī)構(gòu)來參加信息抽取 競(jìng)賽,從第一屆的只有6 個(gè)系統(tǒng)到最后一屆的1 8 個(gè)系統(tǒng),m u c 的影響越來越大。 總的看來m u c 會(huì)議的主要貢獻(xiàn)有兩項(xiàng): ( 1 ) 信息抽取任務(wù)的確立。從第二屆m u c 會(huì)議開始,信息抽取的任務(wù)被 明確為模板填充,主要是對(duì)某一事件或場(chǎng)景中的關(guān)鍵信息進(jìn)行填充。以后各屆模 板變的越來越復(fù)雜。1 9 9 5 年的第六屆m u c 會(huì)議在原有場(chǎng)景模板的基礎(chǔ)上又加入 了命名實(shí)體識(shí)別、共指關(guān)系確定和模板元素填充三項(xiàng)新的任務(wù)。在最后一屆又增 加了模板關(guān)系任務(wù)。這五項(xiàng)任務(wù)的確立指明了信息抽取研究的具體對(duì)象,使信息 抽取的研究逐步走向規(guī)范。 ( 2 ) 信息抽取評(píng)價(jià)體系的確立。這是m u c 會(huì)議的另一重大貢獻(xiàn),參加信 息抽取競(jìng)賽的每個(gè)單位按給定的知識(shí)領(lǐng)域提交一個(gè)信息系統(tǒng),然后使用相同的測(cè) 試數(shù)據(jù)集對(duì)這些系統(tǒng)的性能進(jìn)行測(cè)試比較。第三屆m u c 會(huì)議引入了信息檢索領(lǐng) 域中的評(píng)價(jià)指標(biāo):召回率、準(zhǔn)確率和f m e a s u r e ,并利用這些指標(biāo)對(duì)信息抽取系 統(tǒng)的性能進(jìn)行打分。測(cè)試方法及評(píng)價(jià)體系的確立使得對(duì)信息抽取效果的評(píng)價(jià)更加 客觀和公正,成為信息抽取研究事實(shí)上的標(biāo)準(zhǔn)。 進(jìn)入2 1 世紀(jì)后,信息抽取研究又達(dá)到了新的高度,進(jìn)入了信息抽取研究的 第三個(gè)階段。這個(gè)時(shí)期信息抽取研究的重點(diǎn)發(fā)生了轉(zhuǎn)移,開始關(guān)注新的研究方法 和研究?jī)?nèi)容。如基于機(jī)器學(xué)習(xí)的信息抽取技術(shù)、深層理解技術(shù)、篇章分析技術(shù)、 多語言文本處理能力、基于w e b 的信息抽取以及對(duì)時(shí)間信息的處理等等 1 5 】。這 一時(shí)期的一個(gè)重要會(huì)議是美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所( n i s t ) 組織的自動(dòng)內(nèi)容抽 取( a c e ,a u t o m a t i cc o n t e n te x t r a c t i o n ) 評(píng)測(cè)會(huì)議。與m u c 相比,a c e 在任務(wù) 和評(píng)測(cè)兩個(gè)方面進(jìn)行了改變,a c e 將m u c 定義的五種任務(wù)進(jìn)行了合并,將命名 實(shí)體和共指合并為“實(shí)體檢測(cè)和識(shí)別( e m i t ) ,d e t e c t i o na n dr e c o g n i t i o n ,e d r ) ”, 將模板元素和模板關(guān)系合并為“實(shí)體關(guān)系檢測(cè)和識(shí)別( r e l a t i o nd e t e c t i o na n d r e c o g n i t i o n ,r d r ) ,場(chǎng)景模板任務(wù)改名為“事件檢測(cè)和識(shí)別( e v e n td e t e c t i o i l a n dr e c o g n i t i o n ,v d r ) ”。另外增加了時(shí)間短語表達(dá)和數(shù)量值的識(shí)別任務(wù)。在 評(píng)測(cè)方面,a c e 采用基于漏報(bào)( 標(biāo)準(zhǔn)答案中有而系統(tǒng)輸出中沒有) 和誤報(bào)( 標(biāo) 準(zhǔn)答案中沒有而系統(tǒng)輸出中有) 的評(píng)價(jià)體系,還對(duì)系統(tǒng)跨文檔處理 ( c r o s s d o c u m e n t p r o c e s s i n g ) 能力進(jìn)行評(píng)測(cè)。 2 3 信息抽取的研究?jī)?nèi)容 1 2 第二章信息抽取技術(shù) 根據(jù)m u c 和a c e
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中考數(shù)學(xué)總復(fù)習(xí)《二次根式》專項(xiàng)測(cè)試卷帶答案
- VB編程的解決思路及答案
- 2025屆貴州省畢節(jié)織金縣數(shù)學(xué)七下期末學(xué)業(yè)水平測(cè)試試題含解析
- 企業(yè)信息安全的保安策略計(jì)劃
- 2025年構(gòu)建彈性企業(yè)戰(zhàn)略試題及答案
- 秘書如何保持工作生活平衡計(jì)劃
- 企業(yè)資金使用效率評(píng)估計(jì)劃
- 行業(yè)安全管理的國(guó)際經(jīng)驗(yàn)計(jì)劃
- 公司戰(zhàn)略評(píng)估體系建立試題及答案
- 城市交通影響評(píng)價(jià)重點(diǎn)基礎(chǔ)知識(shí)點(diǎn)
- 基裝合同范例版
- 永久性租房合同(2篇)
- 外賣員交通安全課件
- 車輛火災(zāi)應(yīng)急處理方法
- 兒童繪本故事《螞蟻搬家》
- 《全氟己酮滅火系統(tǒng)技術(shù)規(guī)范》
- 2025年安徽合肥東部新中心建設(shè)投資限公司招聘8人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 水循環(huán)課件完整版本
- 2024年公司政工專業(yè)技術(shù)工作總結(jié)樣本(4篇)
- 2024年小學(xué)生航空航天知識(shí)競(jìng)賽題庫附答案 (共150題)
- 2023新修訂版《中華人民共和國(guó)公司法》學(xué)習(xí)解讀
評(píng)論
0/150
提交評(píng)論