版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、本科畢業(yè)論文調(diào)研報(bào)告科技文獻(xiàn)作者信息自動(dòng)抽題 目取與管理的研究學(xué)生姓名陳飛翔指導(dǎo)教師陳科文學(xué) 院信息科學(xué)與工程學(xué)院 專業(yè)班級 電子信息1002本科生院制內(nèi)容摘要元數(shù)據(jù)提供了網(wǎng)絡(luò)資源描述、表達(dá)、管理和使用的基本方案,是網(wǎng)絡(luò)資源組織 和檢索的核心所在。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,面對海量文獻(xiàn)描述 的需要,如何快速、高效地產(chǎn)生元數(shù)據(jù)成為數(shù)字圖書館建設(shè)過程中面臨的一大難 題。當(dāng)前數(shù)字圖書館建設(shè)過程中,元數(shù)據(jù)大多由人工逐條標(biāo)記輸入,這不僅花費(fèi)了 大量的人力、物力和時(shí)間,而且也越來越不能滿足海量文獻(xiàn)管理的需要。若元數(shù) 據(jù)信息可以自動(dòng)生成、自動(dòng)抽取,必將大大減輕信息人員的工作負(fù)擔(dān),極大地提高 工作效
2、率。本文在分析PDF文件結(jié)構(gòu)的基礎(chǔ)上,解析PDF文件的內(nèi)容流,并采用基于規(guī)則的匹 配方法和基于格式的定位方法,自動(dòng)抽取科技論文中的語義元數(shù)據(jù)信息。實(shí)驗(yàn)結(jié) 果表明,上述方法對標(biāo)題、作者等重要的語義元數(shù)據(jù)信息能夠達(dá)到較好的抽取效 果。關(guān)鍵詞:元數(shù)據(jù)抽取,PDF,基于規(guī)則匹配方法,基于格式定位方法目錄 TOC o 1-5 h z 前言4 HYPERLINK l bookmark14 o Current Document 第一章設(shè)計(jì)任務(wù)和研究背景意義5 HYPERLINK l bookmark17 o Current Document 1.1設(shè)計(jì)任務(wù)5 HYPERLINK l bookmark25 o
3、 Current Document 1.2研究背景及意義5 HYPERLINK l bookmark28 o Current Document 1.3國內(nèi)外研究現(xiàn)狀6 HYPERLINK l bookmark31 o Current Document 第二章PDF文件結(jié)構(gòu)和解析7 HYPERLINK l bookmark34 o Current Document PDF文件的基本組成7 HYPERLINK l bookmark41 o Current Document PDF文檔的邏輯結(jié)構(gòu)8 HYPERLINK l bookmark44 o Current Document PDF解析基本語法
4、9PDF解析過程15 HYPERLINK l bookmark55 o Current Document 第三章語義元數(shù)據(jù)抽取設(shè)計(jì)的實(shí)現(xiàn)153.1 PDF文件解析15 HYPERLINK l bookmark67 o Current Document 3.2內(nèi)容元數(shù)據(jù)抽取分析17 HYPERLINK l bookmark78 o Current Document 第四章總結(jié)19 HYPERLINK l bookmark81 o Current Document 參考文獻(xiàn)20刖言便攜文檔格式(Portable Document Format , PDF)格式是 Adobe公司在其 PostScr
5、ipt語言的基礎(chǔ)上創(chuàng)建的一種主要應(yīng)用于電子出版的文件規(guī)范系統(tǒng)。目 前,PDF已成為電子文檔發(fā)行和數(shù)字化信息傳播事實(shí)上的一個(gè)標(biāo)準(zhǔn),其廣泛應(yīng)用 于學(xué)術(shù)界的論文交流和發(fā)布,如學(xué)術(shù)會議、電子期刊及一些論文收錄機(jī)構(gòu)等。PDF 文檔本身是面向顯示的,目的是方便用戶閱讀,文檔格式中不含有便于機(jī)器處理 的語義信息;同時(shí),PDF字符串一般都經(jīng)過編碼,因而直接對PDF源文檔進(jìn)行語義 信息處理,實(shí)現(xiàn)起來比較困難。因此,有必要考慮間接的途徑,比如先將PDF進(jìn)行 預(yù)處理,轉(zhuǎn)換成易于處理的格式。XML(Extensible Markup Language)由于其所具有的開放性、靈活性、易讀性和 平臺無關(guān)性等特點(diǎn),已成為數(shù)
6、據(jù)表示和數(shù)據(jù)交換事實(shí)上的標(biāo)準(zhǔn)。因此,隨著XML 的日益廣泛應(yīng)用,將傳統(tǒng)數(shù)據(jù)格式轉(zhuǎn)換成XML,以便進(jìn)行數(shù)據(jù)傳輸?shù)炔僮鞯男枨?也隨之增加??萍颊撐氖且活惥哂幸?guī)范格式的文檔,對科技論文的查找與閱讀成 為當(dāng)今各領(lǐng)域進(jìn)行學(xué)術(shù)交流的重要渠道。因此,針對PDF格式及科技論文的特殊 性,對PDF格式的科技論文元數(shù)據(jù)進(jìn)行有效抽取,使其便于語義查詢等處理具有 重要的現(xiàn)實(shí)意義。第一章設(shè)計(jì)任務(wù)和研究背景意義1.1設(shè)計(jì)任務(wù)(1)分析各類不同文獻(xiàn)中作者信息不同的編排方式,研究PDF等常見類型文檔 的解析與轉(zhuǎn)換技術(shù)以及信息抽取技術(shù);(2)實(shí)現(xiàn)從PDF等類型的電子文獻(xiàn)中抽取作者基本信息,論文/項(xiàng)目/成果信息 和聯(lián)系信息:(3
7、)所抽取的信息存儲于數(shù)據(jù)庫貨XML格式的文件中,并能對作者信息進(jìn)行查 詢、校對增刪等操作;(4)編寫文獻(xiàn)作者信息抽取與管理程序,能連續(xù)處理多篇科技文獻(xiàn),通過實(shí)驗(yàn) 來驗(yàn)證設(shè)計(jì)結(jié)果,并進(jìn)行評估和進(jìn)一步完善;(5)重點(diǎn)考慮中文期刊文獻(xiàn)的處理。1.2研究背景及意義隨著網(wǎng)絡(luò)的飛速發(fā)展,網(wǎng)上的信息資源也日益增多。人們獲取信息的方式不再 只局限于書本,更多的時(shí)候是在利用網(wǎng)上的電子資源。一些搜索引擎也應(yīng)運(yùn)而生, 但是它們一般只針對網(wǎng)頁文件,對一些文獻(xiàn)的搜索力度還遠(yuǎn)遠(yuǎn)不夠。因?yàn)楹芏嗨?索引擎都是基于關(guān)鍵字查找和全文檢索技術(shù),它們返回的結(jié)果對于用戶來說往往 過于龐大,且很多都是無用的信息,用戶很難從中挑選他們所需
8、要的資源。檢索 科技文獻(xiàn)的用戶,很多時(shí)候都是根據(jù)論文的標(biāo)題和作者信息來進(jìn)行查找的。而論 文摘要和關(guān)鍵字往往涵蓋了整篇論文的主要內(nèi)容。標(biāo)題、作者、摘要和關(guān)鍵字等 元數(shù)據(jù)信息是基于內(nèi)容的信息檢索的基礎(chǔ),用戶通過元數(shù)據(jù)結(jié)構(gòu)檢索能更方便地 發(fā)現(xiàn)他們所需要的文獻(xiàn)資源。因此,很有必要對論文的元數(shù)據(jù)信息進(jìn)行自動(dòng)的抽 取、標(biāo)引和整理工作,以便讓人們能更直接、更方便地找到所需的文獻(xiàn)資料。目前,網(wǎng)上發(fā)布的科技文獻(xiàn)資源,大部分都是以PDF形式來發(fā)表的。要對文 檔中的文本內(nèi)容進(jìn)行處理,必須先進(jìn)行格式轉(zhuǎn)化。格式轉(zhuǎn)化后,再對論文的元數(shù) 據(jù)信息進(jìn)行抽取。最主要、也最關(guān)鍵的元數(shù)據(jù)抽取工作是抽取出論文的標(biāo)題、作 者、摘要、關(guān)鍵
9、字和引用信息等元數(shù)據(jù)。1.3國內(nèi)外研究現(xiàn)狀國內(nèi)元數(shù)據(jù)自動(dòng)抽取研究主要集中在國外元數(shù)據(jù)自動(dòng)抽取工具與方法介紹、 Web站點(diǎn)元數(shù)據(jù)信息抽取、期刊論文元數(shù)據(jù)抽取、學(xué)位論文元數(shù)據(jù)抽取、課程元 數(shù)據(jù)信息抽取、空間地理信息元數(shù)據(jù)抽取等方面。通過中國知網(wǎng)CNKI)數(shù)據(jù)庫 的題名檢索方式,檢索出2001-2008年發(fā)表的與上述研究主題相關(guān)的論文共14 篇。在Web網(wǎng)絡(luò)元數(shù)據(jù)信息抽取方面的研究論文有5篇,數(shù)量最多。由此可知, 對Web元數(shù)據(jù)信息抽取技術(shù)與方法的研究引起了研究者最多的關(guān)注。從期刊論文 的時(shí)間分布可以看出.我國關(guān)于元數(shù)據(jù)自動(dòng)抽取的研究開始較晚。直到2001年 才有圖書情報(bào)界人十發(fā)文介紹國外的Web元
10、數(shù)據(jù)自動(dòng)生成工具;2003年沒有相 關(guān)論文發(fā)表;2008年元數(shù)據(jù)抽取相關(guān)論文最多。進(jìn)入21世紀(jì)以來,我國關(guān)于這 方面的研究一直處在穩(wěn)步前進(jìn)狀態(tài)、但一直沒有成為學(xué)術(shù)界的研究熱點(diǎn)。不過, 2008年的數(shù)量翻倍(雖然總數(shù)量依然很低)是一個(gè)好的跡象,表明這方面的研究 已經(jīng)引起了更多人的關(guān)注。我國有關(guān)元數(shù)據(jù)的研究起步較晚,在元數(shù)據(jù)的自動(dòng)抽取方面的研究也是如此。 對于國外元數(shù)據(jù)自動(dòng)抽取技術(shù)和工具的介紹開辟了我國元數(shù)據(jù)自動(dòng)抽取的研究。 有關(guān)這方面的論文有兩篇:一篇是中山大學(xué)圖書館的賀亞鋒發(fā)表在圖書館雜志 上的Web站點(diǎn)元數(shù)據(jù)自動(dòng)生成工具介紹(2001),另一篇是常娥等人的元數(shù) 據(jù)自動(dòng)生成技術(shù)研究(2006)
11、。目前,Web站點(diǎn)元數(shù)據(jù)自動(dòng)生成工具可以分為編輯器和生成器兩種,前者有英 國ROADS計(jì)劃的元數(shù)據(jù)編輯工具,后者有澳大利亞MWP計(jì)劃的元數(shù)據(jù)生成工具。 國外在元數(shù)據(jù)自動(dòng)生成方面的項(xiàng)目有MGR,MWP和WWLIB。較有名的元數(shù)據(jù)自動(dòng) 生成工具有Klarity. DC. dot和CORC系統(tǒng)。雖然它們自動(dòng)生成元數(shù)據(jù)項(xiàng)的數(shù)量 有限,并且質(zhì)量不高,但它們的出現(xiàn)意味著元數(shù)據(jù)的自動(dòng)生成并非可望而不可及。 此外,進(jìn)行自然語言處理和語義網(wǎng)研究的學(xué)者也參與了這項(xiàng)研究,如Giuffrida 等人采用基于規(guī)則的模式匹配方法.嘗試從PostScript格式的學(xué)術(shù)會議論文中 抽取元數(shù)據(jù)。第二章PDF文件結(jié)構(gòu)和解析2.1
12、 PDF文件的基本組成一個(gè)PDF文件從大的方面來說分4個(gè)部分:文件頭,指明了該文件所遵從的PDF規(guī)范的版本號,它出現(xiàn)在PDF文的第 一行。文件體,PDF文件的主要部分,由一系列對象組成。交叉引用表,為了能對間接對象進(jìn)行隨機(jī)存取而設(shè)立的一個(gè)間接對象的地址 索引表。文件尾,聲明了交叉引用表的地址,即指明了文件體的根對象(Catalog), 從而能夠找到PDF文件中各個(gè)對象體的位置,達(dá)到隨機(jī)訪問。另外還保存了 PDF 文件的加密等。如圖1:圖1 PDF文件基本組成2.2 PDF文檔的邏輯結(jié)構(gòu)作為一種結(jié)構(gòu)化的文件格式,一個(gè)PDF文檔是由一些稱為“對象”的模塊組成 的。并且每個(gè)對象都有數(shù)字標(biāo)號,這樣的話
13、可以這些對象就可以北其他的對象所 引用。這些對象不需要按照順序出現(xiàn)在PDF文檔里面,出現(xiàn)的順序可以是任意的, 比如一個(gè)PDF文件有3頁,第3頁可以出現(xiàn)在第一頁以前,對象按照順序出現(xiàn)唯 一的好處就是能夠增加文件的可讀性,因?yàn)轫撆c頁之間的不相關(guān)性,就可以對 PDF文件的頁碼進(jìn)行隨機(jī)的訪問。文件尾(Trail),說明根對象的對象號,并且說明交叉引用表的位置,通過對交 叉引用表的查詢可以目錄對象(Catalog) o這個(gè)目錄對象是該P(yáng)DF文檔的根對 象,包含PDF文檔的大綱(outline)和頁面組對象(pages)引用。大綱對象是指 PDF文件的書簽樹;頁面組對象(pages)包含該文件的頁面數(shù),各
14、個(gè)頁面對象 (page)的對象號。一個(gè)PDF文檔有圖2所示的層次關(guān)系:/Root /Info/Pages/OutlinesPagesRootOutlineRootPago TreeOutlinw Entry(Bookmark)Outline TreeOutline Entry(Bookmark)圖2 PDF文檔層次關(guān)系頁面(page)對象作為PDF中最重要的對象,包含如何顯示該頁面的信息,例 如使用的字體,包含的內(nèi)容(文字,圖片等),頁面的大小。當(dāng)然里面的子項(xiàng)也 可以是其他對象的引用。頁面中包含的信息是包含在一個(gè)稱為流(stream)的對象里,這個(gè)流的長度(字 節(jié)數(shù))必須直接給出或指向另外一個(gè)
15、對象。如圖3:Thumbnail Contonts Fonts (display lists) -Typ 1X Objects -Images -Form*-Type 3 -Fori -TrueType .Multiple MasterProcMts (for PostScript printing)圖3頁面信息指向另一對象2.3 PDF解析基本語法文件的第一行是文件頭,指明了該文件所遵從的PDF規(guī)范的版本號,它出現(xiàn)在 PDF文件的第一行。一個(gè)對象的第一行一般有兩個(gè)數(shù)字和關(guān)鍵字“obj”。例如:0 objendobj第一個(gè)數(shù)字稱為對象號,來唯一標(biāo)識一個(gè)對象的,第二個(gè)是產(chǎn)生號,是來表明 它在被創(chuàng)
16、建后的第幾次修改,所有新創(chuàng)建的PDF文件的對象號應(yīng)該都是0,即 第一次被創(chuàng)建以后沒有被修改過。上面的例子就說明該對象的對象號是3,而且 創(chuàng)建后沒有被修改過。對象的內(nèi)容應(yīng)該是包含在 和之間的,最后以關(guān)鍵字 endobj 結(jié)束。%PDF-1.0文件頭,說明符合PDF1.0規(guī)范0 objendobjCatalog對象(根對象)0 objendobjoutline對象(此處它的計(jì)數(shù)為0,說明沒有書簽)0 objendobjpages對象(頁面組對象),/Type /Pages說明自身的屬性,對象的類型為頁碼, /Count 1說明頁碼數(shù)量為1, /Kids 4 0 R說明頁的對象為4,這里要說明的 是
17、如果有多個(gè)頁面,就多個(gè)頁面直接連續(xù)下去,比如說/Kids 40R100R,就 說明該P(yáng)DF的第一頁的對象號是4,第二頁的對象號是10。0 obj/Type /Page/Parent 3 0 R/Resources /Font /ProcSet 6 0 R /MediaBox 0 0 612 792/Contents 5 0 Rendobj頁對象,/Parent 3 0 R說明其父對象的對象號為3, /Resources /Font /ProcSet6 0 R 說明該頁所要包含的資源,包括字體和內(nèi)容的類型, /MediaBox 0 0 612 792說明頁面的顯示大?。ㄒ韵笏貫閱挝唬?,/Cont
18、ents 5 0 R說明頁面內(nèi)容對象的對象號為5。0 objstreamBT/F1 24 Tf100 100 Td (Hello World) TjETendstreamendobj /Length 44 ”說明stream對象為字節(jié)數(shù),從BT開始,ET結(jié)束,包括中 間的行結(jié)束符。Stream說明一個(gè)流對象的開始。BT說明一個(gè)文字對象的開始。 /F1 24 Tf,Tf說明True font對象,字體明為F1,大小為24個(gè)象素。100 150 Td (Hello World) Tj,100 100說明這一行文字放置的位置,對于Td, 我們可以這樣理解,我們的當(dāng)前X,Y坐標(biāo)分別加上100和150就
19、是文本的位 置,因?yàn)樵谠摾又兄挥幸粋€(gè)對象,那么它的位置就是(100,150),如果下個(gè)對 象位置信息為100, 50 Td,那么它的位置應(yīng)該就是(100+100, 150+50)也就是 (200,200)。(Hello World) Tj說明文本的內(nèi)容,當(dāng)然,如果這里是文本的內(nèi)容可以寫成16進(jìn)制,用包含。ET說明文字對象的結(jié)束 endstream流對象的結(jié)束。0 obj/PDF /TextEndobj/PDF /Text說明PDF的內(nèi)容類型僅僅為文本,如果有圖片則為/PDF/Image。0 objendobj字體對象,不再多作解釋。所有的對象之后是下面的交叉引用表:xref0 8000000
20、0000 65535 f0000000009 00000 n0000000074 00000 n0000000120 00000 n0000000179 00000 n0000000322 00000 n0000000415 00000 n0000000445 00000 nxref說明一個(gè)交叉引用表的開始,交叉引用表的第一行0 8說明下面各行所描 述的對象號是從0開始,并且有8個(gè)對象。0000000000 65535 f,一般每個(gè)PDF文件都是以這一行開始交叉應(yīng)用表的,說明 對象0的起始地址為0000000000,產(chǎn)生號(generation number)為65535,也 是最大產(chǎn)生號,不
21、可以再進(jìn)行更改,而且最后對象的表示是 f,表明該對象為 free,其實(shí)這個(gè)對象可以看作是文件頭。0000000009 00000 n 就是表示對象 1,也就是 catalog 對象了,0000000009 是 其偏移地址,00000為5位產(chǎn)生號(最大為65535),0表明該對象未被修改過,n表示該對象在使用,區(qū)別與自由對象,不可以更改。Trailerstartxref553%EOFtrailer說明文件尾trailer對象的開始。/Size 8說明該P(yáng)DF文件的對象數(shù)目。/Root 1 0 R說明根對象的對象號為1。Startxref 553說明交叉引用表的偏移地址,從而可以找到PDF文檔中所
22、有的對 象的相對地址,進(jìn)而訪問對象。%EOF為文件結(jié)束標(biāo)志。2.4 PDF解析過程第三章語義元數(shù)據(jù)抽取設(shè)計(jì)的實(shí)現(xiàn)3.1 PDF文件解析從文件尾中找到屬性標(biāo)簽/Root取得其后的間接對象號,這個(gè)對象號標(biāo)識 了文檔根對象的位置,是整個(gè)正文內(nèi)容的入口 ;轉(zhuǎn)入文檔根對象,其標(biāo)識為/Type /Catalog,在其中尋找屬性標(biāo)簽/Pages, 取得其后的間接對象號,這個(gè)對象號標(biāo)識了文檔頁根對象的位置;轉(zhuǎn)入文檔頁根對象,其標(biāo)識為/Type /Pages,在其中尋找屬性標(biāo)簽/Kids,取 得其后的第一個(gè)間接對象號,這個(gè)對象號或者標(biāo)識了文件第一頁的對象位置,或 者仍然是頁根對象。如果情況為后者,則仍然執(zhí)行步驟
23、(3),否則執(zhí)行步驟(4);轉(zhuǎn)入文檔頁對象,其標(biāo)識為/Type /Page,在其中尋找屬性標(biāo)簽/Contents, 如果找不到Contents標(biāo)簽,則說明此頁內(nèi)容為空,否則取得其后的全部間接對 象號,并以先序深度優(yōu)先的順序按步驟(5)依次處理這些內(nèi)容對象;轉(zhuǎn)入內(nèi)容對象,提取/Filter標(biāo)簽后的解碼名,并將Stream與Endstream之 間的內(nèi)容流存入一個(gè)字節(jié)數(shù)組中。在源代碼中,字節(jié)數(shù)組顯示的內(nèi)容流為亂碼, 需要對其進(jìn)行解碼處理。PDFBox開源軟件包中的Filer包提供了有關(guān)解碼的方 法,根據(jù)解碼名調(diào)用相應(yīng)的解碼方法,可以獲得解碼后的內(nèi)容流。將所有內(nèi)容對象的解碼流連接起來,組成第一頁的內(nèi)
24、容流。圖5顯示了某中文科技論文的文件頭信息,圖6顯示了其解碼后 的部分內(nèi)容流。圖五一個(gè)PDF格式的科技論文的文件頭信息心 it.a r* w.a til-* it/II II, ii Hi idI i t n rfi n -*sfi n r J 11 - UM 11. left 11 -* i h iiIHl機(jī)廈虹,L虎H TJ/f l VD. t 5W.tflKli1tjCl圖六 解碼后部分內(nèi)容流文本對象:以BT操作符開始,以ET操作符結(jié)束,其內(nèi)容既包括文本信息, 也包括字體、位置等格式的信息;字體信息:Tf操作符用來設(shè)置字體信息,第一個(gè)參數(shù)描述字體名稱,第二個(gè) 參數(shù)描述字體大小,值越大,說
25、明字體越大,反之則越小。另外,英文的PDF文件習(xí) 慣將Tf的第二個(gè)參數(shù)值設(shè)為1.0,此時(shí)要從Tm操作符獲得字體信息。Tm操作符共有6個(gè)參數(shù),其中第一個(gè)參數(shù)基本上反映了字體大??;位置信息:PDF文件將打印區(qū)的左下角設(shè)置為打印原點(diǎn),y軸正方向朝上,x 軸正方向朝右。Td /TD操作符可以設(shè)置文本行的位置,第一個(gè)參數(shù)描述當(dāng)前行的 水平位移,第二個(gè)參數(shù)描述當(dāng)前行的垂直位移;3.2內(nèi)容元數(shù)據(jù)抽取分析科技論文是自由格式的文本組合,不同的出版商在論文排版方面有著不同的規(guī) 定,這就決定了內(nèi)容元數(shù)據(jù)的自動(dòng)抽取具有一定的難度。但論文信息的組織仍有 一定的規(guī)律可尋,經(jīng)研究發(fā)現(xiàn),大部分論文的框架都可以分為以下6個(gè)部分
26、:標(biāo)題 (可以有副標(biāo)題);作者及相關(guān)信息(可以有多個(gè));摘要;關(guān)鍵詞(可以沒有, 英文文章不太注重關(guān)鍵字);文章主體;參考文獻(xiàn)。從抽取的角度看,主要關(guān)心的是 前4部分,因?yàn)樗鼈兓竞w了整篇論文的主要內(nèi)容。另外,前4部分基本上都出 現(xiàn)在論文的第一頁,所以為了提高抽取效率,在實(shí)際處理過程中僅對PDF文件的 第一頁進(jìn)行解析。(1)標(biāo)題的抽取標(biāo)題一般沒有什么固定的位置,比如有些文章可能包含頁眉信息,此時(shí)標(biāo)題會 出現(xiàn)在頁眉以下;有些文章可能沒有頁眉信息,此時(shí)標(biāo)題會出現(xiàn)在文章的第一行。 另外,科技論文的研究領(lǐng)域涉及方方面面,因此標(biāo)題也沒有一個(gè)專用名詞供識別。 不過,絕大多數(shù)文章標(biāo)題的字體都是整篇文章中最
27、大的,因此可以根據(jù)標(biāo)題的這 一特征來定位和抽取。具體實(shí)現(xiàn)中,通過掃描整個(gè)內(nèi)容字符串,尋找所有Tf操作符并獲得第二個(gè)參數(shù) 的值,比較得出最大者。如果所有Tf操作符的第二個(gè)參數(shù)值均為1. 0,此時(shí)尋找 所有的Tm操作符并比較得出第一個(gè)參數(shù)值中的最大者。對應(yīng)Td /TD操作符位置 上的文本串就是標(biāo)題。有些文章可能會有副標(biāo)題,副標(biāo)題的字體一般都比標(biāo)題小,而且位于標(biāo)題以下, 另外,對于中文文章,副標(biāo)題一般會以破折號“一一”開始。(2)作者名的抽取作者名的抽取工作最為復(fù)雜,因?yàn)椴煌墨I(xiàn)處理作者及相關(guān)信息的排版方式種 類繁多,而且中英文文獻(xiàn)略有差異??傮w來說,作者名通常位于標(biāo)題的下方、 地址或郵件等的上方,可能會有一個(gè)或多個(gè)作者,但大多會在一行排列。中文文章 伴隨作者名的通常有作者單位信息,放在一對圓括號中,而英文文章伴隨作者名 的有作者單位信息,或者還有E -mail信息。因此,在具體實(shí)現(xiàn)中,首先定位標(biāo)題, 如果標(biāo)題以后不是副標(biāo)題,那么就可以抽取作者信息了。但是怎樣判斷抽取結(jié)束 呢?可以考慮下面幾種情況:下一行是否以左括號開始;下一行中是否含有標(biāo)識作者單位的名詞,如Department、Center、School、University、Institute 等;下一行中是否含有標(biāo)識作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024綿陽二零二四年度租賃合同解除指南3篇
- 二零二五年度國際貿(mào)易數(shù)據(jù)安全及隱私保護(hù)合同3篇
- 2024年電子商務(wù)平臺服務(wù)合同(乙方版)
- 2024版房地產(chǎn)監(jiān)理協(xié)議條款版
- 2025年中國半導(dǎo)體第三方檢測行業(yè)市場集中度、市場規(guī)模及未來前景分析報(bào)告
- 2024男女同居分手合同
- 2025年度勞動(dòng)合同續(xù)簽與員工激勵(lì)方案協(xié)議3篇
- 2024物業(yè)服務(wù)公司承擔(dān)物業(yè)管理工作合同
- 無人化農(nóng)場項(xiàng)目立項(xiàng)報(bào)告
- 2024年浙教版選擇性必修3生物下冊月考試卷
- 民用無人駕駛航空器產(chǎn)品標(biāo)識要求
- 2025年上半年河南省西峽縣部分事業(yè)單位招考易考易錯(cuò)模擬試題(共500題)試卷后附參考答案-1
- 深交所創(chuàng)業(yè)板注冊制發(fā)行上市審核動(dòng)態(tài)(2020-2022)
- 手術(shù)室護(hù)理組長競聘
- 電力系統(tǒng)繼電保護(hù)試題以及答案(二)
- 小學(xué)生防打架斗毆安全教育
- 2024年醫(yī)院產(chǎn)科工作計(jì)劃例文(4篇)
- 2024-2025學(xué)年九年級英語上學(xué)期期末真題復(fù)習(xí) 專題09 單詞拼寫(安徽專用)
- 網(wǎng)絡(luò)運(yùn)營代銷合同范例
- 江西省贛州市尋烏縣2023-2024學(xué)年八年級上學(xué)期期末檢測數(shù)學(xué)試卷(含解析)
- 2024年新人教版七年級上冊歷史 第14課 絲綢之路的開通與經(jīng)營西域
評論
0/150
提交評論