人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究_第1頁(yè)
人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究_第2頁(yè)
人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究_第3頁(yè)
人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究_第4頁(yè)
人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究 基金項(xiàng)目國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目“人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)規(guī)范化管理研究”(項(xiàng)目編號(hào))。 作者簡(jiǎn)介劉雨農(nóng)(),男,博士研究生,研究方向智慧城市、社會(huì)網(wǎng)絡(luò)。 吳柯燁(),男,碩士研究生,研究方向自然語(yǔ)言處理。 權(quán)昭瑄(),男,碩士研究生,研究方向金融大數(shù)據(jù)。 專(zhuān)題人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究劉雨農(nóng)吳柯燁權(quán)昭瑄(南京大學(xué)信息管理學(xué)院,江蘇南京)摘要目的意義探索一種融入數(shù)據(jù)驅(qū)動(dòng)思維的人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)主題選擇方法,為相關(guān)主體在建庫(kù)主題的遴選、比較和確定等工作提供決策參考。 方法過(guò)程從政策、用戶(hù)兩個(gè)維度出發(fā),提出基于政策文本與檢索數(shù)據(jù)的人文社科專(zhuān)題數(shù)據(jù)庫(kù)主題篩選框架。 以平臺(tái)為例,基于政策文本主題分類(lèi)建模和檢索數(shù)據(jù)的詞頻統(tǒng)計(jì)歸類(lèi),確定專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)備選主題,最后通過(guò)比對(duì)篩選將主題進(jìn)行分類(lèi)。 結(jié)果結(jié)論本文構(gòu)建的主題選擇框架,能夠有效提升相關(guān)主題選擇工作的全面性、準(zhǔn)確性、科學(xué)性,為人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的項(xiàng)目規(guī)劃等提供了良好的思路。 關(guān)鍵詞人文社科;專(zhuān)題數(shù)據(jù)庫(kù);主題選擇;?()(,),?,;專(zhuān)題數(shù)據(jù)庫(kù)是針對(duì)用戶(hù)信息需求,對(duì)某一專(zhuān)題的信息進(jìn)行收集、分析、處理、存儲(chǔ)并按一定的標(biāo)準(zhǔn)和規(guī)范將其數(shù)字化的信息資源庫(kù)。 在人文社科領(lǐng)域,專(zhuān)題數(shù)據(jù)庫(kù)已成為各學(xué)科數(shù)字化轉(zhuǎn)型的基礎(chǔ)性工作,在數(shù)據(jù)資源開(kāi)發(fā)、科研內(nèi)容創(chuàng)新、科研方法支持等方面提供了有力支持。 近年來(lái),在國(guó)家政策支持和現(xiàn)實(shí)需求的雙重作用下,我國(guó)建成了一系列人文社科專(zhuān)題數(shù)據(jù)庫(kù),涉及哲學(xué)、歷史、藝術(shù)、文化等眾多科學(xué)領(lǐng)域,有力地促進(jìn)了人文遺產(chǎn)和社會(huì)記錄的保存與傳播,也有效支持了相關(guān)學(xué)科的研究工作。 主題的選擇與論證是專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的起點(diǎn)和年月第卷第期現(xiàn)代情報(bào),?開(kāi)始,決定了專(zhuān)題數(shù)據(jù)庫(kù)的建設(shè)方向和建設(shè)效果。 然而,過(guò)去人文社科專(zhuān)題數(shù)據(jù)庫(kù)的主題選擇方式主要依靠建庫(kù)主體的資源優(yōu)勢(shì)和決策者的經(jīng)驗(yàn)判斷,難以全面回應(yīng)多方面的需求,進(jìn)而限制了專(zhuān)題數(shù)據(jù)庫(kù)的功能實(shí)現(xiàn)以及進(jìn)一步的服務(wù)延伸。 為此,本文提出了一種新的主題選擇框架,通過(guò)對(duì)客觀文本和行為數(shù)據(jù)的科學(xué)分析支持人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè),以期避免主觀性、單一化決策帶來(lái)的弊端,提高專(zhuān)題數(shù)據(jù)庫(kù)主題選擇的全面性、準(zhǔn)確性與科學(xué)性。 文獻(xiàn)綜述隨著數(shù)字人文和社會(huì)計(jì)算的推進(jìn),人文社科領(lǐng)域?qū)π畔①Y源保障提出了更高的要求,專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的理論和方法成為信息管理及相關(guān)人文社科學(xué)科的重要研究話題。 目前,雖然針對(duì)主題選擇的專(zhuān)門(mén)性研究仍不多見(jiàn),但在數(shù)據(jù)庫(kù)建設(shè)的綜合性研究中已被大量提及,主要涉及以下個(gè)方面?專(zhuān)題數(shù)據(jù)庫(kù)主題分布描述經(jīng)過(guò)多年發(fā)展,國(guó)內(nèi)外建立起大量人文社科專(zhuān)題數(shù)據(jù)庫(kù),主題涵蓋了歷史、經(jīng)濟(jì)、文化等眾多學(xué)科。 部分學(xué)者對(duì)現(xiàn)有數(shù)據(jù)庫(kù)主體分布進(jìn)行了調(diào)查研究,如劉青等以州為單位,調(diào)查了美國(guó)特色數(shù)據(jù)庫(kù)建設(shè)狀況,并將其主題歸納為政治與政策、軍事和戰(zhàn)爭(zhēng)、法律和法規(guī)、經(jīng)濟(jì)與就業(yè)等個(gè)方面,同時(shí)指出,文化娛樂(lè)類(lèi)專(zhuān)題數(shù)據(jù)庫(kù)在全美州立圖書(shū)館中占比最大。 何小月等將專(zhuān)題數(shù)據(jù)庫(kù)主題內(nèi)容劃分為學(xué)科專(zhuān)業(yè)、地域特色、名人特藏等個(gè)方面,同時(shí)選擇了中美所高校的自建數(shù)據(jù)庫(kù)進(jìn)行橫向?qū)Ρ龋赋鰃uo內(nèi)高校在學(xué)科專(zhuān)業(yè)和地域特色類(lèi)數(shù)據(jù)庫(kù)建設(shè)存在短板。 鄂麗君將調(diào)查樣本擴(kuò)展至我國(guó)所有“工程”高校后得出了相反結(jié)論,認(rèn)為學(xué)科特色和學(xué)校特色資源項(xiàng)目占總數(shù)比超過(guò)。 此外,陳欽明等同樣針對(duì)不同性質(zhì)的專(zhuān)題數(shù)據(jù)庫(kù)主題分布進(jìn)行了歸納。 這些研究盡管在專(zhuān)題數(shù)據(jù)庫(kù)主題劃分視角和劃分粒度上存在差別,但是有助于明確人文社科專(zhuān)題數(shù)據(jù)庫(kù)的建設(shè)現(xiàn)狀和定位,能夠?yàn)槠渌麑?zhuān)題數(shù)據(jù)庫(kù)建設(shè)主題選擇提供參考。 ?專(zhuān)題數(shù)據(jù)庫(kù)主題選擇基本原則對(duì)于人文社科專(zhuān)題數(shù)據(jù)庫(kù)在實(shí)際建庫(kù)過(guò)程中產(chǎn)生的各類(lèi)問(wèn)題,部分學(xué)者從建庫(kù)流程的角度進(jìn)行探討,認(rèn)為主題選擇的不科學(xué)、不合理是這些問(wèn)題產(chǎn)生的重要原因之一,并以此提出了一系列主題選擇原則。 王昶認(rèn)為,專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)是一項(xiàng)長(zhǎng)期工作,主題選擇應(yīng)注重長(zhǎng)期規(guī)劃性和可持續(xù)性,以長(zhǎng)遠(yuǎn)眼光和思路,根據(jù)現(xiàn)有條件選擇符合實(shí)際狀況的、成體系的特色主題。 劉青等提出主題內(nèi)容廣博化原則,認(rèn)為專(zhuān)題數(shù)據(jù)庫(kù)主題劃分和內(nèi)容深度上盡管存在差異,但應(yīng)通過(guò)統(tǒng)一平臺(tái)的整合,為用戶(hù)提供全方位多系統(tǒng)的資源和信息服務(wù)。 徐大平等認(rèn)為地方特色專(zhuān)題數(shù)據(jù)庫(kù)的主題選擇重點(diǎn)在于突出地方文化特色、體現(xiàn)地方文獻(xiàn)特色,并提出了成系列小主題選擇、科學(xué)性和實(shí)用性個(gè)原則。 總體來(lái)說(shuō),這些原則可歸納為點(diǎn)第一,以需求為導(dǎo)向,能夠切實(shí)滿(mǎn)足用戶(hù)長(zhǎng)時(shí)期的信息資源需求;第二,突出特色性,力求避免在內(nèi)容上同其他數(shù)據(jù)庫(kù)的交叉和重復(fù);第三,具有可操作性,根據(jù)信息資源體量和人力、資金等實(shí)際情況確定主題選擇粒度,保證數(shù)據(jù)庫(kù)質(zhì)量。 ?專(zhuān)題數(shù)據(jù)庫(kù)主題選擇方法與過(guò)程相對(duì)于專(zhuān)題數(shù)據(jù)庫(kù)主題選擇原則,已有研究很少涉及具體的主題選擇方法。 王昶提出了專(zhuān)題數(shù)據(jù)庫(kù)主題選擇策劃工作的步流程第一,開(kāi)展廣泛的調(diào)查研究,初定主題選擇方向;第二,開(kāi)展專(zhuān)家評(píng)議和讀者調(diào)研,確定主題選擇的可行性;第三,考察建庫(kù)資源與技術(shù)水平,明確主題選擇內(nèi)容。 任航等對(duì)長(zhǎng)春市若干高等院校的在校藝術(shù)生進(jìn)行了問(wèn)卷調(diào)查,通過(guò)需求情況確定數(shù)據(jù)庫(kù)主題選擇。 可以看到,當(dāng)前專(zhuān)題數(shù)據(jù)庫(kù)的主題選擇方法依然以專(zhuān)家論證和問(wèn)卷調(diào)查等方式為主,最終決策仍然依賴(lài)于決策者的經(jīng)驗(yàn)判斷。 綜上所述,已有研究充分重視了主題選擇對(duì)專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的重要作用,為專(zhuān)題數(shù)據(jù)庫(kù)主題選擇明確了原則和方向,提供了良好的思路和方法。 然而,現(xiàn)有研究成果依然存在一定不足第一,研究大多集中于宏觀層面的原則性方針,在數(shù)據(jù)庫(kù)建設(shè)的實(shí)際過(guò)程中很難轉(zhuǎn)化為直接的、具體的行動(dòng)方案,可操作性存在一定限制;第二,方法上依然以用戶(hù)調(diào)查和專(zhuān)家咨詢(xún)?yōu)橹?,帶有較強(qiáng)的主觀性,難以保證決策的科學(xué)性;第三,并未考慮不同性質(zhì)的主體在數(shù)據(jù)庫(kù)建設(shè)中的動(dòng)機(jī)差異。 在大數(shù)據(jù)、智慧年月第卷第期人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究,?數(shù)據(jù)的背景下,面對(duì)高速增長(zhǎng)的數(shù)據(jù)存量和復(fù)雜化的信息需求,應(yīng)在原則性、經(jīng)驗(yàn)性探索的基礎(chǔ)上,充分發(fā)揮數(shù)據(jù)分析等技術(shù)和方法的重要作用,為數(shù)據(jù)庫(kù)建設(shè)主體的建庫(kù)決策提供支持和參考。 人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)主題選擇模型構(gòu)建本文通過(guò)前期多地、多主體訪談?wù){(diào)研,確定了專(zhuān)題數(shù)據(jù)庫(kù)國(guó)家需求和用戶(hù)需求的主方向,并以客觀數(shù)據(jù)為基礎(chǔ),構(gòu)建人文社科專(zhuān)題數(shù)據(jù)庫(kù)主題選擇框架,以期為相關(guān)決策提供支持。 模型建構(gòu)路線如圖所示第一,從政務(wù)公開(kāi)平臺(tái)中,獲取國(guó)家相關(guān)部門(mén)政策文本全文,并進(jìn)行文本預(yù)處理。 同時(shí)從信息服務(wù)商檢索系統(tǒng)后臺(tái)獲取特定時(shí)間段的用戶(hù)檢索數(shù)據(jù),篩選有效檢索語(yǔ)句;第二,提取政策文本中的實(shí)意性名詞,并進(jìn)行主題建模,形成若干備選主題;第三,將采集到的檢索語(yǔ)句分別提取關(guān)鍵詞,利用算法同機(jī)構(gòu)已有文獻(xiàn)資源進(jìn)行匹配,通過(guò)排序和歸納篩選出備選主題詞;第四,綜合比對(duì)結(jié)果,對(duì)結(jié)果進(jìn)行分類(lèi)。 圖人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)主題選擇框架?需求調(diào)研與分析滿(mǎn)足不同層面、不同對(duì)象的信息需求是數(shù)據(jù)庫(kù)長(zhǎng)期建設(shè)運(yùn)營(yíng)和持續(xù)發(fā)展的核心動(dòng)力。 對(duì)于對(duì)象群體復(fù)雜、數(shù)據(jù)形式多樣的人文社科領(lǐng)域,專(zhuān)題數(shù)據(jù)庫(kù)的主題選擇更應(yīng)以需求為導(dǎo)向。 不同性質(zhì)的建庫(kù)主體由于機(jī)構(gòu)職能、服務(wù)對(duì)象等方面存在差異,專(zhuān)題數(shù)據(jù)庫(kù)產(chǎn)品的需求內(nèi)容和重心也存在顯著區(qū)分。 如公共機(jī)構(gòu)建設(shè)的專(zhuān)題數(shù)據(jù)庫(kù)普遍重視公共需求,為國(guó)家發(fā)展戰(zhàn)略和公益事業(yè)提供支持;而商業(yè)性專(zhuān)題數(shù)據(jù)庫(kù)則更加側(cè)重于通過(guò)滿(mǎn)足用戶(hù)使用需求來(lái)擴(kuò)大市場(chǎng),實(shí)現(xiàn)自身盈利和發(fā)展。 對(duì)此,本文將人文社科專(zhuān)題數(shù)據(jù)庫(kù)需求歸納為兩個(gè)層面第一,宏觀層面的國(guó)家社會(huì)需求。 人文社科專(zhuān)題數(shù)據(jù)庫(kù)通常需要承擔(dān)部分國(guó)家、社會(huì)層面的宏觀需求,如為國(guó)家重大戰(zhàn)略部署提供數(shù)據(jù)支撐、對(duì)非物質(zhì)文化遺產(chǎn)進(jìn)行保護(hù)與搶救、弘揚(yáng)優(yōu)秀歷史文化傳統(tǒng)、紀(jì)念特殊事件等。 尤其是對(duì)于公共性質(zhì)的建庫(kù)主體,更應(yīng)在宏觀戰(zhàn)略需求的背景下,有針對(duì)性地規(guī)劃專(zhuān)題數(shù)據(jù)庫(kù)建設(shè),為相關(guān)政策提供有效支持。 政策文本是政府相關(guān)部門(mén)為了實(shí)現(xiàn)特定要求,以權(quán)威形式頒布的文件,是國(guó)家、社會(huì)需求最直觀的表達(dá)和體現(xiàn)。 在政府政務(wù)全面公開(kāi)、自然語(yǔ)言處理技術(shù)快速發(fā)展的背景下,大批量政策文本的開(kāi)放獲取和深度挖掘已具備可行性。 對(duì)此,本文通過(guò)挖掘政策文本內(nèi)容,實(shí)現(xiàn)宏觀需求的分析。 第二,微觀層面的用戶(hù)使用需求。 作為人文社科專(zhuān)題數(shù)據(jù)庫(kù)的直接使用者,用戶(hù)的需求相對(duì)具體和明確。 如科研人員對(duì)特定專(zhuān)題領(lǐng)域資料的集中需求,公眾對(duì)某一主題知識(shí)的學(xué)習(xí)興趣等。 但由于不同用戶(hù)使用動(dòng)機(jī)、需求粒度、表達(dá)方式等存在差異,此類(lèi)需求較為多元,調(diào)查和識(shí)別的難度較高。 對(duì)于用戶(hù)使用需求,過(guò)去一般采取問(wèn)卷、訪談等方式,在調(diào)查對(duì)象規(guī)模和代表性上存在一定限制。 當(dāng)前,由于人文社科領(lǐng)域的信息爆炸式增長(zhǎng)和碎片化分布加深了信息的獲取難度,搜索引擎逐步成為用戶(hù)對(duì)于信息搜尋的主要工具。 對(duì)此,本文以搜索引擎中的檢索記錄衡量用戶(hù)的實(shí)際需求。 ?基于的政策主題生成(,隱含狄利克雷函數(shù))模型是一種文檔生成模型,即包含詞、主題、文檔三層結(jié)構(gòu)的貝葉斯模型。 該模型通過(guò)將文檔詞匯矩陣轉(zhuǎn)化為文檔主題矩陣和主題詞匯矩陣來(lái)實(shí)現(xiàn)主題的識(shí)別與生成。 作為一種非監(jiān)督的機(jī)器學(xué)習(xí)方法,在大規(guī)模文檔中能夠有效實(shí)現(xiàn)主題識(shí)別任務(wù)。 簡(jiǎn)要來(lái)說(shuō),主題生年月第卷第期現(xiàn)代情報(bào),?成過(guò)程可分為個(gè)步驟,首先對(duì)語(yǔ)料庫(kù)中的每一篇文檔,從主題分布中抽取一個(gè)主題,其次對(duì)所抽取主題中所對(duì)應(yīng)的詞分布中抽取一個(gè)詞語(yǔ),最后充分闡述過(guò)程直至實(shí)現(xiàn)所有文檔和所有單詞的遍歷。 如圖表示。 圖模型示意圖?基于算法的資源匹配特定主題的人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)必須以充足的信息資源作為基礎(chǔ)保障。 尤其是對(duì)于檢索關(guān)鍵詞,必須同資源儲(chǔ)備進(jìn)行匹配,判斷其是否具備專(zhuān)題開(kāi)發(fā)條件。 本文基于算法,通過(guò)計(jì)算、排序每個(gè)檢索詞的得分,實(shí)現(xiàn)主題關(guān)鍵詞進(jìn)行二次篩選。 是二元獨(dú)立模型的拓展形式之一。 作為一種相關(guān)性排序函數(shù),模型根據(jù)計(jì)算給定檢索詞與文檔的相關(guān)性得分并累加,進(jìn)而對(duì)匹配文檔進(jìn)行排序。 該模型由于算法設(shè)計(jì)較為靈活,被廣泛應(yīng)用于搜索引擎當(dāng)中。 范晨熙等通過(guò)將模型與開(kāi)源搜索框架結(jié)合,建立了相關(guān)度搜索模型,何喜軍等利用該模型,構(gòu)建了專(zhuān)利轉(zhuǎn)讓索引庫(kù)。 本文基于理論框架,對(duì)該模型進(jìn)行了拓展與應(yīng)用。 首先,對(duì)提取到的關(guān)鍵詞進(jìn)行語(yǔ)素解析,產(chǎn)生語(yǔ)素。 對(duì)于所有館藏資源的摘要文檔,計(jì)算每個(gè)語(yǔ)素與的相關(guān)性評(píng)分。 最后,將相對(duì)于的相關(guān)性得分加權(quán)并求和,最終得到與的相關(guān)性得分。 評(píng)分公式為(,)()()?其中,、為調(diào)節(jié)因子,是關(guān)鍵詞中出現(xiàn)的次數(shù),是的長(zhǎng)度,是資源庫(kù)中全部文檔的平均長(zhǎng)度。 此外,公式如下()()?()?其中,為貯藏文獻(xiàn)的所有文檔數(shù)量,()為包含了語(yǔ)素的文檔數(shù)。 根據(jù)公式,包含的文檔數(shù)越多,其權(quán)重越低。 實(shí)證研究?數(shù)據(jù)與實(shí)驗(yàn)環(huán)境本文從可測(cè)量角度出發(fā),以福建省為例,通過(guò)政策文本衡量國(guó)家需求,通過(guò)檢索數(shù)據(jù)反應(yīng)用戶(hù)需求。 由于國(guó)家各級(jí)政策發(fā)布機(jī)關(guān)單位數(shù)量龐大,內(nèi)容寬泛,本文僅選取國(guó)家文化與旅游部、福建省文化與旅游廳近年發(fā)布的各類(lèi)政策文本作為實(shí)證樣本,通過(guò)爬蟲(chóng)工具獲取原始文本后,手工剔除人事變動(dòng)、財(cái)務(wù)審計(jì)等管理類(lèi)文件,得到有效政策文本條。 檢索數(shù)據(jù)從(福建省高校數(shù)字圖書(shū)館)平臺(tái)后臺(tái)獲取,按照檢索排行降序順序,選擇人文社科相關(guān)的檢索條目,共計(jì)條,部分記錄如表。 平臺(tái)包含福建省所成員館,擁有完善的在線系統(tǒng)和穩(wěn)定的訪問(wèn)流量,檢索數(shù)據(jù)能夠反映出省域內(nèi)用戶(hù)的一般需求。 表部分檢索詞序號(hào)檢索類(lèi)型檢索詞匹配方式資料類(lèi)型檢索結(jié)果條數(shù)訪問(wèn)訪問(wèn)時(shí)間題名國(guó)際法中的歷史性權(quán)利研究前向匹配全部?題名吶喊前向匹配全部?題名金融工程前向匹配全部?年月第卷第期人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究,?表(續(xù))序號(hào)檢索類(lèi)型檢索詞匹配方式資料類(lèi)型檢索結(jié)果條數(shù)訪問(wèn)訪問(wèn)時(shí)間題名自然保護(hù)地管理分類(lèi)應(yīng)用指南前向匹配全部?題名自然保護(hù)地管理分類(lèi)應(yīng)用指南前向匹配全部?題名英語(yǔ)口語(yǔ)前向匹配全部?題名國(guó)際工程投融資前向匹配全部?題名戚繼光前向匹配全部?題名蘭登模糊匹配全部?題名牛津階模糊匹配全部?本文實(shí)驗(yàn)環(huán)境為、?、線程,內(nèi)容容量的機(jī),家用標(biāo)準(zhǔn)版位操作系統(tǒng)。 集成開(kāi)發(fā)環(huán)境為,部分功能基于語(yǔ)言編程,所用工具包包括、等。 ?政策文本數(shù)據(jù)處理模型需要對(duì)分類(lèi)數(shù)量進(jìn)行預(yù)先設(shè)定。 該數(shù)值一般采用困惑度確定,計(jì)算公式如下()()()()其中、分別指訓(xùn)練過(guò)的主題和測(cè)試集的各篇文檔。 分母是測(cè)試集中出現(xiàn)的所有詞。 一般來(lái)說(shuō),困惑度隨主題數(shù)增加而下降。 如圖所示,通過(guò)計(jì)算,當(dāng)值取時(shí),困惑度曲線下降趨勢(shì)趨近于穩(wěn)定,此時(shí)的取值為最佳數(shù)量。 圖困惑度曲線構(gòu)建模型以分析每一篇文章的話題分布,利用訓(xùn)練完的模型將政策文本轉(zhuǎn)化為話題分布函數(shù),并將文本主題向量與原文本合并,部分結(jié)果如圖所示。 最后,根據(jù)以上結(jié)果,輸出每個(gè)主題的前若干關(guān)鍵詞,并以窗口形式展示。 最終結(jié)果如圖所示。 圖文本話題概率分布(部分)年月第卷第期現(xiàn)代情報(bào),?圖主題分類(lèi)輸出結(jié)果圖主題分類(lèi)輸出結(jié)果?檢索記錄數(shù)據(jù)處理通過(guò)后臺(tái),選擇年檢索記錄,將輸出結(jié)果按照詞頻排序,選擇檢索次數(shù)大于的關(guān)鍵詞,并將非人文社科范疇的詞語(yǔ)剔除。 最后,將檢索詞與資源庫(kù)各類(lèi)文本文檔進(jìn)行匹配,篩選出命中詞匯。 部分結(jié)果如表所示。 年月第卷第期人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究,?圖主題分類(lèi)輸出結(jié)果圖主題分類(lèi)輸出結(jié)果不同于文本語(yǔ)料,檢索記錄多以單個(gè)檢索詞的形式表示,缺乏上下文語(yǔ)境,難以利用技術(shù)進(jìn)行主題識(shí)別。 由于數(shù)據(jù)總量相對(duì)較少,因此本文選擇人工方式判斷檢索詞語(yǔ)義,并進(jìn)行主題歸納。 ?備選主題分類(lèi)比對(duì)上述兩類(lèi)主題分類(lèi)結(jié)果,進(jìn)行匯總、比對(duì)年月第卷第期現(xiàn)代情報(bào),?表上半年人文社科檢索詞排行(部分)排名檢索詞排名檢索詞排名檢索詞排名檢索詞信息檢索百年孤獨(dú)追風(fēng)箏的人紅樓夢(mèng)平凡的世界微觀經(jīng)濟(jì)學(xué)考研英語(yǔ)三體小王子張愛(ài)玲心理學(xué)英語(yǔ)口語(yǔ)經(jīng)濟(jì)學(xué)原理運(yùn)籌學(xué)管理學(xué)活著牛津白夜行東野圭吾宏觀經(jīng)濟(jì)學(xué)計(jì)量經(jīng)濟(jì)學(xué)雅思圍城公務(wù)員大數(shù)據(jù)英語(yǔ)經(jīng)濟(jì)學(xué)挪威的森林和分類(lèi),最終形成類(lèi)備選主題。 )理想型主題選擇教育、互聯(lián)網(wǎng)與大數(shù)據(jù)通過(guò)比對(duì),此類(lèi)主題選擇內(nèi)容同時(shí)出現(xiàn)在政策主題和檢索主題分類(lèi)中。 意味著在現(xiàn)有資源的基礎(chǔ)上,能夠同時(shí)響應(yīng)國(guó)家和用戶(hù)需求,建議優(yōu)先作為專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)主題。 教育學(xué)與教育事業(yè)是人文社科領(lǐng)域的重要話題,大量職能部門(mén)均對(duì)教育事業(yè)發(fā)展進(jìn)行了專(zhuān)門(mén)性部署,尤其是紅色教育、傳統(tǒng)文化教育、人文素養(yǎng)教育等方面近年來(lái)獲得了極大關(guān)注。 在用戶(hù)層面,由于以高校圖書(shū)館聯(lián)盟為實(shí)證對(duì)象,用戶(hù)以高校學(xué)生為主,因此,數(shù)據(jù)庫(kù)建設(shè)主要回應(yīng)以備考或個(gè)人發(fā)展為目的的需求。 顯然,各類(lèi)人文社科教育需要大量專(zhuān)門(mén)性文獻(xiàn)資料為支撐,因此專(zhuān)門(mén)性數(shù)據(jù)庫(kù)建設(shè)勢(shì)在必行。 近年來(lái),互聯(lián)網(wǎng)與大數(shù)據(jù)為人文社科領(lǐng)域帶來(lái)了巨大的變革,尤其是網(wǎng)絡(luò)安全、電子政務(wù)、數(shù)據(jù)資產(chǎn)等議題正在引起相關(guān)部門(mén)的高度重視。 此外,大數(shù)據(jù)更是為人文社科領(lǐng)域的研究提供了新的契機(jī)和方法,從檢索數(shù)據(jù)來(lái)看,人文社科對(duì)于數(shù)據(jù)科學(xué)、編程語(yǔ)言、計(jì)算工具等方面的資料存在大量需求。 )政策導(dǎo)向型非物質(zhì)文化遺產(chǎn)、旅游此類(lèi)主題選擇通常側(cè)重于公共性建庫(kù)主體,能夠有效回應(yīng)國(guó)家政策要求,有助于發(fā)揮其公共文化服務(wù)等方面的職能。 非物質(zhì)文化遺產(chǎn)和旅游是人文社科專(zhuān)題數(shù)據(jù)庫(kù)的傳統(tǒng)主題選擇,從研究結(jié)果來(lái)看,非遺資源保護(hù)和旅游產(chǎn)業(yè)發(fā)展依然是當(dāng)前文化及相關(guān)部門(mén)的工作重心,從中央到地方均有大量政策部署。 在數(shù)據(jù)庫(kù)建設(shè)過(guò)程中,建庫(kù)主體可圍繞本地資源,進(jìn)行針對(duì)性的數(shù)據(jù)采集與加工,著力打造出具有地方特色的文化品牌。 同時(shí),不斷拓展數(shù)據(jù)庫(kù)的開(kāi)放程度,并開(kāi)展宣傳推廣工作,進(jìn)而服務(wù)于地方旅游產(chǎn)業(yè)。 )用戶(hù)導(dǎo)向型文學(xué)、經(jīng)濟(jì)學(xué)、語(yǔ)言此類(lèi)主題選擇能夠反映用戶(hù)的現(xiàn)實(shí)需求,具有良好的市場(chǎng)前景,一般來(lái)說(shuō)更加符合商業(yè)性的建庫(kù)主體性質(zhì),而對(duì)于高校、科研院所等實(shí)際科研需求也能做到有效回應(yīng)。 與政策導(dǎo)向不同,用戶(hù)需求更為多元,其影響因素也更加復(fù)雜。 在本文的實(shí)證研究中,用戶(hù)需求更多地集中于在文學(xué)、經(jīng)濟(jì)學(xué)和語(yǔ)言類(lèi)。 其中文學(xué)作品相對(duì)于其他人文社科學(xué)術(shù)性資源來(lái)說(shuō),學(xué)科門(mén)檻較低,受眾面更廣。 而經(jīng)濟(jì)學(xué)原理和方法對(duì)包括社會(huì)學(xué)、管理學(xué)、國(guó)際關(guān)系在內(nèi)的多種學(xué)科同樣實(shí)用,因此存在大量記錄。 而語(yǔ)言方面的需求則以英語(yǔ)學(xué)習(xí)材料和工具書(shū)為主,這是由高校用戶(hù)對(duì)于等級(jí)考試、外文學(xué)術(shù)資源等硬性需求決定的。 結(jié)語(yǔ)本文構(gòu)建了一種人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇模型,為專(zhuān)題數(shù)據(jù)庫(kù)的主題選擇提供了一種全新的思路和方法。 相較于以經(jīng)驗(yàn)性判斷為主的常見(jiàn)模式,本文通過(guò)對(duì)政策文本和用戶(hù)訪問(wèn)記錄進(jìn)行深入挖掘和匹配,有助于進(jìn)一步提(下轉(zhuǎn)第頁(yè))年月第卷第期人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究,?沈志宏,張曉林關(guān)聯(lián)數(shù)據(jù)及其應(yīng)用現(xiàn)狀綜述現(xiàn)代圖書(shū)情報(bào)技術(shù),()沈志宏,黎建輝,張曉林關(guān)聯(lián)數(shù)據(jù)互聯(lián)技術(shù)研究綜述應(yīng)用、方法與框架圖書(shū)情報(bào)工作,()夏翠娟,劉煒,趙亮,等關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)及其實(shí)現(xiàn)以為例中國(guó)圖書(shū)館學(xué)報(bào),()歐石燕,唐振貴面向圖書(shū)館關(guān)聯(lián)數(shù)據(jù)的自動(dòng)問(wèn)答技術(shù)研究中國(guó)圖書(shū)館學(xué)報(bào),()陳濤,夏翠娟,劉煒,等關(guān)聯(lián)數(shù)據(jù)的可視化技術(shù)研究與實(shí)現(xiàn)圖書(shū)情報(bào)工作,()劉美杏,徐芳古道線性文化遺產(chǎn)信息資源關(guān)聯(lián)數(shù)據(jù)模型構(gòu)建及其實(shí)證研究圖書(shū)館學(xué)研究,()張樂(lè),常娥基于的民國(guó)建筑知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的組織與發(fā)布研究圖書(shū)館學(xué)研究,()董坤,謝守美基于關(guān)聯(lián)數(shù)據(jù)的資源語(yǔ)義化組織與聚合研究情報(bào)雜志,()夏翠娟,劉煒,陳濤,等家譜關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺(tái)的開(kāi)發(fā)實(shí)踐中國(guó)圖書(shū)館學(xué)報(bào),()許鑫,張悅悅非遺數(shù)字資源的元數(shù)據(jù)規(guī)范與應(yīng)用研究圖書(shū)情報(bào)工作,(),劉煒,李大玲,夏翠娟元數(shù)據(jù)與知識(shí)本體圖書(shū)館雜志,(),()歐石燕面向關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義數(shù)字圖書(shū)館資源描述與組織框架設(shè)計(jì)與實(shí)現(xiàn)中國(guó)圖書(shū)館學(xué)報(bào),()(陳媛)?(上接第頁(yè))高專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)決策的科學(xué)性、實(shí)時(shí)性和前瞻性。 需要注意的是,本模型面向人

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論