



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于知識圖譜的詩人行走足跡圖獲獎科研報告摘
要:歷史上某位詩人所處的位置可能隨著時間因素,因其經(jīng)歷而發(fā)生變化,因此從詩人對應(yīng)的經(jīng)歷數(shù)據(jù)中,抽取任務(wù)、地點、時間和事件等屬性類,將其軌跡動態(tài)映射到地圖上。
關(guān)鍵詞:詩詞;知識圖譜;數(shù)據(jù)挖掘;足跡圖
第一章概述
1.1研究背景:
詩詞作為中華民族文化的瑰寶,在歷史長河中閃爍著熠熠光輝。然而,現(xiàn)代對中華詩詞精通的人卻特別少,學(xué)習(xí)中華古典文化需要付出相當(dāng)大的精力,這在時間方面不利于我們學(xué)習(xí)與傳承中華文化歷史。
1.2項目意義:
本課題希望通過對中華詩詞的分析,按照時間、地點等脈絡(luò)以及人物關(guān)系,結(jié)合歷史背景,提取出詩詞間的關(guān)聯(lián)關(guān)系,并通過可視化的技術(shù)展現(xiàn)出來,輔助我們學(xué)習(xí)詩詞,同時也為中華文化的傳承做出努力。
1.3項目方案:
課題主要工作包括:中華詩詞的文本數(shù)據(jù)采集、標(biāo)注技術(shù)研究、作者和詩詞內(nèi)容關(guān)聯(lián)分析等主要工作,同時基于此研究,將其應(yīng)用于生成詩人的行走足跡圖。
本項目從“古詩文網(wǎng)”上抓取作者及詩詞信息,并采集網(wǎng)頁上已有的中國歷史上所有詩詞曲的基本信息。之后,將采集到的信息進(jìn)行處理,并通過neo4j以圖數(shù)據(jù)庫的形式存儲數(shù)據(jù),之后借由圖數(shù)據(jù)庫達(dá)到生成詩詞相關(guān)信息——詩人的行走足跡圖的目的。
第二章數(shù)據(jù)技術(shù)相關(guān)介紹
2.1數(shù)據(jù)收集
從“古詩文網(wǎng)”上抓取作者及詩詞信息,并采集網(wǎng)頁上已有的中國歷史上所有詩詞曲的基本信息。
在本次項目中使用的是基于python語言的CrawlSpider爬蟲框架,通過分析網(wǎng)頁的頁面編排模式,獲取所需詩歌的內(nèi)容。
屬性確定:本次項目所需的數(shù)據(jù)包括詩歌的標(biāo)題、詩人、朝代、內(nèi)容、注釋、賞析。
2.2數(shù)據(jù)清洗
初步獲取到的數(shù)據(jù)大致存在以下問題:
2.2.1對應(yīng)屬性值為空
某些詩歌可能存在詩人不明,朝代空缺,沒有注釋與賞析的情況。
處理方案:將原本網(wǎng)頁中缺失的數(shù)據(jù)自動補(bǔ)齊,向其中填寫“無”。
2.2.2雜項數(shù)據(jù)
從html上獲取的文本信息,可能含有大量無意義的換行符,以及混在正常數(shù)據(jù)中的UI界面文本。
處理方案:分析雜項數(shù)據(jù)的內(nèi)容,對其進(jìn)行替換。
2.2.3指代消解問題
數(shù)據(jù)中包含一些指代相同的詞語,如“唐朝”和“唐代”,兩個詞本身意義相同,為了消除指代消解問題,這里統(tǒng)一將“代”改為“朝”。
2.2.4作者不詳,年代不詳?shù)脑姼杼幚?/p>
數(shù)據(jù)中具有作者為佚名、年代不詳?shù)脑姼?,將其單獨清洗成一個json文件。
2.3數(shù)據(jù)挖掘(分詞+建立三元組)
首先,我們對對每首詩中的賞析部分進(jìn)行分詞,文本后的符號代表該詞的詞性。
之后我們建立不同的三元組——詩與詩人、詩與地點、詩與詩、詩與詩人、詩與年代,以及對文本內(nèi)容補(bǔ)充抽取關(guān)系,從而便于知識圖譜的建立。
2.4數(shù)據(jù)可視化(建立知識圖譜)
將所有三元關(guān)系集合起來存放到一個表中,建立知識圖譜可視化。
2.5環(huán)境搭建
在虛擬機(jī)/本機(jī)上裝好Windows系統(tǒng),在Windows上安裝必要的python環(huán)境,配置好Neo4j。
第三章分析方法總結(jié)及結(jié)果展示
3.1詩歌數(shù)據(jù)處理
為了實現(xiàn)詩人行走足跡圖的生成,對爬蟲方式收集的數(shù)據(jù)進(jìn)行清洗,將清洗后的數(shù)據(jù)按每個詩人名作的相關(guān)數(shù)據(jù)從原本的詩詞數(shù)據(jù)庫中提取出來,并且按照其創(chuàng)作時間排序。
3.2基于詩歌數(shù)據(jù)知識圖譜生成詩人行走足跡圖
得到數(shù)據(jù)之后,利用python的畫圖工具,如pyecharts來實現(xiàn)足跡圖的生成。
將表格中的數(shù)據(jù)格式化后,按照時間創(chuàng)建時間軸對象后,按照每條數(shù)據(jù)的元組數(shù)據(jù)生成足跡圖。
圖例中圖標(biāo)信息:
白色點:詩人去過的地方
紅色點:當(dāng)前時間點詩人所在地
箭頭:詩人從某地移動到目的地
附地圖生成代碼數(shù)據(jù)讀取和足跡圖生成部分:
poet_name="杜甫"
dataset=pd.read_csv('dataset_'+poet_name+'.csv')
data=np.array(dataset).tolist(
)
timeline.render('active_map_'+poet_name+'.html')
依照該部分代碼,將表格數(shù)據(jù)文件以dataset_詩人名.csv的格式讀取時,可以實現(xiàn)生成每個詩人的行走足跡圖。
第四章總結(jié)概括
4.1項目總結(jié)
系統(tǒng)的分析方法可以有效地挖掘出詩詞數(shù)據(jù)背后所蘊(yùn)含的價值,提取出詩詞間的關(guān)聯(lián)關(guān)系,并通過可視化的技術(shù)展現(xiàn)出來,輔助我們學(xué)習(xí)詩詞,同時也為中華文化的傳承做出努力,為社會提供更多的價值。
4.2結(jié)束語
本文論述了知識圖譜技術(shù)在詩詞數(shù)據(jù)的部分前景,歷
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 買車轉(zhuǎn)訂金合同范本
- 體育訂購合同范本
- 下學(xué)期安全工作總結(jié)
- 分期貸款正規(guī)合同范本
- 三年級班主任工作計劃
- 中醫(yī)基礎(chǔ)學(xué)模擬考試題含參考答案
- 廚房維修合同范本模板
- 產(chǎn)業(yè)調(diào)研合同范本
- 單位安裝鍋爐合同范例
- 廠車出租合同范本
- 2025年版護(hù)理法律法規(guī)
- DB3305T 261-2023 湖州湖羊種羊等級評定
- 房屋市政工程生產(chǎn)安全重大事故隱患排查表(2024版)
- 《心力衰竭護(hù)理》課件
- 2024年牡丹江大學(xué)單招職業(yè)適應(yīng)性測試題庫帶答案
- 2025江蘇連云港市贛榆城市建設(shè)發(fā)展集團(tuán)限公司招聘人員暫時高頻重點提升(共500題)附帶答案詳解
- 內(nèi)保單位培訓(xùn)
- 客戶服務(wù)部崗位手冊
- 統(tǒng)編版(2024新版)七年級下冊道德與法治期末復(fù)習(xí)背誦知識點提綱
- 健康體檢報告解讀頁課件
- 火電工程達(dá)標(biāo)投產(chǎn)考核標(biāo)準(zhǔn)(2024版)
評論
0/150
提交評論