




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
文本數(shù)據(jù)可視化文本數(shù)據(jù)可視化概述
綜合多種學(xué)科,幫助人們理解復(fù)雜文本內(nèi)容、結(jié)構(gòu)、和內(nèi)在規(guī)律,提取出最能代表文本的信息,并進(jìn)行可視化。本章要點(diǎn)文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取使用網(wǎng)絡(luò)爬蟲(chóng)提取文本數(shù)據(jù)關(guān)鍵詞可視化時(shí)序文本可視化文本分布可視化文本關(guān)系可視化未來(lái)文本可視化主題文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取海量的文本數(shù)據(jù)
人類社會(huì)不斷積累文本信息,在計(jì)算機(jī)時(shí)代大量數(shù)據(jù)可以存儲(chǔ)在一塊很小的硬盤中。在互聯(lián)網(wǎng)上,每天都有海量的“用戶生成內(nèi)容”。文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取面臨的難題人們接收信息的速度已經(jīng)小于信息產(chǎn)生的速度,尤其是文本信息海量信息使人們處理和理解的難度日益增大傳統(tǒng)的文本分析技術(shù)提取的信息仍然無(wú)法滿足人們利用瀏覽及篩選等方式對(duì)其進(jìn)行合理的分析理解和應(yīng)用。簡(jiǎn)單實(shí)用的文本可視化文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本可視化的重要作用通過(guò)視覺(jué)符號(hào)的形式表達(dá)文本內(nèi)容,便于人們快速理解文本信息將無(wú)結(jié)構(gòu)的文本信息自動(dòng)轉(zhuǎn)換為可視的有結(jié)構(gòu)信息。使人類視覺(jué)認(rèn)知、關(guān)聯(lián)、推理的能力得到充分的發(fā)揮。結(jié)合機(jī)器智能和人工智能,為人們更好的理解文本和發(fā)現(xiàn)知識(shí)聽(tīng)過(guò)了新的有效途徑。文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本可視化的應(yīng)用從人文研究到政府決策,從精準(zhǔn)醫(yī)療到量化金融,從客戶管理到市場(chǎng)營(yíng)銷,這些海量的文本作為最重要的信息載體之一,處處發(fā)揮著舉足輕重的作用情報(bào)分析人員、網(wǎng)絡(luò)內(nèi)容分析人員、情感分析或文學(xué)研究者等相關(guān)職業(yè)更需要文本可視化。文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取大數(shù)據(jù)中文本可視化基本流程原始文本文本分析文本預(yù)處理文本特征抽取文本特征度量可視化呈現(xiàn)圖元設(shè)計(jì)圖元布局用戶認(rèn)知交互設(shè)計(jì)文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本分析內(nèi)容文本可視化依賴于自然語(yǔ)言處理,因此詞袋模型、命名實(shí)體識(shí)別、關(guān)鍵詞抽取、主題分析、情感分析等是較常用的文本分析技術(shù)。過(guò)程主要包括:文本數(shù)據(jù)預(yù)處理,過(guò)濾無(wú)效信息特征提取,提取出文本詞匯及的內(nèi)容以靈活有文本特征的度量,分析分本間相似性、文本聚類等表示這些過(guò)程處理過(guò)的數(shù)據(jù)文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取可視化呈現(xiàn)及用戶感知(1)信息圖
1.文本內(nèi)容的視覺(jué)編碼主要涉及尺寸、顏色、形狀、方位、文理等
2.文本間關(guān)系的視覺(jué)編碼主要涉及網(wǎng)絡(luò)圖、維恩圖、樹(shù)狀圖、坐標(biāo)軸等。 3.選擇合適的視覺(jué)編碼呈現(xiàn)文本信息的各種特征(2)交互
高亮、縮放、動(dòng)態(tài)轉(zhuǎn)換、關(guān)聯(lián)更新等文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本理解需求等級(jí)及對(duì)應(yīng)挖掘方法詞匯級(jí)(LexicalLevel)——各類分詞算法語(yǔ)法級(jí)(SyntacticLevel)——語(yǔ)句分析算法語(yǔ)義級(jí)(SemanticLevel)——主題提取算法文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本數(shù)據(jù)單文本文檔集合時(shí)序文本數(shù)據(jù)文本可視化文本內(nèi)容的可視化文本關(guān)系的可視化文本多層面信息的可視化文本數(shù)據(jù)大致可分為三種:?jiǎn)挝谋?、文檔集合和時(shí)序文本數(shù)據(jù)。對(duì)應(yīng)的文本可視化也可分為三類:文本內(nèi)容可視化文本關(guān)系可視化文本多層面信息的可視化使用網(wǎng)絡(luò)爬蟲(chóng)提取文本數(shù)據(jù)網(wǎng)絡(luò)爬蟲(chóng)(WebCrawler)是指一類能夠自動(dòng)化訪問(wèn)網(wǎng)絡(luò)并抓取某些信息的程序,有時(shí)候也被稱為“網(wǎng)絡(luò)機(jī)器人”。它們最早被應(yīng)用于互聯(lián)網(wǎng)搜索引擎及各種門戶網(wǎng)站的開(kāi)發(fā)中,現(xiàn)在也是大數(shù)據(jù)和數(shù)據(jù)分析領(lǐng)域中的重要角色。爬蟲(chóng)可以按一定邏輯大批量采集目標(biāo)頁(yè)面內(nèi)容,并對(duì)數(shù)據(jù)做進(jìn)一步的處理,人們借此能夠更好更快的獲得并使用他們感興趣的信息,從而方便地完成很多有價(jià)值的工作。使用網(wǎng)絡(luò)爬蟲(chóng)提取文本數(shù)據(jù)大部分編程語(yǔ)言都可以實(shí)現(xiàn)爬蟲(chóng)程序的編寫(xiě),也有部分商業(yè)軟件提供爬蟲(chóng)服務(wù)。目前比較流行的就是用Python編寫(xiě)爬蟲(chóng),有大量的第三方庫(kù)可以使用,常見(jiàn)的有Request、urlib、Scrapy等。其中Scrapy庫(kù)提供了比較完善的爬蟲(chóng)框架,如圖所示,可以省去很多麻煩。文本內(nèi)容可視化一段文本的內(nèi)容可以用高頻詞、短語(yǔ)、句子、主題等代表,但是文本可視化遇到的任務(wù)通常是對(duì)有海量文本的集合進(jìn)行可視化分析,針對(duì)不同類型的文本集合,我們有不同的方法來(lái)進(jìn)行可視化分析。關(guān)鍵詞可視化
關(guān)鍵詞可視化標(biāo)簽云按照一定規(guī)律將這些詞展示出來(lái),可以用顏色透明度的高低、字體的大小來(lái)區(qū)分關(guān)鍵詞的重要程度,要遵循權(quán)重越高越能吸引注意力的原則。一般權(quán)重越大字體越大,顏色越鮮艷,透明度越低關(guān)鍵詞可視化文檔散文檔散使用詞匯庫(kù)中的結(jié)構(gòu)關(guān)系來(lái)布局關(guān)鍵詞,同時(shí)使用詞語(yǔ)關(guān)系網(wǎng)中具有上下語(yǔ)義關(guān)系的詞語(yǔ)來(lái)布局關(guān)鍵詞,從而揭示文本內(nèi)容。上下語(yǔ)義關(guān)系是指詞語(yǔ)之間往往存在語(yǔ)義層級(jí)的關(guān)系,也就是說(shuō),一些詞語(yǔ)是某些詞語(yǔ)的下義詞。而在一篇文章中,具有上下語(yǔ)義關(guān)系的詞語(yǔ)一般是同時(shí)存在的。時(shí)序文本可視化
時(shí)序文本具有時(shí)間性和順序性,比如,新聞會(huì)隨著時(shí)間變化,小說(shuō)的故事情節(jié)會(huì)隨著時(shí)間變化,網(wǎng)絡(luò)上對(duì)某一新聞事件的評(píng)論會(huì)隨著真相的逐步揭露而變化。對(duì)具有明顯時(shí)序信息的文本進(jìn)行可視化時(shí),需要在結(jié)果中體現(xiàn)這種變化。時(shí)序文本可視化主題河流法主題河流(Themeriver)是由SusanHavre等學(xué)者于2000年提出的一種時(shí)序數(shù)據(jù)可視化方法,主要用于反映文本主題強(qiáng)弱變化的過(guò)程。右圖所示的主題河流可視化示例,橫軸表示時(shí)間,河流中的不同顏色的涌流表示不同的主題,涌流的流動(dòng)表示主題的變化。在任意時(shí)間點(diǎn)上,涌流的垂直寬度表示主題的強(qiáng)弱。文本關(guān)系可視化文本關(guān)系包括文本內(nèi)或者文本間的關(guān)系,以及文本集合之間的關(guān)系,文本關(guān)系可視化的目的就是呈現(xiàn)這些關(guān)系。文本內(nèi)的關(guān)系有詞語(yǔ)的前后關(guān)系;文本間的關(guān)系有網(wǎng)頁(yè)之間的超鏈接關(guān)系,文本之間內(nèi)容的相似性,文本之間的引用等;文本集合之間的關(guān)系是指文本集合內(nèi)容的層次性等關(guān)系。文本關(guān)系可視化基于圖的文本關(guān)系可視化詞語(yǔ)樹(shù)是使用樹(shù)形圖展示詞語(yǔ)在文本中的出現(xiàn)情況,可以直觀地呈現(xiàn)出一個(gè)詞語(yǔ)和其前后的詞語(yǔ)。用戶可自定義感興趣的詞語(yǔ)作為中心節(jié)點(diǎn)。中心節(jié)點(diǎn)向前擴(kuò)展,就是文本中處于該詞語(yǔ)前面的詞語(yǔ);中心節(jié)點(diǎn)向后擴(kuò)展,就是文本中處于該詞語(yǔ)后面的詞語(yǔ)。字號(hào)大小代表了詞語(yǔ)在文本中出現(xiàn)的頻率。如圖所示,圖中采用了詞語(yǔ)樹(shù)的方法來(lái)呈現(xiàn)一個(gè)文本中Child這個(gè)詞與其相連的前后所有的詞語(yǔ)。文本關(guān)系可視化基于圖的文本關(guān)系可視化短語(yǔ)網(wǎng)絡(luò)包括以下兩種屬性。節(jié)點(diǎn),代表一個(gè)詞語(yǔ)或短語(yǔ)。帶箭頭的連線,表示節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系,這個(gè)關(guān)系需要用戶定義,比如,“AisB“,其中的is用連線表示,A和B是is前后的兩個(gè)節(jié)點(diǎn)詞語(yǔ)。A在is前面,B在is后面,那么箭頭就由A指向B。連線的寬度越寬,就說(shuō)明這個(gè)短語(yǔ)在文中出現(xiàn)的頻率越高。圖中使用短語(yǔ)網(wǎng)絡(luò)對(duì)某小說(shuō)中的“*the*”關(guān)系進(jìn)行可視化。文本關(guān)系可視化文檔間關(guān)系可視化
當(dāng)對(duì)多個(gè)文檔進(jìn)行可視化展示時(shí),針對(duì)文本內(nèi)容進(jìn)行可視化的方法就不適合了。此時(shí)可以引人向量空間模型來(lái)計(jì)算出各個(gè)文檔之間的相似性,單個(gè)文檔被定義成單個(gè)特征向量,最終以投影等方式來(lái)呈現(xiàn)各文檔之間的關(guān)系。文檔間關(guān)系可視化星系視圖星系視圖(GalaxyView)可用于表征多個(gè)文檔之間的相似性。假設(shè)一篇文檔是一顆星星,每篇文檔都有其主題,將所有文檔按照主題投影到二維平面上,就如同星星在星系中一樣。文檔的主題越相似,星星之間的距離就越近;文檔的主題相差越大,星星之間的距離就越遠(yuǎn)。星星聚集得越多,就表示這些文檔的主題越相近,并且數(shù)量較多;若存在多個(gè)聚集點(diǎn)則說(shuō)明文檔集合中包含多種主題的文檔。文檔間關(guān)系可視化文檔集抽樣投影當(dāng)一個(gè)文檔集中包含的文檔數(shù)量過(guò)大時(shí),投影出來(lái)的星系視圖中就會(huì)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合法有效裝修合同范例
- 廚房原材料合同范本
- 農(nóng)村住宅建房合同范本
- 衛(wèi)材購(gòu)銷合同范本
- 養(yǎng)殖設(shè)備包工合同范本
- 勞務(wù)合同范本100例
- 醫(yī)院后勤設(shè)備采購(gòu)合同范本
- 學(xué)校供餐服務(wù)合同范本
- 勞務(wù)兼職培訓(xùn)合同范本
- 公司裝修改造合同范本
- DeepSeek科普學(xué)習(xí)解讀
- 第一單元第2課《生活之美》課件-七年級(jí)美術(shù)下冊(cè)(人教版)
- 2025年七下道德與法治教材習(xí)題答案
- 危險(xiǎn)化學(xué)品目錄(2024版)
- 人教版八年級(jí)數(shù)學(xué)第二學(xué)期教學(xué)計(jì)劃+教學(xué)進(jìn)度表
- 國(guó)際部SOP手冊(cè)2014修改版(2.0版)
- 凈菜配送標(biāo)準(zhǔn)
- 水工環(huán)地質(zhì)調(diào)查技術(shù)標(biāo)準(zhǔn)手冊(cè)
- 基本力學(xué)性能-鋼筋混凝土原理_過(guò)鎮(zhèn)海
- 初中音樂(lè)-兒行千里母擔(dān)憂-課件PPT課件
- 壓縮空氣氣體管道吹掃、試壓方案
評(píng)論
0/150
提交評(píng)論