4.4文本數(shù)據(jù)處理分析應(yīng)用及數(shù)據(jù)可視化-【新教材】浙教版高中信息技術(shù)必修第一冊課件_第1頁
4.4文本數(shù)據(jù)處理分析應(yīng)用及數(shù)據(jù)可視化-【新教材】浙教版高中信息技術(shù)必修第一冊課件_第2頁
4.4文本數(shù)據(jù)處理分析應(yīng)用及數(shù)據(jù)可視化-【新教材】浙教版高中信息技術(shù)必修第一冊課件_第3頁
4.4文本數(shù)據(jù)處理分析應(yīng)用及數(shù)據(jù)可視化-【新教材】浙教版高中信息技術(shù)必修第一冊課件_第4頁
4.4文本數(shù)據(jù)處理分析應(yīng)用及數(shù)據(jù)可視化-【新教材】浙教版高中信息技術(shù)必修第一冊課件_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第四章

數(shù)據(jù)處理與應(yīng)用1、常用表格數(shù)據(jù)的處理2、大數(shù)據(jù)處理3、大數(shù)據(jù)典型應(yīng)用學(xué)習(xí)目標(biāo):

1、文本數(shù)據(jù)處理、分析及應(yīng)用2、了解數(shù)據(jù)可視化的作用、基本方法和常用工具3、能發(fā)現(xiàn)數(shù)據(jù)中隱藏的特征、關(guān)系和模式文本數(shù)據(jù)處理是大數(shù)據(jù)處理的重要分支之一,目的是從大規(guī)模的文本數(shù)據(jù)中提取出符合需要的、感興趣的和隱藏的信息。目前,文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、情報分析、自動摘要、自動校對、論文查重、文本分類、垃圾郵件過濾、機器翻譯、自動應(yīng)答等方面。文本處理數(shù)據(jù)文本處理數(shù)據(jù)使用百度搜索“春節(jié)”,如圖所示,找到相關(guān)結(jié)果約100,000,000個,這些返回的結(jié)果數(shù)據(jù)對“春節(jié)”的關(guān)鍵特征描述是什么?如何處理這些數(shù)據(jù)才能獲得答案?

--要提煉對“春節(jié)”的關(guān)鍵特征描述,需要采集返回結(jié)果頁面中的文本數(shù)據(jù)進行分析文本處理數(shù)據(jù)文本處理的一般過程1、中文分詞(1)基于詞典的分詞方法(2)基于統(tǒng)計的分詞方法(3)基于規(guī)則的分詞方法2、特征提取(1)標(biāo)簽云文本數(shù)據(jù)分析與應(yīng)用

標(biāo)簽云將關(guān)鍵詞按照一定的順序和規(guī)律排列,并以文字大小的形式代表詞語的重要性。是文本可視化的一種方式,文本可視化將文本中復(fù)雜的或者難以通過文字表達的內(nèi)容和規(guī)律以視覺符號的形式表達出來。文本數(shù)據(jù)分析與應(yīng)用(2)文本情感分析

文本情感分析是指通過計算機技術(shù)對文本的主觀性、觀點、情緒、極性進行挖掘和分析,對文本的情感傾向做出分類判斷。主要應(yīng)用于網(wǎng)絡(luò)輿情監(jiān)控、用戶評論與決策、信息預(yù)測等眾多領(lǐng)域。數(shù)據(jù)可視化閱讀教材133-138頁,回答問題?1.什么是可視化?2.可視化的作用?3.可視化的基本方法?什么是數(shù)據(jù)可視化

以圖形、圖像和動畫等方式更加直觀生動地呈現(xiàn)數(shù)據(jù)及數(shù)據(jù)分析結(jié)果,揭示數(shù)據(jù)之間的關(guān)系、趨勢和規(guī)律等表達方式??梢暬淖饔?.快捷觀察與追蹤數(shù)據(jù)2.實時分析數(shù)據(jù)可視化的作用3.增強數(shù)據(jù)的解釋力與吸引力可視化的作用可視化的基本方法1.有關(guān)時間趨勢的可視化可視化的基本方法2.有關(guān)比例的可視化3.有關(guān)關(guān)系的可視化可視化的基本方法4.有關(guān)差異的可視化可視化的基本方法可視化的基本方法5.有關(guān)空間關(guān)系的可視化可視化的工具大數(shù)據(jù)魔鏡(免費的大數(shù)據(jù)可視化分析工具)Gephi(動態(tài)和分層圖的交互可視化與探測開源工具)Tableau(實時可視化分析)PythonR(用于統(tǒng)計分析,圖形表示和報告的編程語言和軟件環(huán)境)D3.js(D3是最流行的可視化庫之一)Highcharts(用純JavaScript編寫的一個圖表庫)GoogleCharts(提供的一項動態(tài)生成圖表的服務(wù))??梢暬牡湫桶咐?)“巴士群”現(xiàn)象當(dāng)一輛巴士被延遲,就會導(dǎo)致多輛巴士在同一時間到站。把它變成一個互動游戲,我們所要做的就是觀察一個短暫的延遲如何使巴士在一段時間以后聚集起來。(2)世界上的語言它將世界上眾多語言用非語言的方法表現(xiàn)出來,一共有2678種??梢宰屇銥g覽使用共同語言的家庭,看看哪些語言是最常用的,并查看語言在世界各地的使用范圍??梢暬牡湫桶咐?)GoogleFlights上的美國感恩節(jié)這是由GoogleTrends驅(qū)動的項目,它跟蹤感恩節(jié)前出發(fā)、到達和穿越美國的航班。可視化始于當(dāng)天很早的時間,隨著時間的推移,像播放電影一樣顯示在全國各地飛行中的航班??梢暬牡湫桶咐n堂練習(xí)1.文本數(shù)據(jù)處理的主要步驟包括:①數(shù)據(jù)分析②特征提取③分詞④結(jié)果呈現(xiàn)⑤文本數(shù)據(jù)獲取下列文本數(shù)據(jù)處理順序正確的是()A.①⑤②③④B.②⑤③①④C.⑤①③②④D.⑤③②①④D課堂練習(xí)2.下列關(guān)于中文分詞方法的描述中,屬于基于詞典的分詞方法的是()A.在分析句子時與詞典中的詞語進行對比,詞典中出現(xiàn)的就劃分為詞B.依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計,同時出現(xiàn)的次數(shù)越高就越可能組成一個詞C.讓計算機模擬人的理解方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進行學(xué)習(xí),然后分詞D.依據(jù)詞語與詞語之間的空格進行分詞

A課堂練習(xí)3.在中文文本分析中,一般不用做文本的特征項的是()A.字B.詞C.短語D.段落D課堂練習(xí)4.下列數(shù)據(jù)分析中可能涉及文本情感分析的是()A.博主地域分析B.微博評論內(nèi)容分析C.微博發(fā)布設(shè)備分析D.博主男女比例分析B課堂練習(xí)5.某文本數(shù)據(jù)集的標(biāo)簽云如圖所示,下列說法正確的是()A.對數(shù)據(jù)集中文本分詞后可直接創(chuàng)建標(biāo)簽云,無須特征提取B.標(biāo)簽云須顯示該數(shù)據(jù)集包含的全部詞語C.該數(shù)據(jù)集中,詞語“玩偶”比“注意力”的出現(xiàn)頻率高D.最能表現(xiàn)該數(shù)據(jù)集中文本特征的詞有“車頂”“玩偶”“路口”C課堂練習(xí)6.下列關(guān)于數(shù)據(jù)可視化的描述中,錯誤的是()A.標(biāo)簽云是基于語句的文本內(nèi)容可視化B.數(shù)據(jù)可視化將數(shù)據(jù)以圖形圖像等形式表示C.數(shù)據(jù)可視化可以直觀的呈現(xiàn)數(shù)據(jù)中蘊含的信息D.數(shù)據(jù)可視化增強了數(shù)據(jù)的解釋力與吸引力A課堂練習(xí)7.下列有關(guān)圖表類型的說法,錯誤的是()A.有關(guān)時間趨勢的可視化可以采用折線圖B.有關(guān)比例的可視化可采用以餅圖、環(huán)形圖C.要探究一件事情變化時另一件事情是否會發(fā)生某種變化,可采用散點圖D.要探尋包含多種變量的對象與同類之間的差異和聯(lián)系,可采用雷達圖、面積圖D課堂練習(xí)8.下列有關(guān)可視化工具的說法,錯誤的是()A.使用Python、R等語言可以編寫程序?qū)崿F(xiàn)數(shù)據(jù)的可視化B.Tableau主要用于實時可視化分析,僅能連接本地數(shù)據(jù)C.Highcharts是基于HTML5技術(shù)的開源圖表庫,支持移動端D.GoogleCharts是為瀏覽器與移動設(shè)備定制的交互式圖表開發(fā)包B課堂練習(xí)9.某組織將關(guān)于春節(jié)期間人們主要支出的調(diào)查數(shù)據(jù)可視化,如圖所示,下列分析錯誤的是()A.不同年齡段的人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論