浙教版（2019）信息技術(shù)教材一輪復(fù)習(xí)課件-大數(shù)據(jù) 大數(shù)據(jù)處理文本數(shù)據(jù)處理復(fù)習(xí)

上傳人：囶*** IP屬地：廣東上傳時(shí)間：2023-02-03 格式：PPTX 頁數(shù)：32 大小：16.46MB 積分：9.6 舉報(bào) 版權(quán)申訴

浙教版（2019）信息技術(shù)教材一輪復(fù)習(xí)課件-大數(shù)據(jù) 大數(shù)據(jù)處理文本數(shù)據(jù)處理復(fù)習(xí)_第2頁

浙教版（2019）信息技術(shù)教材一輪復(fù)習(xí)課件-大數(shù)據(jù) 大數(shù)據(jù)處理文本數(shù)據(jù)處理復(fù)習(xí)_第3頁

浙教版（2019）信息技術(shù)教材一輪復(fù)習(xí)課件-大數(shù)據(jù) 大數(shù)據(jù)處理文本數(shù)據(jù)處理復(fù)習(xí)_第4頁

浙教版（2019）信息技術(shù)教材一輪復(fù)習(xí)課件-大數(shù)據(jù) 大數(shù)據(jù)處理文本數(shù)據(jù)處理復(fù)習(xí)_第5頁

已閱讀5頁，還剩27頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)處理+文本數(shù)據(jù)處理復(fù)習(xí)處據(jù)數(shù)理應(yīng)用與

大數(shù)據(jù)一一、大數(shù)據(jù)概念及思維數(shù)據(jù)體量巨大（Volumme）速度快（Velocity）數(shù)據(jù)類型多（Variety）價(jià)值密度低（Value）★大數(shù)據(jù)：代表著數(shù)據(jù)量大、速度快、種類繁多的信息資產(chǎn)，需要特定的技術(shù)和分析方法將其轉(zhuǎn)化為價(jià)值。結(jié)構(gòu)化——數(shù)據(jù)庫中數(shù)據(jù)非結(jié)構(gòu)化——word、ppt、圖片和視頻等半結(jié)構(gòu)化——電子郵件等大數(shù)據(jù)要分析的是全體數(shù)據(jù)，而不是抽樣數(shù)據(jù)。對(duì)于數(shù)據(jù)不再追求精確性，而是能夠接受數(shù)據(jù)的混雜性。不一定強(qiáng)調(diào)對(duì)事物因果關(guān)系的探求，而是更加注重它們的相關(guān)性。對(duì)比項(xiàng)采集方法分析方法表示方法……大數(shù)據(jù)傳統(tǒng)數(shù)據(jù)采用自動(dòng)化方法采集數(shù)據(jù)采用分布式數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行處理PB（拍字節(jié)）以上數(shù)量級(jí)表示GB（吉字節(jié)）或TB（太字節(jié)）表示采用手工方法采集數(shù)據(jù)大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理大數(shù)據(jù)：認(rèn)識(shí)全面、信息詳盡傳統(tǒng)數(shù)據(jù)：樣本隨機(jī)、結(jié)論不準(zhǔn)大數(shù)據(jù)：關(guān)注關(guān)聯(lián)，較為準(zhǔn)確傳統(tǒng)數(shù)據(jù)：樣本少、局限多傳統(tǒng)數(shù)據(jù)：容錯(cuò)低、數(shù)據(jù)量小大數(shù)據(jù)：容錯(cuò)強(qiáng)、弱化個(gè)體樣本的影響二、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別三、大數(shù)據(jù)對(duì)社會(huì)生活的影響1.大數(shù)據(jù)讓生活更便利——熱力圖，導(dǎo)航路況2.大數(shù)據(jù)讓決策更精準(zhǔn)——政府、教育、經(jīng)濟(jì)、衛(wèi)生等等領(lǐng)域3.大數(shù)據(jù)帶來新的就業(yè)需求——系統(tǒng)研發(fā)工程師、數(shù)據(jù)分析師等4.大數(shù)據(jù)帶來新的社會(huì)問題——信息泄露、數(shù)據(jù)安全、個(gè)人隱私、倫理★下列關(guān)于大數(shù)據(jù)思維的描述，錯(cuò)誤的是（）A.大數(shù)據(jù)時(shí)代，人們可以采集全體數(shù)據(jù)進(jìn)行分析，避免樣本不同導(dǎo)致結(jié)論不同B.基于大數(shù)據(jù)技術(shù)，我們能夠接受數(shù)據(jù)的混雜性，個(gè)別數(shù)據(jù)的不準(zhǔn)確不影響數(shù)據(jù)分析C.數(shù)據(jù)總量變大會(huì)導(dǎo)致大量不相干的數(shù)據(jù)增加，大數(shù)據(jù)具有價(jià)值密度低的特點(diǎn)D.使用大數(shù)據(jù)思維，我們更強(qiáng)調(diào)事物因果關(guān)系的探求，而不僅僅是數(shù)據(jù)之間的相關(guān)性課堂練習(xí)D★下列數(shù)據(jù)中屬于大數(shù)據(jù)的是（）①各地交通攝像頭記錄的全部數(shù)據(jù)②學(xué)生網(wǎng)上高考報(bào)名數(shù)據(jù)③電商平臺(tái)的用戶瀏覽、交易時(shí)產(chǎn)生的數(shù)據(jù)④全體手機(jī)用戶的聯(lián)網(wǎng)信息、實(shí)時(shí)定位數(shù)據(jù)A.①②③B.①②④C.①③④D.②③④C★當(dāng)人們?cè)谏缃黄脚_(tái)上表達(dá)自己對(duì)股票市場的情緒或觀點(diǎn)時(shí),美國華爾街的炒股高手們卻正在利用大數(shù)據(jù)技術(shù)分析人們的想法,先人一步預(yù)判市場走勢,而且取得了不俗的收益。關(guān)于這一實(shí)例，下列說法不正確的是()A.人們?cè)谏暇W(wǎng)獲取數(shù)據(jù)的同時(shí),本身也在產(chǎn)生數(shù)據(jù)B.每個(gè)人在社交平臺(tái)中發(fā)布的觀點(diǎn)等數(shù)據(jù)都蘊(yùn)含著巨大的價(jià)值C.用戶在網(wǎng)絡(luò)中瀏覽信息、發(fā)表觀點(diǎn)搜索信息時(shí)都有可能泄露個(gè)人隱私D.很多社交軟件都是依據(jù)采集到的個(gè)人用戶的網(wǎng)絡(luò)行為進(jìn)行“個(gè)性化推薦”課堂練習(xí)B

大數(shù)據(jù)處理二★分——將問題分解為規(guī)模更小的子問題★治——將規(guī)模更小的子問題逐個(gè)擊破★合——將已解決的子問題合并，最終得出原問題的解一、大數(shù)據(jù)處理的分治思想大數(shù)據(jù)處理靜態(tài)數(shù)據(jù)流數(shù)據(jù)圖數(shù)據(jù)批處理計(jì)算（Hadoop、spark等）流計(jì)算（storm、heron等）圖計(jì)算（pregel、graphx等）二、大數(shù)據(jù)處理分類★靜態(tài)數(shù)據(jù)：在處理時(shí)已收集完成、在計(jì)算式不會(huì)發(fā)生改變的數(shù)據(jù)

★流數(shù)據(jù)：是指不間斷地、持續(xù)地到達(dá)的實(shí)時(shí)數(shù)據(jù)，隨著時(shí)間的流逝，流數(shù)據(jù)的價(jià)值也隨之降低，通過實(shí)時(shí)分析計(jì)算可以得到更有價(jià)值的分析的結(jié)果★圖數(shù)據(jù)：以社交網(wǎng)絡(luò)、道路交通等數(shù)據(jù)為例的眾多以圖為數(shù)據(jù)呈現(xiàn)形式的數(shù)據(jù)，或者轉(zhuǎn)化為圖之后再進(jìn)行分析的Hadoop是一個(gè)運(yùn)行于計(jì)算機(jī)集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu)，適用于靜態(tài)數(shù)據(jù)的批處理計(jì)算。Spark是一種與hadoop相似的，應(yīng)用較廣的開源分布式計(jì)算架構(gòu)。Spark啟用了內(nèi)存存儲(chǔ)中間結(jié)果，運(yùn)行速度比hadoop快。三、大數(shù)據(jù)處理分類——批處理計(jì)算三、大數(shù)據(jù)處理分類——Hadoop的組成HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng)，不需要運(yùn)行在昂貴并且高可靠的硬件上。比如：云盤、網(wǎng)盤的底層一般采用HDFS實(shí)現(xiàn)Hbase是一個(gè)高可靠，高性能，可伸縮，分布式的列式數(shù)據(jù)庫，是谷歌BigTable數(shù)據(jù)庫的開源實(shí)現(xiàn)。采用基于列的存儲(chǔ)方式，主要用來存儲(chǔ)非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。三、大數(shù)據(jù)處理分類——分布式并行計(jì)算模型MapReduceMapReduce主要用于處理大規(guī)模數(shù)據(jù)集的并行運(yùn)算，由Map（映射）和Reduce（歸納）兩部分組成。它的核心思想就是將任務(wù)分解并發(fā)到多個(gè)節(jié)點(diǎn)上進(jìn)行處理，最后匯總輸出。四、大數(shù)據(jù)處理整合2014年9月，Twitter大數(shù)據(jù)處理系統(tǒng)summingbird開源新工具，它實(shí)現(xiàn)了批處理和流計(jì)算的整合（Hadoop+storm）。平臺(tái)的整合縮短了批處理與流處理之間的切換延時(shí)時(shí)間，有利于減少系統(tǒng)的開銷，降低使用成本。課堂練習(xí)★下列關(guān)于Hadoop架構(gòu)的描述正確的是（

）A.是一個(gè)對(duì)大數(shù)據(jù)進(jìn)行聚合式處理的基礎(chǔ)軟件框架B.不能運(yùn)行于大規(guī)模計(jì)算機(jī)集群上C.采用NTFS文件系統(tǒng)管理數(shù)據(jù)文件D.采用MapReduce編程模型處理大規(guī)模數(shù)據(jù)集D★下列軟件主要用于進(jìn)行流計(jì)算的有（

）

A.HadoopB.Storm

C.PregelD.SparkB課堂練習(xí)★下列關(guān)于流數(shù)據(jù)的描述不正確的是（

）

A.數(shù)據(jù)在處理時(shí)已經(jīng)采集完成

B.數(shù)據(jù)價(jià)值隨著時(shí)間的流逝降低

C.實(shí)時(shí)分析流數(shù)據(jù)可以得到更有價(jià)值的結(jié)果

D.可以采用流計(jì)算進(jìn)行實(shí)時(shí)分析A課堂練習(xí)★下列關(guān)于大數(shù)據(jù)的說法，正確的是()A.大數(shù)據(jù)包括靜態(tài)數(shù)據(jù)、流數(shù)據(jù)兩種類型B.大數(shù)據(jù)蘊(yùn)含著巨大的價(jià)值，但其價(jià)值密度較低C.分布式數(shù)據(jù)庫HBase主要用來存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)D.大數(shù)據(jù)給生活帶來便利，也讓用戶的個(gè)人隱私受到更好的保護(hù)B課堂練習(xí)★下列應(yīng)用的數(shù)據(jù)屬于圖計(jì)算處理的是()A.某傳染病的傳播路徑B.高速公路每時(shí)每刻的車流量C.購物網(wǎng)站的廣告推薦D.已經(jīng)搜集的某商品的月成交額A★下列選項(xiàng)中，哪個(gè)不是大數(shù)據(jù)的典型應(yīng)用()A.基于交易大數(shù)據(jù)分析用戶的購買習(xí)慣B.基于搜索引擎的搜索關(guān)鍵詞分析社會(huì)熱點(diǎn)C.基于道路攝像頭、地感線圈等數(shù)據(jù)分析城市交通情況D.基于科技文獻(xiàn)數(shù)據(jù)庫檢索某一領(lǐng)域研究進(jìn)展D

文本處理三

為富不仁的老財(cái)主請(qǐng)教書先生為酒店寫對(duì)聯(lián)。問題提出一、文本數(shù)據(jù)處理指什么？實(shí)現(xiàn)任何程度或者級(jí)別的人工智能所必需的最大突破之一就是擁有可以處理文本數(shù)據(jù)的機(jī)器。值得慶幸的是，全世界文本數(shù)據(jù)的數(shù)量在最近幾年已經(jīng)實(shí)現(xiàn)指數(shù)級(jí)增長。這也迫切需要人們從文本數(shù)據(jù)中挖掘新知識(shí)、新觀點(diǎn)。從社交媒體分析到風(fēng)險(xiǎn)管理和網(wǎng)絡(luò)犯罪保護(hù)，處理文本數(shù)據(jù)已經(jīng)變得前所未有的重要。簡書文章：https:///p/37e529c8baa9文本數(shù)據(jù)處理是大數(shù)據(jù)處理的重要分支之一，目的是從大規(guī)模的文本數(shù)據(jù)中提取出符合需要的、感興趣的和隱藏的信息。目前，文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、情報(bào)分析、自動(dòng)摘要、自動(dòng)校對(duì)、論文查重、文本分類、垃圾郵件過濾、機(jī)器翻譯、自動(dòng)應(yīng)答等方面。二、文本數(shù)據(jù)處理的一般過程據(jù)資料表明，非結(jié)構(gòu)化文本數(shù)據(jù)占文本數(shù)據(jù)總量的80%以上，而計(jì)算機(jī)只認(rèn)識(shí)“符號(hào)語言”，并不能直接處理非結(jié)構(gòu)化形式的“自然語言”。非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)分詞數(shù)據(jù)分析文本數(shù)據(jù)源特征提取結(jié)果呈現(xiàn)三、文本數(shù)據(jù)處理——分詞（1）基于詞典的分詞方法，也稱作基于字符匹配的分詞方法，即在分析句子時(shí)與詞典中的詞語進(jìn)行對(duì)比，詞典中出現(xiàn)的就劃分為詞。例如：Python中文分詞模塊jieba。importjiebadata=“今天是2035年1月1日，星期一，天氣晴朗！"jg=jieba.cut(data,cut_all=False)jg="/".join(jg)#結(jié)果顯示print(jg)1.jg=jieba.cut(待分詞對(duì)象,cut_all=True),全模式2.jg=jieba.cut(待分詞對(duì)象,cut_all=False),精確模式3.jg=jieba.cut_for_search(待分詞對(duì)象)，搜索引擎模式三、文本數(shù)據(jù)處理——分詞（2）基于統(tǒng)計(jì)的分詞方法，統(tǒng)計(jì)分詞的思想是依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計(jì)，同時(shí)出現(xiàn)的次數(shù)越高就越可能組成一個(gè)詞。在實(shí)際應(yīng)用中，一般是將其與基于詞典的分詞方法結(jié)合使用。（3）基于規(guī)則的分詞方法，通過讓計(jì)算機(jī)模擬人的理解方式，根據(jù)大量的現(xiàn)有資料和規(guī)則進(jìn)行學(xué)習(xí)，達(dá)到對(duì)文字進(jìn)行分詞的效果。由于中文語言知識(shí)的籠統(tǒng)性、復(fù)雜性，這種分詞方法目前還處于試驗(yàn)階段。名稱簡介Jieba分詞Python開源項(xiàng)目IKAnalyzerJava開源分詞工具包NLPIR北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室，非商業(yè)應(yīng)用免費(fèi)語言云哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心，在線API接口調(diào)用BosonNLP玻森中文語義開放平臺(tái)，在線API接口或庫調(diào)用四、文本數(shù)據(jù)處理——特征提取

※特征詞：

在中文文本分析中可以采用字、詞或短語作為表示文本的特征項(xiàng)。目前，大多數(shù)中文文本分析中都采用詞作為特征項(xiàng)，這種詞稱作特征詞。

※特征提?。?/p>

通常可直接用分詞算法和詞頻統(tǒng)計(jì)得出的結(jié)果作為特征詞。通過特征提取來找出最具代表性、最有效的文本特征，從而減少特征詞的數(shù)量，提高文本處理的速度和效率。

※特征提取方式：

特征提取一般采用的方式為根據(jù)專家的知識(shí)挑選有價(jià)值的特征，或者用數(shù)學(xué)建模的方法構(gòu)造評(píng)估函數(shù)自動(dòng)選取特征等。目前大多采用評(píng)估函數(shù)進(jìn)行特征提取的方式，評(píng)估函數(shù)大多是基于概率統(tǒng)計(jì)設(shè)計(jì)的，這就需要用龐大的訓(xùn)練數(shù)據(jù)集才能獲得對(duì)分類起關(guān)鍵作用的特征。隨著深度學(xué)習(xí)、大數(shù)據(jù)分析等技術(shù)的發(fā)展，文本特征提取將更加準(zhǔn)確、科學(xué)。五、文本數(shù)據(jù)處理——分析與應(yīng)用（1）標(biāo)簽云（文本可視化的一種方式）標(biāo)簽云用詞頻表現(xiàn)文本特征，將關(guān)鍵詞按照一定的順序和規(guī)律排列，如頻度遞減、字母順序等，并以文字大小的形式代表詞語的重要性，如圖所示標(biāo)簽云廣泛應(yīng)用于報(bào)紙、雜志等傳統(tǒng)媒體和互聯(lián)網(wǎng)。五、文本數(shù)據(jù)處理——分析與應(yīng)用（2）文本情感分析，指通過計(jì)算機(jī)技術(shù)對(duì)文本的主觀性、觀點(diǎn)、情緒、極性進(jìn)行挖掘和分析，對(duì)文本的情感傾向做出分類判斷。文本情感分析作為一個(gè)多學(xué)科交叉的研究領(lǐng)域，涉及自然語言處理、信息檢索、機(jī)器學(xué)習(xí)、人工智能等領(lǐng)域。文本情感分析根據(jù)分析的粒度不同，分為詞語級(jí)、語句級(jí)、整篇文章級(jí)三類。詞語級(jí)是在分詞的基礎(chǔ)上，根據(jù)情感詞典進(jìn)行特征提取與分類，再分別給特征詞賦予權(quán)重進(jìn)行統(tǒng)計(jì)分析。特征詞的權(quán)重，例如，滿意+5；差-5等。

文本情感分析主要應(yīng)用于網(wǎng)絡(luò)輿情監(jiān)控、用戶評(píng)論分析與決策、信息預(yù)測等眾多領(lǐng)域。1.文本數(shù)據(jù)處理的主要步驟包括：①數(shù)據(jù)分析

②特征提取

③分詞

④結(jié)果呈現(xiàn)

⑤文本數(shù)據(jù)獲取下列文本數(shù)據(jù)處理順序正確的是（

）A.①⑤②③④

B.②⑤③①④C.⑤①③②④D.⑤③②①④2.下列關(guān)于中文分詞方法的描述中，屬于基于詞典的分詞方法的是（

）A.在分析句子時(shí)與詞典中的詞語進(jìn)行對(duì)比，詞典中出現(xiàn)的就劃分為詞B.依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計(jì)，同時(shí)出現(xiàn)的次數(shù)越高就越可能組成一個(gè)詞C.讓計(jì)算機(jī)模擬人的理解方式，根據(jù)大量的現(xiàn)有資料和規(guī)則進(jìn)行學(xué)習(xí)，然后分詞D.依據(jù)詞語與詞語之間的空格進(jìn)行分詞DA課堂練習(xí)3.在中文文本分析中，一般不用做文本的特征項(xiàng)的是（

）A

人人文庫> 全部分類> 教育資料 > 中學(xué)教育

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

浙教版（2019）信息技術(shù)教材一輪復(fù)習(xí)課件-大數(shù)據(jù) 大數(shù)據(jù)處理 文本數(shù)據(jù)處理復(fù)習(xí)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

浙教版（2019）信息技術(shù)教材一輪復(fù)習(xí)課件-大數(shù)據(jù) 大數(shù)據(jù)處理文本數(shù)據(jù)處理復(fù)習(xí)