版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)處理+文本數(shù)據(jù)處理復(fù)習(xí)處據(jù)數(shù)理應(yīng)用與
大數(shù)據(jù)一一、大數(shù)據(jù)概念及思維數(shù)據(jù)體量巨大(Volumme)速度快(Velocity)數(shù)據(jù)類型多(Variety)價值密度低(Value)★大數(shù)據(jù):代表著數(shù)據(jù)量大、速度快、種類繁多的信息資產(chǎn),需要特定的技術(shù)和分析方法將其轉(zhuǎn)化為價值。結(jié)構(gòu)化——數(shù)據(jù)庫中數(shù)據(jù)非結(jié)構(gòu)化——word、ppt、圖片和視頻等半結(jié)構(gòu)化——電子郵件等大數(shù)據(jù)要分析的是全體數(shù)據(jù),而不是抽樣數(shù)據(jù)。對于數(shù)據(jù)不再追求精確性,而是能夠接受數(shù)據(jù)的混雜性。不一定強調(diào)對事物因果關(guān)系的探求,而是更加注重它們的相關(guān)性。對比項采集方法分析方法表示方法……大數(shù)據(jù)傳統(tǒng)數(shù)據(jù)采用自動化方法采集數(shù)據(jù)采用分布式數(shù)據(jù)庫對數(shù)據(jù)進行處理PB(拍字節(jié))以上數(shù)量級表示GB(吉字節(jié))或TB(太字節(jié))表示采用手工方法采集數(shù)據(jù)大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理大數(shù)據(jù):認識全面、信息詳盡傳統(tǒng)數(shù)據(jù):樣本隨機、結(jié)論不準大數(shù)據(jù):關(guān)注關(guān)聯(lián),較為準確傳統(tǒng)數(shù)據(jù):樣本少、局限多傳統(tǒng)數(shù)據(jù):容錯低、數(shù)據(jù)量小大數(shù)據(jù):容錯強、弱化個體樣本的影響二、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別三、大數(shù)據(jù)對社會生活的影響1.大數(shù)據(jù)讓生活更便利——熱力圖,導(dǎo)航路況2.大數(shù)據(jù)讓決策更精準——政府、教育、經(jīng)濟、衛(wèi)生等等領(lǐng)域3.大數(shù)據(jù)帶來新的就業(yè)需求——系統(tǒng)研發(fā)工程師、數(shù)據(jù)分析師等4.大數(shù)據(jù)帶來新的社會問題——信息泄露、數(shù)據(jù)安全、個人隱私、倫理★下列關(guān)于大數(shù)據(jù)思維的描述,錯誤的是()A.大數(shù)據(jù)時代,人們可以采集全體數(shù)據(jù)進行分析,避免樣本不同導(dǎo)致結(jié)論不同B.基于大數(shù)據(jù)技術(shù),我們能夠接受數(shù)據(jù)的混雜性,個別數(shù)據(jù)的不準確不影響數(shù)據(jù)分析C.數(shù)據(jù)總量變大會導(dǎo)致大量不相干的數(shù)據(jù)增加,大數(shù)據(jù)具有價值密度低的特點D.使用大數(shù)據(jù)思維,我們更強調(diào)事物因果關(guān)系的探求,而不僅僅是數(shù)據(jù)之間的相關(guān)性課堂練習(xí)D★下列數(shù)據(jù)中屬于大數(shù)據(jù)的是()①各地交通攝像頭記錄的全部數(shù)據(jù)②學(xué)生網(wǎng)上高考報名數(shù)據(jù)③電商平臺的用戶瀏覽、交易時產(chǎn)生的數(shù)據(jù)④全體手機用戶的聯(lián)網(wǎng)信息、實時定位數(shù)據(jù)A.①②③B.①②④C.①③④D.②③④C★當(dāng)人們在社交平臺上表達自己對股票市場的情緒或觀點時,美國華爾街的炒股高手們卻正在利用大數(shù)據(jù)技術(shù)分析人們的想法,先人一步預(yù)判市場走勢,而且取得了不俗的收益。關(guān)于這一實例,下列說法不正確的是()A.人們在上網(wǎng)獲取數(shù)據(jù)的同時,本身也在產(chǎn)生數(shù)據(jù)B.每個人在社交平臺中發(fā)布的觀點等數(shù)據(jù)都蘊含著巨大的價值C.用戶在網(wǎng)絡(luò)中瀏覽信息、發(fā)表觀點搜索信息時都有可能泄露個人隱私D.很多社交軟件都是依據(jù)采集到的個人用戶的網(wǎng)絡(luò)行為進行“個性化推薦”課堂練習(xí)B
大數(shù)據(jù)處理二★分——將問題分解為規(guī)模更小的子問題★治——將規(guī)模更小的子問題逐個擊破★合——將已解決的子問題合并,最終得出原問題的解一、大數(shù)據(jù)處理的分治思想大數(shù)據(jù)處理靜態(tài)數(shù)據(jù)流數(shù)據(jù)圖數(shù)據(jù)批處理計算(Hadoop、spark等)流計算(storm、heron等)圖計算(pregel、graphx等)二、大數(shù)據(jù)處理分類★靜態(tài)數(shù)據(jù):在處理時已收集完成、在計算式不會發(fā)生改變的數(shù)據(jù)
★流數(shù)據(jù):是指不間斷地、持續(xù)地到達的實時數(shù)據(jù),隨著時間的流逝,流數(shù)據(jù)的價值也隨之降低,通過實時分析計算可以得到更有價值的分析的結(jié)果★圖數(shù)據(jù):以社交網(wǎng)絡(luò)、道路交通等數(shù)據(jù)為例的眾多以圖為數(shù)據(jù)呈現(xiàn)形式的數(shù)據(jù),或者轉(zhuǎn)化為圖之后再進行分析的Hadoop是一個運行于計算機集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于靜態(tài)數(shù)據(jù)的批處理計算。Spark是一種與hadoop相似的,應(yīng)用較廣的開源分布式計算架構(gòu)。Spark啟用了內(nèi)存存儲中間結(jié)果,運行速度比hadoop快。三、大數(shù)據(jù)處理分類——批處理計算三、大數(shù)據(jù)處理分類——Hadoop的組成HDFS是一個高度容錯性的系統(tǒng),不需要運行在昂貴并且高可靠的硬件上。比如:云盤、網(wǎng)盤的底層一般采用HDFS實現(xiàn)Hbase是一個高可靠,高性能,可伸縮,分布式的列式數(shù)據(jù)庫,是谷歌BigTable數(shù)據(jù)庫的開源實現(xiàn)。采用基于列的存儲方式,主要用來存儲非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。三、大數(shù)據(jù)處理分類——分布式并行計算模型MapReduceMapReduce主要用于處理大規(guī)模數(shù)據(jù)集的并行運算,由Map(映射)和Reduce(歸納)兩部分組成。它的核心思想就是將任務(wù)分解并發(fā)到多個節(jié)點上進行處理,最后匯總輸出。四、大數(shù)據(jù)處理整合2014年9月,Twitter大數(shù)據(jù)處理系統(tǒng)summingbird開源新工具,它實現(xiàn)了批處理和流計算的整合(Hadoop+storm)。平臺的整合縮短了批處理與流處理之間的切換延時時間,有利于減少系統(tǒng)的開銷,降低使用成本。課堂練習(xí)★下列關(guān)于Hadoop架構(gòu)的描述正確的是(
)A.是一個對大數(shù)據(jù)進行聚合式處理的基礎(chǔ)軟件框架B.不能運行于大規(guī)模計算機集群上C.采用NTFS文件系統(tǒng)管理數(shù)據(jù)文件D.采用MapReduce編程模型處理大規(guī)模數(shù)據(jù)集D★下列軟件主要用于進行流計算的有(
)
A.HadoopB.Storm
C.PregelD.SparkB課堂練習(xí)★下列關(guān)于流數(shù)據(jù)的描述不正確的是(
)
A.數(shù)據(jù)在處理時已經(jīng)采集完成
B.數(shù)據(jù)價值隨著時間的流逝降低
C.實時分析流數(shù)據(jù)可以得到更有價值的結(jié)果
D.可以采用流計算進行實時分析A課堂練習(xí)★下列關(guān)于大數(shù)據(jù)的說法,正確的是()A.大數(shù)據(jù)包括靜態(tài)數(shù)據(jù)、流數(shù)據(jù)兩種類型B.大數(shù)據(jù)蘊含著巨大的價值,但其價值密度較低C.分布式數(shù)據(jù)庫HBase主要用來存儲結(jié)構(gòu)化數(shù)據(jù)D.大數(shù)據(jù)給生活帶來便利,也讓用戶的個人隱私受到更好的保護B課堂練習(xí)★下列應(yīng)用的數(shù)據(jù)屬于圖計算處理的是()A.某傳染病的傳播路徑B.高速公路每時每刻的車流量C.購物網(wǎng)站的廣告推薦D.已經(jīng)搜集的某商品的月成交額A★下列選項中,哪個不是大數(shù)據(jù)的典型應(yīng)用()A.基于交易大數(shù)據(jù)分析用戶的購買習(xí)慣B.基于搜索引擎的搜索關(guān)鍵詞分析社會熱點C.基于道路攝像頭、地感線圈等數(shù)據(jù)分析城市交通情況D.基于科技文獻數(shù)據(jù)庫檢索某一領(lǐng)域研究進展D
文本處理三
為富不仁的老財主請教書先生為酒店寫對聯(lián)。問題提出一、文本數(shù)據(jù)處理指什么?實現(xiàn)任何程度或者級別的人工智能所必需的最大突破之一就是擁有可以處理文本數(shù)據(jù)的機器。值得慶幸的是,全世界文本數(shù)據(jù)的數(shù)量在最近幾年已經(jīng)實現(xiàn)指數(shù)級增長。這也迫切需要人們從文本數(shù)據(jù)中挖掘新知識、新觀點。從社交媒體分析到風(fēng)險管理和網(wǎng)絡(luò)犯罪保護,處理文本數(shù)據(jù)已經(jīng)變得前所未有的重要。簡書文章:https:///p/37e529c8baa9文本數(shù)據(jù)處理是大數(shù)據(jù)處理的重要分支之一,目的是從大規(guī)模的文本數(shù)據(jù)中提取出符合需要的、感興趣的和隱藏的信息。目前,文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、情報分析、自動摘要、自動校對、論文查重、文本分類、垃圾郵件過濾、機器翻譯、自動應(yīng)答等方面。二、文本數(shù)據(jù)處理的一般過程據(jù)資料表明,非結(jié)構(gòu)化文本數(shù)據(jù)占文本數(shù)據(jù)總量的80%以上,而計算機只認識“符號語言”,并不能直接處理非結(jié)構(gòu)化形式的“自然語言”。非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)分詞數(shù)據(jù)分析文本數(shù)據(jù)源特征提取結(jié)果呈現(xiàn)三、文本數(shù)據(jù)處理——分詞(1)基于詞典的分詞方法,也稱作基于字符匹配的分詞方法,即在分析句子時與詞典中的詞語進行對比,詞典中出現(xiàn)的就劃分為詞。例如:Python中文分詞模塊jieba。importjiebadata=“今天是2035年1月1日,星期一,天氣晴朗!"jg=jieba.cut(data,cut_all=False)jg="/".join(jg)#結(jié)果顯示print(jg)1.jg=jieba.cut(待分詞對象,cut_all=True),全模式2.jg=jieba.cut(待分詞對象,cut_all=False),精確模式3.jg=jieba.cut_for_search(待分詞對象),搜索引擎模式三、文本數(shù)據(jù)處理——分詞(2)基于統(tǒng)計的分詞方法,統(tǒng)計分詞的思想是依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計,同時出現(xiàn)的次數(shù)越高就越可能組成一個詞。在實際應(yīng)用中,一般是將其與基于詞典的分詞方法結(jié)合使用。(3)基于規(guī)則的分詞方法,通過讓計算機模擬人的理解方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進行學(xué)習(xí),達到對文字進行分詞的效果。由于中文語言知識的籠統(tǒng)性、復(fù)雜性,這種分詞方法目前還處于試驗階段。名稱簡介Jieba分詞Python開源項目IKAnalyzerJava開源分詞工具包NLPIR北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒炇?,非商業(yè)應(yīng)用免費語言云哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心,在線API接口調(diào)用BosonNLP玻森中文語義開放平臺,在線API接口或庫調(diào)用四、文本數(shù)據(jù)處理——特征提取
※特征詞:
在中文文本分析中可以采用字、詞或短語作為表示文本的特征項。目前,大多數(shù)中文文本分析中都采用詞作為特征項,這種詞稱作特征詞。
※特征提?。?/p>
通常可直接用分詞算法和詞頻統(tǒng)計得出的結(jié)果作為特征詞。通過特征提取來找出最具代表性、最有效的文本特征,從而減少特征詞的數(shù)量,提高文本處理的速度和效率。
※特征提取方式:
特征提取一般采用的方式為根據(jù)專家的知識挑選有價值的特征,或者用數(shù)學(xué)建模的方法構(gòu)造評估函數(shù)自動選取特征等。目前大多采用評估函數(shù)進行特征提取的方式,評估函數(shù)大多是基于概率統(tǒng)計設(shè)計的,這就需要用龐大的訓(xùn)練數(shù)據(jù)集才能獲得對分類起關(guān)鍵作用的特征。隨著深度學(xué)習(xí)、大數(shù)據(jù)分析等技術(shù)的發(fā)展,文本特征提取將更加準確、科學(xué)。五、文本數(shù)據(jù)處理——分析與應(yīng)用(1)標簽云(文本可視化的一種方式)標簽云用詞頻表現(xiàn)文本特征,將關(guān)鍵詞按照一定的順序和規(guī)律排列,如頻度遞減、字母順序等,并以文字大小的形式代表詞語的重要性,如圖所示標簽云廣泛應(yīng)用于報紙、雜志等傳統(tǒng)媒體和互聯(lián)網(wǎng)。五、文本數(shù)據(jù)處理——分析與應(yīng)用(2)文本情感分析,指通過計算機技術(shù)對文本的主觀性、觀點、情緒、極性進行挖掘和分析,對文本的情感傾向做出分類判斷。文本情感分析作為一個多學(xué)科交叉的研究領(lǐng)域,涉及自然語言處理、信息檢索、機器學(xué)習(xí)、人工智能等領(lǐng)域。文本情感分析根據(jù)分析的粒度不同,分為詞語級、語句級、整篇文章級三類。詞語級是在分詞的基礎(chǔ)上,根據(jù)情感詞典進行特征提取與分類,再分別給特征詞賦予權(quán)重進行統(tǒng)計分析。特征詞的權(quán)重,例如,滿意+5;差-5等。
文本情感分析主要應(yīng)用于網(wǎng)絡(luò)輿情監(jiān)控、用戶評論分析與決策、信息預(yù)測等眾多領(lǐng)域。1.文本數(shù)據(jù)處理的主要步驟包括:①數(shù)據(jù)分析
②特征提取
③分詞
④結(jié)果呈現(xiàn)
⑤文本數(shù)據(jù)獲取下列文本數(shù)據(jù)處理順序正確的是(
)A.①⑤②③④
B.②⑤③①④C.⑤①③②④D.⑤③②①④2.下列關(guān)于中文分詞方法的描述中,屬于基于詞典的分詞方法的是(
)A.在分析句子時與詞典中的詞語進行對比,詞典中出現(xiàn)的就劃分為詞B.依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計,同時出現(xiàn)的次數(shù)越高就越可能組成一個詞C.讓計算機模擬人的理解方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進行學(xué)習(xí),然后分詞D.依據(jù)詞語與詞語之間的空格進行分詞DA課堂練習(xí)3.在中文文本分析中,一般不用做文本的特征項的是(
)A
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 光伏儲能合同能源管理模式(emc)測算表
- 廣西建設(shè)工程專用合同條款
- 海上貨運代理合同 答辯狀
- 合同到期搬離通知書
- 大班數(shù)學(xué)認識半點課件
- 專項8 非連續(xù)性文本閱讀- 2022-2023學(xué)年五年級語文下冊期末專項練習(xí)
- 2024普通軟件產(chǎn)品銷售合同
- 2024公司借款保證合同范本
- 深圳大學(xué)《印度文化遺產(chǎn)賞析》2021-2022學(xué)年第一學(xué)期期末試卷
- 菜苗栽種合同(2篇)
- 《臨床決策分析》課件.ppt
- 家風(fēng)家訓(xùn)PPT課件
- 淚道沖洗PPT學(xué)習(xí)教案
- 部編版六年級語文上冊詞語表(帶拼音)-六上冊詞語表連拼音
- 淺談校園影視在學(xué)校教育中的作用
- 無公害農(nóng)產(chǎn)品查詢
- 試劑、試藥、試液的管理規(guī)程
- 研究生課程應(yīng)用電化學(xué)(課堂PPT)
- 通信綜合網(wǎng)管技術(shù)規(guī)格書doc
- 六宮數(shù)獨可直接打印共192題
- 班會:如何克服浮躁心理PPT優(yōu)秀課件
評論
0/150
提交評論