非結構化數(shù)據(jù)分析與應用 課件 第3章 非結構化數(shù)據(jù)描述性分析_第1頁
非結構化數(shù)據(jù)分析與應用 課件 第3章 非結構化數(shù)據(jù)描述性分析_第2頁
非結構化數(shù)據(jù)分析與應用 課件 第3章 非結構化數(shù)據(jù)描述性分析_第3頁
非結構化數(shù)據(jù)分析與應用 課件 第3章 非結構化數(shù)據(jù)描述性分析_第4頁
非結構化數(shù)據(jù)分析與應用 課件 第3章 非結構化數(shù)據(jù)描述性分析_第5頁
已閱讀5頁,還剩50頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第三章非結構化數(shù)據(jù)描述性分析3.1數(shù)據(jù)的描述3.2數(shù)據(jù)的可視化3.3數(shù)據(jù)的質(zhì)量目錄和內(nèi)容3.1文本數(shù)據(jù)的描述文本的自然描述文本是由文字和標點組成的字符串。字組成詞、詞組,形成句子、段落和文檔。對于只能理解0和1的計算機來說,尋找一種能夠讓機器接收的表示方法就是描述文本描述成為理解非結構化數(shù)據(jù)的關鍵。文字和表情混用

如圖展示了電影《美麗人生》海報和用戶在豆瓣APP上對電影進行的評價。網(wǎng)絡社交圈子中,除了文字之外,還有豐富的表情包、新生的顏文字,通過卡通表情來敘述自己的態(tài)度。中英文混雜縮寫DIY:DoItYourself的縮寫,自己動手做的意思。例句:清歡太壞了,青眉電腦壞了找他修,他讓青眉DIY。SOHO:SmallOfficeHomeOfficer的簡稱,意思是“在家辦公”。

例句:《游俠秀秀》的作者小非是SOHO一族啊。BUG:原意是“臭蟲”,后來把跟電腦有關的故障都稱之為“BUG”。例句:每回俠客社區(qū)出現(xiàn)BUG,青眉都急得跳腳。I服了U:我服了你……周星星片子里的經(jīng)典臺詞。例句:你居然能讓清歡不對你說“不”,I服了U!EMO:“我抑郁了”,“我網(wǎng)抑云了”,“我頹了”“我傻了”諧音短語:數(shù)字諧音快速表達某些短語,如下:

3166:沙喲娜拉,日語,再見886:拜拜嘍,再見3Q:ThankYou,謝謝7456:氣死我了9494:就是就是表情包emoji:表情包是直接、快速的現(xiàn)代表達方式挖掘emoji信息幫助提升評論的情感分析文本數(shù)字化描述構建文本表示模型,如何選取要素來表示文本文本表示模型:詞袋模型N-gram文本數(shù)值化描述基于頻次詞嵌入方法大模型文本表示模型詞袋模型BagofWords(BOW)詞袋模型將整個語料庫以詞為單位進行切分,形成一個不包含重復對象的詞集合。例如有語料庫:“今天一直下雨,明天會不會一直下雨”。利用BOW詞袋模型建模,獲得集合:(今天,明天,一直,下雨,會不會)。該方法十分簡單,容易理解忽略了句子中詞語的出現(xiàn)順序沒有將不同詞之間的相關性、是否是近義詞考慮進去表示稀疏N元語言模型N-gram

基于統(tǒng)計語言模型的算法,將文本按照字節(jié)進行大小為N的滑動窗口操作,形成了長度是N的字節(jié)片段序列。基于假設:第N個詞的出現(xiàn)只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現(xiàn)概率的乘積。概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。具體操作是將N個詞之間的組合看作一個詞,生成一個不包含重復對象的詞組合集合。例如:“今天一直下雨,明天會不會一直下雨”,當N=2時,獲得(今天一直,一直下雨,明天會不會,會不會一直)N-gram同樣非常稀疏,且隨著N的增加,N-gram模型的維數(shù)迅速膨脹。文本數(shù)值化將文本按照相應表示模型轉化成集合后,對其進行數(shù)值化將模型中的每個元素以數(shù)值代替。

頻次編碼CountVector:通過計數(shù)來生成詞向量的。舉例說明:包含2個文檔的語料庫:“我愛浙大”、“我愛中國,非常愛”。語料庫中共有5個詞出現(xiàn),首先使用文本表示方法轉換為詞袋:(我,愛,浙大,中國,非常)則該語料庫的這兩個文檔都使用維度為5的CountVector來表示:第一個文檔中,“我”出現(xiàn)1次,計數(shù)為1;第二個文檔中“愛”出現(xiàn)了2次,計數(shù)為2。以此類推:共現(xiàn)矩陣共現(xiàn)矩陣是一個對稱矩陣,用來分析詞與詞之間基于上下文的相似性指在中心詞的左右某個窗口大小的范圍內(nèi),某兩個詞共同出現(xiàn)的次數(shù)如果窗口大小為1,則計算中心詞與前后1個位置的詞的共現(xiàn)次數(shù)對于語料庫:“我愛浙大”、“我愛中國,非常愛”中的文檔“我愛浙大”,滑動窗口大小為1,尋找每一個詞前后的兩個詞如“愛”前后為“我”和“浙大”,在對應位置標注1即可得到共現(xiàn)矩陣為下:Index我愛浙大中國非常我01000愛10100浙大01000中國00000非常00000示例語料庫文檔“我愛浙大”的共現(xiàn)矩陣A/D轉換器鏡頭CCD傳感器濾波器CFA插值

白平衡、伽馬校正數(shù)據(jù)壓縮、存儲成像系統(tǒng)的內(nèi)部構成相機拍照后選擇存儲格式3.2圖像數(shù)據(jù)的描述圖像的自然描述數(shù)字圖像是用傳感器將物體在光照下拍照獲得的手機和相機等光學傳感器獲取圖像的系統(tǒng)框圖有高度和寬度、以像素為基本單元順序的圖像數(shù)據(jù)圖像數(shù)據(jù)的描述-參數(shù)圖像大?。簣D像文件的大小決定了圖像文件所需的磁盤存儲空間,一般以字節(jié)(byte)來度量,其計算公式為:字節(jié)數(shù)=(位圖高×位圖寬×圖像深度)/8。圖像分辨率:指單位打印長度上的圖像像素的數(shù)目,表示圖像數(shù)字信息的數(shù)量或密度,決定了圖像的清晰程度。一張照片的分辨率為:1920*1080(dpi,全稱為dotperinch),1920是照片的寬度,1080是圖像的高度。圖像顏色:一種記錄圖像顏色的方式,將某種顏色表現(xiàn)為數(shù)字形式的模型。有RGB模式、RGBA模式、CMYK模式、位圖模式、灰度模式、索引顏色模式、雙色調(diào)模式等。位深:存儲每個像素所用的位數(shù)。圖像的每一個像素對應的數(shù)據(jù)通常可以是1位(bit)或多位字節(jié),用于存放該像素的顏色、亮度等信息,數(shù)據(jù)位數(shù)越多,對應的圖像顏色種類越多。如RGB的深度就是28*3=256*3=768,此圖像的深度為768,每個像素點都能夠代表768中的顏色。色調(diào):指各種圖像色彩模式下圖像的原色的明暗度。例如,RGB模式的圖像的原以為R、G、B的3種明暗度,色調(diào)的調(diào)整就是對明暗度的調(diào)整。飽和度:指圖像顏色的深度,它表明了色彩的純度,決定于物體反射或投射的特性。圖像數(shù)字化描述

圖像的數(shù)字化描述是能夠在計算機上存儲和容易分析的圖像形式可根據(jù)特性分為位圖和矢量圖。位圖通常使用數(shù)字陣列來表示,常見的格式有BMP、JPEG、GIF等。用數(shù)字照相機得到的圖像都是位圖圖像,位圖圖像由像素組成,每個像素都被分配一個特定位置和顏色值數(shù)字化描述方式,灰度圖像、二值圖像、彩色圖像和比特平面分層圖像等矢量圖有矢量數(shù)據(jù)庫表示,常見的是PNG圖形位圖的矩陣描述將一幅圖像視為一個二維函數(shù)f(x,y)其中x和y是空間坐標,在x-y平面中的任意一對空間坐標(x,y)上的幅值f用來表示一幅圖像具有兩個連續(xù)變量x和y的連續(xù)圖像函數(shù),該函數(shù)可以是該點的灰度、亮度或者強度?;叶葓D像RGB彩色圖像自然界幾乎所有顏色都可以由紅綠藍三種顏色組合而成,稱為RGB三原色彩色圖像的每個像素通常是由紅(R)、綠(G)、藍(B)三個分量來表示的紅、綠、藍每一種顏色各有256級亮度,256級的RGB色彩總共能組合出約1678萬種色彩對于圖像的每個像素,通過控制RGB三原色的合成比例,則可決定該像素的顯示顏色

比特平面分層比特平面分層代替突出灰度級的范圍,突出特定的比特對整個圖像做出的貢獻像素是比特組成的數(shù)字,一幅8比特的圖像可以認為是8個1比特的平面構成平面1包含圖像中所有像素的最低階比特,平面8包含圖像中所有像素的最高階比特低階的比特平面含有原圖的灰度細節(jié)高階的比特平面則包含了大多數(shù)的圖像的數(shù)據(jù)可以使用高階的幾層比頁面重建原圖,減少圖像存儲量《蒙娜麗莎的微笑》圖像的比特平面分層示例分層的作用:通過對特定位面提高亮度,改善圖像質(zhì)量分層觀察圖像進行圖像差異化的描述分析較高位(如前4位)包含視覺重要數(shù)據(jù)較低位(如后4位)對圖像小細節(jié)有作用可以分析每一位在圖像中的相對重要性

彩色圖像的比特平面分層彩色圖像的比特面分層只是在紅、藍、綠三個分量上分別進行分層如圖3.12中紅色通道上的一個像素用8比特的字節(jié)表示,二進制數(shù)存儲在不同的比特面層次的低層到高層中,則二進制11001010=十進制202最后彩色圖像上該像素的幅度值為RGB三個彩色分量上8比特字節(jié)的組合

圖像描述(ImageCaption)看圖說話:輸入是一幅圖像,輸出是對該幅圖像文字描述3.3視頻數(shù)據(jù)的描述視頻的自然描述視頻指連續(xù)的圖像序列是人肉眼可觀察到的連續(xù)畫面經(jīng)過捕捉和存儲后,可重復播放的信息形式用幀、鏡頭、場景、故事單元等元素來描述視頻的內(nèi)部內(nèi)容衡量視頻的質(zhì)量,用清晰度、分辨率、色彩空間以及峰值信噪比來量化視頻表現(xiàn)的時序動作信息

視頻數(shù)字化描述每個視頻都是一個圖像序列,其內(nèi)容比一張圖像豐富的多,表現(xiàn)力更強。視頻具有層次化結構,由場景、鏡頭和幀三個邏輯單元組成。對視頻的分析通常是基于視頻幀,通過視頻解碼后得到的視頻流中包含的I幀、B幀、P幀等。關鍵幀定義:把圖像坐標系中每個“視頻幀”都疊加在一起,這時鏡頭中視頻幀的特征矢量會在空間中呈現(xiàn)出一個軌跡的狀態(tài),而與軌跡中特征值進行對應的“幀”即可稱之為關鍵幀。在構成一段動畫的若干幀中,起到?jīng)Q定性作用的往往是2-3幀。通常關鍵幀通常是1秒動畫的第一幀和最后一幀,因此,提取視頻的關鍵幀至關重要視頻流中的I幀、B幀、P幀和關鍵幀的信息抽取

百度智能云媒體內(nèi)容分析過程百度智能云媒體內(nèi)容分析MCA(MediaContentAnalysis)是一款基于多維AI技術的計算型產(chǎn)品,為用戶提供音視頻及直播的內(nèi)容分析能力。視頻語音、文字、公眾人物、物體、場景等多個維度進行識別后輸出對視頻的場景、公眾人物、地點、實體和關鍵詞的結構化標簽信息提高搜索準確度和用戶推薦視頻的曝光量。

視頻描述(VideoCaptioning)3.4音頻數(shù)據(jù)的描述音頻的自然描述音頻信號(Audio)是帶有語音、音樂和音效的有規(guī)律的聲波的頻率、幅度變化信息載體。不同類型的音頻具有不同的內(nèi)在特征和自然描述,物理特征級、聲學特征級別和語義級。物理樣本級描述包含的特征有采樣頻率、時間刻度、樣本等;聲學特征級描述包含音調(diào)、音高、旋律、節(jié)奏等;語義級描述則包括音頻的敘事、音頻對象描述、語音識別文本等。

語音“我愛北京天安門”的時域信號語音:隨時間播放音樂:唱歌樂曲隨時間播放音頻數(shù)字化過程音頻數(shù)字化描述采樣率是指錄音設備在單位時間內(nèi)對聲音信號的采樣次數(shù),主流采樣率分為三個等級:22.05KHz、44.1KHz、48KHz。44.1KHz理論上是CD音質(zhì)的界限,這也是MP3具有的采樣率。量化是聲音信號在幅值的數(shù)字化,主要是將幅度上連續(xù)取值的每一個樣本轉換為離散值表示,其量化過后的樣本用二進制表示。二進制的位數(shù)反映了度量聲音波形幅度的精度。精度越大,聲音的質(zhì)量就越好。通常的精度有8bit,16bit,32bit等,質(zhì)量越好,需要的儲存空間就越大。音頻數(shù)據(jù)的時域和頻域表示音頻數(shù)據(jù)的時域和頻域表示數(shù)據(jù)率是音頻數(shù)字化的基本技術參數(shù),數(shù)據(jù)率為每秒bit數(shù),其總數(shù)據(jù)量與計算機的存儲空間有直接關系。未經(jīng)壓縮的數(shù)字音頻數(shù)據(jù)率可按下式計算:數(shù)據(jù)率=采樣頻率(Hz)×量化位數(shù)(bit)×聲道數(shù)(bit/s)3.5數(shù)據(jù)的可視化可視化技術通常會將數(shù)據(jù)分析內(nèi)容集成在一個圖形界面上,展示一個或多個可視化視圖。非結構數(shù)據(jù)特征多,需要降維以緩解維數(shù)災難??梢詫?shù)據(jù)去冗余、降低信噪比,方便可視化。因此非結構數(shù)據(jù)可視化需要首先提取特征,在分解和降維之后再進行可視化,分析和揭示數(shù)據(jù)的規(guī)律。文本的可視化分析詞云WordCloud使用Python,調(diào)用wordcloud庫中的方法來簡單制作詞云圖,步驟如下:收集語料:語料可以是某一類新聞,某一篇小說,某一篇報道,人物描述,公司描述,物品描述等等,通過某個語料,獲取該語料的主題。數(shù)據(jù)讀取:對于爬蟲得到的數(shù)據(jù)需要去掉空行,對不規(guī)范的內(nèi)容進行處理,對于規(guī)范的文本可以直接調(diào)用jieba庫進行分詞。去停止詞:分詞后需去掉停止詞,停止詞的詞頻很大,影響結果。統(tǒng)計詞頻:使用wordcloud制作成詞云B站詞云的案例bilibili網(wǎng)站下視頻彈幕文本的詞云圖經(jīng)過爬取bilibili網(wǎng)站下視頻“建黨百年主題MV《少年》”下出現(xiàn)的高頻彈幕,并制作詞云圖可以清晰地展示大眾在該視頻下的彈幕評論高頻詞匯:“吾輩”、“當自強”、“中國”等。詞云可以很好地表現(xiàn)每個單詞在特定文本體中被提及的頻率(即詞頻分布)通過使用不同的顏色和大小來表示不同級別的相對顯著性。TIARA可視化方法TIARA結合了標簽云,通過主題分析技術(latentdirichletallocation,LDA),將文本關鍵詞根據(jù)時間點放置在每條色帶上用詞的大小來表示關鍵詞在該時刻出現(xiàn)的頻率。因此用TIARA可以幫助用戶快速分析文本具體內(nèi)容隨時間變化的規(guī)律。如圖3.24在可視化中,每一層代表一個主題,由一組關鍵字描述。此處顯示了總共18個主題中的前8個主題。這些主題關鍵字隨時間分布,總結了內(nèi)容隨時間的演變。x軸編碼時間,y軸編碼每個主題的強度。對于每個主題,高度編碼了特定時間主題的電子郵件。從每個話題的高度及其隨時間分布的內(nèi)容,用戶可以觀察到話題隨時間的演變。FaceAtlas氣泡圖FaceAtlas結合了氣泡集和節(jié)點-鏈接圖兩種視圖,用于表達文本各層面信息內(nèi)部和外部的關聯(lián)。每個節(jié)點表示一個實體,用KDE方法刻畫出氣泡圖的輪廓,然后用線將同一層面的實體鏈接起來,一種顏色代表一種實體。下圖是基于醫(yī)療健康文檔,展示了與HIV相關的病名、病因、癥狀、診斷方案等多層面的信息,“無癥狀HIV感染”中(右上角),顯示了更多相關疾?。ㄒ约t色圓圈突出顯示)。情感分析可視化情感分析是指從文本中挖掘出心情、喜好、感覺等主觀信息。分析文本能掌握人們對于一個事件的觀點或情感的發(fā)展。圖3.25是基于矩陣視圖的客戶反饋信息的可視化工作,其中的行是指用戶觀點的載體,列是用戶的評價,顏色表達的是用戶評價的傾向程度,紅色代表消極,藍色代表積極,每個方格內(nèi)的小格子代表用戶評價的人數(shù),評價人數(shù)越多小格子越大。文本的知識圖譜知識圖譜旨在用結構化的形式描述真實世界中存在的各種實體或概念之間的關系,簡化成三元組模式,即:實體-關系-實體。最終呈現(xiàn)的是一張的關系網(wǎng),網(wǎng)中每個節(jié)點代表某種實體或概念,而關系則是展現(xiàn)兩者之間的關聯(lián)文本數(shù)據(jù)知識圖譜技術以最契合社會行為的形式表達復雜的社會結構,適合分析具有關聯(lián)關系的數(shù)據(jù)。圖表示知識圖譜助力新冠肺炎抗疫,在大量的數(shù)據(jù)中抽取出軌跡的關鍵點信息、新冠肺炎特征、預防措施、治療方案等信息,將數(shù)據(jù)進行信息化和知識化處理,經(jīng)過前期抽樣的人工校驗后作為疫情大腦的數(shù)據(jù)來源。CNN特征圖可視化深度神經(jīng)網(wǎng)絡性能很高,但其內(nèi)部的工作方式錯綜復雜,研究人員難以理解其中是如何得出結果的。

如下圖示出簡化的深度卷積神經(jīng)網(wǎng)絡結構,如何將紅色虛線框中的黑盒打開,用可視化方式展示網(wǎng)絡內(nèi)部各種層級結構,對黑箱的CNN進行可解釋對分析決策是非常重要的。

CNN特征圖可視化

類別激活映射(CAM)解釋CNN分類結果(圖像來源:BoleiZhouetalLearningDeepFeaturesforDiscriminativeLocalization.CVPR2016)交互式可視化學習CNN使用CNNExplainer觀察CNN運作過程(圖像來源:CNNExplainer(poloclub.github.io))特征降維PCAt-SNE降維與可視化與PCA的性能相比,t-SNE的表現(xiàn)更好。t-SNE算法將不同的手寫數(shù)字聚類,沒有任何重疊,PCA難以將手寫數(shù)字圖像進行完美分類。與PCA不同,t-SNE可以更好地應用于線性和非線性良好聚類的數(shù)據(jù)集,并產(chǎn)生更有意義的聚類。盡管t-SNE在可視化分離良好的群集方面非常出色,但大多數(shù)情況下它無法保留數(shù)據(jù)的整體幾何形狀。3.6數(shù)據(jù)的質(zhì)量數(shù)據(jù)質(zhì)量問題直接影響分析的結果高質(zhì)量數(shù)據(jù)應該是對現(xiàn)實世界的真實反映高質(zhì)量數(shù)據(jù)=?文本數(shù)據(jù)的質(zhì)量文本數(shù)據(jù)的描述,經(jīng)過爬取和收集的生數(shù)據(jù)集(rawdata)中常常包含大量來自于網(wǎng)絡的文本,無可避免的需要面對一些不規(guī)范的文本表達問題。社交網(wǎng)絡中常出現(xiàn)的顏文字、表情符號等圖像數(shù)據(jù)的質(zhì)量標簽噪聲自行車圖像清晰度質(zhì)量低環(huán)境照度圖像(下圖a)模糊不清圖像(下圖b)雨霧天圖像(下圖c,d)遠距離分辨率低圖像壓縮倍數(shù)大質(zhì)量低都將會影響圖像分析的結果音頻數(shù)據(jù)的質(zhì)量干擾場景:實際中聲音檢測主要是處于干擾環(huán)境中的背景音以及聲音的混響例如使用Siri的時候會發(fā)現(xiàn),如果周圍環(huán)境噪聲過大,Siri就會出現(xiàn)誤判,主要的原因是人說話的語音信號與手機麥克風所采拾的環(huán)境噪聲之間信噪比(SNR)較小,噪聲影響了正常識別系統(tǒng)的性能。遠場場景:遠場場景都是比較復雜的場景,這主要是因為麥克風距離遠,語音信號到達麥克風時衰減嚴重,使得環(huán)境噪音、混響、音樂等背景干擾信號,以及其他人聲的影響難以被忽略。實用中識別系統(tǒng)在訓練數(shù)據(jù)具有多重干擾時,尤其是多人人聲和干擾的環(huán)境下的魯棒性仍需解決。數(shù)據(jù)的偏差影響很多人認為,只要數(shù)據(jù)集的樣本足夠多,就能夠訓練得到在真實世界中性能同樣出眾的模型這種觀點的前提假設是訓練集的樣本分布與真實世界的分布一致。事實上,數(shù)據(jù)集與真實世界存在數(shù)據(jù)分布偏差,不同數(shù)據(jù)集之間也存在樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論