數(shù)據(jù)及數(shù)據(jù)預(yù)處理_第1頁(yè)
數(shù)據(jù)及數(shù)據(jù)預(yù)處理_第2頁(yè)
數(shù)據(jù)及數(shù)據(jù)預(yù)處理_第3頁(yè)
數(shù)據(jù)及數(shù)據(jù)預(yù)處理_第4頁(yè)
數(shù)據(jù)及數(shù)據(jù)預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩85頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于數(shù)據(jù)及數(shù)據(jù)預(yù)處理

記錄數(shù)據(jù)關(guān)系記錄數(shù)據(jù)矩陣,例如,數(shù)值矩陣,交叉文檔數(shù)據(jù):文本文件:詞頻向量交易數(shù)據(jù)圖形和網(wǎng)絡(luò)萬(wàn)維網(wǎng)社會(huì)或信息網(wǎng)絡(luò)分子結(jié)構(gòu)有序時(shí)間數(shù)據(jù):時(shí)間序列順序數(shù)據(jù):交易序列基因序列數(shù)據(jù)視頻數(shù)據(jù)的圖像序列空間,圖像和多媒體:空間數(shù)據(jù):地圖2.1數(shù)據(jù)類型第2頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)對(duì)象數(shù)據(jù)集由數(shù)據(jù)對(duì)象組成一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)實(shí)體例子銷售數(shù)據(jù)庫(kù):客戶,商店物品,銷售額醫(yī)療數(shù)據(jù)庫(kù):患者,治療信息大學(xué)數(shù)據(jù)庫(kù):學(xué)生,教授,課程信息稱為樣品,示例,實(shí)例,數(shù)據(jù)點(diǎn),對(duì)象,元組(tuple)。數(shù)據(jù)對(duì)象所描述的屬性。數(shù)據(jù)庫(kù)中的行->數(shù)據(jù)對(duì)象;列->“屬性”。第3頁(yè),共90頁(yè),2024年2月25日,星期天屬性屬性(或尺寸,特征,變量):一個(gè)數(shù)據(jù)字段,代表一個(gè)數(shù)據(jù)對(duì)象的特征或功能。例如,客戶_ID,姓名,地址類型:標(biāo)稱二進(jìn)制數(shù)字:定量規(guī)模區(qū)間縮放比率第4頁(yè),共90頁(yè),2024年2月25日,星期天屬性類型標(biāo)稱:類別,狀態(tài),或“名字的東西”Hair_color={黑色,棕色,金色,紅色,紅褐色,灰色,白色}婚姻狀況,職業(yè),身份證號(hào)碼,郵政編碼二進(jìn)制只有2個(gè)狀態(tài)(0和1)的屬性對(duì)稱二進(jìn)制兩種結(jié)果重要例如,性別不對(duì)稱的二進(jìn)制結(jié)果同樣重要。例如,醫(yī)療測(cè)試(正面與負(fù)面)公約:將1至最重要的成果(例如,HIV陽(yáng)性)序數(shù)詞價(jià)值觀有一個(gè)有意義的順序(排名),但不知道連續(xù)值之間的大小。大小={小,中,大},等級(jí),軍隊(duì)排名第5頁(yè),共90頁(yè),2024年2月25日,星期天2.2數(shù)據(jù)質(zhì)量被廣泛接受的數(shù)據(jù)質(zhì)量測(cè)量標(biāo)準(zhǔn)準(zhǔn)確性完整性一致性合時(shí)性可信度解釋性第6頁(yè),共90頁(yè),2024年2月25日,星期天2.3數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理:概述數(shù)據(jù)預(yù)處理主要任務(wù)數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)縮減數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化總結(jié)第7頁(yè),共90頁(yè),2024年2月25日,星期天2.3數(shù)據(jù)預(yù)處理主要任務(wù)數(shù)據(jù)清理填寫(xiě)缺失值,平滑噪聲數(shù)據(jù),識(shí)別或刪除離群,并解決不一致問(wèn)題數(shù)據(jù)集成整合多個(gè)數(shù)據(jù)庫(kù),多維數(shù)據(jù)集或文件數(shù)據(jù)縮減降維Numerosityreduction數(shù)據(jù)壓縮數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化正?;筛拍顚哟谓Y(jié)構(gòu)第8頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)清洗在現(xiàn)實(shí)世界中的數(shù)據(jù)是“臟”的:不完整的:缺少屬性值,缺乏某些屬性值,或只包含總數(shù)據(jù)例如,職業(yè)=“”(丟失的數(shù)據(jù))含嘈雜的噪音,錯(cuò)誤或離群例如,工資=“-10”(錯(cuò)誤)不一致的代碼或不符的名稱年齡=“42”生日=“03/07/1997”曾經(jīng)評(píng)級(jí)“1,2,3”,現(xiàn)在評(píng)級(jí)“A,B,C”重復(fù)的記錄之間的差異第9頁(yè),共90頁(yè),2024年2月25日,星期天不完整(缺少)數(shù)據(jù)數(shù)據(jù)并不總是可用的例如,許多元組沒(méi)有屬性,如客戶收入、銷售數(shù)據(jù)的記錄值丟失的數(shù)據(jù),可能是由于設(shè)備故障與其他記錄的數(shù)據(jù)不一致,從而刪除因誤會(huì)而未讀入在讀入的時(shí)候,某些數(shù)據(jù)可能不會(huì)被認(rèn)為是重要的不是歷史或更改的數(shù)據(jù)注冊(cè)丟失的數(shù)據(jù)可能需要被推斷第10頁(yè),共90頁(yè),2024年2月25日,星期天如何處理丟失數(shù)據(jù)?忽略元組:通常是類標(biāo)簽丟失時(shí)(這樣做分類),每個(gè)屬性的缺失值有很大的差別手動(dòng)填寫(xiě)遺漏值自動(dòng)填寫(xiě)全局常量屬性含義屬性意味著所有樣本屬于同一類最有可能的值:基于諸如貝葉斯公式或決策樹(shù)推理第11頁(yè),共90頁(yè),2024年2月25日,星期天噪聲數(shù)據(jù)噪聲:一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或方差原因收集工具故障數(shù)據(jù)錄入問(wèn)題數(shù)據(jù)傳輸問(wèn)題技術(shù)限制命名約定不一致其他數(shù)據(jù)問(wèn)題需要數(shù)據(jù)清理如重復(fù)記錄數(shù)據(jù)不完整不一致的數(shù)據(jù)第12頁(yè),共90頁(yè),2024年2月25日,星期天如何處理噪聲數(shù)據(jù)?回歸數(shù)據(jù)擬合聚類檢測(cè)和刪除離群結(jié)合計(jì)算機(jī)和人工檢查檢測(cè)可疑的數(shù)據(jù)(例如人工處理可能的異常值)第13頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)清洗數(shù)據(jù)的誤差檢測(cè)使用元數(shù)據(jù)(例如,領(lǐng)域,范圍,依賴,分銷)檢查是否溢出檢查唯一性規(guī)則,連續(xù)統(tǒng)治和空的規(guī)則使用商業(yè)工具數(shù)據(jù)清理:使用領(lǐng)域知識(shí)(例如,郵政編碼,拼寫(xiě)檢查),檢測(cè)錯(cuò)誤并改正數(shù)據(jù)審計(jì):通過(guò)分析數(shù)據(jù)檢測(cè)違規(guī)者(例如,關(guān)聯(lián)和聚類規(guī)則和關(guān)系,尋找離群)數(shù)據(jù)遷移和整合數(shù)據(jù)遷移工具:允許指定的轉(zhuǎn)換ETL(提取/轉(zhuǎn)換/加載)工具:通過(guò)圖形用戶界面允許用戶指定轉(zhuǎn)換兩個(gè)過(guò)程的集成迭代和交互第14頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)集成數(shù)據(jù)集成將來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)組合成一個(gè)連貫的數(shù)據(jù)源模式集成:例如,A.cust-idB.cust-#整合來(lái)自不同來(lái)源的元數(shù)據(jù)實(shí)體識(shí)別問(wèn)題:識(shí)別來(lái)自多個(gè)數(shù)據(jù)源的真實(shí)世界的實(shí)體,例如,BillClinton=WilliamClinton數(shù)據(jù)沖突檢測(cè)和解決對(duì)于同一個(gè)真實(shí)世界的實(shí)體,來(lái)自不同源的屬性值可能的原因:不同的表述,不同的尺度,例如,公制與英制單位第15頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)集成中的冗余信息的處理整合多個(gè)數(shù)據(jù)庫(kù)經(jīng)常發(fā)生數(shù)據(jù)冗余Objectidentification:相同的屬性或?qū)ο罂赡苡胁煌拿衷诓煌臄?shù)據(jù)庫(kù)中Derivabledata:一個(gè)屬性可能是“派生”的另一個(gè)表中的屬性,例如,年收入通過(guò)相關(guān)性分析和協(xié)方差分析可以檢測(cè)到冗余的屬性仔細(xì)集成來(lái)自多個(gè)數(shù)據(jù)源,可能有助于減少/避免冗余和不一致的地方,并提高讀取速度和質(zhì)量第16頁(yè),共90頁(yè),2024年2月25日,星期天相關(guān)分析Χ2(chi-square)testΧ2值越大,越有可能變量是相關(guān)的ThecellsthatcontributethemosttotheΧ2valuearethosewhoseactualcountisverydifferentfromtheexpectedcount相關(guān)性并不意味著因果關(guān)系#ofhospitalsand#ofcar-theftinacity是相關(guān)的兩者都因果聯(lián)系的第三個(gè)變量為人口第17頁(yè),共90頁(yè),2024年2月25日,星期天Χ2(chi-square)test舉例Χ2(卡方)計(jì)算(括號(hào)中的數(shù)字是預(yù)計(jì)計(jì)數(shù)基于兩個(gè)類別中的數(shù)據(jù)分布計(jì)算)這表明,組中的like_science_fiction和play_chess相關(guān)第18頁(yè),共90頁(yè),2024年2月25日,星期天相關(guān)分析數(shù)據(jù)(數(shù)字?jǐn)?shù)據(jù))相關(guān)系數(shù)(也稱為皮爾遜積矩系數(shù))其中n是元組的數(shù)目,而p和q是各自的具體值,σp和σq是各自的標(biāo)準(zhǔn)偏差,如果R(p,q)>0,p和q是正相關(guān)的(p的值增加為q的),較高的相關(guān)性。R(p,q)=0:獨(dú)立;R(p,q)<0負(fù)相關(guān)第19頁(yè),共90頁(yè),2024年2月25日,星期天視覺(jué)評(píng)估相關(guān)散點(diǎn)圖顯示的相似性,從-1到1。第20頁(yè),共90頁(yè),2024年2月25日,星期天相關(guān)(視為線性關(guān)系)相關(guān)測(cè)量對(duì)象之間的線性關(guān)系為了計(jì)算相關(guān)性,將數(shù)據(jù)對(duì)象標(biāo)準(zhǔn)化,p和q,然后計(jì)算他們的點(diǎn)積第21頁(yè),共90頁(yè),2024年2月25日,星期天協(xié)方差(數(shù)字?jǐn)?shù)據(jù))類似相關(guān)協(xié)方差其中n是元組的數(shù)目,p和q是各自的平均值或期望值,σp和σq是各自的標(biāo)準(zhǔn)偏差。正的協(xié)方差:如果COV(p,q)>0,則p和q都傾向于是大于它們的預(yù)期值。負(fù)的協(xié)方差:如果在COV(p,q)<0,則如果p是大于它的預(yù)期值,q是可能要小于它的預(yù)期值。獨(dú)立性:COVP(p,q)=0可具有某些對(duì)隨機(jī)變量的協(xié)方差為0,但不是獨(dú)立的。一些額外的假設(shè)(例如,數(shù)據(jù)是否服從多元正態(tài)分布)做了協(xié)方差為0意味著獨(dú)立第22頁(yè),共90頁(yè),2024年2月25日,星期天協(xié)方差:舉例它可以簡(jiǎn)化計(jì)算假設(shè)兩只股票A和B具有在1個(gè)星期的以下值:(2,5),(3,8),(5,10),(4,11),(6,14)。問(wèn)題:如果股票都受到同行業(yè)的趨勢(shì),他們的價(jià)格一起上升或下降?E(A)=(2+3+5+4+6)/5=20/5=4E(B)=(5+8+10+11+14)/5=48/5=9.6COV(A,B)=(2×5+3×8+5×10+4×11+6×14)/5-4×9.6=4結(jié)論:A和B在一起上升,因?yàn)镃ov(A,B)>0。第23頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)縮減策略數(shù)據(jù)還原:還原面積更小、體積減少的數(shù)據(jù)集,但尚未產(chǎn)生相同(或幾乎相同)的分析結(jié)果為什么數(shù)據(jù)縮減?-由于數(shù)據(jù)倉(cāng)庫(kù)可以存儲(chǔ)TB的數(shù)據(jù),因此在一個(gè)完整的數(shù)據(jù)集上運(yùn)行時(shí),復(fù)雜的數(shù)據(jù)分析可能需要一個(gè)很長(zhǎng)的時(shí)間數(shù)據(jù)縮減戰(zhàn)略降維,例如,刪除不重要的屬性小波變換主成分分析(PCA)特征選擇,特征創(chuàng)建Numerosityreduction回歸和對(duì)數(shù)線性模型直方圖,聚類,取樣數(shù)據(jù)立方體聚集數(shù)據(jù)壓縮第24頁(yè),共90頁(yè),2024年2月25日,星期天降維原因隨著維數(shù)的增加,數(shù)據(jù)變得越來(lái)越稀疏對(duì)孤立點(diǎn)分析使得密度和距離變得意義不大子空間的可能的組合將成倍增長(zhǎng)降維作用避免維數(shù)災(zāi)難幫助消除無(wú)關(guān)緊要的屬性,并降低噪音減少數(shù)據(jù)挖掘所需的時(shí)間和空間更容易的可視化降維技術(shù)小波變換主成分分析監(jiān)督和非線性技術(shù)(例如,特征選擇)第25頁(yè),共90頁(yè),2024年2月25日,星期天將數(shù)據(jù)映射到一個(gè)新的空間傅里葉變換小波變換TwoSineWavesTwoSineWaves+NoiseFrequency第26頁(yè),共90頁(yè),2024年2月25日,星期天小波變換是什么?分解成不同的頻率子帶的信號(hào)適用于n維信號(hào)轉(zhuǎn)化的數(shù)據(jù)是在不同級(jí)別的分辨率中保存用于圖像壓縮第27頁(yè),共90頁(yè),2024年2月25日,星期天小波變換離散小波變換(DWT)的線性信號(hào)處理壓縮近似:只有一小部分的小波系數(shù)最強(qiáng)離散傅里葉變換(DFT)類似,但在空間中有更好的壓縮效果方法:長(zhǎng)度L,必須是2的整數(shù)次冪(0填充,必要時(shí))每個(gè)變換具有2個(gè)功能:平滑,差異適用于雙數(shù)據(jù),在兩個(gè)集得到的長(zhǎng)度為L(zhǎng)/2的數(shù)據(jù)施加兩個(gè)遞歸函數(shù),直到達(dá)到所需要的長(zhǎng)度第28頁(yè),共90頁(yè),2024年2月25日,星期天小波變換小波:空間高效分解的數(shù)學(xué)工具[2,2,0,2,3,5,4,4]可轉(zhuǎn)化為S=S^=[23/4,-11/4,1/2,0,0,-1,0]壓縮:許多小細(xì)節(jié)系數(shù)可以替換為0的,只有顯示的系數(shù)被保留第29頁(yè),共90頁(yè),2024年2月25日,星期天為什么小波變換?使用hat-shape濾波器強(qiáng)調(diào)區(qū)域點(diǎn)聚集的地方在邊界禁止較弱的信息有效去除離群值對(duì)噪聲不敏感多分辨率在不同尺度檢測(cè)任意形狀的集群高效復(fù)雜度為O(N)只適用于低維數(shù)據(jù)第30頁(yè),共90頁(yè),2024年2月25日,星期天主成分分析(PCA)原始數(shù)據(jù)投影到一個(gè)更小的空間,從而查找投影來(lái)捕獲最大的變化量數(shù)據(jù)的,從而維數(shù)降低。發(fā)現(xiàn)協(xié)方差矩陣的特征向量,用這些特征向量定義新的空間x2x1e第31頁(yè),共90頁(yè),2024年2月25日,星期天主成分分析(步驟)從n維向量中的N個(gè)數(shù)據(jù)中,求k≤N個(gè)正交向量(主成分)能用來(lái)表示數(shù)據(jù)歸一輸入數(shù)據(jù):每個(gè)屬性落在相同的范圍內(nèi)(單元)計(jì)算K:正交向量,即,主成分每個(gè)輸入的數(shù)據(jù)(矢量)是k個(gè)主分量矢量的線性組合通過(guò)排序減少“意義”或強(qiáng)度的組成部分由于這些組件的排序方式,消除了弱的元件,即具有低方差(即,使用最強(qiáng)的主成分,也能夠重建原始數(shù)據(jù)的一個(gè)很好的近似,可以減少數(shù)據(jù)的大?。┑?2頁(yè),共90頁(yè),2024年2月25日,星期天屬性子集選擇通過(guò)屬性子集選擇以減少數(shù)據(jù)的維多余的屬性復(fù)制所有的信息中包含一個(gè)或多個(gè)其他屬性例如,購(gòu)買(mǎi)一個(gè)產(chǎn)品的價(jià)格和支付額兩個(gè)屬性相同,是多余的屬性不相關(guān)的屬性不包含任何信息的屬性例如,學(xué)生的ID往往在預(yù)測(cè)學(xué)生的GPA是不相關(guān)的第33頁(yè),共90頁(yè),2024年2月25日,星期天啟發(fā)式搜索屬性選擇d的屬性有可能是2d屬性組合典型的啟發(fā)式屬性選擇方法:Bestsingleattribute屬性獨(dú)立性假設(shè):選擇進(jìn)行檢驗(yàn)分步進(jìn)行的功能選擇:分步進(jìn)行屬性消除:反復(fù)淘汰不需要的屬性最佳組合的屬性選擇和淘汰優(yōu)化分支和綁定:使用屬性消除和回溯第34頁(yè),共90頁(yè),2024年2月25日,星期天創(chuàng)建屬性(特征生成)創(chuàng)建新的屬性(特征),可以更有效地比原來(lái)的數(shù)據(jù)捕捉重要的信息三個(gè)一般方法屬性提取

domain-specific將數(shù)據(jù)映射到新的空間(見(jiàn):數(shù)據(jù)縮減)例如,傅立葉變換,小波變換,歧管的方法(未覆蓋)Attributeconstruction數(shù)據(jù)離散化第35頁(yè),共90頁(yè),2024年2月25日,星期天NumerosityReduction通過(guò)選擇更小的數(shù)據(jù)來(lái)替代從而減少數(shù)據(jù)量參數(shù)方法(例如,回歸)假設(shè)數(shù)據(jù)適合一些模型,估計(jì)模型參數(shù),只存儲(chǔ)參數(shù),并丟棄數(shù)據(jù)(可能的異常值除外)例如:對(duì)數(shù)線性模型在一個(gè)點(diǎn)在MD的空間作為產(chǎn)品上獲得價(jià)值,適當(dāng)?shù)倪呺H子空間非參數(shù)方法不要假設(shè)模型主要方法:直方圖,聚類,取樣,...第36頁(yè),共90頁(yè),2024年2月25日,星期天參數(shù)數(shù)據(jù)還原:回歸和對(duì)數(shù)線性模型線性回歸:一次函數(shù)通常使用最小二乘法來(lái)擬合線多元回歸:允許多維特征向量的線性函數(shù)建模為變量Y對(duì)數(shù)線性模型:近似離散的多維概率分布第37頁(yè),共90頁(yè),2024年2月25日,星期天回歸分析回歸分析:組成的一個(gè)因變量(也稱為響應(yīng)變量)和一個(gè)或多個(gè)獨(dú)立變量(亦稱解釋變量或預(yù)測(cè)變量的值的數(shù)值數(shù)據(jù)建模和分析技術(shù)的統(tǒng)稱)參數(shù)估計(jì),以便使數(shù)據(jù)“最適合”最常用的是通過(guò)使用最小二乘法來(lái)進(jìn)行評(píng)估,但也被用于其他標(biāo)準(zhǔn)用于時(shí)間序列數(shù)據(jù)預(yù)測(cè)等的預(yù)測(cè),推斷,假設(shè)檢驗(yàn),因果關(guān)系的建模xy=x+1X1Y1Y1’第38頁(yè),共90頁(yè),2024年2月25日,星期天回歸分析和對(duì)數(shù)線性模型線性回歸:Y=WX+B兩個(gè)回歸系數(shù),w和b,指定行,并且要使用手工的數(shù)據(jù)估計(jì)使用最小二乘準(zhǔn)則已知的值,Y1,Y2,...,X1,X2,....多元回歸:Y=b0+b1X1+b2X2.。許多非線性函數(shù),可轉(zhuǎn)化為上述線性模型:多路表的聯(lián)合概率近似為低階表概率:p(a,b,c,d)=

ab

ac

ad

bcd第39頁(yè),共90頁(yè),2024年2月25日,星期天直方圖分析將數(shù)據(jù)劃分為buckets,然后存儲(chǔ)buckets的均值分區(qū)規(guī)則:等寬:等于buckets范圍相等的頻率(或等于深度第40頁(yè),共90頁(yè),2024年2月25日,星期天聚類分區(qū)數(shù)據(jù)基于相似性進(jìn)行存儲(chǔ),只能設(shè)置成集群(例如,質(zhì)心和直徑)如果數(shù)據(jù)是集群則非常有效,否則效果較差可以在多維索引樹(shù)結(jié)構(gòu)有層次聚類和存儲(chǔ)聚類定義和聚類算法有很多選擇聚類分析在后續(xù)將進(jìn)行深入研究第41頁(yè),共90頁(yè),2024年2月25日,星期天采樣采樣:獲得一個(gè)小樣本代表整個(gè)數(shù)據(jù)N主要原則:選擇有代表性的數(shù)據(jù)子集簡(jiǎn)單隨機(jī)抽樣開(kāi)發(fā)的自適應(yīng)采樣方法,例如分層抽樣注:采樣不得減少數(shù)據(jù)庫(kù)I/O(第一次)第42頁(yè),共90頁(yè),2024年2月25日,星期天采樣類型簡(jiǎn)單隨機(jī)抽樣相等的概率選擇不放回抽樣一旦對(duì)象被選中,則將其刪除更換采樣選擇對(duì)象不會(huì)被刪除分層抽樣對(duì)每個(gè)分區(qū)進(jìn)行數(shù)據(jù)集的分區(qū)抽樣(也就是說(shuō),大約相同比例的數(shù)據(jù)進(jìn)行抽取樣本)用于偏斜數(shù)據(jù)第43頁(yè),共90頁(yè),2024年2月25日,星期天取樣:用或不用更換SRSWOR(simplerandomsamplewithoutreplacement)SRSWRRawData第44頁(yè),共90頁(yè),2024年2月25日,星期天采樣:群集或分層抽樣RawDataCluster/StratifiedSample第45頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)壓縮字符串壓縮有豐富的理論和壓縮算法通常無(wú)損音頻/視頻壓縮通常有損壓縮,需要逐步細(xì)化時(shí)間序列壓縮典型的短期和隨時(shí)間變化緩慢第46頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)壓縮OriginalDataCompressedDatalosslessOriginalDataApproximatedlossy第47頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)轉(zhuǎn)換函數(shù)映射指給定的屬性值更換了一個(gè)新的表示方法,每個(gè)舊值與新的值可以被識(shí)別方法平滑:從數(shù)據(jù)中去除噪聲屬性/重新構(gòu)造從給定的構(gòu)造的新的屬性聚合:匯總數(shù)據(jù)計(jì)算規(guī)范化:指定范圍內(nèi)縮放屬于較小的最小-最大規(guī)范化Z-得分正?;?shù)定標(biāo)規(guī)范化離散化:概念層次第48頁(yè),共90頁(yè),2024年2月25日,星期天Discretization

離散三種類型的屬性從一個(gè)無(wú)序的設(shè)置,例如,顏色,專業(yè)的值從一個(gè)有序的集合,例如,軍事或?qū)W術(shù)排名次序值數(shù)字,真實(shí)的數(shù)字,例如,整數(shù)或?qū)崝?shù)離散化:除以間隔連續(xù)屬性的范圍區(qū)間的標(biāo)簽可以被用來(lái)代替實(shí)際的數(shù)據(jù)值減少數(shù)據(jù)大小離散監(jiān)督與無(wú)監(jiān)督分割(自頂向下)與合并(自下而上)離散化,可以進(jìn)行遞歸屬性準(zhǔn)備作進(jìn)一步的分析,例如,分類第49頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)離散化方法典型的方法:所有的方法可應(yīng)用于遞歸Binning

自頂向下的分割直方圖分析自頂向下的分割其他方法聚類分析(無(wú)監(jiān)督,自上而下裂開(kāi)或自底向上的合并)決策樹(shù)分析(監(jiān)督,自上而下的分割)相關(guān)性分析(無(wú)監(jiān)督,自下而上合并)第50頁(yè),共90頁(yè),2024年2月25日,星期天離散不使用類標(biāo)簽(分級(jí)與集群)Equalfrequency(binning)K-meansclusteringleadstobetterresults第51頁(yè),共90頁(yè),2024年2月25日,星期天離散使用類標(biāo)簽決策樹(shù)方法(基于信息熵)3categoriesforbothxandy5categoriesforbothxandy第52頁(yè),共90頁(yè),2024年2月25日,星期天概念層次生成概念層次組織層次概念(即屬性值)通常指數(shù)據(jù)倉(cāng)庫(kù)中的每個(gè)維度概念層次通過(guò)滾動(dòng)來(lái)查看數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中多粒度形成概念層次:遞歸減少數(shù)據(jù)收集和更換低層次的概念(如年齡的數(shù)值)到更高層次的概念(如青年,成年,或高級(jí))由領(lǐng)域?qū)<液?或數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)概念分層可以顯式指定概念層次可以自動(dòng)形成數(shù)字和標(biāo)稱數(shù)據(jù)。對(duì)于數(shù)字?jǐn)?shù)據(jù),使用所示的離散化方法。第53頁(yè),共90頁(yè),2024年2月25日,星期天總結(jié)數(shù)據(jù)質(zhì)量的準(zhǔn)確性,完整性,一致性,時(shí)效性,可信性,解釋性數(shù)據(jù)清洗:如缺少/高噪音值,離群值來(lái)自多個(gè)來(lái)源的數(shù)據(jù)集成實(shí)體識(shí)別問(wèn)題刪除冗余檢測(cè)不一致數(shù)據(jù)縮減降維Numerosityreduction數(shù)據(jù)壓縮數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化正常化生成概念層次第54頁(yè),共90頁(yè),2024年2月25日,星期天2.4數(shù)據(jù)相似性和相異性度量相似數(shù)值衡量?jī)蓚€(gè)數(shù)據(jù)對(duì)象值越高對(duì)象時(shí)更相似往往屬于在區(qū)間[0,1]相異(例如,距離)兩個(gè)不同的數(shù)據(jù)對(duì)象的數(shù)值衡量值越低對(duì)象時(shí)更相異最低相異往往是0上限各不相同接近指的相似性或不相似第55頁(yè),共90頁(yè),2024年2月25日,星期天數(shù)據(jù)矩陣和相異矩陣數(shù)據(jù)矩陣n個(gè)數(shù)據(jù)兩種模式相異矩陣n個(gè)數(shù)據(jù)點(diǎn)三角矩陣單模第56頁(yè),共90頁(yè),2024年2月25日,星期天舉例:數(shù)據(jù)矩陣和相異矩陣DissimilarityMatrix(withEuclideanDistance)DataMatrix第57頁(yè),共90頁(yè),2024年2月25日,星期天總結(jié)數(shù)據(jù)屬性類型:名義,二進(jìn)制,順序,間隔縮放比例,縮放許多類型的數(shù)據(jù)集,例如,數(shù)值,文字,圖形,網(wǎng)頁(yè),圖像等。洞察數(shù)據(jù)通過(guò)以下幾種方式:基本的統(tǒng)計(jì)數(shù)據(jù)說(shuō)明:集中趨勢(shì),分散,圖形顯示數(shù)據(jù)可視化:mapdataontographicalprimitives測(cè)量數(shù)據(jù)相似上述步驟是數(shù)據(jù)預(yù)處理的開(kāi)始。許多方法已經(jīng)開(kāi)發(fā),但現(xiàn)在其仍然是一個(gè)活躍的研究領(lǐng)域第58頁(yè),共90頁(yè),2024年2月25日,星期天2.5數(shù)據(jù)統(tǒng)計(jì)匯總動(dòng)機(jī)為了更好地理解數(shù)據(jù):集中趨勢(shì),變異和傳播數(shù)據(jù)的分散特性最大值,最小值,中位數(shù),位數(shù),離群值,方差等。尺寸數(shù)值對(duì)應(yīng)排序的時(shí)間間隔數(shù)據(jù)分散性:多粒度的精確分析箱形圖或位數(shù)排序的時(shí)間間隔分析第59頁(yè),共90頁(yè),2024年2月25日,星期天測(cè)量集中趨勢(shì)平均(代數(shù)措施)(樣品與人口):注:n為樣本大小和N是人口規(guī)模。加權(quán)算術(shù)平均值:修剪意味著:去掉極端值中位數(shù):中間值,如果值,奇數(shù)或平均中間的兩個(gè)值,否則估計(jì)插補(bǔ)(分組數(shù)據(jù)):模式最頻繁出現(xiàn)的值,該值在數(shù)據(jù)單峰,雙峰,三峰經(jīng)驗(yàn)公式:第60頁(yè),共90頁(yè),2024年2月25日,星期天對(duì)稱VS偏斜數(shù)據(jù),中位數(shù),均值和對(duì)稱模式,正面和負(fù)面的偏斜數(shù)據(jù)第61頁(yè),共90頁(yè),2024年2月25日,星期天測(cè)量數(shù)據(jù)的分散性四分位數(shù),離群和盒狀圖四分位數(shù)(第25百分位):Q1,Q3(第75百分位)四分位數(shù)間距:IQR=Q3-Q1箱形圖:盒子的兩端是四分位數(shù)明顯;單獨(dú)添加胡須,情節(jié)離群離群:通常情況下,一個(gè)值高于/低于1.5×IQR方差和標(biāo)準(zhǔn)差(樣本:,人口:σ)方差:(代數(shù),可擴(kuò)展的計(jì)算)標(biāo)準(zhǔn)差s(或σ)是方差的平方根2(或σ2)第62頁(yè),共90頁(yè),2024年2月25日,星期天箱線圖分析五號(hào)碼分布摘要最小,Q1,中位數(shù),Q3,最大箱形圖數(shù)據(jù)表示與一個(gè)框框的端部上面的第一個(gè)和第三個(gè)四分位數(shù),即,框的高度是四分位數(shù)間距方框內(nèi)的中位數(shù)的帶標(biāo)記的線兩線最小和最大擴(kuò)展到外箱第63頁(yè),共90頁(yè),2024年2月25日,星期天可視化數(shù)據(jù)分散:3-D箱圖第64頁(yè),共90頁(yè),2024年2月25日,星期天正態(tài)分布曲線的屬性正常分布曲線從μ-σμ+σ:含有約68%的測(cè)量(μ:均值,σ:標(biāo)準(zhǔn)偏差)從μ-2σμ+2σ:包含約95%的從μ-3σ,μ+3σ:包含約99.7%第65頁(yè),共90頁(yè),2024年2月25日,星期天圖形顯示的基本統(tǒng)計(jì)描述箱形圖:圖形顯示直方圖:x軸值,y軸頻率位數(shù):每個(gè)值x位數(shù)-分位數(shù)(QQ):一個(gè)單變量分布的分位數(shù)對(duì)相應(yīng)位數(shù)的另一個(gè)圖表散點(diǎn)圖:每個(gè)值對(duì)是一對(duì)坐標(biāo),其繪制在平面上第66頁(yè),共90頁(yè),2024年2月25日,星期天相比盒形圖直方圖往往告訴更多兩個(gè)在右側(cè)的直方圖顯示其可以具有相同的盒形圖表示效果相同的values:最小,Q1,Q3,中位數(shù),最大但是他們有相當(dāng)不同的數(shù)據(jù)分布第67頁(yè),共90頁(yè),2024年2月25日,星期天位數(shù)圖顯示的所有數(shù)據(jù)(允許用戶評(píng)估整體行為和不尋常的事件)位數(shù)信息對(duì)于數(shù)據(jù)x進(jìn)行遞增的順序排序,F(xiàn)I表示,約一定比例的數(shù)據(jù)網(wǎng)絡(luò)連接均低于或等于值xi第68頁(yè),共90頁(yè),2024年2月25日,星期天散點(diǎn)圖二元數(shù)據(jù)顯示點(diǎn)的分布,離群點(diǎn)等被視為一對(duì)坐標(biāo)值的每對(duì)點(diǎn)在平面上繪制成第69頁(yè),共90頁(yè),2024年2月25日,星期天正面和負(fù)面的相關(guān)數(shù)據(jù)左半片段是正相關(guān)的右半邊是負(fù)相關(guān)第70頁(yè),共90頁(yè),2024年2月25日,星期天不相關(guān)的數(shù)據(jù)第71頁(yè),共90頁(yè),2024年2月25日,星期天2.6數(shù)據(jù)可視化為什么數(shù)據(jù)可視化?將圖元數(shù)據(jù)映射到信息空間提供大型數(shù)據(jù)集的定性瀏覽搜索數(shù)據(jù)之間的關(guān)系如模式,趨勢(shì),結(jié)構(gòu),規(guī)則,幫助進(jìn)一步定量分析,通過(guò)合適的參數(shù)找到有趣的地區(qū)提供可視化的陳述典型的可視化方法:幾何技術(shù)基于圖標(biāo)的技術(shù)分層技術(shù)第72頁(yè),共90頁(yè),2024年2月25日,星期天幾何技術(shù)幾何變換和預(yù)測(cè)的數(shù)據(jù)可視化方法直接的數(shù)據(jù)可視化散點(diǎn)圖矩陣Landscapes投影尋蹤技術(shù)尋找有意義的多維數(shù)據(jù)預(yù)測(cè)Hyperslice平行坐標(biāo)第73頁(yè),共90頁(yè),2024年2月25日,星期天直接數(shù)據(jù)可視化基于Vorticity的色帶第74頁(yè),共90頁(yè),2024年2月25日,星期天散點(diǎn)圖矩陣第75頁(yè),共90頁(yè),2024年2月25日,星期天Landscapes可視化的數(shù)據(jù)透視Landscapes這些數(shù)據(jù)需要轉(zhuǎn)化成一個(gè)(可能是人工的)二維空間表示,其中保存的數(shù)據(jù)的特征第76頁(yè),共90頁(yè),2024年2月25日,星期天平行坐標(biāo)將一個(gè)軸劃分為N等距離,每一個(gè)距離對(duì)應(yīng)一個(gè)屬性軸縮放在[最小,最大]之間:對(duì)應(yīng)屬性范圍每一個(gè)數(shù)據(jù)項(xiàng)目(折線)對(duì)應(yīng)的各軸相交的點(diǎn)表示相對(duì)應(yīng)的屬性值第77頁(yè),共90頁(yè),2024年2月25日,星期天平行坐標(biāo)數(shù)據(jù)集第78頁(yè),共90頁(yè),2024年2月25日,星期天基于圖標(biāo)的技術(shù)將數(shù)據(jù)值作為可視化功能的圖標(biāo)典型的可視化方法:ChernoffFacesStickFigures一般技術(shù)形狀編碼:使用形狀來(lái)表示一定的信息編碼彩色圖標(biāo):使用彩色圖標(biāo)的信息編碼TileBars:使用小圖標(biāo)代表文件檢索的特征向量第79頁(yè),共90頁(yè),2024年2月25日,星期天ChernoffFaces一種來(lái)顯示二維表面上的變量的方法,例如,讓x是眉毛傾斜,y是眼睛的大小,z是鼻子長(zhǎng)度等該組圖顯示了人臉部的10個(gè)特征-眼睛的大小,眼間距,偏心眼,瞳孔大小,眉毛傾斜,鼻子的大小,嘴的形狀,嘴巴大小,張口等參考文獻(xiàn):Gonick,L.andSmith,W.TheCartoonGuidetoStatistics.NewYork:HarperPerennial,p.212,1993Weisstein,EricW."ChernoffFace."FromMathWorld--AWolframWebResource./ChernoffFace.html

第80頁(yè),共90頁(yè),2024年2月25日,星期天StickFigures普查數(shù)據(jù)顯示,年齡,收入,性別,教育等等。第81頁(yè),共90頁(yè),2024年2月25日,星期天分層技術(shù)使用子空間分層分區(qū)的數(shù)據(jù)可視化。方法DimensionalStackingWorlds-within-WorldsTree-MapConeTreesInfoCube第82頁(yè),共90頁(yè),2024年2月25日,星期天DimensionalStacking在2-D的子空間中分配的n維屬性空間,'堆疊'相互轉(zhuǎn)化劃分成類的屬性值范圍時(shí),重要屬性使用在theouterlevels上。低基數(shù)與序?qū)傩詳?shù)據(jù)超過(guò)九個(gè)維度難以顯示重要的地圖尺寸適當(dāng)?shù)?3頁(yè),共90頁(yè),2024年2月25日,星期天Worlds-within-Worlds指定兩個(gè)最重要的參數(shù)修復(fù)所有其他參數(shù)(1或2或3維世界選擇這些軸)軟件使用此范例,N–vision:通過(guò)datagloveandstereo立體顯示,包括旋轉(zhuǎn),縮放(內(nèi)環(huán))和翻譯(內(nèi)/外動(dòng)力相互作用)AutoVisual:通過(guò)查詢靜態(tài)互動(dòng)第84頁(yè),共90頁(yè),2024年2月25日,星期天Tree-Map屏幕填充方法具體指根據(jù)屬性值采用了分層方法將屏幕分割成區(qū)域x和y維度的畫(huà)面交替地進(jìn)行分區(qū)的屬性值(類)MSRNetScan的圖片第85頁(yè),共90頁(yè),2024年2月25日,星期天文件系統(tǒng)的Tree-Map第86頁(yè),共90頁(yè),2024年2月25日,星期天Three-DConeTreesThree-DConeTrees的可視化技術(shù)的工作原理首先建立一個(gè)二維的圓,安排節(jié)點(diǎn)在根節(jié)點(diǎn)上的同心圓,然后逐漸形成樹(shù)預(yù)計(jì)到2D時(shí)無(wú)法避免重疊G.Robertson,J.Mackinlay,S.Card.“ConeTrees:An

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論