




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第二章認識數(shù)據(jù)數(shù)據(jù)的統(tǒng)計描述概念:數(shù)據(jù)對象,屬性類型,屬性(維,特征,變量,標稱<分類,枚舉,二元/序數(shù)>/數(shù)值<區(qū)間標度/比率標度>,定性/定量,連續(xù)/離散)。數(shù)據(jù)對稱性和中心趨勢度量:⑴均值(Mean):x算術均值,xi是觀測值/樣本,數(shù)值型;受極端值,傾斜數(shù)據(jù)影響⑵加權均值:x加權算術均值,權值wi描述對應觀測值的意義,重要性或出現(xiàn)頻率等;優(yōu)劣同上。截尾均值:丟棄高低極端值后的均值中位數(shù)(Median):應用于數(shù)值數(shù)據(jù),把所有數(shù)值數(shù)據(jù)排序,位于有序隊伍正中的數(shù)據(jù);計算時間復雜度高于算術均值,不受極端值影響;眾數(shù)(Mode):多個眾數(shù),單峰/多峰,每個數(shù)據(jù)出現(xiàn)一次,則沒有眾數(shù);不受極端值影響,計算簡單,多用于非數(shù)值型數(shù)據(jù),可靠性差;中列數(shù)(Midrange):最大和最小值的均值;易受極端值影響,計算簡單,應用于數(shù)值型數(shù)據(jù)數(shù)據(jù)對稱性:算術均值和眾數(shù)之差用來度量偏態(tài)(正負),偏態(tài)skewness=MeanMode數(shù)據(jù)散布度量:第k個q分位數(shù):把排好序的樣本,均分為q等分,子集的邊界可能就是分位數(shù);在有序樣本中的下標計算:[Nkq],取上整,k=1,2,...,q-1。單個值描述分布;中位數(shù),四分位數(shù)百分位數(shù)常使用,Q3-Q1四分位數(shù)極差(IRQ,用于判定盒圖的離群點);⑵五數(shù)概括:最小值,Q1,Q2,Q3,最大值;用均勻分布的5個點來描述分布,不是單個值;用于描述傾斜數(shù)據(jù)的分布;盒圖:盒的上下邊界是Q3,Q1,中位數(shù)是盒內(nèi)線,盒外胡須可延伸到;可以看成是直觀地表示了五數(shù)概括;計算時間O(nlogn);方差:標準差:當均值作為中心趨勢度量時,適用。大部分觀測樣本,其偏離中心不會超過很多倍標準差;統(tǒng)計描述的圖形顯示:(1)分位數(shù)圖:用來觀察單變量數(shù)據(jù)分布,數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨立變量測得的值(縱軸)相對于它們的分位數(shù)(橫軸)被描繪出來;(2)分位數(shù)-分位數(shù)圖:縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個坐標軸顯示它們的測量值相應分布的值域,且點按照兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中,以增加圖像的信息。落在該線以上的點表示在y軸上顯示的值的分布比x軸的相應的等同分位數(shù)對應的值的分布高。反之,對落在該線以下的點則低。直方圖:直方圖(數(shù)值型屬性),頻率直方圖,條形圖(標稱型屬性),概率密度函數(shù);橫坐標是變量的取值(或者類別);縱坐標是變量出現(xiàn)的次數(shù);桶(bucket)/箱(bin),bin的寬度??梢杂脕肀容^多組數(shù)據(jù)分布的差異具有相同的盒圖/boxplot,但是數(shù)據(jù)的分布完全不一樣;直方圖具備更強的描述能力;散點圖(一般超過四維就不太有效了):繪法:兩個數(shù)值型變量的任何一組取值,看成一個二維坐標;用于:描述兩個數(shù)值變量/數(shù)值型屬性之間是否存在關系/模式/趨勢;解釋:兩個變量(線性)相關,可能是正相關,也可能是負相關;相關性的理解:知道一個變量的值,能大致(用直線)估計出另一個變量的值?;谙袼氐目梢暬夹g:(a)Income(b)Credit(a)Income(b)CreditLimit(c)transactionvolume(d)age說明。每個斐鼠堆護一個色影表,其不同的值用不同的色灣的驚素點來表示,如裁值越大.色彩越-深《灰度圖)Q選定某個理量(如InwniE),蘇照苴瑩的某個分布(由大到?。┡帕忻魮?jù)(排列不同色彩的像素點).傳到第一個子國P將其它孌量對成的值繪制成不同的獨立子困;I將每個子圖中相同位置的像毒點取出,恢豆成對應的敖值就料至1原數(shù)據(jù)表中的一個敷據(jù)t元組,行)。例子表明bedi—limiL和insM呈現(xiàn)正相關,畋入中等的大盲歡購物〔成交量大〕收入和年肇之間沒有明顯相關詢思考:敝呢布局(像索點位置在于圖中的坐標位置安排)該如何設計.最好,[參見教材W.31節(jié))幾何投影可視化技術:散點圖矩陣:
說明。用于N—維數(shù)據(jù),得到nxn個散點圖9每行/列代表一個屬性與其它屬性的n個散點圖Q左圖.駕尾花數(shù)據(jù).s個屬性(萼片的長/■'萼片的寬/在福的長/花瓣的寬『神屬h不同顏色代表耳、司種感9左圖,用2D散點圖表示了3D數(shù)據(jù).所以只有1X4的矩陣。時角線是什久T說明平行坐標:橫坐標的每個取值代表一維,n維數(shù)據(jù)有n個縱坐標,一個縱坐標上標記出對應維的各種取值從左到右的一條折線對應于表中的一個數(shù)據(jù)(元組/行),可用不同顏色折線區(qū)分能看出每個維的數(shù)據(jù)分布情況主要局限性:平行坐標在數(shù)據(jù)較多時,折線太密,影響可讀性基于圖符的可視化技術:使用少量圖符表示多維數(shù)據(jù)值,兩個例子切爾諾夫臉和人物線條畫層次可視化技術:世界中的世界:分為多層世界,每個世界的維數(shù)不超過3維;最內(nèi)層的世界是個3D散點圖;最內(nèi)層世界在它的直接(相鄰)外部世界(另外三維屬性構成的3D散點圖)中就是一個點;依次類推。pitchtwttkmtwi7LimasConliniifiIndianaJaiaeTroops-,BattleInMlSSBti日pitchtwttkmtwi7LimasConliniifiIndianaJaiaeTroops-,BattleInMlSSBti日II敗I加TjQ-ftTVHMlfMXaV理rm*缺MimiE潮明1>BrwdedfiflhfcrinKa?血liraeonfenow尊twrWTH-ariEmB—E*2*5ifd*圮iPentag耽素6蜘hon虬sr蜩籍口商”「npnrpq牌Desecr即=箱「此略X-■~p"USftft'x復雜數(shù)據(jù)的可視化:文本數(shù)據(jù),標簽云(tagcloud),標簽字體的大小,色彩代表不同的含義,如次麴重要性等網(wǎng)絡,社會網(wǎng)絡,信息網(wǎng)絡,技術網(wǎng)絡等等,頂點的色彩/大小,邊的色彩/粗細,頂點和邊的權值等等,可以用來表示不同的關系,數(shù)據(jù)對象的重要性職仙arehlecliPart““心?岫…beacflgLetxfthdsyHackciut如Californiacaneda由non曜catGhitagochfiachngirnasJimcity頗oorcert謎旌《頃dtdcqI烈m削m牌hrifanilyg蜘唳蜥舊由9派仲腳雄恤岫tFmnCPfriendsfir偶血n秒cc啪出卵睥fryJrim件卅hsfcmfNi^i財物nn(hoishdoTgHktdinMiitSlyjapifl,lluvj師Ifliasc^s!gtshEbndonfliainjmWhW柱心rmm?un伽sicnature儷new^rkn箕nikon郵齡由partspa『kparty網(wǎng)叩1&ph^p岫》朝用h‘帥我湖『伯質(zhì)向saMrenciso心舶m軟以imshm*skysnow少腳胸響由ea亂1nm印w別隨削lainankkmi網(wǎng)mg御.”,捆惴ne眼trip吹響瞄vacation戚計網(wǎng)荷細'由adding啪#winter聲=出眥度量數(shù)據(jù)的相似性與相異性(書本P44-P52)第三章數(shù)據(jù)預處理ILrtdiiikr^mtion-J,妃、LWL5%北——?-Q川上UJOJJ.5^.數(shù)據(jù)預處理的四項工作ILrtdiiikr^mtion-J,妃、LWL5%北——?-Q川上UJOJJ.5^.數(shù)據(jù)預處理的四項工作D-imirumtar^JucdanMlnhLiE*1A24i...□數(shù)據(jù)清理H填充缺失數(shù)據(jù)。平滑嗅聲數(shù)據(jù)9識別/冊1除離群點P解決不一致性□數(shù)據(jù)集成O融合來曰多個數(shù)據(jù)庫崖?lián)募?數(shù)據(jù)立方的數(shù)據(jù)。數(shù)據(jù)歸約0維IFI約o敬(M約4數(shù)據(jù)壓席。數(shù)據(jù)變換及離散化。歸Tt9產(chǎn)生分層概念臟數(shù)據(jù):缺失值(不完備的數(shù)據(jù))、噪聲數(shù)據(jù)(離群點)、不一致數(shù)據(jù)、故意、偽造數(shù)據(jù)(使用缺省值,即默認值)缺失值定義:某些元組在部分屬性上沒有被記錄下來的值可能原因:數(shù)據(jù)產(chǎn)生設備故障;數(shù)據(jù)錄入時因為覺得不重要或者理解錯誤,暫時放棄錄入;因為和其它數(shù)據(jù)不一致而被刪除。此理會擊徒用條件一批產(chǎn)品祐景在莪,標逢了就堇等虬,#中桿尊產(chǎn)品境■!■等料J**忠嗪恐艇任何;房檢的軟大辛不能大黑,若任何北姬#同用■姓事個蜀世則血用,婆妾史.濟在t陰的虹握學堂成度畢中某中學隹抱聲了衛(wèi)門遙的崩曲手工雄寫在羹播者附.宙匙丈施多.孰就生土,對;故晅用于重希的敬小的教.希弟—批產(chǎn)島布色在裊,fe迷了質(zhì)暨*如,晁中那命戶扁攻萱號甄故A,右建獨丈放量等甄為unknown'辨成穌的放也等&“urikrMJwrT??frsT在時壘局希此代眉-物我花,可能令形,垮來的掠摑玲弗,一她戶耳給錄益裊.A中邨弁戶冬重量施鍬大■0玷標盅為葛建的中心度#近可以是均檢或甲住教.一艇用于孰德型敷其。括韓變量的拘檢?—批產(chǎn)Mi耳羸在莪,標垃了就量*虬,其中卻t劉券盈為產(chǎn)盅所屬表的中也度杯赤景波有類屬蛀,"0基于花種推理.耳若成州樸,晶洗?_州,Bayes^S.等.宴森喪三的杜■到未蟾罵往用能有可想的1"M"驀于某種游棒算蟄.&丸制.矣*集樹.占ayes推理*.費涂解釋說明后四種方法r自動填寫數(shù)據(jù),會造成數(shù)據(jù)“有偏”?數(shù)據(jù)庫定義時l可控缺失數(shù)據(jù);但是非關系數(shù)據(jù)庫中的數(shù)據(jù)呢?噪聲數(shù)據(jù)定義:被測變量的隨機誤差或方差產(chǎn)生原因:產(chǎn)生數(shù)據(jù)的儀器設備精度不夠;數(shù)據(jù)錄入錯誤;數(shù)據(jù)傳輸誤差;......(重復/不一致數(shù)據(jù))Surirdfor^HnTTinJuLlira)?I.k21.2L.沙.F.P捫山IlmuIiiUjIIWihHirt2-^1.21.24Uek'A::tbiTtmchLiili#hiii【1*toI.<1.9.9rn2-TL22.22Hk-i:l!211.31El曹infWtflMughyhlnhnniidfiriphi:Bnlz4.L用Ifii士jLSI坦分箱法-binning9首先將散皆第散援排擊.然若分卻成巷千警.保證每苦怕中瞄明一樣務,■■成節(jié)1蹣值罟稔(等
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二氧化碳制取的研究教學設計(第一課時)-2023-2024學年九年級人教版化學上冊
- (一模)萍鄉(xiāng)市2025年高三第一次模擬考試地理試卷(含答案解析)
- 交通廳基礎知識培訓課件
- 2025年北京平谷區(qū)高三一模高考數(shù)學模擬試卷(含答案詳解)
- 2025年認識磁鐵大班科學標準教案
- 禁毒知識培訓會課件
- 第7章 第1節(jié) 力 教學設計2023-2024學年人教版物理八年級下冊
- 作合同范例范例
- 供車轉(zhuǎn)讓合同范例
- 醫(yī)療設備維護保養(yǎng)計劃
- 盆底康復治療新進展
- 2024年青海省中考生物地理合卷試題(含答案解析)
- 2024年江西旅游商貿(mào)職業(yè)學院單招職業(yè)適應性測試題庫及參考答案
- 鐵嶺衛(wèi)生職業(yè)學院單招參考試題庫(含答案)
- 管弦樂隊校本課程
- 天津海關各部門基本情況匯總表
- 總平面布置及CAD
- 校園定向越野教學設計
- 草莓采摘機器人機械結構設計
- 陳情表原文及翻譯
- 印刷生產(chǎn)日報表
評論
0/150
提交評論