版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第二章認(rèn)識(shí)數(shù)據(jù)數(shù)據(jù)的統(tǒng)計(jì)描述概念:數(shù)據(jù)對(duì)象,屬性類型,屬性(維,特征,變量,標(biāo)稱<分類,枚舉,二元/序數(shù)>/數(shù)值<區(qū)間標(biāo)度/比率標(biāo)度>,定性/定量,連續(xù)/離散)。數(shù)據(jù)對(duì)稱性和中心趨勢(shì)度量:⑴均值(Mean):x算術(shù)均值,xi是觀測(cè)值/樣本,數(shù)值型;受極端值,傾斜數(shù)據(jù)影響⑵加權(quán)均值:x加權(quán)算術(shù)均值,權(quán)值wi描述對(duì)應(yīng)觀測(cè)值的意義,重要性或出現(xiàn)頻率等;優(yōu)劣同上。截尾均值:丟棄高低極端值后的均值中位數(shù)(Median):應(yīng)用于數(shù)值數(shù)據(jù),把所有數(shù)值數(shù)據(jù)排序,位于有序隊(duì)伍正中的數(shù)據(jù);計(jì)算時(shí)間復(fù)雜度高于算術(shù)均值,不受極端值影響;眾數(shù)(Mode):多個(gè)眾數(shù),單峰/多峰,每個(gè)數(shù)據(jù)出現(xiàn)一次,則沒(méi)有眾數(shù);不受極端值影響,計(jì)算簡(jiǎn)單,多用于非數(shù)值型數(shù)據(jù),可靠性差;中列數(shù)(Midrange):最大和最小值的均值;易受極端值影響,計(jì)算簡(jiǎn)單,應(yīng)用于數(shù)值型數(shù)據(jù)數(shù)據(jù)對(duì)稱性:算術(shù)均值和眾數(shù)之差用來(lái)度量偏態(tài)(正負(fù)),偏態(tài)skewness=MeanMode數(shù)據(jù)散布度量:第k個(gè)q分位數(shù):把排好序的樣本,均分為q等分,子集的邊界可能就是分位數(shù);在有序樣本中的下標(biāo)計(jì)算:[Nkq],取上整,k=1,2,...,q-1。單個(gè)值描述分布;中位數(shù),四分位數(shù)百分位數(shù)常使用,Q3-Q1四分位數(shù)極差(IRQ,用于判定盒圖的離群點(diǎn));⑵五數(shù)概括:最小值,Q1,Q2,Q3,最大值;用均勻分布的5個(gè)點(diǎn)來(lái)描述分布,不是單個(gè)值;用于描述傾斜數(shù)據(jù)的分布;盒圖:盒的上下邊界是Q3,Q1,中位數(shù)是盒內(nèi)線,盒外胡須可延伸到;可以看成是直觀地表示了五數(shù)概括;計(jì)算時(shí)間O(nlogn);方差:標(biāo)準(zhǔn)差:當(dāng)均值作為中心趨勢(shì)度量時(shí),適用。大部分觀測(cè)樣本,其偏離中心不會(huì)超過(guò)很多倍標(biāo)準(zhǔn)差;統(tǒng)計(jì)描述的圖形顯示:(1)分位數(shù)圖:用來(lái)觀察單變量數(shù)據(jù)分布,數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測(cè)得的值(縱軸)相對(duì)于它們的分位數(shù)(橫軸)被描繪出來(lái);(2)分位數(shù)-分位數(shù)圖:縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測(cè)量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線(y=x)可畫(huà)到圖中,以增加圖像的信息。落在該線以上的點(diǎn)表示在y軸上顯示的值的分布比x軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值的分布高。反之,對(duì)落在該線以下的點(diǎn)則低。直方圖:直方圖(數(shù)值型屬性),頻率直方圖,條形圖(標(biāo)稱型屬性),概率密度函數(shù);橫坐標(biāo)是變量的取值(或者類別);縱坐標(biāo)是變量出現(xiàn)的次數(shù);桶(bucket)/箱(bin),bin的寬度。可以用來(lái)比較多組數(shù)據(jù)分布的差異具有相同的盒圖/boxplot,但是數(shù)據(jù)的分布完全不一樣;直方圖具備更強(qiáng)的描述能力;散點(diǎn)圖(一般超過(guò)四維就不太有效了):繪法:兩個(gè)數(shù)值型變量的任何一組取值,看成一個(gè)二維坐標(biāo);用于:描述兩個(gè)數(shù)值變量/數(shù)值型屬性之間是否存在關(guān)系/模式/趨勢(shì);解釋:兩個(gè)變量(線性)相關(guān),可能是正相關(guān),也可能是負(fù)相關(guān);相關(guān)性的理解:知道一個(gè)變量的值,能大致(用直線)估計(jì)出另一個(gè)變量的值?;谙袼氐目梢暬夹g(shù):(a)Income(b)Credit(a)Income(b)CreditLimit(c)transactionvolume(d)age說(shuō)明。每個(gè)斐鼠堆護(hù)一個(gè)色影表,其不同的值用不同的色灣的驚素點(diǎn)來(lái)表示,如裁值越大.色彩越-深《灰度圖)Q選定某個(gè)理量(如InwniE),蘇照苴瑩的某個(gè)分布(由大到?。┡帕忻魮?jù)(排列不同色彩的像素點(diǎn)).傳到第一個(gè)子國(guó)P將其它孌量對(duì)成的值繪制成不同的獨(dú)立子困;I將每個(gè)子圖中相同位置的像毒點(diǎn)取出,恢豆成對(duì)應(yīng)的敖值就料至1原數(shù)據(jù)表中的一個(gè)敷據(jù)t元組,行)。例子表明bedi—limiL和insM呈現(xiàn)正相關(guān),畋入中等的大盲歡購(gòu)物〔成交量大〕收入和年肇之間沒(méi)有明顯相關(guān)詢思考:敝呢布局(像索點(diǎn)位置在于圖中的坐標(biāo)位置安排)該如何設(shè)計(jì).最好,[參見(jiàn)教材W.31節(jié))幾何投影可視化技術(shù):散點(diǎn)圖矩陣:
說(shuō)明。用于N—維數(shù)據(jù),得到nxn個(gè)散點(diǎn)圖9每行/列代表一個(gè)屬性與其它屬性的n個(gè)散點(diǎn)圖Q左圖.駕尾花數(shù)據(jù).s個(gè)屬性(萼片的長(zhǎng)/■'萼片的寬/在福的長(zhǎng)/花瓣的寬『神屬h不同顏色代表耳、司種感9左圖,用2D散點(diǎn)圖表示了3D數(shù)據(jù).所以只有1X4的矩陣。時(shí)角線是什久T說(shuō)明平行坐標(biāo):橫坐標(biāo)的每個(gè)取值代表一維,n維數(shù)據(jù)有n個(gè)縱坐標(biāo),一個(gè)縱坐標(biāo)上標(biāo)記出對(duì)應(yīng)維的各種取值從左到右的一條折線對(duì)應(yīng)于表中的一個(gè)數(shù)據(jù)(元組/行),可用不同顏色折線區(qū)分能看出每個(gè)維的數(shù)據(jù)分布情況主要局限性:平行坐標(biāo)在數(shù)據(jù)較多時(shí),折線太密,影響可讀性基于圖符的可視化技術(shù):使用少量圖符表示多維數(shù)據(jù)值,兩個(gè)例子切爾諾夫臉和人物線條畫(huà)層次可視化技術(shù):世界中的世界:分為多層世界,每個(gè)世界的維數(shù)不超過(guò)3維;最內(nèi)層的世界是個(gè)3D散點(diǎn)圖;最內(nèi)層世界在它的直接(相鄰)外部世界(另外三維屬性構(gòu)成的3D散點(diǎn)圖)中就是一個(gè)點(diǎn);依次類推。pitchtwttkmtwi7LimasConliniifiIndianaJaiaeTroops-,BattleInMlSSBti日pitchtwttkmtwi7LimasConliniifiIndianaJaiaeTroops-,BattleInMlSSBti日II敗I加TjQ-ftTVHMlfMXaV理rm*缺MimiE潮明1>BrwdedfiflhfcrinKa?血liraeonfenow尊twrWTH-ariEmB—E*2*5ifd*圮iPentag耽素6蜘hon虬sr蜩籍口商”「npnrpq牌Desecr即=箱「此略X-■~p"USftft'x復(fù)雜數(shù)據(jù)的可視化:文本數(shù)據(jù),標(biāo)簽云(tagcloud),標(biāo)簽字體的大小,色彩代表不同的含義,如次麴重要性等網(wǎng)絡(luò),社會(huì)網(wǎng)絡(luò),信息網(wǎng)絡(luò),技術(shù)網(wǎng)絡(luò)等等,頂點(diǎn)的色彩/大小,邊的色彩/粗細(xì),頂點(diǎn)和邊的權(quán)值等等,可以用來(lái)表示不同的關(guān)系,數(shù)據(jù)對(duì)象的重要性職仙arehlecliPart““心?岫…beacflgLetxfthdsyHackciut如Californiacaneda由non曜catGhitagochfiachngirnasJimcity頗oorcert謎旌《頃dtdcqI烈m削m牌hrifanilyg蜘唳蜥舊由9派仲腳雄恤岫tFmnCPfriendsfir偶血n秒cc啪出卵睥fryJrim件卅hsfcmfNi^i財(cái)物nn(hoishdoTgHktdinMiitSlyjapifl,lluvj師Ifliasc^s!gtshEbndonfliainjmWhW柱心rmm?un伽sicnature儷new^rkn箕nikon郵齡由partspa『kparty網(wǎng)叩1&ph^p岫》朝用h‘帥我湖『伯質(zhì)向saMrenciso心舶m軟以imshm*skysnow少腳胸響由ea亂1nm印w別隨削lainankkmi網(wǎng)mg御.”,捆惴ne眼trip吹響瞄vacation戚計(jì)網(wǎng)荷細(xì)'由adding啪#winter聲=出眥度量數(shù)據(jù)的相似性與相異性(書(shū)本P44-P52)第三章數(shù)據(jù)預(yù)處理ILrtdiiikr^mtion-J,妃、LWL5%北——?-Q川上UJOJJ.5^.數(shù)據(jù)預(yù)處理的四項(xiàng)工作ILrtdiiikr^mtion-J,妃、LWL5%北——?-Q川上UJOJJ.5^.數(shù)據(jù)預(yù)處理的四項(xiàng)工作D-imirumtar^JucdanMlnhLiE*1A24i...□數(shù)據(jù)清理H填充缺失數(shù)據(jù)。平滑嗅聲數(shù)據(jù)9識(shí)別/冊(cè)1除離群點(diǎn)P解決不一致性□數(shù)據(jù)集成O融合來(lái)曰多個(gè)數(shù)據(jù)庫(kù)崖?lián)募?數(shù)據(jù)立方的數(shù)據(jù)。數(shù)據(jù)歸約0維IFI約o敬(M約4數(shù)據(jù)壓席。數(shù)據(jù)變換及離散化。歸Tt9產(chǎn)生分層概念臟數(shù)據(jù):缺失值(不完備的數(shù)據(jù))、噪聲數(shù)據(jù)(離群點(diǎn))、不一致數(shù)據(jù)、故意、偽造數(shù)據(jù)(使用缺省值,即默認(rèn)值)缺失值定義:某些元組在部分屬性上沒(méi)有被記錄下來(lái)的值可能原因:數(shù)據(jù)產(chǎn)生設(shè)備故障;數(shù)據(jù)錄入時(shí)因?yàn)橛X(jué)得不重要或者理解錯(cuò)誤,暫時(shí)放棄錄入;因?yàn)楹推渌鼣?shù)據(jù)不一致而被刪除。此理會(huì)擊徒用條件一批產(chǎn)品祐景在莪,標(biāo)逢了就堇等虬,#中桿尊產(chǎn)品境■!■等料J**忠嗪恐艇任何;房檢的軟大辛不能大黑,若任何北姬#同用■姓事個(gè)蜀世則血用,婆妾史.濟(jì)在t陰的虹握學(xué)堂成度畢中某中學(xué)隹抱聲了衛(wèi)門(mén)遙的崩曲手工雄寫(xiě)在羹播者附.宙匙丈施多.孰就生土,對(duì);故晅用于重希的敬小的教.希弟—批產(chǎn)島布色在裊,fe迷了質(zhì)暨*如,晁中那命戶扁攻萱號(hào)甄故A,右建獨(dú)丈放量等甄為unknown'辨成穌的放也等&“urikrMJwrT??frsT在時(shí)壘局希此代眉-物我花,可能令形,垮來(lái)的掠摑玲弗,一她戶耳給錄益裊.A中邨弁戶冬重量施鍬大■0玷標(biāo)盅為葛建的中心度#近可以是均檢或甲住教.一艇用于孰德型敷其。括韓變量的拘檢?—批產(chǎn)Mi耳羸在莪,標(biāo)垃了就量*虬,其中卻t劉券盈為產(chǎn)盅所屬表的中也度杯赤景波有類屬蛀,"0基于花種推理.耳若成州樸,晶洗?_州,Bayes^S.等.宴森喪三的杜■到未蟾罵往用能有可想的1"M"驀于某種游棒算蟄.&丸制.矣*集樹(shù).占ayes推理*.費(fèi)涂解釋說(shuō)明后四種方法r自動(dòng)填寫(xiě)數(shù)據(jù),會(huì)造成數(shù)據(jù)“有偏”?數(shù)據(jù)庫(kù)定義時(shí)l可控缺失數(shù)據(jù);但是非關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)呢?噪聲數(shù)據(jù)定義:被測(cè)變量的隨機(jī)誤差或方差產(chǎn)生原因:產(chǎn)生數(shù)據(jù)的儀器設(shè)備精度不夠;數(shù)據(jù)錄入錯(cuò)誤;數(shù)據(jù)傳輸誤差;......(重復(fù)/不一致數(shù)據(jù))Surirdfor^HnTTinJuLlira)?I.k21.2L.沙.F.P捫山IlmuIiiUjIIWihHirt2-^1.21.24Uek'A::tbiTtmchLiili#hiii【1*toI.<1.9.9rn2-TL22.22Hk-i:l!211.31El曹infWtflMughyhlnhnniidfiriphi:Bnlz4.L用Ifii士jLSI坦分箱法-binning9首先將散皆第散援排擊.然若分卻成巷千警.保證每苦怕中瞄明一樣務(wù),■■成節(jié)1蹣值罟稔(等
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 委托水稻收購(gòu)協(xié)議
- 2025年江蘇南京溧水商貿(mào)旅游集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 2025版學(xué)生入學(xué)協(xié)議書(shū)(含國(guó)際化教育與合作交流)3篇
- 2025版旅游商品銷售合同模板(含行程安排)
- 2025-2030全球空調(diào)箔行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球數(shù)字按鍵鍵盤(pán)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年度裝修工程合同糾紛處理范本4篇
- 2024年平安、自護(hù)、維權(quán)知識(shí)競(jìng)賽試題及答案
- 2024年教師資格之中學(xué)教育知識(shí)與能力題庫(kù)綜合試卷A卷(附答案) (二)
- 維修門(mén)樓的簡(jiǎn)單合同書(shū)
- 《健康體檢知識(shí)》課件
- 《大模型原理與技術(shù)》全套教學(xué)課件
- 2023年護(hù)理人員分層培訓(xùn)、考核計(jì)劃表
- 生產(chǎn)計(jì)劃主管述職報(bào)告
- GB/T 44769-2024能源互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)技術(shù)規(guī)范
- 2025年四川省新高考八省適應(yīng)性聯(lián)考模擬演練(二)地理試卷(含答案詳解)
- 【經(jīng)典文獻(xiàn)】《矛盾論》全文
- 部編版語(yǔ)文五年級(jí)下冊(cè) 第一單元 專項(xiàng)訓(xùn)練課外閱讀(含答案)
- 2024年寧夏回族自治區(qū)中考英語(yǔ)試題含解析
- 光伏發(fā)電項(xiàng)目試驗(yàn)檢測(cè)計(jì)劃
- 《老山界》第1第2課時(shí)示范公開(kāi)課教學(xué)PPT課件【統(tǒng)編人教版七年級(jí)語(yǔ)文下冊(cè)】
評(píng)論
0/150
提交評(píng)論