![數(shù)據(jù)挖掘概念與技術(shù)原書版數(shù)據(jù)預(yù)處理_第1頁](http://file4.renrendoc.com/view/fd7df31b6e913f206668dd86254d22a7/fd7df31b6e913f206668dd86254d22a71.gif)
![數(shù)據(jù)挖掘概念與技術(shù)原書版數(shù)據(jù)預(yù)處理_第2頁](http://file4.renrendoc.com/view/fd7df31b6e913f206668dd86254d22a7/fd7df31b6e913f206668dd86254d22a72.gif)
![數(shù)據(jù)挖掘概念與技術(shù)原書版數(shù)據(jù)預(yù)處理_第3頁](http://file4.renrendoc.com/view/fd7df31b6e913f206668dd86254d22a7/fd7df31b6e913f206668dd86254d22a73.gif)
![數(shù)據(jù)挖掘概念與技術(shù)原書版數(shù)據(jù)預(yù)處理_第4頁](http://file4.renrendoc.com/view/fd7df31b6e913f206668dd86254d22a7/fd7df31b6e913f206668dd86254d22a74.gif)
![數(shù)據(jù)挖掘概念與技術(shù)原書版數(shù)據(jù)預(yù)處理_第5頁](http://file4.renrendoc.com/view/fd7df31b6e913f206668dd86254d22a7/fd7df31b6e913f206668dd86254d22a75.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)預(yù)處理為什么對數(shù)據(jù)進(jìn)行預(yù)處理描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成第二章數(shù)據(jù)預(yù)處理現(xiàn)實(shí)世界的數(shù)據(jù)是“臟的”——數(shù)據(jù)多了,什么問題都會出現(xiàn)不完整缺少數(shù)據(jù)值;缺乏某些重要屬性;僅包含聚集數(shù)據(jù);e.g.,occupation=""有噪聲包含錯誤或者孤立點(diǎn)e.g.Salary=-10數(shù)據(jù)不一致e.g.,在編碼或者命名上存在差異e.g.,過去的等級:“1,2,3”,現(xiàn)在的等級:“A,B,C”e.g.,重復(fù)記錄間的不一致性為什么進(jìn)行數(shù)據(jù)預(yù)處理不完整數(shù)據(jù)的成因數(shù)據(jù)收集的時候就缺乏合適的值數(shù)據(jù)收集時和數(shù)據(jù)分析時的不同考慮因素人為/硬件/軟件問題噪聲數(shù)據(jù)(不正確的值)的成因數(shù)據(jù)收集工具的問題數(shù)據(jù)輸入時的人為/計(jì)算機(jī)錯誤數(shù)據(jù)傳輸中產(chǎn)生的錯誤數(shù)據(jù)不一致性的成因不同的數(shù)據(jù)源違反了函數(shù)依賴性數(shù)據(jù)為什么會變“臟”?沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)e.g.重復(fù)值或者空缺值將會產(chǎn)生不正確的或者令人誤導(dǎo)的統(tǒng)計(jì)數(shù)據(jù)倉庫需要對高質(zhì)量的數(shù)據(jù)進(jìn)行一致地集成數(shù)據(jù)預(yù)處理將是構(gòu)建數(shù)據(jù)倉庫或者進(jìn)行數(shù)據(jù)挖掘的工作中占工作量最大的一個步驟預(yù)處理為什么是重要的?一個廣為認(rèn)可的多維度量觀點(diǎn):精確度完整度一致性合乎時機(jī)可信度附加價值可解釋性跟數(shù)據(jù)本身的含義相關(guān)的內(nèi)在的、上下文的、表象的以及可訪問性數(shù)據(jù)質(zhì)量的多維度量數(shù)據(jù)清理填寫空缺的值,平滑噪聲數(shù)據(jù),識別、刪除孤立點(diǎn),解決不一致性數(shù)據(jù)集成集成多個數(shù)據(jù)庫、數(shù)據(jù)立方體或文件數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果數(shù)據(jù)離散化數(shù)據(jù)歸約的一部分,通過概念分層和數(shù)據(jù)的離散化來規(guī)約數(shù)據(jù),對數(shù)字型數(shù)據(jù)特別重要數(shù)據(jù)預(yù)處理的主要任務(wù)為什么對數(shù)據(jù)進(jìn)行預(yù)處理描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成第二章數(shù)據(jù)預(yù)處理動機(jī):為了更好的理解數(shù)據(jù)獲得數(shù)據(jù)的總體印像識別數(shù)據(jù)的典型特征凸顯噪聲或離群點(diǎn)度量數(shù)據(jù)的中心趨勢均值、中位數(shù)、眾數(shù)(模)、中列數(shù)度量數(shù)據(jù)的離散程度四分位數(shù)、四分位數(shù)極差、方差等描述性數(shù)據(jù)匯總度量可以分為三類:分布式度量(distributivemeasure):將數(shù)據(jù)集劃分為較小的子集,計(jì)算每個子集的度量,然后合并計(jì)算結(jié)果,得到原數(shù)據(jù)集的度量值。比如:count(),sum(),min(),max()等代數(shù)度量(algebraic):可以通過應(yīng)用一個代數(shù)函數(shù)于一個或多個分布式度量計(jì)算的度量。比如:平均值函數(shù)avg()(avg()=sum()/count())整體度量(holistic):必須對整個數(shù)據(jù)集計(jì)算的度量比如:median(),mode(),rank()度量的分類算術(shù)平均值加權(quán)算術(shù)均值截斷均值(trimmedmean):去掉高、低極端值得到的均值e.g.計(jì)算平均工資時,可以截掉上下各2%的值后計(jì)算均值,以抵消少數(shù)極端值的影響中位數(shù):有序集的中間值或者中間兩個值平均整體度量;但是可以通過插值法計(jì)算近似值度量數(shù)據(jù)的中心趨勢眾數(shù)(Mode,也叫模):集合中出現(xiàn)頻率最高的值單峰的(unimodal,也叫單模態(tài))、雙峰的(bimodal)、三峰的(trimodal);多峰的(multimodal)對于適度傾斜(非對稱的)的單峰頻率曲線,可以使用以下經(jīng)驗(yàn)公式計(jì)算眾數(shù)最常用度量:極差、五數(shù)概括(基于四分位數(shù))、中間四分位數(shù)極差和標(biāo)準(zhǔn)差極差(range):數(shù)據(jù)集的最大值和最小值之差百分位數(shù)(percentile):第k個百分位數(shù)是具有如下性質(zhì)的值x:k%的數(shù)據(jù)項(xiàng)位于或低于x中位數(shù)就是第50個百分位數(shù)四分位數(shù):Q1(25thpercentile),Q3(75thpercentile)中間四分位數(shù)極差(IQR):IQR=Q3–
Q1
孤立點(diǎn):通常我們認(rèn)為:挑出落在至少高于第三個四分位數(shù)或低于第一個四分位數(shù)1.5×IQR處的值度量數(shù)據(jù)的離散度(1)五數(shù)概括:min,Q1,Median,
Q3,max盒圖:數(shù)據(jù)分布的一種直觀表示方差和標(biāo)準(zhǔn)差方差:n個觀測之x1,x2...xn的方差是標(biāo)準(zhǔn)差是方差的平方根標(biāo)準(zhǔn)差是關(guān)于平均值的離散的度量,因此僅當(dāng)選平均值做中心度量時使用所有觀測值相同則=0,否則>0方差和標(biāo)準(zhǔn)差都是代數(shù)度量度量數(shù)據(jù)的離散度(2)盒圖:數(shù)據(jù)分布的一種直觀表示,在盒圖中:端點(diǎn)在四分位數(shù)上,使得盒圖的長度是IQR中位數(shù)M用盒內(nèi)的線標(biāo)記胡須延伸到最大最小觀測值該盒圖為在給定時間段在AllElectronics的4個分店銷售的商品單價的盒圖分店1中位數(shù)$80Q1:$60Q3:$100盒圖——示例使用盒圖的數(shù)據(jù)離散的可視化描述常用的顯示數(shù)據(jù)匯總和分布的方法:直方圖、分位數(shù)圖、q-q圖、散布圖和局部回歸曲線直方圖:是一種概括給定屬性分布的圖形方法將數(shù)據(jù)分布劃分成不相交的子集或桶,通常每個桶寬度一致并用一個矩形表示,其高度表示桶中數(shù)據(jù)在給定數(shù)據(jù)中出現(xiàn)的計(jì)數(shù)或頻率描述數(shù)據(jù)匯總的圖形顯示——直方圖一種觀察單變量數(shù)據(jù)分布的簡單有效方法顯示所有的數(shù)據(jù),允許用戶評估總的情況和不尋常情況的出現(xiàn)繪出了分位數(shù)信息設(shè)xi是遞增排序的數(shù)據(jù),則每個xi都有相對應(yīng)的fi,指出大約有100fi
%的數(shù)據(jù)小于等于xi分位數(shù)圖對著另一個單變量的分位數(shù),繪制一個單變量分布的分位數(shù)允許用戶觀察是不是有從一個分布到另外一個分布的遷移分位數(shù)-分位數(shù)圖(Q-Q圖)確定兩個數(shù)值屬性之間看上去是否有聯(lián)系、模式或者趨勢的最有效的圖形方法之一散布圖中的每個值都被視作代數(shù)坐標(biāo)對,作為一個點(diǎn)畫在平面上易于觀察雙變量數(shù)據(jù)在平面上的分布散布圖loess曲線為散布圖添加一條平滑的曲線,以便更好的觀察兩個變量間的依賴模式Loess(localregression)意指“局部回歸”,為了擬合loess曲線,需要兩個參數(shù):平滑參數(shù)α,被回歸擬合的多項(xiàng)式的階λloess曲線為什么對數(shù)據(jù)進(jìn)行預(yù)處理描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成第二章數(shù)據(jù)預(yù)處業(yè)界對數(shù)據(jù)清理的認(rèn)識“數(shù)據(jù)清理是數(shù)據(jù)倉庫構(gòu)建中最重要的問題”—DCIsurvey數(shù)據(jù)清理任務(wù)填寫空缺的值識別離群點(diǎn)和平滑噪聲數(shù)據(jù)糾正不一致的數(shù)據(jù)解決數(shù)據(jù)集成造成的冗余數(shù)據(jù)清理數(shù)據(jù)并不總是完整的例如:數(shù)據(jù)庫表中,很多條記錄的對應(yīng)字段沒有相應(yīng)值,比如銷售表中的顧客收入引起空缺值的原因設(shè)備異常與其他已有數(shù)據(jù)不一致而被刪除因?yàn)檎`解而沒有被輸入的數(shù)據(jù)在輸入時,有些數(shù)據(jù)應(yīng)為得不到重視而沒有被輸入對數(shù)據(jù)的改變沒有進(jìn)行日志記載空缺值要經(jīng)過推斷而補(bǔ)上空缺值忽略元組:當(dāng)類標(biāo)號缺少時通常這么做(假定挖掘任務(wù)設(shè)計(jì)分類或描述),當(dāng)每個屬性缺少值的百分比變化很大時,它的效果非常差。人工填寫空缺值:工作量大,可行性低使用一個全局變量填充空缺值:比如使用unknown或-∞使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定樹這樣的基于推斷的方法如何處理空缺值噪聲:一個測量變量中的隨機(jī)錯誤或偏差引起不正確屬性值的原因數(shù)據(jù)收集工具的問題數(shù)據(jù)輸入錯誤數(shù)據(jù)傳輸錯誤技術(shù)限制命名規(guī)則的不一致其它需要數(shù)據(jù)清理的數(shù)據(jù)問題重復(fù)記錄不完整的數(shù)據(jù)不一致的數(shù)據(jù)噪聲數(shù)據(jù)分箱(binning):首先排序數(shù)據(jù),并將他們分到等深的箱中然后可以按箱平均值平滑、按箱中值平滑、按箱邊界平滑等等回歸通過讓數(shù)據(jù)適應(yīng)回歸函數(shù)來平滑數(shù)據(jù)聚類:監(jiān)測并且去除孤立點(diǎn)如何處理噪聲數(shù)據(jù)price的排序后數(shù)據(jù)(單位:美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱邊界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25,34數(shù)據(jù)平滑的分箱方法通過聚類分析檢測離群點(diǎn),消除噪聲聚類將類似的值聚成簇。直觀的,落在簇集合之外的值被視為離群點(diǎn)聚類回歸xyy=x+1X1Y1Y1’第一步:偏差檢測使用元數(shù)據(jù)(e.g.每個屬性的域、數(shù)值類型、依賴性、分布等)檢查字段過載檢查唯一性規(guī)則、連續(xù)性規(guī)則、空值規(guī)則使用偏差檢查工具數(shù)據(jù)清理工具:使用簡單的領(lǐng)域知識(e.g.郵編、拼寫檢查)檢查并糾正數(shù)據(jù)中的錯誤數(shù)據(jù)審計(jì)工具:通過分析數(shù)據(jù)發(fā)現(xiàn)規(guī)則和聯(lián)系及檢測違反這些條件的數(shù)據(jù)來發(fā)現(xiàn)偏差數(shù)據(jù)清理作為一個過程第二步:數(shù)據(jù)變換(糾正偏差)數(shù)據(jù)遷移工具:允許說明簡單的變換ETL(提取/變換/裝入)工具:允許用戶通過GUI說明變換偏差檢測和數(shù)據(jù)變換(糾偏)的迭代執(zhí)行強(qiáng)調(diào)交互性的清理方法為什么對數(shù)據(jù)進(jìn)行預(yù)處理描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成第二章數(shù)據(jù)預(yù)處數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)整合到一個一致的數(shù)據(jù)存儲中模式集成:整合不同數(shù)據(jù)源中的元數(shù)據(jù)實(shí)體識別問題:匹配來自不同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體e.g.BillClinton=WilliamClinton檢測并解決數(shù)據(jù)值的沖突對現(xiàn)實(shí)世界中的同一實(shí)體,來自不同數(shù)據(jù)源的屬性值可能是不同的可能的原因:不同的數(shù)據(jù)表示,不同的度量等等數(shù)據(jù)集成集成多個數(shù)據(jù)庫時,經(jīng)常會出現(xiàn)冗余數(shù)據(jù)對象識別:同一屬性或?qū)ο笤诓煌臄?shù)據(jù)庫中會有不同的字段名可導(dǎo)出數(shù)據(jù):一個屬性可以由另外一個表導(dǎo)出,如“年薪”有些冗余可以被相關(guān)分析檢測到仔細(xì)將多個數(shù)據(jù)源中的數(shù)據(jù)集成起來,能夠減少或避免結(jié)果數(shù)據(jù)中的冗余與不一致性,從而可以提高挖掘的速度和質(zhì)量。處理數(shù)據(jù)集成中的冗余數(shù)據(jù)Χ2(chi-square)測試Χ2的值越大,意味著兩個變量相關(guān)的可能性越大期望值和觀測值之間相差越大,值也將越大相關(guān)性不意味著因果關(guān)系e.g.我們發(fā)現(xiàn)一個地區(qū)的醫(yī)院數(shù)和汽車盜竊數(shù)相關(guān)兩者都必然的關(guān)聯(lián)到第三個屬性:人口
分類數(shù)據(jù)的相關(guān)性分析數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合挖掘的形式平滑:去除數(shù)據(jù)中的噪聲聚集:匯總,數(shù)據(jù)立方體的構(gòu)建數(shù)據(jù)泛化:沿概念分層向上匯總規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間最?。畲笠?guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化屬性構(gòu)造通過現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中;以增加對高維數(shù)據(jù)的結(jié)構(gòu)的理解和精確度數(shù)據(jù)變換最小-最大規(guī)范化z-score規(guī)范化最大最小值未知,或者離群點(diǎn)影響較大的時候適用小數(shù)定標(biāo)規(guī)范化其中,j是使Max(||)<1的最小整數(shù)數(shù)據(jù)變換——規(guī)范化為什么對數(shù)據(jù)進(jìn)行預(yù)處理描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成第二章數(shù)據(jù)預(yù)處為什么需要進(jìn)行數(shù)據(jù)規(guī)約?數(shù)據(jù)倉庫中往往存有海量數(shù)據(jù)在整個數(shù)據(jù)集上進(jìn)行復(fù)雜的數(shù)據(jù)分析與挖掘需要很長的時間數(shù)據(jù)歸約數(shù)據(jù)歸約可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但可以產(chǎn)生相同的(或幾乎相同的)分析結(jié)果數(shù)據(jù)規(guī)約常用的數(shù)據(jù)歸約策略數(shù)據(jù)立方體聚集屬性子集選擇,e.g.移除不重要的屬性維度歸約,數(shù)值歸約,e.g.使用模型來表示數(shù)據(jù)離散化和概念分層產(chǎn)生用于數(shù)據(jù)歸約的時間不應(yīng)當(dāng)超過或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時間最底層的方體對應(yīng)于基本方體基本方體對應(yīng)于感興趣的實(shí)體在數(shù)據(jù)立方體中存在著不同級別的匯總數(shù)據(jù)立方體可以看成方體的格每個較高層次的抽象將進(jìn)一步減少結(jié)果數(shù)據(jù)數(shù)據(jù)立方體提供了對預(yù)計(jì)算的匯總數(shù)據(jù)的快速訪問使用與給定任務(wù)相關(guān)的最小方體在可能的情況下,對于匯總數(shù)據(jù)的查詢應(yīng)當(dāng)使用數(shù)據(jù)立方體數(shù)據(jù)立方體聚集通過刪除不相干的屬性或維減少數(shù)據(jù)集屬性子集選擇(特征選擇)找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能的接近使用所有屬性得到的原分布減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性數(shù)目,使得模式更易于理解啟發(fā)式的(探索性的)方法逐步向前選擇逐步向后刪除向前選擇和向后刪除相結(jié)合決策樹歸約屬性子集選擇維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示兩種有損的維度歸約方法小波變換,一種線性信號處理技術(shù)可以用于多維數(shù)據(jù),如數(shù)據(jù)立方體對于稀疏或傾斜數(shù)據(jù)和具有有序?qū)傩缘臄?shù)據(jù),能給出很好的結(jié)果適合高維數(shù)據(jù)主成分分析,搜索k個最能代表數(shù)據(jù)的n維正交向量,其中k小于等于n,這樣,原來的數(shù)據(jù)投影到一個小得多的空間,導(dǎo)致維度歸約。該計(jì)算開銷低,可以用于有序和無序的屬性,并且可以處理稀疏和傾斜數(shù)據(jù)。能夠更好的處理稀疏數(shù)據(jù)通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量有參方法使用一個參數(shù)模型估計(jì)數(shù)據(jù),最后只要存儲參數(shù)即可,不用存儲數(shù)據(jù)(除了可能的離群點(diǎn))常用方法:線性回歸方法;多元回歸;對數(shù)線性模型;無參方法不使用模型的方法存儲數(shù)據(jù)常用方法:直方圖,聚類,抽樣數(shù)值歸約線性回歸:數(shù)據(jù)被擬合為一條直線Y=wX+b兩個回歸系數(shù),w和b,由手頭的數(shù)據(jù)來進(jìn)行估算通常適用最小二乘法來確定這條直線多元回歸:線性回歸的擴(kuò)充,允許響應(yīng)變量Y被建模為兩個或多個預(yù)測變量的線性函數(shù)。多元回歸可以擬合多種非線性函數(shù)對數(shù)線性模型:近似離散的多維概率分布?;貧w分析與對數(shù)線性模型一種流行的數(shù)據(jù)歸約技術(shù)將某屬性的數(shù)據(jù)劃分為不相交的子集,或桶,桶中放置該值的出現(xiàn)頻率桶和屬性值的劃分規(guī)則等寬等頻(等深)V-最優(yōu)具有最小方差MaxDiff直方圖將數(shù)據(jù)集劃分為聚類,然后通過聚類來表示數(shù)據(jù)集如果數(shù)據(jù)可以組成各種不同的聚類,則該技術(shù)非常有效,反之如果數(shù)據(jù)界線模糊,則方法無效數(shù)據(jù)可以分層聚類,并被存儲在多層索引樹中將在第7章對聚類分析進(jìn)行深入探討聚類允許用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集對數(shù)據(jù)集D的抽樣方法:s個樣本無放回簡單隨機(jī)抽樣(SRSWOR):從D的N個元組中抽取s個樣本(s<N)s個樣本有放回簡單隨機(jī)抽樣(SRSWR):過程同上,只是元組被抽取后,將被回放,可能再次被抽取聚類抽樣:D中元組被分入M個互不相交的聚類中,可在其中的s個聚類上進(jìn)行簡單隨機(jī)選擇(SRS,s<M)分層抽樣:D被劃分為互不相交的“層”,則可通過對每一層的簡單隨機(jī)選樣(SRS)得到D的分層樣本。抽樣選樣——SRSSRSWOR(簡單隨機(jī)選樣,不回放)SRSWR原始數(shù)據(jù)選樣——聚類/分層選樣原始數(shù)據(jù)聚類/分層選樣為什么對數(shù)據(jù)進(jìn)行預(yù)處理描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成第二章數(shù)據(jù)預(yù)處三種類型的屬性值:名稱型:無序集合中的值;e.g.顏色、職業(yè)序數(shù):有序集合中的值;e.g.軍銜、職稱連續(xù)值;e.g.實(shí)數(shù)離散化將連續(xù)屬性的范圍劃分為區(qū)間有些分類算法只接受離散屬性值通過離散化有效的規(guī)約數(shù)據(jù)離散化的數(shù)值用于進(jìn)一步分析離散化離散化通過將屬性域劃分為區(qū)間,減少給定連續(xù)屬性值的個數(shù)區(qū)間的標(biāo)號可以代替實(shí)際的數(shù)據(jù)值離散化可以在一個屬性上遞歸的進(jìn)行概念分層通過使用高層的概念(比如:青年、中年、老年)來替代底層的屬性值(比如:實(shí)際的年齡數(shù)據(jù)值)來規(guī)約數(shù)據(jù)離散化和概念分層典型方法(所有方法均可遞歸應(yīng)用)分箱(binning)分箱技術(shù)遞歸的用于結(jié)果劃分,可以產(chǎn)生概念分層直方圖分析(histogram)直方圖分析方法遞歸的應(yīng)用于每一部分,可以自動產(chǎn)生多級概念分層基于熵的離散化是一種監(jiān)督的,自頂向下的分裂技術(shù)。基于分析的區(qū)間合并ChiMerge是一種基于的離散化方法聚類分析將數(shù)據(jù)劃分成簇,每個簇形成同一個概念層上的一個節(jié)點(diǎn),每個簇可再分成多個子簇,形成子節(jié)點(diǎn)根據(jù)直觀劃分離散化數(shù)值數(shù)據(jù)的離散化和概念分層產(chǎn)生將數(shù)值區(qū)域劃分為相對一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。聚類分析產(chǎn)生概念分層可能會將一個工資區(qū)間劃分為:[51263.98,60872.34]通常數(shù)據(jù)分析人員希望看到劃分的形式為[50000,60000]自然劃分的3-4-5規(guī)則常被用來將數(shù)值數(shù)據(jù)劃分為相對一致,“更自然”的區(qū)間根據(jù)直觀劃分離散化分類數(shù)據(jù)是指無序的離散數(shù)據(jù),它有有限個值(可能很多個)。分類數(shù)據(jù)的概念分層生成方法:由用戶或?qū)<以谀J郊夛@式地說明屬性的偏序。通過顯示數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分。說明屬性集,但不說明它們的偏序。對只說明部分屬性集的情況。分類數(shù)據(jù)的概念分層產(chǎn)生根據(jù)在給定屬性集中,每個屬性所包含的不同值的個數(shù),可以自動的生成概念分成;不同值個數(shù)最多的屬性將被放在概念分層的最底層。屬性集的規(guī)格countryprovincecitystreet5個不同值65個不同值3567個不同值674,339個不同值謝謝第一節(jié)活塞式空壓機(jī)的工作原理第二節(jié)活塞式空壓機(jī)的結(jié)構(gòu)和自動控制第三節(jié)活塞式空壓機(jī)的管理復(fù)習(xí)思考題單擊此處輸入你的副標(biāo)題,文字是您思想的提煉,為了最終演示發(fā)布的良好效果,請盡量言簡意賅的闡述觀點(diǎn)。第六章活塞式空氣壓縮機(jī)
piston-aircompressor壓縮空氣在船舶上的應(yīng)用:
1.主機(jī)的啟動、換向;
2.輔機(jī)的啟動;
3.為氣動裝置提供氣源;
4.為氣動工具提供氣源;
5.吹洗零部件和濾器。
排氣量:單位時間內(nèi)所排送的相當(dāng)?shù)谝患壩鼩鉅顟B(tài)的空氣體積。單位:m3/s、m3/min、m3/h第六章活塞式空氣壓縮機(jī)
piston-aircompressor空壓機(jī)分類:按排氣壓力分:低壓0.2~1.0MPa;中壓1~10MPa;高壓10~100MPa。按排氣量分:微型<1m3/min;小型1~10m3/min;中型10~100m3/min;大型>100m3/min。第六章活塞式空氣壓縮機(jī)
piston-aircompressor第一節(jié)活塞式空壓機(jī)的工作原理容積式壓縮機(jī)按結(jié)構(gòu)分為兩大類:往復(fù)式與旋轉(zhuǎn)式兩級活塞式壓縮機(jī)單級活塞壓縮機(jī)活塞式壓縮機(jī)膜片式壓縮機(jī)旋轉(zhuǎn)葉片式壓縮機(jī)最長的使用壽命-
----低轉(zhuǎn)速(1460RPM),動件少(軸承與滑片),潤滑油在機(jī)件間形成保護(hù)膜,防止磨損及泄漏,使空壓機(jī)能夠安靜有效運(yùn)作;平時有按規(guī)定做例行保養(yǎng)的JAGUAR滑片式空壓機(jī),至今使用十萬小時以上,依然完好如初,按十萬小時相當(dāng)于每日以十小時運(yùn)作計(jì)算,可長達(dá)33年之久。因此,將滑片式空壓機(jī)比喻為一部終身機(jī)器實(shí)不為過?;?葉)片式空壓機(jī)可以365天連續(xù)運(yùn)轉(zhuǎn)并保證60000小時以上安全運(yùn)轉(zhuǎn)的空氣壓縮機(jī)1.進(jìn)氣2.開始壓縮3.壓縮中4.排氣1.轉(zhuǎn)子及機(jī)殼間成為壓縮空間,當(dāng)轉(zhuǎn)子開始轉(zhuǎn)動時,空氣由機(jī)體進(jìn)氣端進(jìn)入。2.轉(zhuǎn)子轉(zhuǎn)動使被吸入的空氣轉(zhuǎn)至機(jī)殼與轉(zhuǎn)子間氣密范圍,同時停止進(jìn)氣。3.轉(zhuǎn)子不斷轉(zhuǎn)動,氣密范圍變小,空氣被壓縮。4.被壓縮的空氣壓力升高達(dá)到額定的壓力后由排氣端排出進(jìn)入油氣分離器內(nèi)。4.被壓縮的空氣壓力升高達(dá)到額定的壓力后由排氣端排出進(jìn)入油氣分離器內(nèi)。1.進(jìn)氣2.開始壓縮3.壓縮中4.排氣1.凸凹轉(zhuǎn)子及機(jī)殼間成為壓縮空間,當(dāng)轉(zhuǎn)子開始轉(zhuǎn)動時,空氣由機(jī)體進(jìn)氣端進(jìn)入。2.轉(zhuǎn)子轉(zhuǎn)動使被吸入的空氣轉(zhuǎn)至機(jī)殼與轉(zhuǎn)子間氣密范圍,同時停止進(jìn)氣。3.轉(zhuǎn)子不斷轉(zhuǎn)動,氣密范圍變小,空氣被壓縮。螺桿式氣體壓縮機(jī)是世界上最先進(jìn)、緊湊型、堅(jiān)實(shí)、運(yùn)行平穩(wěn),噪音低,是值得信賴的氣體壓縮機(jī)。螺桿式壓縮機(jī)氣路系統(tǒng):
A
進(jìn)氣過濾器
B
空氣進(jìn)氣閥
C
壓縮機(jī)主機(jī)
D
單向閥
E
空氣/油分離器
F
最小壓力閥
G
后冷卻器
H
帶自動疏水器的水分離器油路系統(tǒng):
J
油箱
K
恒溫旁通閥
L
油冷卻器
M
油過濾器
N
回油閥
O
斷油閥冷凍系統(tǒng):
P
冷凍壓縮機(jī)
Q
冷凝器
R
熱交換器
S
旁通系統(tǒng)
T
空氣出口過濾器螺桿式壓縮機(jī)渦旋式壓縮機(jī)
渦旋式壓縮機(jī)是20世紀(jì)90年代末期開發(fā)并問世的高科技壓縮機(jī),由于結(jié)構(gòu)簡單、零件少、效率高、可靠性好,尤其是其低噪聲、長壽命等諸方面大大優(yōu)于其它型式的壓縮機(jī),已經(jīng)得到壓縮機(jī)行業(yè)的關(guān)注和公認(rèn)。被譽(yù)為“環(huán)保型壓縮機(jī)”。由于渦旋式壓縮機(jī)的獨(dú)特設(shè)計(jì),使其成為當(dāng)今世界最節(jié)能壓縮機(jī)。渦旋式壓縮機(jī)主要運(yùn)動件渦卷付,只有磨合沒有磨損,因而壽命更長,被譽(yù)為免維修壓縮機(jī)。
由于渦旋式壓縮機(jī)運(yùn)行平穩(wěn)、振動小、工作環(huán)境安靜,又被譽(yù)為“超靜壓縮機(jī)”。
渦旋式壓縮機(jī)零部件少,只有四個運(yùn)動部件,壓縮機(jī)工作腔由相運(yùn)動渦卷付形成多個相互封閉的鐮形工作腔,當(dāng)動渦卷作平動運(yùn)動時,使鐮形工作腔由大變小而達(dá)到壓縮和排出壓縮空氣的目的?;钊娇諝鈮嚎s機(jī)的外形第一節(jié)活塞式空壓機(jī)的工作原理一、理論工作循環(huán)(單級壓縮)工作循環(huán):4—1—2—34—1吸氣過程
1—2壓縮過程
2—3排氣過程第一節(jié)活塞式空壓機(jī)的工作原理一、理論工作循環(huán)(單級壓縮)
壓縮分類:絕熱壓縮:1—2耗功最大等溫壓縮:1—2''耗功最小多變壓縮:1—2'耗功居中功=P×V(PV圖上的面積)加強(qiáng)對氣缸的冷卻,省功、對氣缸潤滑有益。二、實(shí)際工作循環(huán)(單級壓縮)1.不存在假設(shè)條件2.與理論循環(huán)不同的原因:1)余隙容積Vc的影響Vc不利的影響—?dú)埓娴臍怏w在活塞回行時,發(fā)生膨脹,使實(shí)際吸氣行程(容積)減小。Vc有利的好處—
(1)形成氣墊,利于活塞回行;(2)避免“液擊”(空氣結(jié)露);(3)避免活塞、連桿熱膨脹,松動發(fā)生相撞。第一節(jié)活塞式空壓機(jī)的工作原理表征Vc的參數(shù)—相對容積C、容積系數(shù)λv合適的C:低壓0.07-0.12
中壓0.09-0.14
高壓0.11-0.16
λv=0.65—0.901)余隙容積Vc的影響C越大或壓力比越高,則λv越小。保證Vc正常的措施:余隙高度見表6-1壓鉛法—保證要求的氣缸墊厚度2.與理論循環(huán)不同的原因:二、實(shí)際工作循環(huán)(單級壓縮)第一節(jié)活塞式空壓機(jī)的工作原理2)進(jìn)排氣閥及流道阻力的影響吸氣過程壓力損失使排氣量減少程度,用壓力系數(shù)λp表示:保證措施:合適的氣閥升程及彈簧彈力、管路圓滑暢通、濾器干凈。λp
(0.90-0.98)2.與理論循環(huán)不同的原因:二、實(shí)際工作循環(huán)(單級壓縮)第一節(jié)活塞式空壓機(jī)的工作原理3)吸氣預(yù)熱的影響由于壓縮過程中機(jī)件吸熱,所以在吸氣過程中,機(jī)件放熱使吸入的氣體溫度升高,使吸氣的比容減小,造成吸氣量下降。預(yù)熱損失用溫度系數(shù)λt來衡量(0.90-0.95)。保證措施:加強(qiáng)對氣缸、氣缸蓋的冷卻,防止水垢和油污的形成。2.與理論循環(huán)不同的原因:二、實(shí)際工作循環(huán)(單級壓縮)第一節(jié)活塞式空壓機(jī)的工作原理4)漏泄的影響內(nèi)漏:排氣閥(回漏);外漏:吸氣閥、活塞環(huán)、氣缸墊。漏泄損失用氣密系數(shù)λl來衡量(0.90-0.98)。保證措施:氣閥的嚴(yán)密閉合,氣缸與活塞、氣缸與缸蓋等部件的嚴(yán)密配合。5)氣體流動慣性的影響當(dāng)吸氣管中的氣流慣性方向與活塞吸氣行程相反時,造成氣缸壓力較低,氣體比容增大,吸氣量下降。保證措施:合理的設(shè)計(jì)進(jìn)氣管長度,不得隨意增減進(jìn)氣管的長度,保證濾器的清潔。2.與理論循環(huán)不同的原因:二、實(shí)際工作循環(huán)(單級壓
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2學(xué)會溝通交流(說課稿)-2023-2024學(xué)年道德與法治五年級上冊統(tǒng)編版
- 2025暫估價材料公開招標(biāo)合同范本變頻水泵排污泵
- 6~9的認(rèn)識(說課稿)-2024-2025學(xué)年一年級上冊數(shù)學(xué)人教版
- 2025以買賣合同擔(dān)保
- 2024年秋九年級化學(xué)上冊 第四單元 自然界的水說課稿 (新版)新人教版
- 2023三年級英語上冊 Assessment 3說課稿1 湘少版
- 路基邊坡防滑平臺施工方案
- Unit 4 My tidy bag Lesson 1 I have a big bag (說課稿)-2024-2025學(xué)年粵人版(2024)英語三年級上冊
- 2023八年級地理上冊 第一章 中國的疆域與人口第一節(jié) 中國的疆域說課稿 (新版)湘教版
- 出租代工合同范例
- (康德一診)重慶市2025屆高三高三第一次聯(lián)合診斷檢測 英語試卷(含答案詳解)
- 2025年福建泉州文旅集團(tuán)招聘24人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 建筑行業(yè)砂石物資運(yùn)輸方案
- 腫瘤全程管理
- 融資報告范文模板
- 桃李面包盈利能力探析案例11000字
- GB/Z 30966.71-2024風(fēng)能發(fā)電系統(tǒng)風(fēng)力發(fā)電場監(jiān)控系統(tǒng)通信第71部分:配置描述語言
- 污泥處置合作合同模板
- 腦梗死的護(hù)理查房
- 2025高考數(shù)學(xué)專項(xiàng)復(fù)習(xí):概率與統(tǒng)計(jì)的綜合應(yīng)用(十八大題型)含答案
- 2024-2030年中國紫蘇市場深度局勢分析及未來5發(fā)展趨勢報告
評論
0/150
提交評論