數(shù)據(jù)采集與處理-復(fù)習(xí)思考題與答案-7-數(shù)據(jù)清洗與預(yù)處理_第1頁(yè)
數(shù)據(jù)采集與處理-復(fù)習(xí)思考題與答案-7-數(shù)據(jù)清洗與預(yù)處理_第2頁(yè)
數(shù)據(jù)采集與處理-復(fù)習(xí)思考題與答案-7-數(shù)據(jù)清洗與預(yù)處理_第3頁(yè)
數(shù)據(jù)采集與處理-復(fù)習(xí)思考題與答案-7-數(shù)據(jù)清洗與預(yù)處理_第4頁(yè)
數(shù)據(jù)采集與處理-復(fù)習(xí)思考題與答案-7-數(shù)據(jù)清洗與預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《數(shù)據(jù)采集與處理:基于Python》復(fù)習(xí)思考題、習(xí)題與答案第七章數(shù)據(jù)清洗與預(yù)處理1、數(shù)據(jù)清洗的流程是什么?答案:數(shù)據(jù)清洗-預(yù)處理、數(shù)據(jù)清洗-缺省值清洗、數(shù)據(jù)清洗-格式與內(nèi)容清洗、數(shù)據(jù)清洗-邏輯錯(cuò)誤清洗、數(shù)據(jù)清洗-多余的數(shù)據(jù)清洗、數(shù)據(jù)清洗-關(guān)聯(lián)性驗(yàn)證等。2、什么是數(shù)據(jù)標(biāo)準(zhǔn)化?答案:數(shù)據(jù)的標(biāo)準(zhǔn)化,是通過(guò)一定的數(shù)學(xué)變換方式,將原始數(shù)據(jù)按照一定的比例進(jìn)行轉(zhuǎn)換,使之落入到一個(gè)小的特定區(qū)間內(nèi),例如0~1或-1~1的區(qū)間內(nèi),消除不同變量之間性質(zhì)、量綱、數(shù)量級(jí)等特征屬性的差異,將其轉(zhuǎn)化為一個(gè)無(wú)量綱的相對(duì)數(shù)值。3、數(shù)據(jù)標(biāo)準(zhǔn)化的方法有哪些?答案:目前有許多種數(shù)據(jù)標(biāo)準(zhǔn)化方法,常用的有最小-最大標(biāo)準(zhǔn)化、Z-score標(biāo)準(zhǔn)化和按小數(shù)定標(biāo)標(biāo)準(zhǔn)化等。4、數(shù)據(jù)預(yù)處理常見(jiàn)的方法有哪幾類,都有哪些方法?答案:數(shù)據(jù)預(yù)處理常見(jiàn)的方法包括以下幾類和相關(guān)方法:1.數(shù)據(jù)清理:主要是指將數(shù)據(jù)中缺失的值補(bǔ)充完整、消除噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)并解決不一致性。主要是達(dá)到如下目標(biāo):將數(shù)據(jù)格式標(biāo)準(zhǔn)化,異常數(shù)據(jù)清除,錯(cuò)誤糾正,重復(fù)數(shù)據(jù)的清除。2.數(shù)據(jù)集成:主要是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行整合并統(tǒng)一存儲(chǔ)。3.數(shù)據(jù)變換:主要是指通過(guò)平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。4.數(shù)據(jù)歸約:數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大,因此在少量數(shù)據(jù)上進(jìn)行挖掘分析就需要很長(zhǎng)的時(shí)間,數(shù)據(jù)歸約技術(shù)主要是指對(duì)數(shù)據(jù)集進(jìn)行歸約或者簡(jiǎn)化,不僅保持原數(shù)據(jù)的完整性,并且數(shù)據(jù)歸約后的結(jié)果與歸約前結(jié)果相同或幾乎相同。5、查看確定異常值都有哪些方法?異常數(shù)據(jù)處理都有哪些方法?答案:查看異常值的方法,包括:1)使用統(tǒng)計(jì)量進(jìn)行判斷:計(jì)算出最大值、最小值及均值,據(jù)此檢查數(shù)據(jù)是否超出合理范圍2)使用3σ原則:根據(jù)正態(tài)分布定義,距離平均值3σ(標(biāo)準(zhǔn)差)以外的數(shù)值出現(xiàn)屬于小概率事件,因此,異常值可以看成那些數(shù)據(jù)和均值的偏差超過(guò)3倍標(biāo)準(zhǔn)差的值3)箱型圖、散點(diǎn)圖等可視化方法;對(duì)于異常數(shù)據(jù)處理方法,一般包括:1)刪除有異常數(shù)據(jù)的記錄:直接刪除,不予考慮2)視為缺失值:按照缺失值的處理方法進(jìn)行相應(yīng)操作,如填充缺省值、均值、前向/后向填充、插值法等3)平均值修正:使用前后兩個(gè)觀測(cè)值的均值代替,或使用整個(gè)數(shù)據(jù)集的平均值代替4)不處理:將異常數(shù)據(jù)當(dāng)成正常數(shù)據(jù)進(jìn)行操作6、如何查看缺失值?處理缺失值都有哪些方法?Python中的缺失值都有哪些表示形式答案:在Python中,可以通過(guò)查看或統(tǒng)計(jì)對(duì)應(yīng)變量的Null、NaN、nan、NA等缺失值來(lái)查看缺失值,對(duì)于字符串,還可以查看其值是否為“”形式檢查。處理缺失值的方法很多,如忽略存在缺失值的記錄、去掉包含缺失數(shù)據(jù)的屬性、手工填寫缺失值、使用默認(rèn)值代替缺失值、使用屬性平均值(中位數(shù)或眾數(shù))代替缺失值、使用同類樣本平均值代替缺失值、預(yù)測(cè)最可能的值代替缺失值等。Python中的缺失值表示形式較多,如Null、NaN、nan、NA等缺失值。7、噪聲數(shù)據(jù)處理方法都有哪些?對(duì)應(yīng)Python方法有哪些?答案:噪聲數(shù)據(jù)的處理方法包括分箱、聚類和回歸:(1)分箱方法:把待處理的數(shù)據(jù)(某列屬性值)按照一定的規(guī)則放進(jìn)一些箱子(區(qū)間)中,考察每一個(gè)箱子中的數(shù)據(jù),然后采用某種方法分別對(duì)每個(gè)箱子中的數(shù)據(jù)進(jìn)行處理。涉及如何分箱及如何對(duì)每個(gè)箱子中的數(shù)據(jù)進(jìn)行平滑處理。

(2)聚類方法:分組為由類似的對(duì)象組成的多個(gè)類,找出落在分類或簇之外的值作為噪聲數(shù)據(jù)(3)回歸方法:擬合相關(guān)變量之間的回歸函數(shù)來(lái)預(yù)測(cè)下一個(gè)數(shù)值,包括線性和非線性回歸(4)其他如小波變換降噪處理方法對(duì)應(yīng)Python方法較多,如Pandas模塊的分箱操作函數(shù)cut、qcut,scipy.stats中的分箱統(tǒng)計(jì)函數(shù)binned_statistic_2d、numpy也可對(duì)數(shù)組進(jìn)行分箱、機(jī)器學(xué)習(xí)sklearn模塊中有聚類方法和回歸方法、statsmodels模塊中有回歸方法等、scipy模塊中有數(shù)據(jù)采樣、小波變換等方法。8、對(duì)于不同來(lái)源的數(shù)據(jù)進(jìn)行整合,可能存在哪些問(wèn)題?答案:日常使用的數(shù)據(jù)來(lái)源于各種渠道,有的是連續(xù)的數(shù)據(jù),有的是離散數(shù)據(jù)、有的是模糊數(shù)據(jù),有的是定性數(shù)據(jù),有的是定量數(shù)據(jù)。數(shù)據(jù)集成就是將多文件或者多數(shù)據(jù)庫(kù)中的異構(gòu)數(shù)據(jù)進(jìn)行合并,然后存放在一個(gè)統(tǒng)一的數(shù)據(jù)庫(kù)中進(jìn)行存儲(chǔ)。在進(jìn)行數(shù)據(jù)的集成過(guò)程中,一般需要考慮以下問(wèn)題:1)實(shí)體識(shí)別:數(shù)據(jù)來(lái)源不同,其概念定義不一樣。如同名異義,異名同義,單位不統(tǒng)一等2)冗余屬性:數(shù)據(jù)中存在冗余,如同一屬性多次出現(xiàn),同一屬性命名不一致而引起數(shù)據(jù)重復(fù)等3)數(shù)據(jù)不一致:編碼不一致出現(xiàn)的數(shù)據(jù)表示不一致問(wèn)題,如日期、新舊身份證號(hào)碼等

解析:9、數(shù)據(jù)變換都有哪些方法?答案:數(shù)據(jù)變換常用方法如下:1)使用簡(jiǎn)單的數(shù)學(xué)函數(shù)對(duì)數(shù)據(jù)進(jìn)行變換如果數(shù)據(jù)較大,可以取對(duì)數(shù)或開(kāi)方將數(shù)據(jù)壓縮變?。蝗鐢?shù)據(jù)較小可使用平方擴(kuò)大數(shù)據(jù);在時(shí)間序列分析中,常使用對(duì)數(shù)變換或差分運(yùn)算將非平穩(wěn)序列轉(zhuǎn)換為平穩(wěn)序列2)數(shù)據(jù)歸一化(normalization),又稱標(biāo)準(zhǔn)化或規(guī)范化歸一化用于消除數(shù)據(jù)之間的量綱影響。不同的數(shù)據(jù)值可能差別很大,甚至具有不同的量綱,如果進(jìn)行調(diào)整很可能影響數(shù)據(jù)分析結(jié)果,因此需要將數(shù)據(jù)落入到一個(gè)有限的范圍。數(shù)據(jù)的標(biāo)準(zhǔn)化或規(guī)范化就是將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。在某些比較和評(píng)價(jià)的指標(biāo)處理中經(jīng)常會(huì)用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無(wú)量綱的純數(shù)值,便于不同單位或量級(jí)的指標(biāo)能夠進(jìn)行比較和加權(quán)。其中最典型的就是數(shù)據(jù)的歸一化處理,即將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上3)連續(xù)屬性離散化數(shù)據(jù)離散化本質(zhì)上是將連續(xù)的屬性空間劃分為若干個(gè)區(qū)間,最后用不同的符號(hào)或整數(shù)值代表某個(gè)子區(qū)間中的數(shù)據(jù)。離散化涉及兩個(gè)子任務(wù):確定分類及將連續(xù)屬性值映射到這些分類值。

解析:10、什么是數(shù)據(jù)歸一化?歸一化有什么好處?對(duì)應(yīng)Python方法都有哪些?答案:歸一化用于消除數(shù)據(jù)之間的量綱影響。不同的數(shù)據(jù)值可能差別很大,甚至具有不同的量綱,如果進(jìn)行調(diào)整很可能影響數(shù)據(jù)分析結(jié)果,因此需要將數(shù)據(jù)落入到一個(gè)有限的范圍。數(shù)據(jù)的標(biāo)準(zhǔn)化或規(guī)范化就是將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。在某些比較和評(píng)價(jià)的指標(biāo)處理中經(jīng)常會(huì)用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無(wú)量綱的純數(shù)值,便于不同單位或量級(jí)的指標(biāo)能夠進(jìn)行比較和加權(quán)。其中最典型的就是數(shù)據(jù)的歸一化處理,即將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上。數(shù)據(jù)歸一化的好處包括提升模型的收斂速度、提升模型的精度等。11、連續(xù)變量離散化都有哪些方法?答案:數(shù)據(jù)離散化本質(zhì)上是將連續(xù)的屬性空間劃分為若干個(gè)區(qū)間,最后用不同的符號(hào)或整數(shù)值代表某個(gè)子區(qū)間中的數(shù)據(jù)。離散化涉及兩個(gè)子任務(wù):確定分類及將連續(xù)屬性值映射到這些分類值。常用離散化方法有:(1)等寬法:根據(jù)需要指定將數(shù)據(jù)劃分為具有相同寬度的區(qū)間,區(qū)間數(shù)據(jù)事先制定,然后將數(shù)據(jù)按照其值分配到不同區(qū)間中,每個(gè)區(qū)間用一個(gè)數(shù)據(jù)值表示。參考分箱法。(2)等頻法:把數(shù)據(jù)分為若干個(gè)區(qū)間,每個(gè)區(qū)間的數(shù)據(jù)個(gè)數(shù)是相等的。參考等深分箱法。(3)基于聚類分析的方法:典型方法是K-means算法,即首先從數(shù)據(jù)集中隨機(jī)選出K個(gè)數(shù)據(jù)作為K個(gè)聚類的中心;其次根據(jù)其他數(shù)據(jù)想對(duì)這些中心的距離(歐式、曼哈頓距離等),對(duì)所有的對(duì)象聚類,如果數(shù)據(jù)x距某個(gè)中心最近,則將x劃歸到該中心所代表的的聚類;最后重新計(jì)算區(qū)間的中心,并利用新的中心重新聚類所有樣本。(4)其他方法:如基于熵的離散化方法,小波變換的特征提取方法,自上而下的卡方分裂算法等。具體選擇哪種預(yù)處理方法更合適,需要了解方法本身優(yōu)缺點(diǎn)、適應(yīng)范圍及實(shí)驗(yàn)驗(yàn)證確定。12、什么是數(shù)據(jù)歸約?常見(jiàn)方法有哪些?答案:數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量。原數(shù)據(jù)可以用來(lái)得到數(shù)據(jù)集的歸約表示,它接近于保持原數(shù)據(jù)的完整性,但數(shù)據(jù)量比原數(shù)據(jù)小得多,與非歸約數(shù)據(jù)相比,在歸約的數(shù)據(jù)上進(jìn)行挖掘,所需的時(shí)間和內(nèi)存資源更少,挖掘?qū)⒏行?,并產(chǎn)生相同或幾乎相同的分析結(jié)果。數(shù)據(jù)歸約常用方法如下:1)維歸約:也稱為特征規(guī)約,也叫數(shù)據(jù)降維,指通過(guò)減少屬性特征的方式壓縮數(shù)據(jù)量,通過(guò)移除不相關(guān)的屬性,可以提高模型效率。對(duì)應(yīng)方法包括:AIC準(zhǔn)則可以通過(guò)選擇最優(yōu)模型來(lái)選擇屬性;LASSO通過(guò)一定約束條件選擇變量;分類樹(shù)、隨機(jī)森林通過(guò)對(duì)分類效果的影響大小篩選屬性;小波變換(wavelettransform,WT)、主成分分析(PCA)通過(guò)把數(shù)據(jù)變換或投影到較小的空間來(lái)降低維數(shù)。2)數(shù)值歸約:也稱為樣本歸約,指從數(shù)據(jù)集中選出一個(gè)有代表性的樣本的子集,常用隨機(jī)不重復(fù)的抽樣方法。13、Python都有哪些模塊和哪些方法,可以進(jìn)行數(shù)據(jù)預(yù)處理?答案:進(jìn)行數(shù)據(jù)預(yù)處理的Python模塊很多,如:1)Numpy和Pandas可以對(duì)所屬數(shù)據(jù)對(duì)象進(jìn)行異常值檢測(cè)、缺失值處理、連接合并、分組統(tǒng)計(jì)、抽樣、分箱等2)機(jī)器學(xué)習(xí)模塊sklearn和科學(xué)計(jì)算模塊scipy,特別是sklearn中的preprocessing子模塊,可以對(duì)樣本進(jìn)行測(cè)試集、驗(yàn)證集拆分,降維處理,樣本生成,歸一化等14、不同的DataFrame對(duì)象之間進(jìn)行連接合并,都有哪些方法?答案:不同的DataFrame對(duì)象之間進(jìn)行連接合并方法較多,如merge、join、append、concat等,功能大致相似。以merge方法為例,pandas中的merge()函數(shù)類似于SQL中join的用法,可以將不同數(shù)據(jù)集依照某些字段(屬性)進(jìn)行合并操作,得到一個(gè)新的數(shù)據(jù)集。15、使用DataFrame對(duì)象,如何對(duì)數(shù)據(jù)進(jìn)行分組統(tǒng)計(jì)?都有哪些方法?答案:使用DataFrame對(duì)象常用的分組統(tǒng)計(jì)方法,一般是先用groupby函數(shù)指定分組類別對(duì)某些列數(shù)據(jù)進(jìn)行分組,然后再調(diào)用聚合函數(shù)進(jìn)行分組統(tǒng)計(jì)。另外,crosstab函數(shù)可以按照指定的行和列統(tǒng)計(jì)分組頻數(shù),pivot_table函數(shù)提供類類似于Excel的數(shù)據(jù)透視表功能。16、使用DataFrame對(duì)象,都有哪些抽樣方法?答案:take函數(shù)按照指定的序列取樣,缺省軸為index,即抽取行sample函數(shù)可以指定比例或樣本數(shù)等參數(shù)進(jìn)行抽樣等17、數(shù)據(jù)降維都有哪些分類和哪些方法?提供數(shù)據(jù)降維功能的Python模塊有哪些?答案:1.根據(jù)數(shù)據(jù)的特性分類:1)線性降維:主成分分析(PrincipalComponentAnalysis,PCA),線性辨別分析(LinearDiscriminantAnalysis,LDA)等2)非線性降維:核方法(核主成分分析KPCA、KFDA,即核+線性),二維化和張量化(如二維主成分分析、二維線性判別分析、二維典型相關(guān)分析,即二維+線性),流形學(xué)習(xí)(如ISOMap等距映射,LE拉普拉斯特征映射,LLE局部線性嵌入,LPP局部保留投影等2.根據(jù)是否考慮和利用數(shù)據(jù)的監(jiān)督信息分類:1)無(wú)監(jiān)督降維:主成分分析PCA等2)有監(jiān)督降維:線性判別分析LDA等3)半監(jiān)督降維:半監(jiān)督概率PCA,半監(jiān)督判別分析SDA等提供數(shù)據(jù)降維功能的Python模塊包括scipy(如奇異值分解SVD方法)、機(jī)器學(xué)習(xí)模塊sklearn(如PCA方法等)18、什么是主成分分析PCA?其原理和作用是什么?答案:PCA(PrincipalComponentAnalysis)是通過(guò)對(duì)原始變量的相關(guān)矩陣或協(xié)方差矩陣內(nèi)部結(jié)構(gòu)的研究,將多個(gè)變量轉(zhuǎn)換為少數(shù)幾個(gè)綜合變量即主成分,從而達(dá)到降維目的的一種線性降維方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的線性組合。PCA將數(shù)據(jù)方差作為對(duì)信息衡量的準(zhǔn)則:方差越大,它所能包含的信息就越多,反之包含的信息就越少。因此,PCA可以看成一個(gè)坐標(biāo)變換(K-L變換,基于統(tǒng)計(jì)特征基礎(chǔ)上的多維正交線性變換)的過(guò)程:將高維數(shù)據(jù)的坐標(biāo)投影到數(shù)據(jù)方差最大的方向組成的新坐標(biāo)系中。PCA具有容易計(jì)算,解釋性強(qiáng)等特點(diǎn),但也存在不適用非線性結(jié)構(gòu)高維數(shù)據(jù)、不適用非高斯分布數(shù)據(jù)以及主分量的個(gè)數(shù)難以確定等缺點(diǎn)。19、什么是奇異值分解SVD?其原理和作用是什么?答案:PCA是通過(guò)特征值分解來(lái)進(jìn)行特征提取的,但要求矩陣必須是方陣,但在實(shí)際應(yīng)用場(chǎng)景中,經(jīng)常遇到的矩陣不是方陣,而且基于PCA算法在處理大數(shù)據(jù)集時(shí)內(nèi)存處理效率較低。而奇異值分解SVD是矩陣分解的一種方法,即將原始矩陣表示成兩個(gè)或多個(gè)矩陣乘積的形式,使得易于處理(類比代數(shù)因子分解)。20、因子分析有哪些相關(guān)方法?探索性因子分析與驗(yàn)證性因子分析有何區(qū)別?答案:因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù),最早由英國(guó)心理學(xué)家C.E.斯皮爾曼提出。因子分析法是指從研究指標(biāo)相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些信息重疊、具有錯(cuò)綜復(fù)雜關(guān)系的變量歸

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論