大數(shù)據(jù)分析處理慕課版郭永洪習(xí)題答案

上傳人：大*** IP屬地：四川上傳時(shí)間：2024-03-27 格式：DOCX 頁(yè)數(shù)：12 大小：31.67KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

單元1大數(shù)據(jù)分析概述一、單選題1．大數(shù)據(jù)分析針對(duì)的是什么樣的數(shù)據(jù)集合？（B） A．單一的 B．海量的、多樣化的 C．無(wú)須處理的 D．傳統(tǒng)的2．ETL是3個(gè)單詞的縮寫(xiě)，分別代表什么意思？（C） A．抽取、分析、存儲(chǔ) B．清洗、轉(zhuǎn)換、分析 C．抽取、轉(zhuǎn)換、裝載 D．分析、展示、裝載3．“提取隱含在數(shù)據(jù)中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)?！边@是在描述哪一項(xiàng)技術(shù)？（D） A．?dāng)?shù)據(jù)清洗 B．?dāng)?shù)據(jù)收集 C．?dāng)?shù)據(jù)展示 D．?dāng)?shù)據(jù)挖掘4．目前大數(shù)據(jù)分析的比較主流編程語(yǔ)言是（A）。 A．Python B．Java C．C語(yǔ)言 D．R語(yǔ)言5．哪一個(gè)庫(kù)是Python的數(shù)據(jù)分析庫(kù)，是為解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的？（B） A．numpy B．pandas C．sklearn D．matplotlib二、填空題1．?dāng)?shù)據(jù)分析是有目的地進(jìn)行收集、整理、加工和分析數(shù)據(jù)，提煉有價(jià)值信息的過(guò)程。2．?dāng)?shù)據(jù)清洗的目的在于提高數(shù)據(jù)質(zhì)量，將臟數(shù)據(jù)“清洗”干凈，使原數(shù)據(jù)具有完整性、唯一性、權(quán)威性、合法性、一致性等特點(diǎn)。3．Excel適合簡(jiǎn)單的統(tǒng)計(jì)分析，其內(nèi)置的數(shù)據(jù)分析工具不僅方便好用，功能也基本齊全，可以完成專(zhuān)業(yè)數(shù)據(jù)分析工作。4．pip5．pip--version是用來(lái)查看pip版本的命令。三、簡(jiǎn)答題1．什么是數(shù)據(jù)分析？參考答案：數(shù)據(jù)分析是指根據(jù)分析目的，采用對(duì)比分析、分組分析、交叉分析和回歸分析等分析方法，對(duì)收集來(lái)的數(shù)據(jù)進(jìn)行處理與分析，提取有價(jià)值的信息，發(fā)揮數(shù)據(jù)的作用，得到一個(gè)特征統(tǒng)計(jì)量結(jié)果的過(guò)程。2．請(qǐng)列舉幾個(gè)大數(shù)據(jù)分析編程語(yǔ)言。參考答案：Python、R、Java、Scala3．通常安裝第三方庫(kù)的方法有幾種？請(qǐng)列舉。參考答案：使用pip命令安裝第三方庫(kù)使用PyCharm平臺(tái)安裝第三方庫(kù)單元2numpy科學(xué)計(jì)算基礎(chǔ)一、單選題1．numpy中的隨機(jī)數(shù)模塊是哪一個(gè)？（A） A．random B．sklearn C．os D．linalg2．以下哪一個(gè)屬性可用來(lái)表示數(shù)組在各個(gè)維度上的大小？（D） A．ndarray.size B．ndarray.dtype C．ndarray.ndim D．ndarray.shape3．標(biāo)量與多維數(shù)組運(yùn)算時(shí)，會(huì)根據(jù)標(biāo)量產(chǎn)生一個(gè)與多維數(shù)組具有（C）行數(shù)和列數(shù)的新數(shù)組，新數(shù)組與多維數(shù)組的每個(gè)元素都被相加、相減、相乘或者相除。 A．差異的 B．不同的 C．相同的 D．相似的4．通用函數(shù)是一種針對(duì)ndarray中的數(shù)據(jù)執(zhí)行（A）級(jí)運(yùn)算的函數(shù)，返回的是一個(gè)新的數(shù)組。 A．元素 B．?dāng)?shù)組 C．對(duì)象 D．序列5．0軸會(huì)沿著（B）的方向垂直向下延伸，1軸會(huì)沿著（B）的方向水平向右延伸。 A．列，行 B．行，列 C．單元，軸 D．軸，單元二、填空題1．numpy的全稱(chēng)是NumericalPython。2．ndarray對(duì)象的數(shù)據(jù)類(lèi)型可以通過(guò)astype方法進(jìn)行轉(zhuǎn)換。3．計(jì)算數(shù)組元素的平方的函數(shù)是square。4．返回?cái)?shù)組最大元素的索引的方法是argmax。5．numpy中提供的一個(gè)用于矩陣乘法的函數(shù)是dot。三、簡(jiǎn)答題1．觸發(fā)廣播機(jī)制需要滿(mǎn)足哪些條件？參考答案：兩個(gè)數(shù)組的某一維度等長(zhǎng)。②其中一個(gè)數(shù)組為一維數(shù)組。2．列舉5個(gè)ndarray對(duì)象的用于統(tǒng)計(jì)的方法。參考答案：sum、mean、min、max、cumsum3．兩個(gè)矩陣相乘，需要滿(mǎn)足哪些條件？參考答案：兩個(gè)矩陣相乘，必須滿(mǎn)足矩陣A的列數(shù)等于矩陣B的行數(shù)這一條件。假設(shè)A為m×p的矩陣，B為p×n的矩陣，那么矩陣A與B的乘積就是一個(gè)m×n的矩陣C。單元3pandas統(tǒng)計(jì)分析基礎(chǔ)一、單選題1．定義一個(gè)DataFrame為df，使用切片選擇索引為1、3的列，包括尾部數(shù)據(jù)。（C） A．df.loc[:,[0,3]] B．df.loc[:,[1,4]] C.df.loc[:,[1,3]] D．df.loc[:,[0,2]]2．使用字典創(chuàng)建DataFrame，字典的鍵將作為DataFrame的（D）。 A．index B．rows C．values D．columns3．創(chuàng)建Series對(duì)象時(shí)可以使用（B）參數(shù)來(lái)指定Series對(duì)象的索引。 A．data B．index C．dtype D．copy4．定義一個(gè)DataFrame為df，計(jì)算df['visit']的總和，請(qǐng)選擇正確的代碼。（B） A．df['visits'].sum() B．df['visit'].sum() C．df['visits'].total() D．df['visit'].total()5．DataFrame對(duì)象的（A）方法是以索引為依據(jù)對(duì)數(shù)據(jù)進(jìn)行排序的。 A．sort_index B．sort_values C．index D．sort二、填空題1．pandas中有3個(gè)數(shù)據(jù)結(jié)構(gòu)，分別是Series、DataFrame和Panel。2．DataFrame對(duì)象有兩個(gè)排序方法，其中以索引為依據(jù)進(jìn)行排序的方法是sort_index。3．sort_values方法中用于設(shè)置按升序或降序排序的參數(shù)是ascending。4．pandas的統(tǒng)計(jì)方法中用于統(tǒng)計(jì)平均值的方法是mean。5．pandas的統(tǒng)計(jì)方法中用于統(tǒng)計(jì)累計(jì)和的方法是cumsum。三、簡(jiǎn)答題1．寫(xiě)出導(dǎo)入pandas庫(kù)并將其簡(jiǎn)寫(xiě)為pd的語(yǔ)句。參考答案：importpandasaspd2．對(duì)DataFrame對(duì)象進(jìn)行排序，可以用哪兩種方法？參考答案：sort_index方法、sort_values方法3．創(chuàng)建一個(gè)Series對(duì)象，并獲得它的元素中的最小值、第一四分位數(shù)（Q1）、中位數(shù)（Q2）、第三四分位數(shù)（Q3）和最大值。參考答案：importpandasaspdser=pd.Series([28,35,54,42,21,60,63,38,41,64,68,70,18,17,39,26])ser.min()ser.quantile(0.25)ser.quantile(0.5)ser.quantile(0.75)ser.max()運(yùn)行結(jié)果：1727.54060.7570單元4數(shù)據(jù)讀取與寫(xiě)入一、單選題1．Python導(dǎo)入pandas庫(kù)的語(yǔ)句為“importpandasaspd”，文本文件userinfo.txt的數(shù)據(jù)格式如下，能正確讀取該文本文件的語(yǔ)句是（B）。用戶(hù)1,男,軟件開(kāi)發(fā)工程師用戶(hù)2,女,軟件測(cè)試工程師 A．pd.read_exel('userinfo.txt',encoding='gbk') B．pd.read_csv('userinfo.txt',encoding='gbk') C．pd.read_table('userinfo.txt',encoding='gbk') D．pd.read_sql('userinfo.txt',encoding='gbk')2．下列哪個(gè)函數(shù)能夠?qū)?shù)據(jù)寫(xiě)入Excel文件？（C） A．to_xlsx B．to_csv C．to_excel D．to_sql3．讀取文件的代碼為“data=pd.read_csv('job_info.csv'，encoding='gbk')”，將讀取到的內(nèi)容寫(xiě)入Excel文件user_info.xlsx的工作表jobs，索引不寫(xiě)入，下列語(yǔ)句正確的是（D）。 A．data.to_excel('jobs',sheet_name='job_info.xlsx',encoding='gbk',index=True) B．data.to_excel('jobs',sheet_name='job_info.xlsx',encoding='gbk',index=False) C．data.to_excel('user_info.xlsx',sheet_name='jobs',encoding='gbk',index=True) D．data.to_excel('user_info.xlsx',sheet_name='jobs',encoding='gbk',index=False)4．使用SQLAlchemy和PyMySQL建立數(shù)據(jù)庫(kù)連接，以root用戶(hù)登錄sales數(shù)據(jù)庫(kù)（字符集為UTF-8），登錄密碼為M123，下列連接MySQL的連接字符串s設(shè)置正確的是（A）。 A．s='mysql+pymysql://root:M123@127.0.0.1:3306/sales?charset=utf8' B．s='pymysql+mysql://root:M123@127.0.0.1:3306/sales?charset=utf8' C．s='mysql+pymysql://root:M123?127.0.0.1:3306/sales?charset=utf8' D．s='pymysql+mysql://root:M123?127.0.0.1:3306/sales?charset=utf8'5．下列哪些函數(shù)可以從MySQL中讀取數(shù)據(jù)？（B） ①read_sql_table②read_sql_query③read_table④read_sql A．①②③ B．①②④ C．②③④ D．①②③④二、填空題1．pandas庫(kù)中用于讀取Excel文件的函數(shù)是read_excel。2．pandas庫(kù)中用于將數(shù)據(jù)寫(xiě)入文本文件的函數(shù)是to_csv。3．pandas庫(kù)中只能通過(guò)表名稱(chēng)讀取表內(nèi)容的函數(shù)是read_sql_table。4．pandas庫(kù)中只能通過(guò)執(zhí)行SQL查詢(xún)語(yǔ)句讀取表內(nèi)容的函數(shù)是read_sql_query。5．pandas庫(kù)中用于將數(shù)據(jù)寫(xiě)入Excel文件的函數(shù)是to_excel。三、簡(jiǎn)答題1．pandas讀寫(xiě)CSV文本文件的方法有哪些？參考答案：Pandas讀取csv文件的函數(shù)有read_table、read_csv，Pandas使用to_csv函數(shù)實(shí)現(xiàn)寫(xiě)數(shù)據(jù)到csv文件。2．pandas有哪些函數(shù)可用來(lái)實(shí)現(xiàn)Excel文件的讀寫(xiě)操作？參考答案：Pandas的read_excel函數(shù)可實(shí)現(xiàn)Excel文件讀取操作，to_excel函數(shù)實(shí)現(xiàn)將數(shù)據(jù)寫(xiě)入Excel文件的操作。3．Python如何實(shí)現(xiàn)對(duì)MySQL數(shù)據(jù)庫(kù)的操作？參考答案：Python通過(guò)PyMySQL庫(kù)創(chuàng)建連接MySQL數(shù)據(jù)庫(kù)的引擎，通過(guò)read_sql_table函數(shù)、read_sql_query函數(shù)和read_sql函數(shù)實(shí)現(xiàn)對(duì)MySQL數(shù)據(jù)庫(kù)讀操作，通過(guò)to_sql函數(shù)實(shí)現(xiàn)數(shù)據(jù)庫(kù)寫(xiě)操作。單元5數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗一、單選題1．低質(zhì)量數(shù)據(jù)帶來(lái)的影響不包括以下哪個(gè)？（B） A．企業(yè)收入損失 B．企業(yè)人員流失 C．客戶(hù)投訴 D．財(cái)務(wù)計(jì)劃的偏差2．以下哪個(gè)不是缺失值處理方法？（C） A．刪除法 B．替換法 C．更新法 D．插值法3．pandas提供了一個(gè)去重方法，名為（C）。 A．drop_repeat B．detect_duplicates C．drop_duplicates D．drop_duplicate4．異常值有時(shí)也被稱(chēng)為（A）。 A．離群點(diǎn) B．奇異值 C．離散點(diǎn) D．特殊值二、填空題1．DataFrame對(duì)象用于判斷是否存在重復(fù)值的方法是duplicated。2．pandas庫(kù)提供的識(shí)別缺失值的方法是isnull。3．常用的異常值檢測(cè)方法主要有兩種，分別是圖形法和建模法。4．3σ原則又稱(chēng)為拉依達(dá)準(zhǔn)則。5．插值法常用庫(kù)是scipy。三、簡(jiǎn)答題1．drop_duplicates方法中的參數(shù)分別表示什么？參考答案：subset：接收string或sequence，表示需要進(jìn)行去重的列，默認(rèn)為None，表示全部列。keep：接收特定string，表示去重時(shí)保留第幾個(gè)數(shù)據(jù)。first：保留第一個(gè)。last：保留最后一個(gè)。False：只要有重復(fù)都不保留。默認(rèn)為first。inplace：接收布爾值，表示是否在原表上進(jìn)行操作，默認(rèn)為False。2．常用的插值法有哪些，分別有什么特點(diǎn)？參考答案：(1)線(xiàn)性插值是一種較為簡(jiǎn)單的插值方法，它針對(duì)已知的值求出線(xiàn)性方程，通過(guò)求解線(xiàn)性方程得到缺失值。(2)多項(xiàng)式插值是利用已知的值擬合一個(gè)多項(xiàng)式，使得現(xiàn)有的數(shù)據(jù)滿(mǎn)足這個(gè)多項(xiàng)式，再利用這個(gè)多項(xiàng)式求解缺失值，常見(jiàn)的多項(xiàng)式插值法有拉格朗日插值和牛頓插值等。(3)樣條插值是以可變樣條來(lái)作出一條經(jīng)過(guò)一系列點(diǎn)的光滑曲線(xiàn)的插值方法，插值樣條由一些多項(xiàng)式組成，每一個(gè)多項(xiàng)式都是由相鄰兩個(gè)數(shù)據(jù)點(diǎn)決定，這樣可以保證兩個(gè)相鄰多項(xiàng)式及其導(dǎo)數(shù)在連接處連續(xù)。從擬合結(jié)果可以看出多項(xiàng)式插值和樣條插值在兩種情況下擬合都非常出色，線(xiàn)性插值法只在自變量和因變量為線(xiàn)性關(guān)系的情況下擬合才較為出色。而在實(shí)際分析過(guò)程中，自變量與因變量的關(guān)系是線(xiàn)性的情況非常少見(jiàn)，所以在大多數(shù)情況下，多項(xiàng)式插值和樣條插值是較為合適的選擇。單元6數(shù)據(jù)合并與數(shù)據(jù)轉(zhuǎn)換一、單選題1．將兩個(gè)表按軸堆疊在一起，可以使用pandas庫(kù)中哪個(gè)函數(shù)或方法完成？（A） A．concat B．merge C．join D．a(chǎn)ppend2．?dāng)?shù)據(jù)分析和處理過(guò)程中若出現(xiàn)兩張內(nèi)容幾乎一致的表，但是某些特征的數(shù)據(jù)在其中一張表上是完整的，而在另外一張表上則是缺失的，可以用下列哪個(gè)函數(shù)或方法進(jìn)行重疊數(shù)據(jù)合并，構(gòu)建完整的表？（D） A．join B．merge C．concat D．combine_first3．下列哪個(gè)函數(shù)或方法可以用來(lái)實(shí)現(xiàn)數(shù)據(jù)映射轉(zhuǎn)換？（D） A．join B．merge C．concat D．map4．使用pandas庫(kù)中cut函數(shù)將連續(xù)型數(shù)值數(shù)據(jù)集ds離散化為區(qū)間，代碼為pandas.cut(ds,2,right=False)，下列哪個(gè)說(shuō)法是正確的？（C） A．離散化后的區(qū)間不包含左邊界，包含右邊界。 B．離散化后的區(qū)間既包含左邊界，也包含右邊界。 C．離散化后的區(qū)間包含左邊界，不包含右邊界。 D．離散化后的區(qū)間既不包含左邊界，也不包含右邊界。5．使用pandas庫(kù)中qcut函數(shù)將一個(gè)連續(xù)型數(shù)值數(shù)據(jù)集ds按頻率均衡劃分為q等份的代碼為pandas.qcut(ds,q)，則下列關(guān)于參數(shù)q的取值中哪項(xiàng)是正確的？（A） A．2 B．{0,0.6,1} C．(0,0.4,1) D．[0,1,2]二、填空題1．concat函數(shù)的axis參數(shù)可以用來(lái)指定兩個(gè)DataFrame對(duì)象按照橫向或縱向堆疊。2．使用map方法對(duì)數(shù)據(jù)集中的數(shù)據(jù)做映射轉(zhuǎn)換時(shí)，用于處理數(shù)據(jù)集中缺失值的參數(shù)是na_action。3．使用cut函數(shù)對(duì)數(shù)據(jù)進(jìn)行離散化處理時(shí)，將離散化后的數(shù)據(jù)區(qū)間表示成類(lèi)別名稱(chēng)，使用參數(shù)labels。4．使用pandas庫(kù)中merge函數(shù)連接兩個(gè)表，用于指定連接方式的參數(shù)是how。5．函數(shù)merge的參數(shù)how的取值有l(wèi)eft、right、outer和inner。三、簡(jiǎn)答題有哪些方法或函數(shù)可以用來(lái)實(shí)現(xiàn)數(shù)據(jù)連接？參考答案：merge函數(shù)join方法combine_first方法單元7數(shù)據(jù)分組與數(shù)據(jù)聚合一、單選題1．pandas中用于分組的方法是（A）。 A．groupby B．a(chǎn)gg C．a(chǎn)pply D．transform2．groupby方法中哪個(gè)參數(shù)代表了分組依據(jù)？（C） A．a(chǎn)xis B．sort C．by D．level3．在完成簡(jiǎn)單的聚合時(shí)，通常選用哪種方法？（A） A．a(chǎn)gg B．a(chǎn)pply C．transform D．combine4．如果傳入apply方法的函數(shù)本身就實(shí)現(xiàn)了聚合操作并返回一個(gè)標(biāo)量的話(huà)，那么調(diào)用apply方法后返回的是（D）。 A．列表 B．元組 C．集合 D．具體的值5．傳入groupby的參數(shù)不可以是（D）。 A．Series B．list C．dict D．string二、填空題1．groupby

方法中將函數(shù)作為分組鍵時(shí)，任何一個(gè)被當(dāng)作分組鍵的函數(shù)都會(huì)在各個(gè)索引值上被調(diào)用一次。2．調(diào)用groupby方法的過(guò)程中，自定義函數(shù)會(huì)對(duì)一個(gè)數(shù)據(jù)對(duì)象進(jìn)行操作。3．寫(xiě)出以下代碼的運(yùn)行結(jié)果：importpandasaspdimportnumpyasnpseries=pd.Series([1,2])result=series.apply(lambdax:x**2)print(list(result))運(yùn)行結(jié)果：[1,4]。4．可以在apply方法中傳入自定義函數(shù)。5．transform是針對(duì)每一元素（即每一列特征操作）進(jìn)行計(jì)算的。三、簡(jiǎn)答題1．groupby方法的分組鍵可以是哪些？參考答案：list、string、mapping或generator2．簡(jiǎn)述3種聚合方法（agg方法、apply方法、transform方法）的區(qū)別。參考答案：agg方法支持對(duì)每個(gè)分組應(yīng)用某函數(shù)，包括Python內(nèi)置函數(shù)或自定義函數(shù)。同時(shí)這個(gè)方法能夠也能夠直接對(duì)DataFrame進(jìn)行函數(shù)應(yīng)用操作。apply方法類(lèi)似agg方法能夠?qū)⒑瘮?shù)應(yīng)用于每一列。不同之處在于apply方法相比agg方法傳入的函數(shù)只能夠作用于整個(gè)DataFrame或者Series，而無(wú)法像agg一樣能夠?qū)Σ煌侄?，?yīng)用不同函數(shù)獲取不同結(jié)果。使用apply方法對(duì)GroupBy對(duì)象進(jìn)行聚合操作其方法和agg方法也相同，只是使用agg方法能夠?qū)崿F(xiàn)對(duì)不同的字段進(jìn)行應(yīng)用不同的函數(shù)，而apply則不行。transform方法能夠?qū)φ麄€(gè)DataFrame的所有元素進(jìn)行操作。且transform方法只有一個(gè)參數(shù)“func”，表示對(duì)DataFrame操作的函數(shù)。同時(shí)transform方法還能夠?qū)ataFrame分組后的對(duì)象GroupBy進(jìn)行操作，可以實(shí)現(xiàn)組內(nèi)離差標(biāo)準(zhǔn)化等操作。單元8scikit-learn機(jī)器學(xué)習(xí)一、單選題1．機(jī)器學(xué)習(xí)是一門(mén)關(guān)于人工智能的學(xué)科，其主要研究對(duì)象是什么？（A） A．人工智能 B．人 C．機(jī)器 D．代碼2．導(dǎo)入PCA的方式是(B)。 A．fromsklearn.datasetsimportload_iris B．fromsklearn.decompositionimportPCA C．fromsklearn.preprocessingimportMinMaxScaler D．fromsklearn.model_selectionimporttrain_test_split3．下列算法中，sklearn沒(méi)有涉及的是（D）。 A．K-means B．邏輯斯諦回歸 C．支持向量機(jī) D．Apriori關(guān)聯(lián)算法4．下列關(guān)于train_test_split函數(shù)的說(shuō)法正確的是（C）。 A．train_test_split能夠?qū)?shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集 B．train_test_split每次劃分的結(jié)果不同，無(wú)法解決 C．train_test_split可以自行決定訓(xùn)練集和測(cè)試集的占比 D．生成的訓(xùn)練集和測(cè)試集在賦值的時(shí)候可以調(diào)換位置5．將數(shù)據(jù)縮放到0和1之間，應(yīng)該使用sklearn的哪種預(yù)處理轉(zhuǎn)換器？（B） A．StandardScaler B．MinMaxScaler C．Normalizer D．Binarizer6．線(xiàn)性回歸模型中用于擬合線(xiàn)性模型的方法是（C）。 A．load() B．plot() C．fit() D．predict()7．K-means聚類(lèi)在sklearn的哪個(gè)模塊中？（A） A．cluster B．base C．model_selection D．liner_model二、填空題1．sklearn的全稱(chēng)是scikit-learn。2．可以通過(guò)sklearn中的StandardScaler進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。3．sklearn中自帶數(shù)據(jù)集的模塊是datasets。4．可以通過(guò)sklearn中的Binarizer進(jìn)行二值化處理。5．PCA是一種降維方法。三、簡(jiǎn)答題1．為什么要把數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集？參考答案：保證模型在實(shí)際系統(tǒng)中能夠起到預(yù)期作用。其中訓(xùn)練集用于估計(jì)模型，而測(cè)試集則用于檢驗(yàn)最優(yōu)模型的性能。2．什么是PCA算法？它的作用是什么？參考答案：PCA算法通過(guò)某種線(xiàn)性投影，將高維的數(shù)據(jù)映射到低維的空間中表示，即把原先的n個(gè)特征用數(shù)目更少的m個(gè)特征取代，新特征是舊特征的線(xiàn)性組合。并期望在所投影的維度上數(shù)據(jù)的方差最大，盡量使新的m個(gè)特征互不相關(guān)。之所以要采用PCA降維方法，是因?yàn)閿?shù)據(jù)在低維下更容易處理、更容易使用；相關(guān)特征容易在數(shù)據(jù)中明確的顯示出來(lái)，例如：兩維、三維數(shù)據(jù)，能進(jìn)行可視化展示

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析處理慕課版郭永洪習(xí)題答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)分析處理慕課版郭永洪習(xí)題答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔