2024年秋江蘇開放大學數(shù)據(jù)挖掘技術(shù)060734形考作業(yè)1-3_第1頁
2024年秋江蘇開放大學數(shù)據(jù)挖掘技術(shù)060734形考作業(yè)1-3_第2頁
2024年秋江蘇開放大學數(shù)據(jù)挖掘技術(shù)060734形考作業(yè)1-3_第3頁
2024年秋江蘇開放大學數(shù)據(jù)挖掘技術(shù)060734形考作業(yè)1-3_第4頁
2024年秋江蘇開放大學數(shù)據(jù)挖掘技術(shù)060734形考作業(yè)1-3_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

2024年秋江蘇開放大學數(shù)據(jù)挖掘技術(shù)第1次形考作業(yè)單選題1某超市研究銷售記錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?()A關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B聚類C分類D自然語言處理正確答案:A2以下兩種描述分別對應哪兩種對分類算法的評價標準?()(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。(b)描述有多少比例的小偷給警察抓了的標準。A、Precision,RecallB、Recall,PrecisionC、Precision,ROCD、Recall,ROC正確答案:A3下列不屬于分析與挖掘的數(shù)據(jù)類型的是()。A數(shù)據(jù)庫數(shù)據(jù)B數(shù)據(jù)分析C數(shù)據(jù)矩陣D事務數(shù)據(jù)正確答案:B4目的是縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果的是()。A數(shù)據(jù)清洗B數(shù)據(jù)集成C數(shù)據(jù)變換D數(shù)據(jù)歸約正確答案:C5目前數(shù)據(jù)分析和數(shù)據(jù)挖掘面臨的挑戰(zhàn)性問題不包括()。A數(shù)據(jù)類型的多樣性B高維度數(shù)據(jù)C離散點數(shù)據(jù)D數(shù)據(jù)分析與數(shù)據(jù)挖掘結(jié)果的可視化正確答案:C6下列應用中,哪一個不屬于數(shù)據(jù)分析與數(shù)據(jù)挖掘的應用()。A商務智能B搜索引擎C輔助醫(yī)療D垃圾郵件識別正確答案:D7假設12個銷售價格記錄已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等寬劃分時(寬度為50),15又在哪個箱子里?()A第一個B第二個C第三個D第四個正確答案:A8假設12個銷售價格記錄已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內(nèi)?()A第一個B第二個C第三個D第四個正確答案:B9下面哪種不屬于數(shù)據(jù)預處理的方法?()A變量代換B離散化C聚集D估計遺漏值正確答案:D10用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務?()A根據(jù)內(nèi)容檢索B建模描述C預測建模D尋找模式和規(guī)則正確答案:A11建立一個模型,通過這個模型根據(jù)已知的變量值,來預測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務?()A根據(jù)內(nèi)容檢索B建模描述C預測建模D尋找模式和規(guī)則正確答案:C12為數(shù)據(jù)的總體分布建模,把多維空間劃分成組等問題,屬于數(shù)據(jù)挖掘的哪一類任務?()A探索性數(shù)據(jù)分析B建模描述C預測建模D尋找模式和規(guī)則正確答案:B13使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務?()A探索性數(shù)據(jù)分析B建模描述C預測建模D尋找模式和規(guī)則正確答案:A14什么是KDD?()A數(shù)據(jù)挖掘與知識發(fā)現(xiàn)B領域知識發(fā)現(xiàn)C文檔知識發(fā)現(xiàn)D動態(tài)知識發(fā)現(xiàn)正確答案:A15當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離?()A分類B聚類C關(guān)聯(lián)分析D隱馬爾科夫鏈正確答案:B16將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務?()A頻繁模式挖掘B分類和預測C數(shù)據(jù)預處理D數(shù)據(jù)流挖掘正確答案:C17考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是()。A2B3C3.5D5正確答案:C18下面不屬于創(chuàng)建新屬性的相關(guān)方法的是()。A特征提取B特征修改C映射數(shù)據(jù)到新的空間D特征構(gòu)造正確答案:B19假設有學生考試成績的值:60,45,33,77,80,100,100,90,70,65,找出這組數(shù)據(jù)的中列數(shù)()。A66.5B100C82.5D78正確答案:A20數(shù)值屬性的相異性不包括()。A牛頓距離B歐幾里得距離C閔可夫斯基距離D切比雪夫距離正確答案:A21假設有學生考試成績的值:60,45,33,77,80,100,100,90,70,65,找出這組數(shù)據(jù)的中位數(shù)()。A100B73.5C78.5D55正確答案:B22下列的類型,哪一個不屬于屬性的分類()。A標稱屬性B集合屬性C二元屬性D數(shù)值屬性正確答案:B23以下哪種方法不屬于特征選擇的標準方法()。A嵌入B過濾C包裝D抽樣正確答案:D24只有非零值才重要的二元屬性被稱作()。A計數(shù)屬性B離散屬性C非對稱的二元屬性D對稱屬性正確答案:C25屬于定量的屬性類型是()。A標稱B序數(shù)C區(qū)間D相異正確答案:C26下面哪個不屬于數(shù)據(jù)的屬性類型。()A標稱B序數(shù)C區(qū)間D相異正確答案:D多選題1基本統(tǒng)計圖形顯示有()A箱圖B餅圖C頻率直方圖D散點圖正確答案:A;B;C;D2數(shù)據(jù)分散度量有()A極差B分位數(shù)C四分位數(shù)D方差E標準差正確答案:A;B;C;D;E3分析與挖掘的數(shù)據(jù)類型有()A數(shù)據(jù)庫數(shù)據(jù)B數(shù)據(jù)倉庫數(shù)據(jù)C事務數(shù)據(jù)D數(shù)據(jù)矩陣E圖和網(wǎng)狀數(shù)據(jù)F其它類型的數(shù)據(jù)正確答案:A;B;C;D;E;F填空題1數(shù)據(jù)預處理的方法包括、、、。正確答案:數(shù)據(jù)清理;數(shù)據(jù)集成;數(shù)據(jù)變換;數(shù)據(jù)歸約2數(shù)據(jù)分析與數(shù)據(jù)挖掘的方法有、、、。正確答案:頻繁模式;分類與回歸;聚類分析;離群點分析簡答題1闡述二元屬性的狀態(tài)以及每種狀態(tài)表示的含義。答案:二元屬性是一種特殊的數(shù)據(jù)屬性類型,其狀態(tài)及每種狀態(tài)表示的含義如下:一、二元屬性的狀態(tài)二元屬性只有兩個類別或狀態(tài),通常用0和1來表示。二、每種狀態(tài)表示的含義0:在二元屬性中,0通常用來表示某個屬性不出現(xiàn)或者為假(false)。例如,在表示患者是否抽煙的屬性中,0可以表示患者不抽煙;在表示性別屬性的非對稱情況下(如將男性編碼為1,女性編碼為0,僅作為示例,實際編碼可靈活處理),0可能表示女性。1:與0相反,1在二元屬性中用來表示某個屬性出現(xiàn)或者為真(true)。繼續(xù)以患者是否抽煙的屬性為例,1可以表示患者抽煙;在性別屬性的非對稱情況下,1可能表示男性。三、二元屬性的對稱性值得注意的是,二元屬性還可以進一步分為對稱的和非對稱的:對稱二元屬性:如果二元屬性的兩種狀態(tài)具有同等價值并且攜帶相同的權(quán)重,那么這種二元屬性就是對稱的。例如,性別屬性(男、女)就是對稱的,因為男性和女性在大多數(shù)情況下都被視為具有同等價值的類別。非對稱二元屬性:如果二元屬性的兩種狀態(tài)不是同等重要的,那么這種二元屬性就是非對稱的。例如,在病毒化驗結(jié)果中,陽性和陰性結(jié)果通常具有不同的重要性。在這種情況下,陽性結(jié)果(通常表示存在病毒感染)可能被編碼為1,而陰性結(jié)果(表示未感染病毒)被編碼為0。綜上所述,二元屬性的狀態(tài)及其含義取決于具體的應用場景和編碼規(guī)則。在實際應用中,需要根據(jù)數(shù)據(jù)的特性和分析目的來選擇合適的編碼方式。2什么是極差、分位數(shù)、方差?答案:極差、分位數(shù)、方差是統(tǒng)計學中常用的幾個概念,它們各自具有不同的定義和用途。以下是對這三個概念的詳細解釋:一、極差定義:極差是一組數(shù)據(jù)中最大值與最小值之差,以R表示,是統(tǒng)計學術(shù)語,亦可稱為極端差、極端距離、最大最小距離、極大極小差甚至最大最小差。公式:極差=最大值-最小值。用途:極差用于反映數(shù)據(jù)的變化幅度,其值越大就表明樣本值變化越大,樣本中的離散程度越大。特點:極差計算簡單,含義直觀,運用方便,但只能反映數(shù)據(jù)的最大離散范圍,不能細致地反映測量值彼此相符合的程度。二、分位數(shù)定義:分位數(shù)(Quantile),亦稱分位點,是指將一個隨機變量的概率分布范圍分為幾個等份的數(shù)值點,常用的有中位數(shù)(即二分位數(shù))、四分位數(shù)、百分位數(shù)等。用途:分位數(shù)可以用于描述數(shù)據(jù)的分布特征,例如中位數(shù)可以表示數(shù)據(jù)的中心位置,四分位數(shù)可以表示數(shù)據(jù)的分布形態(tài)等。特點:分位數(shù)能夠更細致地描述數(shù)據(jù)的分布特征,比極差更能反映數(shù)據(jù)的整體情況。三、方差定義:方差是用來衡量一組觀測值分散程度的統(tǒng)計量,是樣本方差的簡稱。公式:方差=(每個數(shù)據(jù)與平均數(shù)的差的平方和)/數(shù)據(jù)個數(shù)。用途:方差用于描述數(shù)據(jù)的離散程度,方差越大,說明數(shù)據(jù)的離散程度越大;方差越小,說明數(shù)據(jù)的離散程度越小。特點:方差能夠更全面地反映數(shù)據(jù)的離散程度,比極差和分位數(shù)更能揭示數(shù)據(jù)的內(nèi)在特性。同時,方差具有可加性、齊次變換性和可開方性等特點,便于進行進一步的統(tǒng)計分析和計算。綜上所述,極差、分位數(shù)和方差都是用于描述數(shù)據(jù)特征的統(tǒng)計量,但各自具有不同的定義、用途和特點。在實際應用中,需要根據(jù)數(shù)據(jù)的特性和分析目的來選擇合適的統(tǒng)計量。3數(shù)據(jù)預處理的主要方法有哪些?每個方法的主要內(nèi)容是什么?答案:數(shù)據(jù)預處理是數(shù)據(jù)分析和機器學習中的關(guān)鍵步驟,涉及對原始數(shù)據(jù)進行清洗、轉(zhuǎn)換和整理,以便數(shù)據(jù)能夠更好地適應模型訓練和分析需求。以下是數(shù)據(jù)預處理的主要方法及其主要內(nèi)容:一、數(shù)據(jù)清洗數(shù)據(jù)清洗是處理缺失值和異常值的過程,以提高數(shù)據(jù)質(zhì)量和模型性能。缺失值處理:刪除:刪除含有缺失值的樣本或特征。填補:使用插值、均值、中位數(shù)、眾數(shù)等方法填補缺失值。異常值處理:使用統(tǒng)計方法(如Z-Score)或基于模型的方法(如IQR)識別和處理異常值。異常值是否剔除,視具體情況而定,因為有些異常值可能蘊含著有用的信息。二、數(shù)據(jù)集成數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲的過程,建立數(shù)據(jù)倉庫的過程實際上就是數(shù)據(jù)集成。實體識別:從不同數(shù)據(jù)源識別出現(xiàn)實世界的實體,處理同名異義、異名同義、單位不統(tǒng)一等問題。冗余屬性識別:識別同一屬性多次出現(xiàn)或同一屬性命名不一致導致的重復,可以使用相關(guān)分析檢測,并用相關(guān)系數(shù)度量一個屬性在多大程度上蘊含另一個屬性。三、數(shù)據(jù)變換數(shù)據(jù)變換是對數(shù)據(jù)進行規(guī)范化處理,將數(shù)據(jù)轉(zhuǎn)化為適當?shù)男问剑赃m用于挖掘任務及算法的需要。規(guī)范化:標準化:將數(shù)據(jù)轉(zhuǎn)換為均值為0、標準差為1的分布,通常用于高斯分布的數(shù)據(jù)。標準化后的數(shù)據(jù)具有相同的尺度,減少特征之間量綱不一致的影響,有助于提高某些機器學習算法的性能。歸一化:將數(shù)據(jù)縮放到特定范圍(通常是[0,1]),特別適用于距離度量敏感的算法,如歸一化后的數(shù)據(jù)每個特征的取值范圍相同,有助于提高某些機器學習算法的性能。連續(xù)屬性離散化:將連續(xù)屬性的值用聚類算法(如K-Means算法)進行聚類,然后再將聚類得到的簇進行處理,合并到一個簇的連續(xù)屬性值并做同一標記。聚類分析的離散化方法也需要用戶指定簇的個數(shù),從而決定產(chǎn)生的區(qū)間數(shù)。其他變換方法:簡單函數(shù)變換:對原始數(shù)據(jù)進行數(shù)學函數(shù)變換,如平方、開方、取對數(shù)(進行壓縮)、差分運算等。小波變換:一種新型數(shù)據(jù)分析工具,具有多分辨率的特點,在時域和頻域都具有表征信號局部特征的能力,通過伸縮和平移等運算過程對信號進行多尺度聚焦分析,提供一種非平穩(wěn)信號的時頻分析手段。四、數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是在大數(shù)據(jù)集上進行復雜的數(shù)據(jù)分析和挖掘時,為了節(jié)省時間和空間,通過屬性規(guī)約、數(shù)值規(guī)約等方法產(chǎn)生更小但保持原數(shù)據(jù)完整性的新數(shù)據(jù)集。屬性規(guī)約:通過屬性合并來創(chuàng)建新的屬性維數(shù),目標是尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能的接近原來數(shù)據(jù)集的概率分布。常用方法包括主成分分析(PCA)、線性判別分析(LDA)等。數(shù)值規(guī)約:有參數(shù)方法:使用一個模型來評估數(shù)據(jù),只要存放參數(shù),不需要存放實際數(shù)據(jù),例如線性回歸、多元回歸、對數(shù)線性模型等。無參數(shù)方法:需要存放實際數(shù)據(jù),例如直方圖、聚類、抽樣等。五、其他方法類別編碼:將類別特征轉(zhuǎn)換為數(shù)值形式,以便機器學習算法能夠處理。常用的方法包括獨熱編碼(One-HotEncoding),將類別特征轉(zhuǎn)換為二進制向量,其中只有一個位置為1,其余為0。特征選擇:選擇對模型訓練最重要的特征,去除冗余或不相關(guān)特征,提高模型性能。常用的方法包括過濾法(FilterMethod)、包裹法(WrapperMethod)和嵌入法(EmbeddedMethod)。特征縮放:調(diào)整特征的尺度,使其在相似的范圍內(nèi),常用于標準化和歸一化之外的方法。減少特征值范圍的差異,幫助某些算法更快收斂。特征構(gòu)造:從現(xiàn)有數(shù)據(jù)中創(chuàng)建新的特征,以揭示數(shù)據(jù)中的隱藏關(guān)系,提高模型表現(xiàn)。例如,對于兩個特征可以構(gòu)造交互特征。數(shù)據(jù)增強:通過對數(shù)據(jù)進行變換增加數(shù)據(jù)的多樣性,提高模型泛化能力,常用于圖像和文本處理任務。通過數(shù)據(jù)增強生成更多樣本,提高模型泛化能力。數(shù)據(jù)平衡:處理類別不平衡問題,可以使用過采樣(如SMOTE)、欠采樣等方法。通過過采樣、欠采樣等方法平衡類別分布,提高模型在少數(shù)類上的表現(xiàn)。綜上所述,數(shù)據(jù)預處理的主要方法包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約以及其他方法(如類別編碼、特征選擇、特征縮放、特征構(gòu)造、數(shù)據(jù)增強和數(shù)據(jù)平衡等)。每種方法都有其適用的場景和優(yōu)缺點,選擇合適的方法對數(shù)據(jù)進行預處理,能夠顯著提升模型的效果和數(shù)據(jù)分析的質(zhì)量。4簡述均值、中位數(shù)、眾數(shù)和中列數(shù)的定義。答案:均值、中位數(shù)、眾數(shù)和中列數(shù)是統(tǒng)計學中用于描述數(shù)據(jù)集中趨勢的幾種重要指標。以下是它們的定義:均值(Mean):均值是所有數(shù)據(jù)的和除以數(shù)據(jù)的個數(shù),它反映了數(shù)據(jù)的平均水平。在統(tǒng)計學中,均值是最常用的集中趨勢量數(shù),用于描述一組數(shù)據(jù)的中心位置。對于數(shù)值型數(shù)據(jù),均值能夠給出一個直觀的平均水平,但需要注意的是,均值對極端值較為敏感,極端值的存在可能會使均值偏離大多數(shù)數(shù)據(jù)的真實水平。中位數(shù)(Median):中位數(shù)是將一組數(shù)據(jù)從小到大排序后,位于中間位置的數(shù)值。如果數(shù)據(jù)量是奇數(shù),則中位數(shù)就是中間那個數(shù);如果數(shù)據(jù)量是偶數(shù),則中位數(shù)是中間兩個數(shù)的平均值。中位數(shù)是一種位置平均數(shù),它不受極端值的影響,因此在處理偏態(tài)分布的數(shù)據(jù)時,中位數(shù)能夠給出一個更為穩(wěn)健的中心位置估計。眾數(shù)(Mode):眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值。眾數(shù)可以是一個或多個(如果存在多個數(shù)值出現(xiàn)次數(shù)相同且都是最多的),也可以是沒有(如果所有數(shù)據(jù)出現(xiàn)的次數(shù)都相同)。眾數(shù)主要用于描述數(shù)據(jù)的集中趨勢,但它并不總是存在,且對于定量數(shù)據(jù)來說,眾數(shù)的意義通常不如均值和中位數(shù)重要。然而,在描述某些定性數(shù)據(jù)(如類別數(shù)據(jù))時,眾數(shù)卻是一個非常重要的指標。中列數(shù)在統(tǒng)計學中的定義是指樣本中極大值與極小值的平均。這個定義有時也被用作對稱分布的均值的粗略估計。簡單來說,如果有一個數(shù)據(jù)集,中列數(shù)就是該數(shù)據(jù)集中最大值和最小值之和的一半。例如,在數(shù)據(jù)集{1,3,7,9,0,3,5}中,最大值為9,最小值為0,因此該數(shù)據(jù)集的中列數(shù)為(0+9)/2=4.5。需要注意的是,中列數(shù)作為數(shù)據(jù)集中趨勢的一種度量,其適用范圍相對有限。在大多數(shù)情況下,均值和中位數(shù)是更為常用的數(shù)據(jù)集中趨勢度量指標。均值能夠給出一個直觀的平均水平,但易受極端值影響;而中位數(shù)則是一種位置平均數(shù),不受極端值影響,在處理偏態(tài)分布的數(shù)據(jù)時能夠給出一個更為穩(wěn)健的中心位置估計。綜上所述,均值、中位數(shù)和眾數(shù)是描述數(shù)據(jù)集中趨勢的三種主要指標,它們各自具有不同的特點和適用場景。在實際應用中,需要根據(jù)數(shù)據(jù)的特性和分析目的來選擇合適的指標。而“中列數(shù)”可能是一個非標準術(shù)語或特定上下文中的術(shù)語,需要具體情境來解讀。5什么是數(shù)據(jù)分析和數(shù)據(jù)挖掘?簡單論述他們之間的區(qū)別和聯(lián)系。答案:數(shù)據(jù)分析和數(shù)據(jù)挖掘都是從數(shù)據(jù)中提取有價值信息的過程,但它們在方法、目標和應用場景上存在顯著差異。以下是對數(shù)據(jù)分析和數(shù)據(jù)挖掘的簡單論述,以及它們之間的區(qū)別和聯(lián)系:一、數(shù)據(jù)分析數(shù)據(jù)分析是廣義上通過收集、整理、清洗、分析等操作,提取出有價值的信息的過程。狹義的數(shù)據(jù)分析則是指以探索數(shù)據(jù)內(nèi)在的規(guī)律、解決業(yè)務需求為目的,以數(shù)據(jù)為對象進行的分析過程。它主要依賴于統(tǒng)計學和數(shù)學方法,如描述性統(tǒng)計、推斷性統(tǒng)計、回歸分析和時間序列分析等。數(shù)據(jù)分析的主要目標是通過數(shù)據(jù)的描述和解釋來支持決策制定,通常處理的是結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。數(shù)據(jù)分析的結(jié)果一般為指標統(tǒng)計量,如總和、平均值等,這些指標需要結(jié)合業(yè)務背景進行解讀,以發(fā)揮數(shù)據(jù)的最大價值。二、數(shù)據(jù)挖掘數(shù)據(jù)挖掘是一種跨學科的計算機科學分支,它使用人工智能、機器學習、統(tǒng)計學和數(shù)據(jù)庫的交叉方法在相對較大型的數(shù)據(jù)集中發(fā)現(xiàn)模式。數(shù)據(jù)挖掘可以理解為從大量的數(shù)據(jù)中,通過統(tǒng)計學、人工智能、機器學習等方法,挖掘出未知的、且有價值的信息和知識的過程。它涉及的技術(shù)和方法包括分類、聚類、關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘等。數(shù)據(jù)挖掘更側(cè)重于從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式和知識,旨在預測未來事件或識別異常情況,適用于大規(guī)模數(shù)據(jù)集的探索。三、區(qū)別與聯(lián)系區(qū)別:方法:數(shù)據(jù)分析主要依賴于統(tǒng)計學和數(shù)學方法,而數(shù)據(jù)挖掘則更多地使用人工智能、機器學習和數(shù)據(jù)庫技術(shù)。目標:數(shù)據(jù)分析的主要目標是描述和解釋數(shù)據(jù),以支持決策制定;而數(shù)據(jù)挖掘的目標是發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式和知識,以預測未來或識別異常。應用場景:數(shù)據(jù)分析通常用于處理結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),并生成指標統(tǒng)計量;數(shù)據(jù)挖掘則更適用于大規(guī)模數(shù)據(jù)集的探索,發(fā)現(xiàn)未知的模式和知識。聯(lián)系:數(shù)據(jù)分析可以為數(shù)據(jù)挖掘提供基礎,例如通過數(shù)據(jù)分析提取特征、建模和預測等。數(shù)據(jù)挖掘可以進一步揭示數(shù)據(jù)中的模式和規(guī)律,為數(shù)據(jù)分析提供更深入的理解。在實際應用中,數(shù)據(jù)分析和數(shù)據(jù)挖掘常常相互配合,共同推動數(shù)據(jù)的有效利用和價值挖掘。綜上所述,數(shù)據(jù)分析和數(shù)據(jù)挖掘在方法、目標和應用場景上存在顯著差異,但它們在實際應用中常常相互配合,共同為企業(yè)和組織提供決策支持。

2024年秋江蘇開放大學數(shù)據(jù)挖掘技術(shù)060734第2次形考作業(yè)單選題1在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是()。A有放回的簡單隨機抽樣B無放回的簡單隨機抽樣C分層抽樣D漸進抽樣正確答案:D2下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù):()A等高線圖B餅圖C曲面圖D矢量場圖正確答案:B3一所大學內(nèi)的各年紀人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數(shù)是()。A一年級B二年級C三年級D四年級正確答案:A4下列哪一項不是數(shù)據(jù)規(guī)范化的常用方法()。A按小數(shù)定標規(guī)范化B最小-最大值規(guī)范化C、z-score規(guī)范化D按整數(shù)定標規(guī)范法正確答案:D5下列哪一個選項是數(shù)據(jù)立方體中的基本方體的概念()。A不同層創(chuàng)建的數(shù)據(jù)立方體B最高層抽象的立方體C最低抽象層創(chuàng)建的立方體D每一個數(shù)據(jù)立方體正確答案:C6考慮值集{12243324556826},其四分位數(shù)極差是()。A31B24C55D3正確答案:A7假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進行平滑,箱的深度為3。第二個箱子值為()。A18.3B22.6C26.8D27.9正確答案:A8假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為()。A0.821B1.224C1.458D0.716正確答案:D9熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是()。A1比特B2.6比特C3.2比特D3.8比特正確答案:B10下面()屬于映射數(shù)據(jù)到新的空間的方法。A傅里葉變換B特征加權(quán)C漸進抽樣D維歸約正確答案:A11、OLAP技術(shù)的核心是()。A在線性B對用戶的快速響應C互操作性D多維分析正確答案:D12在有關(guān)數(shù)據(jù)倉庫測試,下列說法不正確的是()。A在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進行各種測試.測試工作中要包括單元測試和系統(tǒng)測試.B當數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進行單元測試C系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試D在測試之前沒必要制定詳細的測試計劃正確答案:D13有關(guān)數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是()。A數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)B數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確C數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)D在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式正確答案:A14下面關(guān)于數(shù)據(jù)粒度的描述不正確的是()。A粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別B數(shù)據(jù)越詳細,粒度就越小,級別也就越高C數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高D粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量正確答案:C15關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指()。A基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應用程序等結(jié)構(gòu)相關(guān)的信息B基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息正確答案:D16數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是()。A數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B捕捉到的新數(shù)據(jù)會覆蓋原來的快照C數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容D數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合正確答案:C17數(shù)據(jù)倉庫設計的三級數(shù)據(jù)模型不包括()。A概念模型B邏輯模型C物理模型D數(shù)據(jù)模型正確答案:D18數(shù)據(jù)倉庫的三層體系結(jié)構(gòu)不包括()。A數(shù)據(jù)倉庫服務器B、OLAP服務器C前端工具D、SMTP服務器正確答案:D19下列哪一項不是數(shù)據(jù)倉庫的關(guān)鍵性質(zhì)()。A面向主題B與時間相關(guān)C與空間相關(guān)D集成性正確答案:C20將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務()。A頻繁模式挖掘B分類和預測C數(shù)據(jù)預處理D數(shù)據(jù)流挖掘正確答案:C21未來房價的預測,這種屬于數(shù)據(jù)挖掘的哪類問題()。A分類B聚類C關(guān)聯(lián)規(guī)則D回歸分析正確答案:D22在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務稱為()。A頻繁子集挖掘B頻繁子圖挖掘C頻繁數(shù)據(jù)項挖掘D頻繁模式挖掘正確答案:B23考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用合并策略,由候選產(chǎn)生過程得到4-項集不包含()。A1,2,3,4B1,2,3,5C1,2,4,5D1,3,4,5正確答案:C24頻繁項集、頻繁閉項集、最大頻繁項集之間的關(guān)系是()A頻繁項集頻繁閉項集=最大頻繁項集B頻繁項集=頻繁閉項集最大頻繁項集C頻繁項集頻繁閉項集最大頻繁項集D頻繁項集=頻繁閉項集=最大頻繁項集正確答案:C25概念分層圖是()圖。A無向無環(huán)B有向無環(huán)C有向有環(huán)D無向有環(huán)正確答案:B26設X={1,2,3}是頻繁項集,則可由X產(chǎn)生()個關(guān)聯(lián)規(guī)則。A4B5C6D7正確答案:C27關(guān)于OLAP和OLTP的說法,下列不正確的是()。A、OLAP事務量大,但事務內(nèi)容比較簡單且重復率高B、OLAP的最終數(shù)據(jù)來源與OLTP不一樣C、OLTP面對的是決策人員和高層管理人員D、OLTP以應用為核心,是應用驅(qū)動的正確答案:A28、OLAM技術(shù)一般簡稱為”數(shù)據(jù)聯(lián)機分析挖掘”,下面說法正確的是()。A、OLAP和OLAM都基于客戶機/服務器模式,只有后者有與用戶的交互性B、由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別C、基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合D、OLAM服務器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對超級立方體作一定的操作正確答案:D29關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是()。A、OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應用程序不同B、與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務C、OLAP的特點在于事務量大,但事務內(nèi)容比較簡單且重復率高D、OLAP是以數(shù)據(jù)倉庫為基礎的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的正確答案:C30關(guān)于OLAP的特性,下面正確的是()。(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性A(1)(2)(3)B(2)(3)(4)C(1)(2)(3)(4)D(1)(2)(3)(4)(5)正確答案:D填空題1相關(guān)性分析有正確答案:提升度;杠桿度;皮爾森相關(guān)系數(shù);IS度量;確信度2項集包含或_項的集合正確答案:0個;多個3回歸分析的步驟。正確答案:確定變量;建立預測模型;進行相關(guān)分析;計算預測誤差;確定預測值4變量之間的關(guān)系可分為正確答案:確定性關(guān)系;非確定性關(guān)系題型:填空題客觀題答案不允許亂序分值3分難度:簡單得分:35多維數(shù)據(jù)模型主要分為。正確答案:星型模型;雪花模型;事實星座模型簡答題1變量間的確定性關(guān)系和非確定性關(guān)系分別指的是什么?答案:變量間的關(guān)系主要可以分為兩大類:確定性關(guān)系和非確定性關(guān)系。以下是這兩種關(guān)系的詳細解釋:一、確定性關(guān)系確定性關(guān)系,也稱為函數(shù)關(guān)系,指的是變量之間的依賴關(guān)系可以通過某種明確的數(shù)學公式或邏輯規(guī)則來描述。在這種關(guān)系中,給定一組輸入值,總能得到確定的輸出值。這種關(guān)系的特點包括:唯一性:對于每一個輸入值,輸出值是唯一確定的??深A測性:基于給定的數(shù)學公式或邏輯規(guī)則,可以準確地預測輸出值。精確性:輸出值不受隨機或偶然因素的影響,具有高度的精確性。在實際應用中,確定性關(guān)系常見于物理定律、數(shù)學函數(shù)等場景。例如,牛頓運動定律描述了物體運動狀態(tài)與所受合力的關(guān)系,這種關(guān)系就是確定性的。二、非確定性關(guān)系非確定性關(guān)系指的是變量之間的依賴關(guān)系不能通過明確的公式或規(guī)則來描述,可能存在隨機性或不確定性。在這種關(guān)系中,給定相同的輸入值,可能會得到不同的輸出值。這種關(guān)系的特點包括:非唯一性:對于每一個輸入值,輸出值不是唯一確定的,可能有多個輸出值與之對應。不可預測性:由于隨機或偶然因素的影響,輸出值難以準確預測。波動性:輸出值在一定范圍內(nèi)波動,但總是圍繞某個平均值或趨勢線變動。非確定性關(guān)系在統(tǒng)計學、經(jīng)濟學、社會學等領域中廣泛存在。例如,在統(tǒng)計學中,相關(guān)性和回歸分析描述的就是變量之間的非確定性關(guān)系。這種關(guān)系通常用概率模型來表征,如線性回歸模型、邏輯回歸模型等。這些模型可以從數(shù)據(jù)中學習到輸入變量與輸出變量之間的統(tǒng)計關(guān)系,但無法給出確定性的輸出值。三、區(qū)別與聯(lián)系確定性關(guān)系和非確定性關(guān)系在變量間的依賴關(guān)系上存在顯著差異。確定性關(guān)系具有唯一性、可預測性和精確性等特點,而非確定性關(guān)系則具有非唯一性、不可預測性和波動性等特點。然而,這兩種關(guān)系在實際應用中并不是孤立的,它們往往相互交織、相互影響。例如,在物理學中,雖然牛頓運動定律描述了物體運動狀態(tài)的確定性關(guān)系,但在實際測量中,由于測量誤差、環(huán)境因素等的影響,這種關(guān)系可能表現(xiàn)出一定的非確定性特征。綜上所述,變量間的確定性關(guān)系和非確定性關(guān)系是統(tǒng)計學和數(shù)據(jù)分析中的基本概念。理解這兩種關(guān)系的差異和聯(lián)系有助于更好地把握數(shù)據(jù)之間的內(nèi)在聯(lián)系和規(guī)律,從而做出更準確的預測和決策。2簡述數(shù)據(jù)倉庫概念模型與邏輯模型的設計步驟。答案:數(shù)據(jù)倉庫概念模型與邏輯模型的設計是數(shù)據(jù)庫建模過程中的關(guān)鍵步驟,它們分別對應著從抽象到具體的不同階段。以下是這兩個階段的設計步驟:一、數(shù)據(jù)倉庫概念模型的設計步驟明確業(yè)務需求:這包括了解企業(yè)各部門的數(shù)據(jù)使用場景、分析需求以及未來可能的數(shù)據(jù)增長趨勢。通過訪談業(yè)務用戶、分析現(xiàn)有報告和查詢模式,可以收集到關(guān)于數(shù)據(jù)內(nèi)容、格式、訪問頻率及性能要求等方面的具體信息。深入理解企業(yè)的業(yè)務流程是設計高效數(shù)據(jù)模型的基礎。確定數(shù)據(jù)主題域:主題域是數(shù)據(jù)倉庫中邏輯上相關(guān)聯(lián)的一組數(shù)據(jù)集合,如客戶、產(chǎn)品、銷售等。每個主題域應圍繞一個核心業(yè)務流程展開,確保數(shù)據(jù)的完整性和一致性。這一步驟對應著概念模型設計階段的核心任務。繪制實體-關(guān)系圖(ER圖):在確定了主題域后,接下來是繪制ER圖,以圖形化的方式展示各主題域內(nèi)的實體(如客戶、訂單)、屬性(如客戶姓名、訂單金額)以及它們之間的關(guān)系(如一對多、多對多)。ER圖不僅有助于識別數(shù)據(jù)間的關(guān)聯(lián),還能為后續(xù)的邏輯模型設計提供基礎。二、數(shù)據(jù)倉庫邏輯模型的設計步驟設計星型或雪花模型:邏輯模型設計階段的核心是將概念模型轉(zhuǎn)化為具體的數(shù)據(jù)庫表結(jié)構(gòu)。在這一過程中,需要設計星型或雪花模型等具體的數(shù)據(jù)模型。星型模型將事實表和維度表直接連接,結(jié)構(gòu)簡單,查詢效率高;而雪花模型則對維度表進行進一步規(guī)范化,可能包含多個層次的維度,結(jié)構(gòu)較為復雜,但在某些場景下更具靈活性。選擇哪種模型需要根據(jù)實際的業(yè)務需求、數(shù)據(jù)量和查詢復雜度來決定。定義數(shù)據(jù)表和字段:為每個數(shù)據(jù)表選擇合適的名稱,并為每個字段定義合適的數(shù)據(jù)類型和長度。這既能節(jié)省存儲空間,又能保證數(shù)據(jù)的準確性和完整性。例如,對于日期字段,應使用DATE或DATETIME類型而非文本類型;對于金額字段,應確保其精度足夠以避免舍入誤差。設置主鍵和外鍵:為每個表設定唯一的主鍵,以唯一標識表中的每一行數(shù)據(jù)。同時,根據(jù)ER圖中定義的實體關(guān)系,設置外鍵以維護表間的一致性。良好的主鍵和外鍵設計是確保數(shù)據(jù)完整性和實現(xiàn)數(shù)據(jù)關(guān)聯(lián)查詢的基礎。細化需求:邏輯模型還需要將概念模型具體化,包括實現(xiàn)概念模型所描述的內(nèi)容所需的具體功能和處理的具體信息。這涉及對實體屬性的詳細定義、關(guān)系的進一步明確以及數(shù)據(jù)表結(jié)構(gòu)的詳細設計??偟膩碚f,數(shù)據(jù)倉庫概念模型與邏輯模型的設計是一個從抽象到具體、不斷細化和完善的過程。通過這兩個階段的設計,可以構(gòu)建出一個既滿足當前業(yè)務需求又具備良好擴展性和高性能的數(shù)據(jù)倉庫模型。3【案例分析題】某公司存儲員工信息的數(shù)據(jù)庫中表示收入的字段income排序后的值(元)為:900,1000,1300,1600,1600,1900,2000,2400,2600,2900,3000,3600,4000,4600,4900,5000。1.按照等深分箱法進行分箱。2.按照等寬分箱法進行分箱。答案:針對給定的員工收入數(shù)據(jù),我們可以按照等深分箱法和等寬分箱法分別進行分箱處理。一、等深分箱法等深分箱法,也稱統(tǒng)一權(quán)重分箱法,是將數(shù)據(jù)集按記錄行數(shù)分箱,每箱具有相同的記錄數(shù),稱為箱子的深度。給定的收入數(shù)據(jù)排序后為:900,1000,1300,1600,1600,1900,2000,2400,2600,2900,3000,3600,4000,4600,4900,5000。假設我們要將這些數(shù)據(jù)分成4個箱子,那么每個箱子應包含4個數(shù)據(jù)點(因為16/4=4)。箱1:900,1000,1300,1600箱2:1600(重復值,但在此方法中仍計入一箱),1900,2000,2400箱3:2600,2900,3000,3600箱4:4000,4600,4900,5000注意:在實際應用中,如果數(shù)據(jù)集中存在重復值,并且希望避免將重復值分入同一箱,可以考慮對數(shù)據(jù)進行預處理,如去除重復值或調(diào)整分箱數(shù)量。但在此案例分析中,我們保留了重復值以展示等深分箱法的基本操作。二、等寬分箱法等寬分箱法是將數(shù)據(jù)集在整個屬性值的區(qū)間上平均分布,每個箱子的區(qū)間范圍是一個常量,稱為箱子寬度。首先,我們需要確定箱子的寬度。給定的收入數(shù)據(jù)范圍是900到5000,共有16個數(shù)據(jù)點。假設我們要將這些數(shù)據(jù)分成4個箱子,那么箱子的寬度為(5000-900)/4=1025(元)(結(jié)果四舍五入到整數(shù))。箱1:900~1924元(包含900,1000,1300,1600,其中1600雖稍大于上界但按等寬法仍計入此箱)箱2:1925~2949元(包含1900,2000,2400,其中2400雖稍大于上界但按等寬法仍計入此箱,1600的重復值不計入此箱,因為它已在箱1中)箱3:2950~3974元(包含2600,2900,3000,3600)箱4:3975~5000元(包含4000,4600,4900,5000)注意:在等寬分箱法中,對于邊界值的處理可能因具體實現(xiàn)而異。例如,有的實現(xiàn)可能將邊界值嚴格歸入下一個箱子,而有的實現(xiàn)則可能允許邊界值在當前箱子中有一定的“溢出”。在此案例分析中,我們采用了較為寬松的邊界值處理策略,即允許邊界值在當前箱子中有一定的“溢出”,以更好地展示等寬分箱法的基本操作。然而,在實際應用中,應根據(jù)具體需求和場景選擇合適的邊界值處理策略。綜上所述,等深分箱法和等寬分箱法各有特點,適用于不同的場景和需求。在選擇分箱方法時,應充分考慮數(shù)據(jù)的分布特性、業(yè)務需求以及后續(xù)的數(shù)據(jù)處理和分析目標。

2024年秋江蘇開放大學數(shù)據(jù)挖掘技術(shù)060734第3次形考作業(yè)單選題1以下哪個聚類算法不屬于基于網(wǎng)格的聚類算法()。A、BIRCHB、MAFIAC、WaveClusterD、STING學生答案:A2一般,K-NN最近鄰方法在()的情況下效果較好。A樣本較多但典型性不好B樣本較少但典型性好C樣本呈鏈狀分布D樣本呈團狀分布學生答案:B3以下哪項關(guān)于決策樹的說法是錯誤的()。A決策樹算法對于噪聲的干擾非常敏感B尋找最佳決策樹是NP完全問題C冗余屬性不會對決策樹的準確率造成不利的影響D子樹可能在決策樹中重復多次學生答案:A4以下哪種技術(shù)對于減少數(shù)據(jù)集的維度會更好()。A刪除數(shù)據(jù)差異較大的列B刪除缺少值太多的列C都不是D刪除不同數(shù)據(jù)趨勢的列學生答案:B5一監(jiān)獄人臉識別準入系統(tǒng)用來識別對待進入人員的身份,此系統(tǒng)一共包括識別4種不同的人員:獄警,小偷,送餐員,其他。下面哪種學習方法最適合此種應用需求()。A層次聚類問題B多分類問題CK-中心點聚類問題D二分類問題學生答案:B6下列哪個描述是正確的()。A回歸是無指導的學習,聚類是有指導的學習B回歸是有指導的學習,聚類是無指導的學習C回歸和聚類都是有指導的學習D回歸和聚類都是無指導的學習學生答案:B7以下哪個分類方法可以較好地避免樣本的不平衡問題()。A、KNNB、SVMC、神經(jīng)網(wǎng)絡D、Bayes學生答案:A8決策樹中不包含以下哪種節(jié)點()。A葉結(jié)點B內(nèi)部節(jié)點C根節(jié)點D外部節(jié)點學生答案:D9以下哪個算法是分類算法()。A、DBSCANB、K-MeanC、EMD、C4.5學生答案:D10、BIRCH是一種()。A特征選擇算法B關(guān)聯(lián)分析算法C分類器D聚類算法學生答案:D11影響基本K-均值算法的主要因素有()。A樣本的數(shù)量B聚類準則C模式相似性測度D樣本輸入順序?qū)W生答案:C12簡單地將數(shù)據(jù)對象集劃分成不重迭的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種聚類類型稱作()。A層次聚類B劃分聚類C非互斥聚類D模糊聚類學生答案:B13下列關(guān)于凝聚層次聚類的說法,說法正確的是()。A算法的終止條件是僅剩下一個簇B具有全局優(yōu)化目標函數(shù)C一旦兩個簇合并,該操作還能撤銷D空間復雜度學生答案:A14我們想在大數(shù)據(jù)集上訓練決策樹,為了使用較少時間,我們可以()。A增加學習率B減少樹的深度C減少樹的數(shù)量D增加樹的深度學生答案:B15以下不屬于影響聚類算法結(jié)果的主要因素有()。A模式相似性測度B特征選取C已知類別的樣本質(zhì)量D分類準則學生答案:C16關(guān)于欠擬合,下面哪個說法是正確的()。A訓練誤差較大,測試誤差較大B訓練誤差不變,測試誤差較大C訓練誤差較小,測試誤差較大D訓練誤差較大,測試誤差較小學生答案:A17以下()算法是關(guān)聯(lián)規(guī)則挖掘。A、ID3B、K-MeansC、AprioriD、DBSCAN學生答案:C18“點擊率問題”是這樣一個預測問題,99%的人是不會點擊的,而1%的人是會點擊進去的,所以這是一個非常不平衡的數(shù)據(jù)集。假設,現(xiàn)在我們已經(jīng)建了一個模型來分類,而且有了99%的預測準確率,我們可以下的結(jié)論是()。A模型預測準確率不高,我們需要做點什么改進模型B模型預測準確率已經(jīng)很高了,我們不需要做什么了C無法下結(jié)論D以上都不對學生答案:C19關(guān)聯(lián)規(guī)則的評價指標是()。A、平均絕對誤差、相對誤差B、均方誤差、均方根誤差C、Kappa統(tǒng)計、顯著性檢驗D、支持度、置信度學生答案:D20、當分析顧客消費行業(yè),以便有針對性的向其推薦感興趣的服務,屬于什么問題()。A分類B聚類C主成分分析D關(guān)聯(lián)規(guī)則學生答案:D填空題1、回歸分析的步驟。學生答案:確定變量;建立預測模型;進行相關(guān)分析;計算預測誤差;確定預測值2層次聚類方法可分為:學生答案:凝聚層次聚類;分裂層次聚類3分類的基本過程:學生答案:學習階段;分類階段4支持向量機的3種模型可分為:學生答案:線性可分支持向量機;線性支持向量機;非線性支持向量機5惰性學習法主要包括:學生答案:K最近鄰分類法(KNN);局部加權(quán)回歸法;基于案例的推理簡答題1【案例分析題】聚類評價指標的計算:某池塘有1400條鯉魚、300只蝦、300只鱉。1.現(xiàn)在以捕到鯉魚為目的,若撒網(wǎng)后捕捉到700條鯉魚、200只蝦、100只鱉,那么評價指標:正確率、召回率和F值分別是多少?參考答案:70%;50%;58.3%為了計算正確率(Precision)、召回率(Recall)和F值,首先需要明確幾個關(guān)鍵的數(shù)量:真正例(TruePositives,TP):實際是鯉魚且被捕捉到的鯉魚數(shù)量。假正例(FalsePositives,FP):實際不是鯉魚但被捕捉到的數(shù)量(蝦和鱉的總數(shù))。假負例(FalseNegatives,FN):實際是鯉魚但未被捕捉到的鯉魚數(shù)量。根據(jù)題目,有以下數(shù)據(jù):總鯉魚數(shù):1400條捕捉到的鯉魚數(shù):700條捕捉到的蝦數(shù):200只捕捉到的鱉數(shù):100只可以計算出:TP=700FP=200+100=300FN=1400-700=700正確率(Precision):正確率是指捕捉到的鯉魚在所有捕捉到的生物中所占的比例。召回率(Recall):召回率是指捕捉到的鯉魚在所有實際鯉魚中所占的比例。F值(F-measure):F值是正確率和召回率的調(diào)和平均數(shù),通常用于綜合評估模型的性能。因此,評價指標為:正確率(Precision):0.7召回率(Recall):0.5F值(F-measure):約0.58332.如果把池子里的所有的鯉魚、蝦和鱉都一網(wǎng)打盡,則此時評價指標:正確率、召回率和F值分別是多少?答案:在這個特殊的案例中,如果把池子里的所有的鯉魚、蝦和鱉都一網(wǎng)打盡,那么實際上我們捕捉到了所有的目標(鯉魚)以及所有的非目標(蝦和鱉)。這種情況下,我們需要重新考慮正確率、召回率和F值的計算。首先,我們明確幾個關(guān)鍵的數(shù)量:總鯉魚數(shù):1400條總蝦數(shù):300只總鱉數(shù):300只捕捉到的鯉魚數(shù):1400條(因為全部捕捉,所以鯉魚全部被捕捉到)捕捉到的蝦數(shù):300只捕捉到的鱉數(shù):300只接下來,我們計算真正例(TP)、假正例(FP)和假負例(FN):TP=1400(所有鯉魚都被捕捉到)FP=300(蝦的數(shù)量,因為蝦不是鯉魚但被捕捉到)+300(鱉的數(shù)量,因為鱉不是鯉魚但被捕捉到)=600FN=0(因為沒有鯉魚被遺漏)然而,在這種特殊情況下,由于我們捕捉到了所有的鯉魚以及所有的非鯉魚生物,正確率的計算變得有些微妙。正確率通常定義為“被正確分類的正例數(shù)量除以所有被分類為正例的數(shù)量”。但在這里,所有的生物都被“分類”為“被捕捉到”,這包括鯉魚和非鯉魚。因此,如果我們把“被捕捉到且是鯉魚”視為“正確分類的正例”,那么:正確率(Precision):但這里需要注意的是,這種計算方式可能不是最直觀的,因為通常我們不會把非目標生物計入假正例來計算正確率(因為正確率是針對目標類別而言的)。然而,為了符合題目要求并給出一個答案,我們暫時采用這種計算方式。在實際應用中,如果目標是評估鯉魚捕捉的準確性,我們可能會忽略非鯉魚生物的存在,只計算鯉魚中的真正例和假負例。召回率(Recall):由于我們捕捉到了所有的鯉魚,所以召回率為1。F值(F-measure):F值是正確率和召回率的調(diào)和平均數(shù)。但再次強調(diào),這種計算方式可能不是最符合直覺的,特別是在這種特殊情況下。通常,在聚類或分類任務中,我們會更關(guān)注目標類別(在這里是鯉魚)的正確分類情況,并據(jù)此來計算評價指標。綜上所述,如果把池子里的所有的鯉魚、蝦和鱉都一網(wǎng)打盡,則此時的評價指標(采用上述計算方式)為:正確率(Precision):約0.7召回率(Recall):1F值(F-measure):約0.82352闡述統(tǒng)計方法的離群點檢測的優(yōu)缺點。答案:統(tǒng)計方法的離群點檢測是一種基于數(shù)據(jù)分布特性的技術(shù),其優(yōu)缺點可以歸納如下:優(yōu)點堅實的理論基礎:統(tǒng)計方法通常擁有扎實的數(shù)學理論作為支撐,如概率論和統(tǒng)計學原理。這些理論為離群點檢測提供了明確和可靠的依據(jù)。適用于低維數(shù)據(jù):對于低維數(shù)據(jù),統(tǒng)計方法能夠高效地檢測出離群點。因為低維數(shù)據(jù)的分布特性相對簡單,統(tǒng)計模型能夠更容易地捕捉這些特性。模型簡潔:一旦統(tǒng)計模型建立,它通常只需要少量的信息來描述數(shù)據(jù)分布,這使得模型相對簡潔且易于理解。缺點數(shù)據(jù)分布假設嚴格:統(tǒng)計方法通常要求數(shù)據(jù)對象服從某種特定的數(shù)據(jù)分布,如正態(tài)分布。然而,在實際應用中,數(shù)據(jù)分布往往是未知的或復雜的,這限制了統(tǒng)計方法的應用范圍。高維數(shù)據(jù)處理困難:對于高維數(shù)據(jù),統(tǒng)計方法的檢測效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論