




已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
一、 計算題(題數(shù):4,共 100.0 分)1.影響中國人口自然增長率的因素有很多,據(jù)分析主要因素可能有:(1)從宏觀經(jīng)濟上看,經(jīng)濟整體增長是人口自然增長的基本源泉;(2)居民消費水平,它的高低可能會間接影響人口增長率。(3)文化程度,由于教育年限的高低,相應(yīng)會轉(zhuǎn)變?nèi)说膫鹘y(tǒng)觀念,可能會間接影響人口自然增長率(4)人口分布,非農(nóng)業(yè)與農(nóng)業(yè)人口的比率也會對人口增長率有相應(yīng)的影響。為了全面反映中國“人口自然增長率”的全貌,選擇人口增長率作為被解釋變量,以反映中國人口的增長;選擇“國名收入”及“人均GDP”作為經(jīng)濟整體增長的代表;選擇“居民消費價格指數(shù)增長率”作為居民消費水平的代表。暫不考慮文化程度及人口分布的影響。 從中國統(tǒng)計年鑒收集到以下數(shù)據(jù)(見表1): 設(shè)定的線性回歸模型為: 算法1多元線性回歸.xlsx(1)求出模型中的各個參數(shù),試從多個角度評價此線性回歸模型,并檢驗?zāi)P偷慕?jīng)濟意義;(2)檢驗?zāi)P椭惺欠翊嬖诙嘀毓簿€性問題(逐步回歸),若有,試消除多重共線性。答案解析:(1)直接進行線性回歸即可得到各個參數(shù)(用excel)。多元線性回歸模型評價可以從擬合優(yōu)度、T檢驗、F檢驗等多個方面出發(fā)。(2)求變量的相關(guān)系數(shù)矩陣或采用逐步回歸法(也可以用datahoop平臺做線性回歸,會自動刪除共線的變量)。2.對近期上映的10部電影進行調(diào)查研究,抽取290人對這10部電影的評分(分值010分),結(jié)果如下表所示。(1)根據(jù)表中數(shù)據(jù)對這10部電影的評分進行因子分析,并解析各個因子的含義;(2)可否利用電影的評分數(shù)據(jù)對這290名觀影者進行聚類分析?給出你的理由。算法2因子分析.xlsx答案解析:(1)因子分析選擇隱含因子數(shù)為3,分別代表動作片、愛情片、動畫片的影響評分因子。(2)可以,這290人對電影的偏好有區(qū)別,可以進行聚類,相關(guān)性分析后排除共線性的影響再進行聚類。3.某超市為了優(yōu)化商品擺放結(jié)構(gòu),對近期顧客購買的商品類型進行了統(tǒng)計,如附表所示。(1)寫出所有有效強關(guān)聯(lián)規(guī)則(minsupport=10%,minconfidence=50%);(2)結(jié)合實際情況分析顧客喜歡的商品搭配,并對該超市提出合理的建議。算法3關(guān)聯(lián)分析.xlsx答案解析:關(guān)聯(lián)規(guī)則分析中設(shè)置參數(shù)(minsupport=10%,minconfidence=50%),結(jié)果中強關(guān)聯(lián)規(guī)則通過調(diào)整顯示條目全部寫出(重復(fù)的刪除)。結(jié)合實際情況分析要寫詳細。4.某市為調(diào)查駕駛員視力情況(“1”表示視力正常,“0”表示有視力缺陷)、年齡、是否有駕駛教育經(jīng)歷(“1”表示有,“0”表示沒有),這三個因素對是否曾引起交通事故(“1”表示發(fā)生過,“0”表示未發(fā)生過)的影響,隨機抽樣調(diào)查了45名駕駛員,得到數(shù)據(jù)如下:(1)建立模型分析駕駛員視力情況、年齡、是否有駕駛教育經(jīng)歷對是否曾引起交通事故的影響,寫出詳細的思路過程。(2)若要應(yīng)用此模型預(yù)測某批駕駛員中可能會引起過交通事故的人都有哪些,則還需要進行的研究步驟有哪些?請說明。算法4邏輯回歸.xlsx答案解析:邏輯回歸,數(shù)據(jù)預(yù)處理包括分析共線性和異常值等,數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),綜合訓(xùn)練誤差和測試誤差評價模型。第二問要收集數(shù)據(jù)、處理數(shù)據(jù)、應(yīng)用模型直接預(yù)測。-一、 計算題(題數(shù):4,共 100.0 分)1.1993-2007年相關(guān)經(jīng)濟數(shù)據(jù)如附表所示。設(shè)定國內(nèi)生產(chǎn)總值為x1,地產(chǎn)投資總額為x2,全國居民消費水平為x3、全社會固定資產(chǎn)投資房屋竣工面積為x4,作為自變量;全國房屋銷售均價設(shè)為Y,作為因變量。建立如下的多元線性回歸模型:y=b0+b1*x1+b2*x2+b3*x3+b4*x4+b0,b1,b2,b3,b4是未知參數(shù),是剩余殘差,且E()=0,與四個自變量無關(guān)。(1)求出參數(shù)b0,b1,b2,b3,b4,并評判模型擬合優(yōu)度和實際意義,寫出詳細的分析依據(jù)和思路過程;(2)根據(jù)(1)對模型進行修正。多元線性回歸.xlsx答案解析:(1)直接做線性回歸,可得各個參數(shù)。通過R2,F(xiàn)、T檢驗,p值等分別分析模型。系數(shù)在經(jīng)濟意義上存在不合理性,可能是共線性的影響。(datahoop平臺會刪除共線的變量,所以這里用excel或spss等做回歸。)(2)相關(guān)性分析和解釋,去掉一些變量,重新做線性回歸(在Datahoop平臺上直接做也可以,平臺會自動刪除共線的變量)。2.為了解電影票房的影響因素有哪些,某出品人搜集了2010年至2013年間中國電影發(fā)放放映協(xié)會統(tǒng)計的過千萬票房的國產(chǎn)電影相關(guān)統(tǒng)計指標,共涉及275部影片。具體數(shù)據(jù)如附表所示。Datahoop上傳測試集:電影票房數(shù)據(jù)(2010-2013).xlsxDatahoop上傳訓(xùn)練集:電影票房數(shù)據(jù)(2010-2013).xlsx對數(shù)據(jù)進行預(yù)處理(包括缺失值、數(shù)據(jù)類型、離散化等),選擇決策樹模型進行擬合,并檢驗和分析模型。要求寫出詳細的思路和過程。答案解析:1.影片票房:影片票房是本次模型建模的因變量。通過對選取數(shù)據(jù)的統(tǒng)計分析,將票房數(shù)據(jù)進行分類,一共分為8個層次,分類情況如表所示:等級 1 2 3 4 5 6 7 8范圍 1000萬 2000萬 3000萬 6000萬 1億萬 1億9000萬 3億 20億 2000萬 3000萬 6000萬 1億萬 1億9000萬 3億 乘客IDSurvived = 是否生還Pclass = 乘客等級(1/2/3等艙位)Name = 乘客姓名Sex = 性別Age = 年齡SibSp = 堂兄弟/妹個數(shù)Parch = 父母與小孩個數(shù)Ticket = 船票信息Fare = 票價Cabin = 客艙Embarked = 登船港口對收集進行預(yù)處理,選擇適當?shù)乃惴ㄟM行分析,并評價和解釋模型,要求寫出具體的思路過程。答案解析:本次分析選取變量包括:Survived = 是否生還、Pclass = 乘客等級(1/2/3等艙位)、Sex = 性別、Age = 年齡、SibSp = 堂兄弟/妹個數(shù)、Parch = 父母與小孩個數(shù)、Fare = 票價。理把性別進行0和1處理,female(女)轉(zhuǎn)換成0,male(男)轉(zhuǎn)換成1。年齡Age存在缺失值,因此對于年齡的缺失值需要進行處理,本次對年齡的缺失值用所有年齡數(shù)據(jù)的平均值進行填充。采用方法:邏輯回歸,根據(jù)模型的預(yù)測結(jié)果可以看出模型的準確度還是比較好的,模型的AUC值也是比較高的。因此可以根據(jù)這些變量預(yù)測乘客生還與否。-一、 計算題1.電信公司為分析客戶流失狀況,為客戶是否流失提供參考依據(jù),隨機選取了600名客戶進行研究,得到了如附表所示一系列數(shù)據(jù),收集到的數(shù)據(jù)包含下列字段:在網(wǎng)月數(shù)截止數(shù)據(jù)收集時間為止的在網(wǎng)月數(shù)年齡客戶實際年齡婚姻狀況客戶婚姻狀況,0代表未婚,1代表已婚現(xiàn)地址居住時間現(xiàn)在地址的居住月份教育程度1:??埔韵拢?:本科;3:碩士;4:研究生;5:博士工作狀態(tài)0:待業(yè);1:在職性別0:女;1:男租設(shè)備0:不租;1:租IP電話0:無;1:有無線電話0:有;1:無本月話費話費具體金額語音信箱0:無;1:有網(wǎng)絡(luò)0:無;1:有來電顯示0:無;1:有呼叫等待0:無;1:有呼叫轉(zhuǎn)移0:無;1:有流失狀態(tài)0:未流失;1:流失 根據(jù)這些客戶數(shù)據(jù),進行數(shù)據(jù)預(yù)處理,之后分別用邏輯回歸和SVM算法進行分析,對比兩種算法的擬合優(yōu)度,從而選擇兩者中更加適合的算法模型。寫出分析思路和過程,并為電信公司提供客戶運營的相關(guān)建議。數(shù)據(jù)分析應(yīng)用1電信客戶流失數(shù)據(jù).xlsx答案解析:根據(jù)邏輯回歸和SVM算法對數(shù)據(jù)的不同要求,預(yù)處理要分析數(shù)據(jù)的共線性和異常值,之后分別進行邏輯回歸和SVM算法分析,發(fā)現(xiàn)SVM的召回率、準確率、準確度等指標均較好,因此選擇SVM算法。相關(guān)建議包括引入此模型分析客戶,從而針對性運營等。2.選取7項經(jīng)濟指標作為決定經(jīng)濟類型的影響因素,對全國31個省、直轄市、自治區(qū)(浙江、湖南、甘肅除外)進行聚類分析(各項數(shù)據(jù)均來自2010年國家統(tǒng)計年鑒)。數(shù)據(jù)分析應(yīng)用2省市分類.xlsx對數(shù)據(jù)進行預(yù)處理(創(chuàng)建新的變量等),比較說明聚成幾類時聚類效果最好,寫出分析思路和過程,并分析每一類的實際意義。答案解析:若用k-means進行聚類,預(yù)處理要考慮共線性和異常值(數(shù)據(jù)比較少不能輕易刪除異常值),且分別分析聚成2、3、4等類的效果(由平均輪廓系數(shù)判定)。-一、 計算題1.某金融機構(gòu)為了研究其信用卡發(fā)放風(fēng)險,收集整理了一些客戶的數(shù)據(jù),包括他們的基本信息,經(jīng)濟情況,以及是否拖欠還款等,具體如附表所示(已經(jīng)將客戶分為了訓(xùn)練集和測試集)。數(shù)據(jù)分析應(yīng)用1測試數(shù)據(jù).xlsx數(shù)據(jù)分析應(yīng)用1訓(xùn)練數(shù)據(jù).xlsx進行數(shù)據(jù)預(yù)處理,并用不同的算法模型(邏輯回歸、神經(jīng)網(wǎng)絡(luò)等)分析信用卡拖欠還款情況,結(jié)合測試數(shù)據(jù)對比模型的擬合優(yōu)度,要求寫出具體的思路過程。答案解析:分析數(shù)據(jù)有沒有缺失值異常值等,數(shù)據(jù)預(yù)處理(邏輯回歸考慮共線性、神經(jīng)網(wǎng)絡(luò)不考慮),分別用邏輯回歸和神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集進行擬合,由召回率、準確率等分析訓(xùn)練誤差,接著對測試集進行預(yù)測分析得到預(yù)測值與實際值對比,求召回率、準確率等分析泛化誤差。對比決定用哪個模型。2.為了研究手機好評率與品牌、價格的關(guān)系,某公司收集如附表所示數(shù)據(jù),數(shù)據(jù)收集的信息包含手機的評論得分和評論內(nèi)容以及手機品牌和價格等信息。手機數(shù)據(jù).xlsx對數(shù)據(jù)進行預(yù)處理,選擇合適的模型分析手機好評率與品牌、價格的關(guān)系,要求寫出詳細的思路和過程。答案解析:本案例想要通過對應(yīng)分析分析不同手機品牌和不同價格區(qū)間的手機的好評情況。對應(yīng)分析是研究由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系。交互表的信息以圖形的方式展示。主要適用于有多個類別的定類變量,可以揭示同一個變量的各個類別之間的差異,以及不同變量各個類別之間的對應(yīng)關(guān)系。適用于兩個或多個定類變量。因此本案例需要對要研究的定量變量進行定性處理。本案例中品牌屬于類別數(shù)據(jù),但是其中包含漢字,因子需要進行重新編碼;價格屬于連續(xù)型變量,因此需要進行離散化處理。好評數(shù)不能直接代表手機的好評情況,因此為了更好地表示手機的好評情況,這里采用好評率進行分析。由于好評率計算出來仍然是一個0到1之間的連續(xù)變量,因此需要進行離散化處理。數(shù)據(jù)分析:本次分析采用datahoop1.2版本進行分析,首先對品牌和好評率進行對應(yīng)分析。從分析結(jié)果可以看到數(shù)據(jù)的交叉表,以及提取的3個公因子的貢獻率和因子得分。從因子貢獻率可以看到提取兩個因子的貢獻率就達到了80%以上,因此提取兩個因子即可。根據(jù)對應(yīng)分析的圖表可以看到處于hp1也就是低好評度的品牌主要有品牌7,9,11,12。接著較低好評度品牌有3,4。較高好評度品牌包括1,5。高好評度品牌有8,10。因此品牌好評率分布為:好評率等級品牌低級ZUK,飛利浦,金立,酷派較低HTC, LG較高360,oppo高級錘子,華為這樣就可以清晰地看出不同品牌的好評情況。然后對價格等級和好評率等級進行對應(yīng)分析,可以看到用戶評論中500-1500價格區(qū)間的手機好評率最低,500-6000價位的手機好評率也最低。1500-2000價位的手機好評率較低;2000-2500價位/3000-3500價位和6000-7000價位手機好評率較高,好評率最高的是價位2500-3000價位手機和3500-4000價位。-1. 下面是7個地區(qū)2000年的人均國內(nèi)生產(chǎn)總值(GDP)和人均消費水平的統(tǒng)計數(shù)據(jù): 要求:(1)繪制散點圖,并計算相關(guān)系數(shù),說明二者之間的關(guān)系;(2)人均GDP作自變量,人均消費水平作因變量,利用最小二乘法求出估計的回歸方程,并解釋回歸系數(shù)的實際意義;(3)計算判定系數(shù),并解釋其意義;(4)檢驗回歸方程線性關(guān)系的顯著性(a=0.05);(5)如果某地區(qū)的人均GDP為5000元,預(yù)測其人均消費水平;(6)求人均GDP為5000元時,人均消費水平95%的置信區(qū)間和預(yù)測區(qū)間。(所有結(jié)果均保留三位小數(shù))(25.0分)窗體頂端我的答案窗體底端答案解析:提示:(1)使用Datahoop或Excel作出散點圖、相關(guān)系數(shù),作出相關(guān)描述;(2)注意自變量與因變量的確定,利用Datahoop或Excel寫出回歸方程,作出回歸系數(shù)實際意義的描述;(3)寫出判定系數(shù),并描述意義;(4)在a=0.05的前提下,檢驗方程的顯著性,并做描述;(5)使用Datahoop預(yù)測功能做出結(jié)果;(6)寫出置信區(qū)間和預(yù)測區(qū)間。-2. 根據(jù)以下給出的數(shù)據(jù)進行分析,本次給出鳶尾花數(shù)據(jù),其中包含萼片長、萼片寬、花瓣長、花瓣寬、以及花的類型數(shù)據(jù),請根據(jù)以下問題進行回答。(本題數(shù)據(jù)提供在excel里面,數(shù)據(jù)分析為三份,一份訓(xùn)練數(shù)據(jù),一份測試數(shù)據(jù),一份預(yù)測數(shù)據(jù))(1)根據(jù)訓(xùn)練數(shù)據(jù),用類型_num作為因變量Y,其他變量作為自變量X,做邏輯回歸,寫出邏輯回歸的方程。(2)根據(jù)測試數(shù)據(jù)得到的結(jié)果,寫出邏輯回歸的混淆矩陣,以及準確率和召回率,Accuracy和F1的值(可根據(jù)測試數(shù)據(jù)結(jié)果計算表格得到測試數(shù)據(jù)集的相應(yīng)的結(jié)果)。(3)給出一組預(yù)測數(shù)據(jù),根據(jù)訓(xùn)練模型結(jié)果預(yù)測,寫出預(yù)測結(jié)果。(25.0分)窗體頂端我的答案窗體底端答案解析:提示: - 3. 下表為購物籃事物數(shù)據(jù): (1)設(shè)minsupport=40%,利用Apriori算法寫出所有的頻繁項目集,并指出其中支持度最大的二項頻繁項目集。(2)在第一問基礎(chǔ)上設(shè)minconfidence=60%,找出所有的有效強關(guān)聯(lián)規(guī)則。(25.0分)窗體頂端我的答案窗體底端答案解析:提示:使用Datahoo進行Apriori分析,注意參數(shù)調(diào)整- 4. 某廚衛(wèi)公司要開發(fā)一款燃氣灶產(chǎn)品,列舉出5個可作為賣點的功能屬性:防風(fēng)、定時、防干燒、不沾油、快速而準確地打火。該公司的產(chǎn)品設(shè)計人員不知道該主要開發(fā)哪項功能,分析師小李向公司提出了使用KANO模型對上述五個功能進行調(diào)研分類的想法。并得到了公司的支持。假設(shè)你是小李1.請你繪制KANO模型圖來介紹對功能屬性分類的思路2.請你對燃氣灶的防干燒功能屬性設(shè)計調(diào)查問題3.針對燃氣灶的防干燒功能,受訪者有多少種可能的回答組合,請寫出每一種回答組合所對應(yīng)的屬性類別符號(符號見最后一行題注)4.假設(shè)基于對240名受訪者的調(diào)研,得到下表,請算出這5種功能各自的worse系數(shù)和better系數(shù),并基于這兩個系數(shù)判斷這5中功能的屬性類別5.請對該燃氣灶的這5項功能開發(fā)提出建議注:魅力屬性用符號A表示;必備屬性用符號M表示;期望屬性用符號O表示;可有可無屬性用符號I表示;用戶討厭的屬性用R表示;有問題的回答用Q表示人數(shù)功能OIMA防風(fēng)118302963防干燒47783085定時22140870快速而準確地打火452010768不沾油69512989(25.0分)窗體頂端我的答案窗體底端答案解析:提示:(1)繪制KANO模型圖(2)描繪通用調(diào)查問題(3)作出屬性類別表(4)計算worse和better系數(shù),并畫出象限圖(5)給出開發(fā)建議- 1. 移動公司想結(jié)合用戶通話行為,推薦相應(yīng)套餐,或者結(jié)合用戶現(xiàn)有套餐優(yōu)化用戶套餐,提供個性化套餐,從而對客戶進行精準營銷,增加客戶粘性。為此,移動公司收集了下列數(shù)據(jù),移動公司收集到的數(shù)據(jù)包含下列字段:變量名稱變量標簽Customer_ID用戶編號Peak_mins工作日上班時間電話時長OffPeak_mins工作日下班時間電話時長Weekend_mins周末電話時長International_mins國際電話時長Total_mins總通話時長average_mins平均每次通話時長請你根據(jù)這些客戶數(shù)據(jù),進行數(shù)據(jù)的預(yù)處理(數(shù)據(jù)預(yù)處理過程中可以根據(jù)現(xiàn)有變量構(gòu)造新變量進行分析),預(yù)處理之后選擇合適變量進行分析,分析算法自行選擇,寫出分析思路和過程,通過數(shù)據(jù)分析對客戶進行細分,將客戶分為5類。并為移動公司提供客戶精準營銷的相關(guān)建議。(請寫出分析的流程并刻畫最后細分之后的客戶的特點和相應(yīng)的營銷建議)(50.0分)窗體頂端我的答案窗體底端答案解析:提示:根據(jù)題目可以選取聚類方法對客戶進行細分,這里選取k-means聚類方法進行分析。對數(shù)據(jù)進行預(yù)處理,主要查看數(shù)據(jù)的相關(guān)性;對數(shù)據(jù)進行聚類分析,選取變量為peak_mins/total_mins,offpeak_mins,weekend_mins,international_mins,total_m
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 車輛質(zhì)押貸款及汽車租賃及保養(yǎng)服務(wù)合同
- 產(chǎn)權(quán)式酒店租賃合同示范文本及經(jīng)營風(fēng)險控制
- 醫(yī)療健康園區(qū)場站委托運營管理協(xié)議
- 產(chǎn)業(yè)園區(qū)場地租賃合同行政備案及產(chǎn)業(yè)扶持政策
- 餐飲企業(yè)特色餐廳承包經(jīng)營合同范本
- 茶葉原料種植基地合作合同樣本
- 柴油市場拓展與銷售獎勵合同范本
- 草場租賃與水資源保護與利用協(xié)議
- 稅務(wù)籌劃與財務(wù)代理一體化服務(wù)合同
- 金融投資代理居間業(yè)務(wù)合同
- 2025年中級育嬰員技能等級證書理論全國考試題庫(含答案)
- 2025年果樹種植技術(shù)培訓(xùn)與咨詢服務(wù)合同范本
- 乳腺結(jié)節(jié)疾病的專業(yè)知識課件
- 2025年西安職業(yè)技術(shù)學(xué)院高職單招數(shù)學(xué)歷年(2016-2024)頻考點試題含答案解析
- 土地承包租賃合同書
- 2025年高一下學(xué)期班主任工作計劃(5篇)
- 2025年高壓電工作業(yè)考試國家總局題庫及答案(共280題)
- 2024年03月安徽省農(nóng)業(yè)信貸融資擔(dān)保有限公司2024年招考筆試歷年參考題庫附帶答案詳解
- 國家開放大學(xué)《22019丨統(tǒng)計學(xué)原理(統(tǒng)設(shè)課)》機考題庫
- 多模態(tài)大語言模型領(lǐng)域進展分享
- 門店規(guī)章制度守則范本
評論
0/150
提交評論