




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第5章物以類聚:發(fā)現(xiàn)新簇群
課后習(xí)題答案
一、考考你
L關(guān)于聚類說法正確是D。
A.聚類樣本一定要有標(biāo)簽B.應(yīng)該將所有特征數(shù)據(jù)作為聚類依據(jù)
C.聚類的k值可以隨意指定D.聚類質(zhì)心就是各簇群特征的平均值
2.下列C聚類性能評(píng)價(jià)指標(biāo)在[-Lll之間,值越接近1說明聚類效果越好。
ACH分?jǐn)?shù)B.戴維森堡丁指數(shù)DBlC.輪廓系數(shù)DJnertia
3.k-means模型的A參數(shù)能保證聚類結(jié)果復(fù)現(xiàn)。
A.random_stateB.initC.max_iterD.algorithm
4.衡量聚類效果好壞的主要依據(jù)是
A.各類之間的界限明顯B.各樣本離各自質(zhì)心之和最小
C.類別之間的協(xié)方差越大越好D.同類樣本緊促,不同類樣本相距遠(yuǎn)
5.關(guān)于RFM模型的應(yīng)用,說法錯(cuò)誤的是D。
A.R、F、M是區(qū)分客戶的三個(gè)重要指標(biāo)
B.這三個(gè)指標(biāo)是基于原始數(shù)據(jù)統(tǒng)計(jì)出來的
C.在具體場(chǎng)景應(yīng)用RFM模型時(shí),可以添加其它指標(biāo)
D.訓(xùn)練模型前樣本不進(jìn)行標(biāo)準(zhǔn)化處理也是可以的
二、亮一亮
1.在案例1中用k-均值算法對(duì)鶯尾花進(jìn)行聚類時(shí)?,有哪些辦法能幫你找到最優(yōu)的k值?
參考答案:
(1)盡可能多的獲得鶯尾花的特征數(shù)據(jù)進(jìn)行初步分析,基于特征數(shù)據(jù)確定種類的有效
值作為k的數(shù)值。
(2)在運(yùn)行k-means聚類中根據(jù)聚類結(jié)果對(duì)比分析確定最優(yōu)的k值。
2.在案例2的電商用戶分類過程中,求各類客戶樣本的均值有何意義?請(qǐng)舉例說明。
參考答案:
由于聚類前對(duì)原始數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理,所以需要聚類后對(duì)質(zhì)心進(jìn)行反標(biāo)準(zhǔn)化轉(zhuǎn)換,
得到原始均值,方便觀察聚類結(jié)果和對(duì)業(yè)務(wù)場(chǎng)景的解釋。
三、幫幫我
?.Wholesalecustomersdata.csv文件保存有批發(fā)商客戶數(shù)據(jù),前5行數(shù)據(jù)如下圖5.20所
示。數(shù)據(jù)集各屬性函數(shù)如下。
ChannelRegionFreshMilkGroceryFrozenDetergents_PaperDelicassen
023126699656756121426741338
123705798109568176232931776
223635388087684240535167844
313132651196422164045071788
4232261554107198391517775185
圖5.20批發(fā)商客戶數(shù)據(jù)
÷Channel:客戶渠道,1指酒店類,2指零售類。
÷Region:客戶所在地區(qū),1指里斯本,2指波爾圖,3指其它地區(qū)。
令Fresh:在新鮮產(chǎn)品上的支出。
÷Milk:在乳制品上的支出。
令Grocery:在雜貨上的支出。
?Frozen:在冷凍產(chǎn)品上的支出。
令DetergentS-Paper:在清潔劑(紙)上的支出。
令Delicassen:在熟食上的支出。
請(qǐng)運(yùn)用k-means聚類算法將這400名批發(fā)商客戶進(jìn)行聚類,并試圖解釋聚類結(jié)果。提示:
聚類時(shí)只考慮后6個(gè)特征,因?yàn)檫@6個(gè)特征代表客戶的進(jìn)貨能力。
參考答案:
#數(shù)據(jù)預(yù)處理
#1.處理異常值在處理異常值之前,先來通過箱線圖看看異常值.
importseabornassns
importpandasaspd
importmatplotlib.pyplotaspit
,
df=ρd.read-csv(rdata?Wholesalecustomersdata.csv',sep=√)
defget_boxplot(data,start,end):
fig,ax=plt.subplots(l,end-start,figsize=(24,4))
foriinrange(start,end):
sns.boxplot(y=data[data.columns[i]],data=data,ax=ax[i-start])
get_boxplot(df,2,8)
解釋:可以看到以上6個(gè)連續(xù)型變量均有異常值,由于k-means算法對(duì)異常值較敏感,因
此選擇剔除它。
importnumpyasnp
defdrop_outlier(data,start,end):
foriinrange(start,end):
field=data.columns[i]
Ql=np.quantile(data[field],0.25)
Q3=np.quantile(data[field],0.75)
deta=(Q3-Q1)*1.5
data=data[(data[field]>=Ql-deta)&(data[fieldl<=Q3÷deta)]
returndata
del_df=drop_outlier(df,2,8)
Prim("原有樣本容量:{0},剔除后樣本容量:{1}".format(df.shape[O],del_df.shape[O]))
get_boxplot(del_df,2,8)
原有樣本容量:440.剔除后樣本容量:318
#2.變量離散化、歸一化
deLdfI,ChanneΓ]=del_df.Channel.astype(str)
deLdf[,Region,]=del_df.Region.astype(str)
del_df=pd.get_dummies(del_df)
foriinrange(6):
fieid=del_df.columns[i]
del_df[field]=del_df[field].apply(lambdax:(x-del_df[field].mean())/
del_dflfield].mean())
#3.迭代評(píng)估聚類的k值
fromsklearn.clusterimportKMeans
K=range(l,10)
sse=[]
forkinK:
km=KMeans(n_clusters=k,random_state=10)
km.fit(deLdf)
sse.append(km.inertia_)
plt.figure(figsize=(8,6))
plt.plot(K,sse,'-o',alpha=0.7)
plt.xlabel("Kπ)
plt.ylabel("SSEπ)
plt.show()
根據(jù)肘部法則,選擇K=2,也就是說將客戶分成兩群.
#4.客戶分群
frompandas.plottingimportparallel_coordinates#訓(xùn)練模型
km=KMeans(n_clusters=2,random_state=10)
km.fit(del_df)
centers=km.cluster_centers_
labels=km.labels_
customer=pd.DataFrame({,0,:centers[0J,,,Γ,:centers[l]}).T
customer.columns=del_df.keys()
,
df-median=pd.DataFrame({'2:del_df.median()}).T
customer=pd.concat([customer,dθ∏edian])
cUStomer["category',]=["cuslomerj","CUStOmer_2",'median']#繪制圖像
plt.figure(figsize=(12,6))
parallel_coordinates(customer,"category",color=(,red,∕blue,,,black,))
plt.xticks(rotation=15)
plt.show()
從6種產(chǎn)品每年消費(fèi)支出來看,客戶群1在冷凍產(chǎn)品上最高,在洗滌劑和紙制品上最低,
而客戶群2則在冷凍產(chǎn)品上最低,在洗滌劑和紙制品上最高,且客戶群2在6種產(chǎn)品的消費(fèi)
支出均高于中位數(shù)水平,因此客戶群2為重要客戶,客戶群1則是一般客戶。
#5.最終分群結(jié)果,將聚類后的標(biāo)簽加入數(shù)據(jù)集
deLdf[,category,J=Iabels
,,
del-df[category]=np.where(del_df.category==0,'customer.!','customer_2')
customer=pd.DataFrame({'O,:centers[O],,,Γ,:centers[l]}).T
customer[',categoιy',]=「customer」.center',"CUStomer_2_Center”]
customer.columns=del_df.keys()
del_df=pd.concat([del_df,customer])#對(duì)6類產(chǎn)品每年消費(fèi)水平進(jìn)行繪制圖像
df_new=del_df[['Fresh\,Milk?,Grocery','Frozen1,*Detergents_Paper\,De
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年專升本思政創(chuàng)新嘗試試題及答案
- 特別關(guān)注2024年思政理論的復(fù)習(xí)方法試題及答案
- 【道法】犯罪與刑罰課件-2024-2025學(xué)年統(tǒng)編版道德與法治七年級(jí)下冊(cè)
- 法學(xué)獎(jiǎng)學(xué)金代表發(fā)言稿
- 勞動(dòng)合同正確(2025年版)
- 2025年金融合同模板
- 2024年證券從業(yè)資格考試的答題技巧試題及答案
- 全方位提升2024年專升本思政理論試題及答案
- 2025年度高科技企業(yè)勞動(dòng)合同變更終止及解除服務(wù)合同
- 二零二五年度影視制作團(tuán)隊(duì)聘用合同匯編
- 天津城投在線測(cè)評(píng)題
- 2024年江蘇省無錫市中考地理試卷真題(含答案解析)
- 寬帶業(yè)務(wù)合同協(xié)議書
- 住院證明模板
- 感情糾紛補(bǔ)償協(xié)議書模板
- 2024年4月全國(guó)自考00054管理學(xué)原理真題試卷及答案
- 2024年中國(guó)半導(dǎo)體行業(yè)現(xiàn)狀分析及發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告(智研咨詢)
- 強(qiáng)迫癥及相關(guān)障礙-138
- 品牌托管合同范本
- 普陀區(qū)2024屆高三下學(xué)期二??荚囌Z文試題(原卷版+解析版)
- 青鳥消防JB-QB-JBF5012火災(zāi)報(bào)警控制器使用說明書V1.3
評(píng)論
0/150
提交評(píng)論