




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
利用Python進行商品的親和性分析如今這個社會是一個數(shù)字社會,在各大領(lǐng)域里面最為顯著的應該是數(shù)據(jù)吧。就目前而言,\o"有關(guān)大數(shù)據(jù)的文章"大數(shù)據(jù)已經(jīng)越來越流行了,我們不管在什么領(lǐng)域上都能接觸到數(shù)據(jù)的,并且現(xiàn)在很多企業(yè)已經(jīng)累積了大量的數(shù)據(jù)。很多人開始朝向大數(shù)據(jù)開發(fā)以及大\o"有關(guān)數(shù)據(jù)分析的文章"數(shù)據(jù)分析這兩個方向發(fā)展了。那么也許你會問,哪個方向更加值得轉(zhuǎn)行呢?很多人也在這兩個方向糾結(jié),在這里我想告訴你們的是,沒有什么是最優(yōu)選擇,你感興趣的才是最好的選擇。這邊,我選擇的是大數(shù)據(jù)分析!現(xiàn)在讓我們進入數(shù)據(jù)分析的一個環(huán)節(jié)——\o"數(shù)據(jù)挖掘"數(shù)據(jù)挖掘。\o"有關(guān)數(shù)據(jù)挖掘的文章"數(shù)據(jù)挖掘簡介數(shù)據(jù)挖掘旨在讓計算機根據(jù)已有數(shù)據(jù)做出決策。決策可以是預測明年的銷量,人口的數(shù)目,攔截垃圾郵件,檢測網(wǎng)站的語言。到目前為止,數(shù)據(jù)挖掘已經(jīng)有很多的應用,即使這樣很多新的應用領(lǐng)域也在不斷出現(xiàn)。數(shù)據(jù)挖掘涉及到算法,最優(yōu)策略,統(tǒng)計學,工程學和計算機科學相關(guān)領(lǐng)域的知識。除此之外我們還會用到語言學,神經(jīng)科學,城市規(guī)劃等其他領(lǐng)域的概念或知識。想要充分發(fā)揮數(shù)據(jù)挖掘的威力,算法肯定是必備的。(在這里推薦讀者去刷一刷LeetCode)一般來說數(shù)據(jù)挖掘有這三個基本步驟:1、創(chuàng)建數(shù)據(jù)集。數(shù)據(jù)集能直接反應一些真實事件;2、選擇算法。選擇一個合適的算法才能更好的對數(shù)據(jù)進行處理;3、優(yōu)化算法。每種數(shù)據(jù)挖掘算法都有參數(shù),它們或是算法自身包含的,或是使用者添加的,這些參數(shù)會影響算法的具體決策。親和性分析案例現(xiàn)在讓我們用一個例子說明。不知道你逛超市的時候,是否發(fā)現(xiàn)超市里面基本上都是按照商品的種類來分區(qū)域的,然而有些東西是存在例外的,一件商品的旁邊擺放著不一樣種類的商品。不知道你是否有發(fā)現(xiàn)這個現(xiàn)象,有沒有對此感到不解。這邊我想跟你說的是,這種擺放也是有道理的,這個道理是商品之間的親和性!前置知識:(1)defaultdict(int):初始化為0
(2)defaultdict(float):初始化為0.0
(3)defaultdict(str):初始化為”這里的defaultdict(function_factory)構(gòu)建的是一個類似dictionary的對象其中keys的值,自行確定賦值,但是values的類型,是function_factory的類實例而且具有默認值。比如default(int)則創(chuàng)建一個類似dictionary對象里面任何的values都是int的實例,而且就算是一個不存在的key,d[key]也有一個默認值,這個默認值是int的默認值0。代碼實現(xiàn)現(xiàn)在進行代碼部分:importnumpyasnp
fromcollectionsimportdefaultdict
dataset_filename=“affinity_dataset.txt”
features=[“bread”,“milk”,“cheese”,“apple”,“banana”]#猜一下這個是干嘛用的
X=np.loadtxt(dataset_filename)
print(X[:5])#打印前五行的購物信息統(tǒng)計一下購買蘋果和香蕉的人數(shù):num_apple_purchases=0#初始化一個購買蘋果人數(shù)的變量
forsampleinX:
ifsample[3]==1:
num_apple_purchases+=1
print(“{0}peopleboughtApples“.format(num_apple_purchases))
num_banana_purchases=0
forsampleinX:
ifsample[4]==1:
num_banana_purchases+=1
print(“{0}peopleboughtbanana”.format(num_banana_purchases))現(xiàn)在為了計算規(guī)則的置信度還有支持度,我們可以用字典的形式來存放計算結(jié)果:valid_rules=defaultdict(int)invalid_rules=defaultdict(int)num_occurances=defaultdict(int)forsampleinX:forpremiseinrange(4):ifsample[premise]==0:continuenum_occurances[premise]+=1#當顧客有購買物品時key對應的時value變?yōu)?forconclusioninrange(4):ifpremise==conclusion:#訪問同一個key的時候是沒有意義的直接跳過continueifsample[conclusion]==1:valid_rules[(premise,conclusion)]+=1else:invalid_rules[(premise,conclusion)]+=1得到所有必要的統(tǒng)計量后,我們再來計算每條規(guī)則的支持度和置信度。如前所述,支持度就是規(guī)則應驗的次數(shù):support=valid_rules#置信度的計算方法類似,遍歷每條規(guī)則進行計算confidence=defaultdict(float)forpremise,conclusioninvalid_rules.keys:rule=(premise,conclusion)confidence[rule]=valid_rules[rule]/num_occurances[premise]聲明一個函數(shù),接收的參數(shù)有:分別作為前提條件和結(jié)論的特征索引值、支持度字典、置信度字典以及特征列表。defprint_rule(premise,conclusion,support,confidence,features):premise_name=features[premise]conclusion_name=features[conclusion]print(“Rule:ifapersonbuys{0}theywillalsobuy{1}“.format(premise_name,conclusion_name))print(”–Support:{0}”.format(support[(premise,conclusion)]))print(”–Confidence:{0:.3f}”.format(confidence[(premise,conclusion)]))premise=1conclusion=3features=[“bread”,“milk”,“cheese”,“apple”,“banana”]print_rule(premise,conclusion,support,confidence,features)fromoperatorimportitemgettersorted_support=sorted(support.items,key=itemgetter(1),reverse=True)排序完成后,就可以輸出支持度最高的前5條規(guī)則:forindexinrange(5):print(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年鞍山市鐵東區(qū)教育局招聘筆試真題
- 頭頸外科手術(shù)的復雜性
- 校會工作總結(jié)與工作展望
- 簡約大氣工作總結(jié)
- 卡通風幼兒園清明節(jié)主題班會
- 幼兒籃球工作總結(jié)
- 認知障礙癥狀的緩解方案
- 詩詞大會工作總結(jié)
- 二零二五年度銀行與融資擔保機構(gòu)交通運輸融資擔保合作協(xié)議
- 二零二五年度智能工廠廠房物業(yè)財產(chǎn)交接與智能制造合同
- 《新能源汽車動力電池技術(shù)》課件
- 婦女健康 知識講座課件
- 2025東風公司全球校園招聘筆試參考題庫附帶答案詳解
- 恒生電子江蘇總部項目報告表
- (已壓縮)礦產(chǎn)資源儲量技術(shù)標準解讀300問-1-90
- 醫(yī)院培訓課件:《靜脈中等長度導管臨床應用專家共識》
- 2023江蘇護理職業(yè)學院高職單招語文/數(shù)學/英語筆試參考題庫含答案解析
- 幼兒園繪本故事:《花婆婆》
- 碘-淀粉比色法測定淀粉酶活力
- 大體積混凝土測溫檢測報告(共14頁)
- 家具購銷合同49486
評論
0/150
提交評論