版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
QuizQ1什么是數(shù)據(jù)挖掘?Q2什么是數(shù)據(jù)挖掘四部曲?Q3列舉三個常見數(shù)據(jù)挖掘類型?Q4什么是數(shù)據(jù)挖掘系統(tǒng)三層C/S構(gòu)造?Q5什么是人工神經(jīng)網(wǎng)絡(luò)?
Q6數(shù)據(jù)挖掘生命周期CRISP-DM是什么?第1頁2數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining):又稱為數(shù)據(jù)庫中知識發(fā)覺(Knowledgediscoveryfromdatabases(KDD)),是基于AI、機器學(xué)習(xí)、統(tǒng)計學(xué)等技術(shù),高度自動化地分析原有數(shù)據(jù),進行歸納性推理,從數(shù)據(jù)倉庫或數(shù)據(jù)庫中提取可信、新奇、有效、人們感愛好、能他人理解知識高級處理過程。這些知識是隱含、事先未知有用信息,提取知識體現(xiàn)為概念、規(guī)則、模式、規(guī)律等形式,以幫助管理者作出正確決策。模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間關(guān)系,是對數(shù)據(jù)所包括信息更抽象描述。模式按功能能夠分為預(yù)測型模式和描述型模式。在實際應(yīng)用中,能夠細分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式等。第2頁數(shù)據(jù)挖掘四部曲第3頁數(shù)據(jù)挖掘類型第4頁5DM系統(tǒng)體系構(gòu)造(1)DW步驟:數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)集成數(shù)據(jù)選擇預(yù)分析挖掘表述評價(2)DW系統(tǒng)構(gòu)造:
顧客界面成果輸出數(shù)據(jù)挖掘關(guān)鍵知識庫數(shù)據(jù)倉庫數(shù)據(jù)庫文獻系統(tǒng)其他數(shù)據(jù)源ODBC或其他專用數(shù)據(jù)庫接口第5頁6數(shù)據(jù)挖掘常用技術(shù)生物學(xué)辦法人工神經(jīng)網(wǎng)絡(luò)遺傳算法信息論辦法決策樹集合論辦法約略集含糊集最鄰近技術(shù)統(tǒng)計學(xué)辦法可視化技術(shù)第6頁7生物學(xué)辦法-神經(jīng)網(wǎng)絡(luò)辦法神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域一種主要分支。采取神經(jīng)網(wǎng)絡(luò)設(shè)計系統(tǒng)模擬人腦構(gòu)造,而與傳統(tǒng)系統(tǒng)截然不一樣。由醫(yī)學(xué)可知,人大腦中有幾十億個大腦細胞(稱為神經(jīng)元),這些神經(jīng)元通過神經(jīng)中樞導(dǎo)電神經(jīng)纖維互相連接,從而形成一種復(fù)雜腦神經(jīng)網(wǎng)絡(luò)。人在學(xué)習(xí)某一件事時候,某些神經(jīng)元連接得到強化。在人工神經(jīng)網(wǎng)絡(luò)中,用計算機處理單元來模擬人腦神經(jīng)元,并將這些處理單元象人腦神經(jīng)元那樣互相連接起來,組成一種網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)并非使用編程方式讓計算機去做某項工作,而是采取所謂“訓(xùn)練”辦法讓神經(jīng)網(wǎng)絡(luò)進行“學(xué)習(xí)”。完成某項工作正確動作,使得神經(jīng)網(wǎng)絡(luò)某些連接或模式得到強化;而錯誤動作則使神經(jīng)網(wǎng)絡(luò)對應(yīng)連接或模式不被強化。從而讓神經(jīng)網(wǎng)絡(luò)“學(xué)會”如何去做這項工作。第7頁CRISP-DM(CRoss-IndustryStandardProcessforDataMining)業(yè)務(wù)理解(BusinessUnderstanding)數(shù)據(jù)理解(DataUnderstanding)數(shù)據(jù)準(zhǔn)備(DataPreparation)建模(Modeling)評定(Evaluation)實行(Deployment)第8頁QuizQ1什么是有監(jiān)督學(xué)習(xí)?Q2什么是無監(jiān)督學(xué)習(xí)?Q3什么是聚類分析?Q4什么是什么是一種好聚類辦法?
Q5什么是S-0-I模型?
Q6什么是麥肯錫七步法?第9頁什么是聚類分析?簇(Cluster):一種數(shù)據(jù)對象集合聚類分析把一種給定數(shù)據(jù)對象集合提成不一樣簇;在同一種簇(或類)中,對象之間具有相同性;不一樣簇(或類)對象之間是相異。聚類是一種無監(jiān)督分類法:沒有預(yù)先指定類別;典型應(yīng)用作為一種獨立分析工具,用于理解數(shù)據(jù)分布;作為其他算法一種數(shù)據(jù)預(yù)處理步驟;第10頁2023年1月1日星期五DataMining:ConceptsandTechniques11什么是一種好聚類辦法?一種好聚類辦法要能產(chǎn)生高質(zhì)量聚類成果——簇,這些簇要具有下列兩個特點:高簇內(nèi)相同性低簇間相同性聚類成果好壞取決于該聚類辦法采取相同性評定辦法以及該辦法詳細實現(xiàn);聚類辦法好壞還取決與該辦法是能發(fā)覺某些還是所有隱含模式;第11頁2023年1月1日星期五DataMining:ConceptsandTechniques12計算對象之間相異度一般使用距離來衡量兩個對象之間相異度。常用距離度量辦法有:
明考斯基距離(Minkowskidistance):其中i=(xi1,xi2,…,xip)和
j=(xj1,xj2,…,xjp)是兩個p維數(shù)據(jù)對象,q是一種正整數(shù)。當(dāng)q=1時,d
稱為曼哈坦距離(Manhattandistance)第12頁2023年1月1日星期五DataMining:ConceptsandTechniques13當(dāng)q=2時,
d就成為歐幾里德距離:距離函數(shù)有如下特性:d(i,j)
0d(i,i)
=0d(i,j)
=d(j,i)d(i,j)
d(i,k)
+d(k,j)能夠根據(jù)每個變量主要性賦予一種權(quán)重第13頁2023年1月1日星期五DataMining:ConceptsandTechniques14K-平均算法給定k,算法處理流程如下:1.隨機把所有對象分派到k個非空簇中;2.計算每個簇平均值,并用該平均值代表對應(yīng)簇;3.將每個對象根據(jù)其與各個簇中心距離,重新分派到與它近來簇中;4.回到第二步,直到不再有新分派發(fā)生。第14頁1/01/202315TheK-MeansClusteringMethod
Example第15頁1/01/202316CasesMarriagelength(yrs)Wealth($000’s)13510023203710412755202506150718788503009229010412K-MeansExample第16頁1/01/202317CasesMarriagelength(yrs)Wealth($000’s)13510023203710412755202506150718788503009229010412k=2e.gCluster1hasexamples(1,4,7,8,9)Cluster2hasexamples(2,3,5,6,10)Step1.Randomlyassigntoeachofkgroups第17頁1/01/202318CasesMarriagelength(yrs)Wealth($000’s)13510023203710412755202506150718788503009229010412e.gCluster1hasexamples(1,4,7,8,9)Marriagelengthmean=27.4Wealthmean=128.6Cluster2hasexamples(2,3,5,6,10)Marriagelengthmean=7Wealthmean=68.4Step2.Calculateclustermeans第18頁1/01/202319CasesMarriagelength(yrs)Wealth($000’s)13510023203710412755202506150718788503009229010412e.gCalculatetheerrorassociatedwitheachclustergroupingassumofsquaresofdistancefromeachexampleinthewholedatasetfromclustermean.Marriagelengthmeans=27.4,7Wealthmeans=128.6,68.4Error_cluster_1=(35-27.4)2+(100-128.6)2+(7-7)2+(10-68.4)2+..=80,523.6Step3.Calculateclustererror第19頁1/01/202320CasesMarriagelength(yrs)Wealth($000’s)13510023203710412755202506150718788503009229010412e.gStep1clusterswere:Cluster1(1,4,7,8,9)Cluster2(2,3,5,6,10)Moveexample5fromcluster2tocluster1sonewclusteris:Cluster1(1,4,5,7,8,9)Cluster2(2,3,6,10)Repeat:Ifthenewclustergeneratesanerrorlowerthanthefirst,retainthenewclusterandrepeatStep4.Moveanexampletoanewclusterandrepeat第20頁數(shù)據(jù)分析系列劇第二集:七步法應(yīng)用第21頁S-0-I模型第22頁QuizQ1什么是分類?Q2分類兩個步驟是什么?Q3什么是線性回歸?Q4什么是關(guān)聯(lián)規(guī)則?Q5什么是關(guān)聯(lián)規(guī)則支持度
?
Q6什么是關(guān)聯(lián)規(guī)則信任度
?Q7數(shù)據(jù)可視化是什么?第23頁1/01/202324分類就是提出一種分類函數(shù)或分類模型(即分類器),通過度類器將數(shù)據(jù)對象映射到某一種給定類別中。第24頁2023年1月1日星期五DataMining:ConceptsandTechniques25分類過程:模型創(chuàng)建訓(xùn)練集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’模型第25頁2023年1月1日星期五DataMining:ConceptsandTechniques26分類過程(2):使用模型模型測試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?第26頁回歸于分類預(yù)測線性回歸是利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間互相依賴定量關(guān)系一種統(tǒng)計分析辦法,利用十分廣泛。分析按照自變量和因變量之間關(guān)系類型,可分為線性回歸分析和非線性回歸分析。第27頁1/01/20232828LinearClassificationBinaryClassificationproblemThedataabovethelinebelongstoclass‘x’Thedatabelowlinebelongstoclass‘o’Examples:SVM,Perceptron,ProbabilisticClassifiersxxxxxxxxxxooooooooooooo第28頁2023/1/1數(shù)據(jù)挖掘:概念和技術(shù)29關(guān)聯(lián)規(guī)則:基本概念給定:(1)交易數(shù)據(jù)庫(2)每筆交易是:一種項目列表(消費者一次購買活動中購買商品)查找:所有描述一種項目集合與其他項目集合有關(guān)性規(guī)則E.g.,98%ofpeoplewhopurchasetiresandautoaccessoriesalsogetautomotiveservicesdone應(yīng)用*
護理用具(商店應(yīng)當(dāng)如何提升護理用具銷售?)家用電器
*(其他商品庫存有什么影響?)在產(chǎn)品直銷中使用附加郵寄第29頁1/01/202330SupportandConfidenceSupportcount:ThesupportcountofanitemsetX,denotedbyX.count,inadatasetTisthenumberoftransactionsinTthatcontainX.AssumeThasntransactions.Then,confidenceifAthenB=pr(AB)/pr(B)=pr(B|A)supportifAthenB=pr(AB)/n第30頁2023/1/1數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度個人寵物醫(yī)療無息分期支付協(xié)議4篇
- 二零二五版校園屋頂修繕與安全隱患排查合同3篇
- 二零二五年度房產(chǎn)抵押借款合同范本下載3篇
- 二零二五版消防設(shè)施安裝與消防產(chǎn)品檢測合同3篇
- 2025版深圳二手房買賣合同交易見證及法律咨詢合同3篇
- 二零二五年度房屋買賣擔(dān)保借款合同風(fēng)險管理范本3篇
- 2025年高速公路橋梁施工個人承包合同4篇
- 合伙人轉(zhuǎn)讓協(xié)議
- 二零二五年度水下抽沙作業(yè)租賃合同4篇
- 老年旅游團運輸服務(wù)合同
- GB/T 45107-2024表土剝離及其再利用技術(shù)要求
- 2024-2025學(xué)年八年級上學(xué)期1月期末物理試題(含答案)
- 商場電氣設(shè)備維護勞務(wù)合同
- 《妊娠期惡心嘔吐及妊娠劇吐管理指南(2024年)》解讀
- 2025年高考語文作文滿分范文6篇
- 2023年國家公務(wù)員錄用考試《行測》真題(行政執(zhí)法)及答案解析
- 《風(fēng)電場項目經(jīng)濟評價規(guī)范》(NB-T 31085-2016)
- 普通地質(zhì)學(xué)教材
- 高中物理必修一第六節(jié)共點力的平衡條件及其應(yīng)用課件
- 2020版曼昆版宏觀經(jīng)濟學(xué)(第十版)課件第3章
- 醫(yī)院感染管理組織架構(gòu)圖
評論
0/150
提交評論