




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》?精品課件合集《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》第一章緒論二、
數(shù)據(jù)挖掘的基本步驟
一、數(shù)據(jù)挖掘概述主要內(nèi)容三、數(shù)據(jù)挖掘的常見任務(wù)四、數(shù)據(jù)挖掘的主要工具4
為什么挖掘數(shù)據(jù)?大量數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫、數(shù)據(jù) 倉庫中。計(jì)算機(jī)越來越便宜,功能越來越強(qiáng)大。數(shù)據(jù)爆炸但知識(shí)貧乏。人們積累的數(shù)據(jù)越來越多。但是,目前這些數(shù)據(jù)還僅僅應(yīng)用在數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。一、數(shù)據(jù)挖掘概述為什么挖掘數(shù)據(jù)?數(shù)據(jù)以極快的速度收集和存儲(chǔ)(GB/hour)傳統(tǒng)的技術(shù)難以處理這些——
rawdata低價(jià)值密度的數(shù)據(jù)許多數(shù)據(jù)根本未曾分析過數(shù)據(jù)挖掘可能幫助科學(xué)家一、數(shù)據(jù)挖掘概述定義:數(shù)據(jù)、信息和知識(shí)(1)數(shù)據(jù)(Data):以文本、數(shù)字、圖形、聲音和視頻等形式對(duì)現(xiàn)實(shí)世界中的某種實(shí)體、事件或活動(dòng)的記錄,是未經(jīng)加工和修飾的原料。(2)信息(Information):是為了特定的目的,對(duì)數(shù)據(jù)進(jìn)行過濾、融合、標(biāo)準(zhǔn)化、歸類等一系列處理后得到的有價(jià)值的數(shù)據(jù)流。(3)知識(shí)(Knowledge):是通過對(duì)信息進(jìn)行歸納、演繹、提煉和總結(jié),得到的更具價(jià)值的觀點(diǎn)、規(guī)律或者方法論。一、數(shù)據(jù)挖掘概述什么是數(shù)據(jù)挖掘?定義:數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。其它名字:Knowledgediscovery(mining)indatabases(KDD),knowledgeextraction,data/patternanalysis,informationharvesting一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘的歷史演變一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘是多學(xué)科交叉領(lǐng)域利用了來自如下一些領(lǐng)域的思想:統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn)人工智能、機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論數(shù)據(jù)庫系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持此外,還包括:分布式技術(shù)、最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索等技術(shù)。MachineLearning/AIStatisticsDataMiningDatabasesystems一、數(shù)據(jù)挖掘概述
在什么樣的數(shù)據(jù)上進(jìn)行挖掘?在計(jì)算機(jī)科學(xué)中,數(shù)據(jù)是數(shù)字、文字、聲音、圖像、視頻等可以輸入到計(jì)算機(jī)并被識(shí)別的符號(hào)。如:企業(yè)運(yùn)營數(shù)據(jù)用戶數(shù)據(jù)視頻、游戲數(shù)據(jù)等從表現(xiàn)形式上:數(shù)字、文本、聲音、圖像、視頻等從數(shù)據(jù)組織和存儲(chǔ)方式上看,分為:結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)數(shù)據(jù)一、數(shù)據(jù)挖掘概述通常,數(shù)據(jù)挖掘可以在任何類型的數(shù)據(jù)上進(jìn)行,包括:關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫、高級(jí)數(shù)據(jù)庫系統(tǒng)、文本、Web、日志、圖像、視頻、語音等。
在什么樣的數(shù)據(jù)上進(jìn)行挖掘?一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)挖掘技術(shù)的應(yīng)用非常廣泛,在金融、電子商務(wù)、醫(yī)學(xué)、市場營銷、生物學(xué)、科學(xué)研究等方面均有大量應(yīng)用,例如:信貸風(fēng)險(xiǎn)管理反洗錢監(jiān)測客戶關(guān)系管理蛋白質(zhì)分子結(jié)構(gòu)預(yù)測股票交易地震預(yù)警商品推薦一、數(shù)據(jù)挖掘概述二、數(shù)據(jù)挖掘的一般流程典型的數(shù)據(jù)分析的流程:需求分析:數(shù)據(jù)分析中的需求分析也是數(shù)據(jù)分析環(huán)節(jié)的第一步和最重要的步驟之一,決定了后續(xù)的分析的方向、方法。數(shù)據(jù)獲?。簲?shù)據(jù)是數(shù)據(jù)分析工作的基礎(chǔ),是指根據(jù)需求分析的結(jié)果提取,收集數(shù)據(jù)。數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理是指對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)合并,數(shù)據(jù)清洗,數(shù)據(jù)變換和數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)變換后使得整體數(shù)據(jù)變?yōu)楦蓛粽R,可以直接用于分析建模這一過程的總稱。數(shù)據(jù)挖掘建模:通過統(tǒng)計(jì)分析、回歸分析、聚類、分類、關(guān)聯(lián)規(guī)則、智能推薦等模型與算法發(fā)現(xiàn)數(shù)據(jù)中的有價(jià)值信息,并得出結(jié)論的過程。模型評(píng)價(jià)與優(yōu)化:模型評(píng)價(jià)是指對(duì)已經(jīng)建立的一個(gè)或多個(gè)模型,根據(jù)其模型的類別,使用不同的指標(biāo)評(píng)價(jià)其性能優(yōu)劣的過程。部署:部署是指將通過了正式應(yīng)用數(shù)據(jù)分析結(jié)果與結(jié)論應(yīng)用至實(shí)際生產(chǎn)系統(tǒng)的過程。二、數(shù)據(jù)挖掘的一般流程三、數(shù)據(jù)挖掘的常見任務(wù)預(yù)測vs.描述預(yù)測(Prediction)根據(jù)其他屬性的值,預(yù)測特定屬性的值描述(Description)導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式三、數(shù)據(jù)挖掘的常見任務(wù)預(yù)測vs.描述預(yù)測(Prediction)根據(jù)其他屬性的值,預(yù)測特定屬性的值描述(Description)導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式任務(wù)類型:分類(Classification)[Predictive]回歸(Regression)[Predictive]關(guān)聯(lián)規(guī)則發(fā)現(xiàn)(AssociationRuleDiscovery)[Descriptive]聚類(Clustering)[Descriptive]異常/偏差檢測(Anomaly/DeviationDetection)[Predictive]時(shí)間序列分析(timeseriesanalysis)四、數(shù)據(jù)挖掘工具介紹
數(shù)據(jù)挖掘是一個(gè)包含多個(gè)步驟的復(fù)雜數(shù)據(jù)處理流程,在實(shí)施過程中必須依賴特定的數(shù)據(jù)挖掘工具或軟件,才能取得較好的結(jié)果。商業(yè)化的數(shù)據(jù)挖掘軟件:SAS的EnterpriseMiner,IBM的SPSSModeler,Oracle的DataMiner等開源數(shù)據(jù)挖掘軟件:Weka,RapidMiner,KNIME等基于腳本語言的工具:如Python語言,R語言等語法簡單精練。對(duì)于初學(xué)者來說,比起其他編程語言,Python更容易上手。有很強(qiáng)大的庫??梢灾皇褂肞ython這一種語言去構(gòu)建以數(shù)據(jù)為中心的應(yīng)用程序。功能強(qiáng)大。Python是一個(gè)混合體,豐富的工具集使它介于傳統(tǒng)的腳本語言和系統(tǒng)語言之間。Python不僅具備所有腳本語言簡單和易用的特點(diǎn),還提供了編譯語言所具有的高級(jí)軟件工程工具。不僅適用于研究和原型構(gòu)建,同時(shí)也適用于構(gòu)建生產(chǎn)系統(tǒng)。研究人員和工程技術(shù)人員使用同一種編程工具,會(huì)給企業(yè)帶來非常顯著的組織效益,并降低企業(yè)的運(yùn)營成本。Python是一門膠水語言。Python程序能夠以多種方式輕易地與其他語言的組件“粘接”在一起。Python數(shù)據(jù)分析主要包含以下5個(gè)方面優(yōu)勢四、數(shù)據(jù)挖掘工具介紹快速高效的多維數(shù)組對(duì)象ndarray。對(duì)數(shù)組執(zhí)行元素級(jí)的計(jì)算以及直接對(duì)數(shù)組執(zhí)行數(shù)學(xué)運(yùn)算的函數(shù)。讀寫硬盤上基于數(shù)組的數(shù)據(jù)集的工具。線性代數(shù)運(yùn)算、傅里葉變換,以及隨機(jī)數(shù)生成的功能。將C、C++、Fortran代碼集成到Python的工具。
Python數(shù)據(jù)分析常用類庫1.NumPy(NumericalPython)——
Python科學(xué)計(jì)算的基礎(chǔ)包四、數(shù)據(jù)挖掘工具介紹SciPy主要包含了8個(gè)模塊,不同的子模塊有不同的應(yīng)用,如插值、積分、優(yōu)化、圖像處理和特殊函數(shù)等。egrate數(shù)值積分例程和微分方程求解器scipy.linalg擴(kuò)展了由numpy.linalg提供的線性代數(shù)例程和矩陣分解功能scipy.optimize函數(shù)優(yōu)化器(最小化器)以及根查找算法scipy.signal信號(hào)處理工具scipy.sparse稀疏矩陣和稀疏線性系統(tǒng)求解器scipy.specialSPECFUN(這是一個(gè)實(shí)現(xiàn)了許多常用數(shù)學(xué)函數(shù)的Fortran庫)的包裝器scipy.stats檢驗(yàn)連續(xù)和離散概率分布、各種統(tǒng)計(jì)檢驗(yàn)方法,以及更好的描述統(tǒng)計(jì)法scipy.weave利用內(nèi)聯(lián)C++代碼加速數(shù)組計(jì)算的工具2.SciPy——專門解決科學(xué)計(jì)算中各種標(biāo)準(zhǔn)問題域的模塊的集合四、數(shù)據(jù)挖掘工具介紹提供了一系列能夠快速、便捷地處理結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和函數(shù)。高性能的數(shù)組計(jì)算功能以及電子表格和關(guān)系型數(shù)據(jù)庫(如SQL)靈活的數(shù)據(jù)處理功能。復(fù)雜精細(xì)的索引功能,以便便捷地完成重塑、切片和切塊、聚合及選取數(shù)據(jù)子集等操作。3.Pandas——數(shù)據(jù)訪問的核心庫四、數(shù)據(jù)挖掘工具介紹Python的2D繪圖庫,非常適合創(chuàng)建出版物上用的圖表。操作比較容易,只需幾行代碼即可生成直方圖、功率譜圖、條形圖、錯(cuò)誤圖和散點(diǎn)圖等圖形。提供了pylab的模塊,其中包括了NumPy和pyplot中許多常用的函數(shù),方便用戶快速進(jìn)行計(jì)算和繪圖。交互式的數(shù)據(jù)繪圖環(huán)境,繪制的圖表也是交互式的。4.Matplotlib——繪制數(shù)據(jù)圖表的Python庫四、數(shù)據(jù)挖掘工具介紹簡單有效,可以供用戶在各種環(huán)境下重復(fù)使用。封裝了一些常用的算法方法。基本模塊主要有數(shù)據(jù)預(yù)處理、模型選擇、分類、聚類、數(shù)據(jù)降維和回歸6個(gè),在數(shù)據(jù)量不大的情況下,scikit-learn可以解決大部分問題。5.scikit-learn——數(shù)據(jù)挖掘和數(shù)據(jù)分析工具四、數(shù)據(jù)挖掘工具介紹Python環(huán)境的安裝和配置學(xué)習(xí)編程語言的第一關(guān),就是安裝和環(huán)境配置。我們必須與計(jì)算機(jī)約定如何理解代碼、指令和語法,才能夠順利地與計(jì)算機(jī)交流,賦予它復(fù)雜的功能。Python便是其中的一種“方言”。對(duì)于新手,Python及其第三方模塊在安裝環(huán)節(jié)有許多已知的難題。比如源碼編譯的安裝方式、環(huán)境變量的配置、不同模塊之間的版本依賴問題。為了避免不必要的麻煩,我們將采用更加簡單的安裝方式。本書使用的是Python的科學(xué)計(jì)算發(fā)行版——Anaconda。
除Python本身之外,Anaconda囊括了科學(xué)計(jì)算和數(shù)據(jù)分析所需的主流模塊,獨(dú)立的包管理工具Conda,以及兩款不同風(fēng)格的編輯器Jupyter和Spyder.四、數(shù)據(jù)挖掘工具介紹預(yù)裝了大量常用Packages。完全開源和免費(fèi)。額外的加速和優(yōu)化是收費(fèi)的,但對(duì)于學(xué)術(shù)用途,可以申請免費(fèi)的License。對(duì)全平臺(tái)和幾乎所有Python版本支持。
Python的Anaconda發(fā)行版Anaconda最新版本的下載地址:/download四、數(shù)據(jù)挖掘工具介紹安裝包——“next”——“Iagree”——“AllUsers(requiresadminprivileges)”——選擇安裝路徑——“Install”——“finish”。在Wind
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年科舉考試題及答案
- 2025年國企糧油面試題及答案
- 修身·處世·悟道-百家言:原文+譯文
- 公務(wù)用車維護(hù)保養(yǎng)制度
- 2025年西湖物美測試題及答案
- 2025年醫(yī)院正科考試題及答案
- 2025年aca考試題庫及答案
- 工業(yè)機(jī)器人應(yīng)用編程練習(xí)測試題附答案
- 2025年司法雇員面試題及答案
- 2025年小學(xué)衛(wèi)生課考試題及答案
- 2024年07月江蘇銀行招考筆試歷年參考題庫附帶答案詳解
- 【MOOC】計(jì)算機(jī)組成與CPU設(shè)計(jì)實(shí)驗(yàn)-江蘇大學(xué) 中國大學(xué)慕課MOOC答案
- 2023中華護(hù)理學(xué)會(huì)團(tuán)體標(biāo)準(zhǔn)-注射相關(guān)感染預(yù)防與控制
- 醫(yī)院診斷證明書word模板
- 中藥學(xué)電子版教材
- 珍珠的質(zhì)量分級(jí)及評(píng)估
- 評(píng)審會(huì)專家意見表
- 木屋架施工方法
- 完整版16QAM星形和矩形星座圖調(diào)制解調(diào)MATLAB代碼
- 托管中心學(xué)生家長接送登記表
- 股票軟件“指南針”指標(biāo)說明
評(píng)論
0/150
提交評(píng)論