Python大數(shù)據(jù)分析 課件 第1章 Python數(shù)據(jù)分析概述_第1頁
Python大數(shù)據(jù)分析 課件 第1章 Python數(shù)據(jù)分析概述_第2頁
Python大數(shù)據(jù)分析 課件 第1章 Python數(shù)據(jù)分析概述_第3頁
Python大數(shù)據(jù)分析 課件 第1章 Python數(shù)據(jù)分析概述_第4頁
Python大數(shù)據(jù)分析 課件 第1章 Python數(shù)據(jù)分析概述_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Python數(shù)據(jù)分析概述數(shù)據(jù)分析概念1.1數(shù)據(jù)分析工具1.2Python數(shù)據(jù)分析環(huán)境1.3目錄CONTENTE第一章Python數(shù)據(jù)分析概述1.4小結(jié)本章要點(diǎn)1.熟悉數(shù)據(jù)分析的相關(guān)概念。2.了解數(shù)據(jù)分析的應(yīng)用。3.了解Python在數(shù)據(jù)分析領(lǐng)域的優(yōu)勢。4.屬性Python數(shù)據(jù)分析常用的類庫。5.掌握Python數(shù)據(jù)分析的類庫安裝。6.掌握J(rèn)upyterNotebook的基本使用。Python第一章Python數(shù)據(jù)分析概念引言

隨著科技的發(fā)展,各行各業(yè)產(chǎn)生的數(shù)據(jù)量呈現(xiàn)指數(shù)級增長,如何管理和使用這些數(shù)據(jù),逐漸成為數(shù)據(jù)科學(xué)領(lǐng)域中一個(gè)重要課題。近年來Python語言發(fā)展迅猛,為數(shù)據(jù)分析提供了極其優(yōu)秀的工具,并快速成為數(shù)據(jù)科學(xué)領(lǐng)域的主要語言之一,越來越多的數(shù)據(jù)分析師在工作中采用Python技術(shù)。Python第一章Python數(shù)據(jù)分析概念數(shù)據(jù)分析概念1.1Python第一章Python數(shù)據(jù)分析概述1.1.1數(shù)據(jù)分析數(shù)據(jù)分析是指選用適當(dāng)?shù)姆治龇椒▽κ占瘉淼拇罅繑?shù)據(jù)進(jìn)行分析、提取有用信息和形成結(jié)論,對數(shù)據(jù)加以詳細(xì)的研究和概括總結(jié)的過程。廣義的數(shù)據(jù)分析包括狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘兩部分。狹義數(shù)據(jù)分析是指根據(jù)分析目的,采用對比分析、分組分析、交叉分析和回歸分析等分析方法,對收集的數(shù)據(jù)進(jìn)行處理與分析,提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用,得到一個(gè)特征統(tǒng)計(jì)量結(jié)果的過程。數(shù)據(jù)挖掘則是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,通過應(yīng)用聚類模型、分類模型、回歸和關(guān)聯(lián)規(guī)則等技術(shù),挖掘潛在價(jià)值的過程。數(shù)據(jù)分析的目的是把隱藏在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對象的內(nèi)在規(guī)律,并加以利用,從而創(chuàng)建經(jīng)濟(jì)和社會價(jià)值。Python第一章Python數(shù)據(jù)分析概念Python第一章Python數(shù)據(jù)分析概念數(shù)據(jù)分析已經(jīng)逐漸演化為一種解決問題的過程,典型的數(shù)據(jù)分析流程如下所述。1.1.2

數(shù)據(jù)分析流程Python第一章Python數(shù)據(jù)分析概念1.需求分析需求分析的主要內(nèi)容是根據(jù)數(shù)據(jù)分析需求方的要求和實(shí)際情況,結(jié)合現(xiàn)有的數(shù)據(jù)情況,提出數(shù)據(jù)分析需求的整體分析方向、分析內(nèi)容,最終和需求方達(dá)成一致意見。1.1.2

數(shù)據(jù)分析流程Python第一章Python數(shù)據(jù)分析概念2.數(shù)據(jù)獲取數(shù)據(jù)獲取是根據(jù)與需求分析的結(jié)果提取、收集數(shù)據(jù)。數(shù)據(jù)獲取主要有兩種方式:網(wǎng)絡(luò)數(shù)據(jù)與本地?cái)?shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)是指存儲在互聯(lián)網(wǎng)中的各類視頻、圖片、語言和文字等信息;本地?cái)?shù)據(jù)則是指存儲在本地?cái)?shù)據(jù)庫中的數(shù)據(jù)。本地?cái)?shù)據(jù)按照數(shù)據(jù)時(shí)間又可以劃分為兩部分:歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)。歷史數(shù)據(jù)是指系統(tǒng)在運(yùn)行過程中遺存下來的數(shù)據(jù),其數(shù)據(jù)隨系統(tǒng)運(yùn)行時(shí)間的增加而增長;實(shí)時(shí)數(shù)據(jù)是指最近一個(gè)單位周期內(nèi)產(chǎn)生的數(shù)據(jù)。1.1.2

數(shù)據(jù)分析流程Python第一章Python數(shù)據(jù)分析概念3.數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是指對數(shù)據(jù)進(jìn)行數(shù)據(jù)合并、數(shù)據(jù)清洗和數(shù)據(jù)變換,并直接用于分析建模的這一過程的總稱。其中,數(shù)據(jù)合并可以將多張相互關(guān)聯(lián)的表格合并成為一張;數(shù)據(jù)清洗可以處理重復(fù)值、缺失值和異常值;數(shù)據(jù)變換可以通過一定規(guī)則把原始數(shù)據(jù)進(jìn)行為適合分析的形式,滿足后期分析與建模的數(shù)據(jù)要求。1.1.2

數(shù)據(jù)分析流程Python第一章Python數(shù)據(jù)分析概念4.分析與建模分析與建模是指通過對比分析、分組分析、交叉分析、回歸分析等分析方法,以及聚類模型、分類模型、關(guān)聯(lián)模型等模型與算法,發(fā)現(xiàn)數(shù)據(jù)中有價(jià)值信息,并得出結(jié)論的過程。分析與建模的方法按照目標(biāo)不同可以劃分幾大類。如果分析目標(biāo)是描述行為模式的,可采用描述性數(shù)據(jù)分析方法,同時(shí)還可以考慮關(guān)聯(lián)規(guī)則、序列規(guī)則和聚類模型等。如果分析目標(biāo)是量化未來一段時(shí)間內(nèi)某個(gè)時(shí)間發(fā)生概率的,則可以使用分類預(yù)測模型和回歸預(yù)測模型。1.1.2

數(shù)據(jù)分析流程Python第一章Python數(shù)據(jù)分析概念5.模型評價(jià)與優(yōu)化模型評價(jià)是指對于已經(jīng)建立的模型,根據(jù)其模型的類別,使用不同指標(biāo)評價(jià)其性能優(yōu)劣的過程。常用的聚類模型評價(jià)方法有ARI評價(jià)法(蘭特系數(shù))、AMI評價(jià)(互信息)、V-measure評分等。常用的分類模型評價(jià)方法有準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)等。常用的回歸模型評價(jià)指標(biāo)有平均絕對誤差、均方誤差、中值絕對誤差等。模型優(yōu)化則是指模型在經(jīng)過模型評價(jià)后已經(jīng)達(dá)到了要求,但在實(shí)際生產(chǎn)環(huán)境應(yīng)用中,發(fā)現(xiàn)模型并不理想,繼而對模型進(jìn)行重構(gòu)與優(yōu)化的過程。1.1.2

數(shù)據(jù)分析流程Python第一章Python數(shù)據(jù)分析概念6.部署部署是指將數(shù)據(jù)分析結(jié)果與結(jié)論應(yīng)用至實(shí)際生產(chǎn)系統(tǒng)的過程。1.1.2

數(shù)據(jù)分析流程1.1.3數(shù)據(jù)分析應(yīng)用Python第一章Python數(shù)據(jù)分析概念數(shù)據(jù)分析可以解決大量的實(shí)際問題,已經(jīng)應(yīng)用于各行各業(yè),并取得了很好的效果。1.客戶與營銷分析客戶分析是根據(jù)客戶的基本數(shù)據(jù)進(jìn)行的商業(yè)行為分析比如根據(jù)客戶的需求、所處行業(yè)的特征以及客戶的經(jīng)濟(jì)情況等,使用統(tǒng)計(jì)分析方法和預(yù)測驗(yàn)證法分析目標(biāo)客戶,提高銷售效率;根據(jù)已有的客戶特征進(jìn)行客戶特征分析、忠誠度分析和客戶收益分析等。營銷分析囊括了產(chǎn)品分析、價(jià)格分析、渠道分析、廣告與促銷分析。產(chǎn)品分析主要是競爭產(chǎn)品分析,通過對競爭產(chǎn)品分析制定自身產(chǎn)品策略。價(jià)格分析又可以分為成本分析和售價(jià)分析。成本分析的目的是降低不必要的成本;售價(jià)分析的目的是制定符合市場的價(jià)格。渠道分析是指對產(chǎn)品的銷售渠道進(jìn)行分析,確定最優(yōu)的渠道配比。廣告與促銷分析則能夠結(jié)合客戶分析,實(shí)現(xiàn)銷量的提升、利潤的增加。1.1.3數(shù)據(jù)分析應(yīng)用Python第一章Python數(shù)據(jù)分析概念2.業(yè)務(wù)流程優(yōu)化數(shù)據(jù)分析可以幫助企業(yè)優(yōu)化業(yè)務(wù)流程,比如可以通過業(yè)務(wù)系統(tǒng)和GPS定位系統(tǒng)獲得數(shù)據(jù),使用數(shù)據(jù)構(gòu)建交通狀況預(yù)測分析模型,有效預(yù)測實(shí)時(shí)路況、物流狀況、車流量、客流量和貨物吞吐量,進(jìn)而提前補(bǔ)貨,制定庫存管理策略和路線優(yōu)化;人力資源業(yè)務(wù)可以通過數(shù)據(jù)分析來優(yōu)化人才招聘;交通部門可以在數(shù)據(jù)分析的基礎(chǔ)上建立智能化交管方案降低高峰時(shí)段的路線擁堵情況。1.1.3數(shù)據(jù)分析應(yīng)用Python第一章Python數(shù)據(jù)分析概念3.完善執(zhí)法利用傳感器、閉路電視安裝并接入中央云數(shù)據(jù)庫、車牌識別、語音識別、犯罪嫌疑人及罪犯GPS追蹤等數(shù)據(jù)分析,實(shí)現(xiàn)智能警務(wù);監(jiān)控并識別異?;顒?、行為或事故,加快決策制定速度并防止及減少犯罪事件;通過分類模型分析方法對非法集資和洗錢的邏輯路徑進(jìn)行分析,找到其行為特征,聚類模型分析方法可以分析相似價(jià)格的運(yùn)動模式,可能發(fā)現(xiàn)關(guān)聯(lián)交易及內(nèi)幕交易的可疑信息,關(guān)聯(lián)規(guī)則分析方法可以監(jiān)控多個(gè)用戶的關(guān)聯(lián)交易行為,為發(fā)現(xiàn)跨賬號協(xié)同的金融欺騙行為提供依據(jù)。1.1.3數(shù)據(jù)分析應(yīng)用Python第一章Python數(shù)據(jù)分析概念4.網(wǎng)絡(luò)安全新型的病毒防御系統(tǒng)可使用數(shù)據(jù)分析技術(shù),建立潛在攻擊識別分析模型,檢測大量網(wǎng)絡(luò)活動數(shù)據(jù)和相應(yīng)的訪問行為,識別可能進(jìn)行入侵的可疑模式,做到未雨綢繆。1.1.3數(shù)據(jù)分析應(yīng)用Python第一章Python數(shù)據(jù)分析概念5.優(yōu)化機(jī)器和設(shè)備性能通過物聯(lián)網(wǎng)技術(shù)收集和分析設(shè)備上的數(shù)據(jù)流,包括連續(xù)用電、零部件溫度、環(huán)境濕度和污染物顆粒等多種潛在特征,建立設(shè)備管理模型,從而預(yù)測設(shè)備故障,合理安排預(yù)防性的維護(hù),以確保設(shè)備正常作業(yè),降低因設(shè)備故障帶來的安全風(fēng)險(xiǎn)。1.1.3數(shù)據(jù)分析應(yīng)用Python第一章Python數(shù)據(jù)分析概念6.改善日常生活利用穿戴的裝備生成最新的數(shù)據(jù),根據(jù)熱量的消耗以及睡眠模式來進(jìn)行追蹤;交友網(wǎng)站利用數(shù)據(jù)分析工具來幫助需要的人匹配合適的對象;基于城市實(shí)時(shí)交通信息、利用社交網(wǎng)絡(luò)和天氣數(shù)據(jù)來優(yōu)化最新的交通情況。1.1.3數(shù)據(jù)分析應(yīng)用Python第一章Python數(shù)據(jù)分析概念7.醫(yī)療衛(wèi)生與生命科學(xué)利用遠(yuǎn)程醫(yī)療監(jiān)控能夠簡化醫(yī)護(hù)人員訪問并分析病患醫(yī)療記錄的流程,從而確保病人得到有效診療并降低不必要的成本;臨床數(shù)據(jù)流分析能夠順利識別出異?;蛘哳A(yù)料之外的行為或者表現(xiàn),從而輔助做出更準(zhǔn)確的診斷意見;實(shí)時(shí)傳感器數(shù)據(jù)分析有助于檢測傳染病的暴發(fā)可能性,并通過早期預(yù)警系統(tǒng)提示預(yù)防及準(zhǔn)備;數(shù)據(jù)分析應(yīng)用能夠在幾分鐘內(nèi)解碼整個(gè)DNA,從而制定出更科學(xué)的治療方案,甚至對疾病進(jìn)行預(yù)測,達(dá)到疾病預(yù)防的目的。數(shù)據(jù)分析工具1.2Python第一章Python數(shù)據(jù)分析概述Python第一章Python數(shù)據(jù)分析概念隨著云計(jì)算、大數(shù)據(jù)以及人工智能技術(shù)的快速發(fā)展,Python及其開發(fā)生態(tài)環(huán)境正在受到越來越多的關(guān)注。Python已經(jīng)成為了計(jì)算機(jī)世界最重要的語言之一,更是數(shù)據(jù)分析的首選語言1.2.1常用工具Python第一章Python數(shù)據(jù)分析概念主流數(shù)據(jù)分析語言有Python、R、MATLAB。Python具有豐富和強(qiáng)大的類庫能夠把其他語言模塊很輕松的連接在一起,是一門易學(xué)易用的程序設(shè)計(jì)語言。R語言主要用于統(tǒng)計(jì)分析、繪圖等,它屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件。MATLAB的作用是進(jìn)行矩陣運(yùn)算、回執(zhí)函數(shù)與數(shù)據(jù)、實(shí)現(xiàn)算法、創(chuàng)建用戶界面和連接其他編程語言的程序等,主要應(yīng)用于工程計(jì)算、控制設(shè)計(jì)、信號處理與通信、圖像處理、信號檢測、金融建模設(shè)計(jì)與分析等領(lǐng)域。1.2.1常用工具Python第一章Python數(shù)據(jù)分析概念Python、R和MATLAB數(shù)據(jù)分析工具對比如表1-1所示。表1-1Python、R和MATLAB對比

PythonRMATLAB難易程度接口統(tǒng)一,學(xué)習(xí)曲線平緩接口眾多,學(xué)習(xí)曲線陡峭自由度大,學(xué)習(xí)曲線較為平緩使用場景數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、矩陣運(yùn)算、科學(xué)可視化、數(shù)字圖像處理、Web應(yīng)用、網(wǎng)絡(luò)爬蟲、系統(tǒng)運(yùn)維等統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、科學(xué)數(shù)據(jù)可視化矩陣預(yù)算、數(shù)值分析、科學(xué)數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)、符號計(jì)算、數(shù)字圖像處理、數(shù)字信號處理、仿真模擬等第三方支持擁有大量的第三方庫,能夠簡便的調(diào)用C、C++、Java等其他語言擁有大量的包,能夠調(diào)用C、C++、Java等其他語言擁有大量專業(yè)的工具箱,在新版本中加入了對C、C++、Java的支持流行領(lǐng)域工業(yè)界>學(xué)術(shù)界工業(yè)界≈學(xué)術(shù)界工業(yè)界≤學(xué)術(shù)界軟件成本開源免費(fèi)開源免費(fèi)商業(yè)收費(fèi)1.2.2Python數(shù)據(jù)分析Python第一章Python數(shù)據(jù)分析概念Python是一門應(yīng)用十分廣泛的計(jì)算機(jī)編程語言,在數(shù)據(jù)科學(xué)領(lǐng)域具有無可比擬的優(yōu)勢,逐漸成為數(shù)據(jù)科學(xué)領(lǐng)域的主流語言,Python數(shù)據(jù)分析具有5個(gè)方面優(yōu)勢。1.語法簡單精煉。比起其他編程語言,Python更容易學(xué)習(xí)和使用。2.功能強(qiáng)大的庫。大量優(yōu)秀好用的第三方庫,擴(kuò)充了Python功能,提升了Python的能力,使Python如虎添翼。3.功能強(qiáng)大。Python是一個(gè)混合體,豐富的工具使它介于傳統(tǒng)的腳本語言和系統(tǒng)語言之間。Python不僅具備簡單易用的特點(diǎn),還提供了編譯語言所具有的軟件工程能力。4.不僅適用于研究和原型構(gòu)建,同時(shí)也適用于構(gòu)建生產(chǎn)系統(tǒng)。研究人員和工程技術(shù)人員使用同一種編程工具,會給企業(yè)帶來顯著的組織效益,并降低企業(yè)的運(yùn)營成本。1.2.2Python數(shù)據(jù)分析Python第一章Python數(shù)據(jù)分析概念5.Python是一門膠水語言。Python程序能夠以多種方式輕易地與其他語言的組件“粘接”在一起,例如Python的C語言API可以幫助Python程序靈活地調(diào)用C程序。因此可以根據(jù)需要給Python程序添加功能,或者其他環(huán)境系統(tǒng)中使用Python。1.2.2Python數(shù)據(jù)分析Python第一章Python數(shù)據(jù)分析概念1.NumPyNumPy是NumericalPython的簡稱,是Python語言的一個(gè)科學(xué)計(jì)算的擴(kuò)展程序庫,支持大量的多維度數(shù)組與矩陣運(yùn)算,此外也針對數(shù)組運(yùn)算提供大量的數(shù)學(xué)函數(shù)庫。NumPy主要提供以下內(nèi)容。(1)快速高效的多維數(shù)組對象ndarray。(2)廣播功能函數(shù),廣播是一種對數(shù)組執(zhí)行數(shù)學(xué)運(yùn)算的函數(shù),其執(zhí)行的是元素級計(jì)算。廣播提供了算術(shù)運(yùn)算期間處理不同形狀的數(shù)組的能力。(3)讀/寫硬盤上基于數(shù)組的數(shù)組集的工具。(4)線性代數(shù)運(yùn)算、傅里葉變換及隨機(jī)數(shù)生成的功能。(5)將C、C++、Fortran代碼集成到Python的工具。1.2.2Python數(shù)據(jù)分析Python第一章Python數(shù)據(jù)分析概念除了為Python提供快速的數(shù)組處理能力外,NumPy在數(shù)據(jù)分析方面還有另外一個(gè)主要的作用,即作為算法之間傳遞數(shù)據(jù)的容器。對于數(shù)值型數(shù)據(jù),使用NumPy數(shù)組存儲和處理數(shù)據(jù)要比使用內(nèi)置的Python數(shù)據(jù)結(jié)構(gòu)高效的多。此外,有低級語言(比如C語言)編寫的庫可以直接操作NumPy數(shù)組中數(shù)據(jù),無須進(jìn)行任何數(shù)據(jù)復(fù)制工作。1.2.2Python數(shù)據(jù)分析Python第一章Python數(shù)據(jù)分析概念2.PandasPandas是Python的數(shù)據(jù)分析核心庫,最初被作為金融數(shù)據(jù)分析工具而開發(fā)出來。Pandas為時(shí)間序列分析提供了很好的支持。Pandas納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具,提供一系列能夠快速、便捷地處理結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)和函數(shù)。Python之所以成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境與它息息相關(guān)。Pandas兼具NumPy高性能的數(shù)組計(jì)算功能以及電子表格和關(guān)系型數(shù)據(jù)庫(如SQL)的靈活數(shù)據(jù)處理功能,它提供了復(fù)雜精細(xì)的索引功能,以便便捷地完成重塑、切片和切換、聚合及選取數(shù)據(jù)子集等操作。1.2.2Python數(shù)據(jù)分析Python第一章Python數(shù)據(jù)分析概念3.MatplotlibMatplotlib是最流行的用于繪制數(shù)據(jù)圖形的Python庫,它以各種硬拷貝格式和跨平臺的交互式環(huán)境生成出高質(zhì)量的圖形。Matplotlib最初由JohnD.Hunter創(chuàng)建,目前由一個(gè)龐大的開發(fā)團(tuán)隊(duì)維護(hù)。Matplotlib的操作比較容易,只需要幾行代碼即可生成線形圖、散點(diǎn)圖、直方圖、條形圖和箱圖等,甚至可以繪制三維圖形。1.2.2Python數(shù)據(jù)分析Python第一章Python數(shù)據(jù)分析概念4.SklearnSklearn(Scikit-Learn)是一個(gè)簡單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,可以提供用戶在各種環(huán)境下重復(fù)使用。而且Scikit-learn建立在NumPy、SciPy和Matplotlib基礎(chǔ)之上,對一些常用的算法進(jìn)行了封裝。目前,Sklearn的基本模塊主要有數(shù)據(jù)預(yù)處理、模型選擇、分類、聚類、數(shù)據(jù)降維和回歸6個(gè)。在數(shù)據(jù)量不大的情況下,Sklearn可以解決大部分問題。對算法不精通的用戶在執(zhí)行建模任務(wù)時(shí),并不需要自行編寫所有算法,只需要簡單地調(diào)用Sklearn庫里的模塊就可以。Python數(shù)據(jù)分析環(huán)境1.3Python第一章Python數(shù)據(jù)分析概述Python第一章Python數(shù)據(jù)分析概念Python數(shù)據(jù)分析環(huán)境的搭建包括Python安裝以及多個(gè)第三方庫的安裝。先安裝Python,再分別安裝需要的第三方庫。讀者如果想省事,也可以采用安裝Anaconda的方式簡化安裝。Anaconda包含了本書使用的所有第三方庫,有興趣的讀者也可以自行安裝Anaconda。因?yàn)楸緯褂玫拈_發(fā)環(huán)境并不復(fù)雜,因此沒有使用Anaconda。注意:安裝過程需要網(wǎng)絡(luò),因?yàn)樾枰认螺d再安裝。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念1.安裝Python本書讀者應(yīng)該具備Python基礎(chǔ),因此不在累述Python的安裝。注意:在安裝Python時(shí),一定要同時(shí)安裝Pip,否則下邊的安裝都無法進(jìn)行。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念(1)安裝第三方數(shù)據(jù)分析庫第三方庫的安裝使用pip3命令,如右所示pip3installnumpypip3installscipypip3installmatplotlibpip3installsklearnpip3installxlrdpip3installopenpyxlpip3installseaborn1.3Python數(shù)據(jù)分析環(huán)境2.安裝數(shù)據(jù)分析庫Python第一章Python數(shù)據(jù)分析概念(2)檢查安裝安裝后,可以在Python環(huán)境中使用導(dǎo)入檢查是否安裝成功。importnumpyasnpimportmatplotlibaspltimportpandasaspdimportsklearn.datasetsimportds如果需要的類庫沒有安裝,則會提示模塊不存在,如果沒有錯(cuò)誤提示,則說明安裝成功1.3Python數(shù)據(jù)分析環(huán)境2.安裝數(shù)據(jù)分析庫Python第一章Python數(shù)據(jù)分析概念(2)檢查安裝安裝后,可以在Python環(huán)境中使用導(dǎo)入檢查是否安裝成功。importnumpyasnpimportmatplotlibaspltimportpandasaspdimportsklearn.datasetsimportds如果需要的類庫沒有安裝,則會提示模塊不存在,如果沒有錯(cuò)誤提示,則說明安裝成功1.3Python數(shù)據(jù)分析環(huán)境2.安裝數(shù)據(jù)分析庫Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用JupyterNotebook是IPythonNotebook的繼承者,是一個(gè)交互式筆記本,支持運(yùn)行40多種編程語言。它本質(zhì)上是一個(gè)支持實(shí)施代碼、數(shù)學(xué)方程、可視化和Markdown的Web應(yīng)用程序。對于數(shù)據(jù)分析,JupyterNotebook最大的優(yōu)點(diǎn)是可以重現(xiàn)整個(gè)分析過程,并將說明文字、代碼、圖表、公式和結(jié)論都整合在一個(gè)文檔中。用戶可以通過電子郵件、Dropbox、GitHub和JupyterNotebookViewer將分析結(jié)果分享給其他人1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用JupyterNotebook是一個(gè)非常強(qiáng)大的工具,常用于交互式地開發(fā)和展示數(shù)據(jù)科學(xué)項(xiàng)目。它將代碼和它的輸出集成到一個(gè)文檔中,并且結(jié)合了可視的敘述性文本、數(shù)學(xué)方程和其他豐富的媒體。它直觀的工作流促進(jìn)了迭代和快速的開發(fā),使得Jypyternotebook在當(dāng)代數(shù)據(jù)科學(xué)、分析和越來越多的科學(xué)研究中越來越受歡迎。最重要的是,作為開源項(xiàng)目,它是完全免費(fèi)的。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用(1)安裝JupyterNotebook使用如下命令安裝JupyterNotebook。pip3installjupyter(2)啟動JupyterNotebook注意:JupyterNotebook在啟動后只允許訪問啟動目錄中包含的文件(包括子目錄中包含的文件),并且在JupyterNotebook中創(chuàng)建的文件也保存在啟動目錄中,在啟動JupyterNotebook之前需要修改當(dāng)前目錄。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用其中JupyterNotebook之前先做準(zhǔn)備工作。(a)創(chuàng)建目錄(文件夾)。比如在D盤下創(chuàng)建notebook文件夾。(b)改變系統(tǒng)的當(dāng)前目錄,把當(dāng)前目錄更改為創(chuàng)建的目錄(文件夾)。準(zhǔn)備工作完成后,開始啟動JupyterNotebook。在Windows系統(tǒng)下的命令行或者在Linux系統(tǒng)下的終端輸入了命令“Jupyternotebook”后回車即可啟動JupyterNotebook。啟動后會自動打開系統(tǒng)默認(rèn)的瀏覽器,瀏覽器自動展示JupyterNotebook的界面。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用推薦使用Chrome瀏覽器,讀者可以在啟動JupyterNotebook之前,設(shè)置操作系統(tǒng)的默認(rèn)瀏覽器。啟動后瀏覽器地址欄顯示:http://localhost:8888/tree。其中l(wèi)ocalhost不是一個(gè)網(wǎng)站,而是表示從你的本地機(jī)器中服務(wù)的內(nèi)容。JupyterNotebook是Web應(yīng)用程序,它啟動了一個(gè)本地的Python服務(wù)器,將這些應(yīng)用程序提供給你的Web瀏覽器,使其從根本上獨(dú)立于平臺,并具有Web上共享的優(yōu)勢。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用(3)新建一個(gè)Notebook打開JupyterNotebook以后會在系統(tǒng)默認(rèn)的瀏覽器中出現(xiàn)JupyterNotebook的界面(Home)。單擊右邊上方的“New”下拉按鈕,出現(xiàn)下拉列表,選擇“Python3”選項(xiàng),進(jìn)入Python腳本編輯界面。下拉列表中是創(chuàng)建的Notebook類型,其中,“TextFile”為純文本型,“Folder”為文件夾,“Python3”表示Python運(yùn)行腳本,灰色字體表示不可用項(xiàng)目。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用(4)JupyterNotebook界面JupyterNoteBook文檔由一系列單元(Cell)構(gòu)成,單元有兩種形式。①代碼單元。代碼單元是編寫代碼的地方,代碼單元左邊有“In[]:”符號,編寫代碼后,單擊界面上方的工具類中的“運(yùn)行”按鈕,執(zhí)行程序,其結(jié)果會在對應(yīng)代碼單元的下方顯示。②Markdown單元。Markdown單元對文本進(jìn)行編輯,采用Markdown語法規(guī)范,可以設(shè)置文本格式,插入鏈接、圖片甚至數(shù)學(xué)公式。Markdown也可以運(yùn)行,運(yùn)行后顯示格式化的文本(原文本被替代)。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用(5)JupyterNotebook兩種模式在JupyterNotebook中有兩種模式。①編輯模式。用于編輯文本和代碼。對于Markdown單元,選中單元并按“Enter”鍵(或者雙擊)進(jìn)入編輯模式;對于代碼單元,選中單元后直接進(jìn)入編輯模式。編輯模式的單元左側(cè)顯示綠色豎線。②命令模式。命令模式用于執(zhí)行鍵盤輸入的快捷命令,在編輯模式下通過按“Esc”鍵進(jìn)入命令模式。命令模式的單元左側(cè)顯示藍(lán)色豎線。注意:在命令模式下,才能使用快捷鍵。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用(6)檢查點(diǎn)當(dāng)創(chuàng)建一個(gè)新的Notebook時(shí),JupyterNotebook都會創(chuàng)建一個(gè)檢查點(diǎn)文件和一個(gè)Notebook文件;它將位于保存位置的隱藏子目錄中,稱作.ipynb_checkpoints,也是一個(gè).ipynb文件。默認(rèn)情況下,Jupyter將每隔120秒自動保存Notebook,而不會改變你的主Notebook文件。當(dāng)你“保存和檢查點(diǎn)”時(shí),Notebook和檢查點(diǎn)文件都將被更新。因此檢查點(diǎn)能夠在發(fā)生意外事件時(shí)恢復(fù)未保存的工作,通過菜單“File>ReverttoCheckpoint”恢復(fù)到檢查點(diǎn)。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用(7)MarkdownMarkdown是一種輕量級的、易于學(xué)習(xí)的可以使用普通文本編輯器編寫的標(biāo)記語言,通過簡單的標(biāo)記語法,它可以使普通文本內(nèi)容具有一定的格式。JupyterNotebook的Markdown單元作為基礎(chǔ)的Markdown的功能更加強(qiáng)大,下面將從標(biāo)題、列表、字體、表格和數(shù)學(xué)公式編輯5個(gè)方面進(jìn)行介紹。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用①標(biāo)題標(biāo)題是標(biāo)明文章和作品等內(nèi)容的簡短語句,在行前加一個(gè)“#”字符代表一級標(biāo)題,加兩個(gè)“#”字符代表二級標(biāo)題,以此類推。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用②列表列表是一種有數(shù)據(jù)項(xiàng)構(gòu)成的有限序列,即按照一定的線性順序排列而成的數(shù)據(jù)項(xiàng)的集合。列表一般分為兩種:一種是無序列表,使用一些圖標(biāo)標(biāo)記,沒有序號,沒有排列順序;另一種是有序列表,使用數(shù)字標(biāo)記,有排列順序。Markdown對于無序列表,可使用星號、加號或者減號作為列表標(biāo)記;Markdown對于有序列表,則使用數(shù)字“.”“”(一個(gè)空格)表示。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用③字體文檔中為了凸顯部分內(nèi)容,一般對文字的使用加粗或斜體格式,使得該部分內(nèi)容變得更加醒目。對于Markdown排版工具而言,通常使用星號“*”和下劃線“_”作為標(biāo)記字詞的符號。前面有兩個(gè)星號或下劃線表示加粗,前后有3個(gè)星號或下劃線表示斜體。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用④表格使用Markdown同樣也可以繪制表格。代碼的第一行表示表頭。第二行分隔表頭和主體部分。從第三行開始,每一行代表一個(gè)表格行。列與列之間用符號“|”隔開,表格的一行兩邊也要有符號“|”。⑤數(shù)學(xué)公式編輯在JupyterNotebook的Markdown的單元中也可以是使用LaTeX來插入數(shù)學(xué)公式。在文本行中插入數(shù)學(xué)公式,應(yīng)使用兩個(gè)“$”符號。如果要插入一個(gè)數(shù)學(xué)區(qū)塊,則使用兩個(gè)“$$”。1.3Python數(shù)據(jù)分析環(huán)境Python第一章Python數(shù)據(jù)分析概念3.JupyterNotebook的使用(8)導(dǎo)出功能Notebook可以導(dǎo)出多種格式,例如HTML、Markdown、reST、PDF等格式。導(dǎo)出功能可通過選擇“File”→“Downloadsas”級聯(lián)菜單中的命令實(shí)現(xiàn)。1.3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論