數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)(微課版)PPT完整全套教學(xué)課件_第1頁
數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)(微課版)PPT完整全套教學(xué)課件_第2頁
數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)(微課版)PPT完整全套教學(xué)課件_第3頁
數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)(微課版)PPT完整全套教學(xué)課件_第4頁
數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)(微課版)PPT完整全套教學(xué)課件_第5頁
已閱讀5頁,還剩144頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)第一章:數(shù)據(jù)分析概述目錄CONTENTS數(shù)據(jù)分析的基礎(chǔ)知識01數(shù)據(jù)分析的流程02常用的數(shù)據(jù)分析方法03數(shù)據(jù)分析道德與職業(yè)原則04一PART.01數(shù)據(jù)分析的基礎(chǔ)知識數(shù)據(jù)分析的定義概念:數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用理解:數(shù)據(jù)分析就是將隱藏在看似雜亂無章、平凡普通的數(shù)據(jù)背后的信息提煉出來,總結(jié)出所研究對象的規(guī)律。在實際工作中,也許一個小小的數(shù)據(jù)分析結(jié)論可能會對公司未來的戰(zhàn)略和決策發(fā)揮重要的積極作用,能夠幫助企業(yè)扭虧為盈甚至力挽狂瀾數(shù)據(jù)分析的分類數(shù)據(jù)分析描述性數(shù)據(jù)分析探索性數(shù)據(jù)分析驗證性數(shù)據(jù)分析描述性數(shù)據(jù)分析: 主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布,以及一些基本的統(tǒng)計圖形探索性數(shù)據(jù)分析: 側(cè)重在數(shù)據(jù)之中發(fā)現(xiàn)新的特征驗證性數(shù)據(jù)分析: 側(cè)重于驗證已有假設(shè)的真?zhèn)巫C明數(shù)據(jù)分析的用處用數(shù)據(jù)監(jiān)控現(xiàn)狀: 說明企業(yè)的目前生產(chǎn)狀況如何、銷售狀況如何、財務(wù)狀況如何,利用同比環(huán)比等手段說明目前企業(yè)的哪些指標(biāo)好、哪些指標(biāo)不好、哪些指標(biāo)還可以等等 通過日常通報來完成,如日報、周報、月報等形式數(shù)據(jù)分析的用處用數(shù)據(jù)分析原因 就是要說明某一現(xiàn)狀發(fā)生的原因是什么,即為什么銷量會下滑、為什么利潤會上升等 原因分析一般通過專題分析來完成數(shù)據(jù)分析的用處用數(shù)據(jù)預(yù)測未來 基于原因分析企業(yè)決定做出某種決策,在某個時間范圍內(nèi)會產(chǎn)生什么樣的影響呢,此時需要進行相應(yīng)的預(yù)測分析 預(yù)測分析一般也是通過專題分析來完成,通常在制訂企業(yè)年度、季度等計劃時進行,其開展的頻率沒有現(xiàn)狀分析及原因分析高數(shù)據(jù)分析的工具數(shù)據(jù)分析工具特點Python免費開源的軟件;適合于數(shù)據(jù)分析,機器學(xué)習(xí),深度學(xué)習(xí),還能進行網(wǎng)站開發(fā),爬蟲等;學(xué)習(xí)成本較高。R免費開源的軟件;適用于統(tǒng)計分析和統(tǒng)計制圖的優(yōu)秀工具;學(xué)習(xí)成本較高。SPSS分析結(jié)果清晰、直觀、易學(xué)易用;可以直接讀取EXCEL及DBF數(shù)據(jù)文件;學(xué)習(xí)成本一般。TableauTableau的可視化效果好,為用戶提供操作和視覺上的終極體驗;還增加了數(shù)據(jù)清洗功能和更智能的分析功能;學(xué)習(xí)成本一般。Excel使用范圍廣泛;用戶基數(shù)龐大;具備多種強大功能,比如創(chuàng)建表單,數(shù)據(jù)透視表,VBA等;數(shù)據(jù)分析初學(xué)者的必備工具;學(xué)習(xí)成本低。Excel工具看似基礎(chǔ),實則功能強大,可以完成數(shù)據(jù)處理、數(shù)據(jù)可視化、數(shù)據(jù)建模等很多工作二PART.02數(shù)據(jù)分析的流程數(shù)據(jù)分析的流程數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)整理數(shù)據(jù)可視化模型建立數(shù)據(jù)分析報告撰寫數(shù)據(jù)采集企業(yè)內(nèi)部數(shù)據(jù)庫 數(shù)據(jù)質(zhì)量高,真實性強公開數(shù)據(jù)庫 范圍廣、類型多電子商務(wù)數(shù)據(jù) 對于研究產(chǎn)品、決斷市場具有天然的優(yōu)勢市場調(diào)查數(shù)據(jù) 目的性好,針對性強數(shù)據(jù)清洗數(shù)據(jù)清洗是對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性重復(fù)數(shù)據(jù)處理缺失值處理錯誤數(shù)據(jù)處理數(shù)據(jù)整理數(shù)據(jù)整理是根據(jù)清洗后的數(shù)據(jù)及數(shù)據(jù)分析目標(biāo)對數(shù)據(jù)進行加工處理,對雜亂無序的數(shù)據(jù)根據(jù)需要進行排序、篩選、有條件透視等操作數(shù)據(jù)整理需要依據(jù)現(xiàn)有數(shù)據(jù)增加新的指標(biāo)維度數(shù)據(jù)抽取數(shù)據(jù)分組數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)抽樣數(shù)據(jù)可視化數(shù)據(jù)可視化的原則是能用圖來說明問題就不用表格,能用表格來說明問題就不用文本。在使用圖來展現(xiàn)數(shù)據(jù)時,需要注意數(shù)據(jù)類型與圖類型之間對應(yīng)的使用規(guī)律,即什么類型的數(shù)據(jù)對應(yīng)什么類型的統(tǒng)計圖單變量 定性變量 定量變量雙變量 定性變量+定量變量 定性變量+定性變量 定量變量+定量變量數(shù)據(jù)分析報告撰寫結(jié)構(gòu)合理,邏輯清晰結(jié)合業(yè)務(wù),分析合理篇幅適宜,簡潔有效用詞準(zhǔn)確,避免含糊實事求是,反映真相三PART.03常用的數(shù)據(jù)分析方法PEST分析法政治環(huán)境 社會制度,執(zhí)政黨的性質(zhì),政府的方針、政策、法令等經(jīng)濟環(huán)境 宏觀和微觀兩個方面的內(nèi)容社會環(huán)境 教育程度和文化水平、宗教信仰、風(fēng)俗習(xí)慣、價值觀念等技術(shù)環(huán)境 國家對科技開發(fā)的投資和支持重點、技術(shù)轉(zhuǎn)移和技術(shù)商品化速度、專利及其保護情況等等PEST分析法政治環(huán)境經(jīng)濟環(huán)境社會環(huán)境技術(shù)環(huán)境5W2H分析法原因(何因Why) 工作的目的對象(何事What) 工作的內(nèi)涵價值、關(guān)鍵里程碑節(jié)點目標(biāo)地點(何地Where) 整個工作所涉及的多個不同的場景時間(何時When) 里程碑時間、工作進度時間、匯報時間等人員(何人Who) 工作的對象是誰方法(何做HOW) 工作計劃、技術(shù)路徑投入(何價Howmuch) 投資預(yù)算、成本測算Why(何因)What(何事)Where(何地)When(何時)Who(何人)How(何做)Howmuch(何價)邏輯樹分析法邏輯樹又稱問題樹、演繹樹或分解樹等麥肯錫分析問題最常使用的工具就是“邏輯樹”。邏輯樹是將問題的所有子問題分層羅列,從最高層開始,并逐步向下擴展問題陳述問題1…………問題2…………問題3…………問題N…………相關(guān)分析相關(guān)分析是研究兩個或兩個以上處于同等地位的隨機變量間的相關(guān)關(guān)系的統(tǒng)計分析方法相關(guān)分析是描述客觀事物相互間關(guān)系的密切程度并用適當(dāng)?shù)慕y(tǒng)計指標(biāo)表示出來的過程。在一段時期內(nèi)出生率隨經(jīng)濟水平上升而上升,這說明兩指標(biāo)間是正相關(guān)關(guān)系;而在另一時期,隨著經(jīng)濟水平進一步發(fā)展,出現(xiàn)出生率下降的現(xiàn)象,兩指標(biāo)間就是負相關(guān)關(guān)系回歸分析回歸分析是一種預(yù)測性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(解釋器)之間的關(guān)系。這里的因變量通常指實際問題中的業(yè)務(wù)訴求,就是我們需要解決的問題,自變量是影響要解決問題的因素綜合評價分析法所謂綜合評價,就是對評價客體的不同側(cè)面的數(shù)量特征給出系統(tǒng)的量化描述,并以此為基礎(chǔ),運用一系列數(shù)學(xué)、統(tǒng)計學(xué)和其他定量方法進行適當(dāng)綜合,得出反映各評價客體較為真實的綜合數(shù)量水平的數(shù)量分析方法。其根本目的是要靈敏、全面區(qū)分不同客體之間綜合數(shù)量差異,以便決策四象限分析法通過對兩種維度的劃分,運用坐標(biāo)的方式表達出想要的價值,由價值直接轉(zhuǎn)變?yōu)椴呗裕瑥亩M行一些落地的推動。四象限法是一種策略驅(qū)動的思維,常應(yīng)用于產(chǎn)品分析、市場分析、客戶管理、商品管理等四PART.04數(shù)據(jù)分析道德與職業(yè)原則數(shù)據(jù)分析造假用于數(shù)據(jù)分析的數(shù)據(jù)是否靠譜,如果數(shù)據(jù)都不靠譜,很顯然結(jié)論也會相當(dāng)不靠譜用于數(shù)據(jù)分析的方法是否靠譜,一個好的數(shù)據(jù)分析方法既能透過數(shù)據(jù)看到數(shù)據(jù)背后的業(yè)務(wù)本質(zhì),又能對未來的業(yè)務(wù)決策提供極大的幫助數(shù)據(jù)分析正能量首先,要保證數(shù)據(jù)分析的主題凝聚正能量。數(shù)據(jù)分析的主題和目的應(yīng)該是解決人們生產(chǎn)生活中遇到的某些問題,問題解決了可以提高人們工作效率、提高產(chǎn)品質(zhì)量、促進社會進步、改善行業(yè)現(xiàn)狀、改進專業(yè)技術(shù)等。另外,在數(shù)據(jù)分析過程中的每個環(huán)節(jié)都要遵守相關(guān)法律法規(guī),注意數(shù)據(jù)收集的合法性,注意數(shù)據(jù)的保密性、注意數(shù)據(jù)分析結(jié)論正能量的傳遞性道德與倫理規(guī)范無害性原則 大數(shù)據(jù)技術(shù)發(fā)展應(yīng)堅持以人為本,服務(wù)于人類社會健康發(fā)展和人民生活質(zhì)量提高權(quán)責(zé)統(tǒng)一原則 誰收集數(shù)據(jù)誰負責(zé)、誰使用數(shù)據(jù)誰負責(zé)尊重自主原則 數(shù)據(jù)的存儲、刪除、使用、知情等權(quán)利應(yīng)充分賦予數(shù)據(jù)產(chǎn)生者職業(yè)原則遵守法律,并明確法律只是最低標(biāo)準(zhǔn)盡量讓隱私和安全保護達到相關(guān)人員的期望標(biāo)準(zhǔn)尊重數(shù)據(jù)背后的人追蹤數(shù)據(jù)集的下游使用盡可能向數(shù)據(jù)提供者表明數(shù)據(jù)使用目的數(shù)據(jù)專家和從業(yè)者需要準(zhǔn)確地描述自己的從業(yè)資格、專業(yè)技能缺陷、符合職業(yè)標(biāo)準(zhǔn)的程度,并盡量擔(dān)負同伴責(zé)任設(shè)立有效的管理活動,使所有成員知情,并定期進行審查小結(jié)謝謝觀看數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)數(shù)據(jù)科學(xué)與統(tǒng)計系列規(guī)劃教材數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)第二章:商務(wù)數(shù)據(jù)采集概述及初級應(yīng)用目錄CONTENTS商務(wù)數(shù)據(jù)采集概述01商務(wù)數(shù)據(jù)采集方法與采集工具02數(shù)據(jù)采集器初級應(yīng)用03一PART.01商務(wù)數(shù)據(jù)采集概述初識數(shù)據(jù)字段用于描述數(shù)據(jù)的某一特征記錄數(shù)據(jù)表中的每一行叫作一條“記錄”。每一條記錄包含這行中的所有信息數(shù)據(jù)類型數(shù)值型、文本型、日期型等數(shù)據(jù)表數(shù)據(jù)表由行(記錄)和列(字段)構(gòu)成,記錄與字段都是數(shù)據(jù),所以表是行和列的集合商務(wù)數(shù)據(jù)的含義商務(wù)數(shù)據(jù)的基本概念各電商平臺、第三方服務(wù)平臺、社交媒體、智能終端和企業(yè)內(nèi)部系統(tǒng)會產(chǎn)生的大量數(shù)據(jù)。商務(wù)數(shù)據(jù)主要分為商品數(shù)據(jù)、客戶數(shù)據(jù)、交易數(shù)據(jù)、評論數(shù)據(jù)、基于電子商務(wù)專業(yè)網(wǎng)站的研究數(shù)據(jù)以及基于電子商務(wù)媒體的報道等商務(wù)數(shù)據(jù)的作用幫助企業(yè)和個人監(jiān)測行業(yè)競爭情況、提升客戶關(guān)系、改善用戶體驗、指導(dǎo)精細化運營等商務(wù)數(shù)據(jù)來源與采集商務(wù)數(shù)據(jù)的主要來源電子商務(wù)平臺社交電商平臺O2O數(shù)據(jù)商務(wù)數(shù)據(jù)來源與采集商務(wù)數(shù)據(jù)的采集流程二PART.02商務(wù)數(shù)據(jù)采集方法與采集工具商務(wù)數(shù)據(jù)采集方法Web爬蟲 通用網(wǎng)絡(luò)爬蟲 聚焦網(wǎng)絡(luò)爬蟲API 開放認(rèn)證協(xié)議 開源API初識數(shù)據(jù)采集器數(shù)據(jù)采集器是進行數(shù)據(jù)采集的機器或者工具,具備實時采集、自動存儲、即時顯示、即時反饋、自動處理、自動傳輸?shù)忍匦?。?shù)據(jù)采集器用于實現(xiàn)自動從網(wǎng)頁上采集大批量數(shù)據(jù),包括圖片、文字等數(shù)據(jù)。當(dāng)下運用得比較廣泛的數(shù)據(jù)采集器有八爪魚采集器、火車采集器和后羿采集器等采集原理:模擬人的操作習(xí)慣,對網(wǎng)頁內(nèi)容進行全自動爬取數(shù)據(jù)采集器的安裝與界面1區(qū)域為展開/收起側(cè)欄按鍵2區(qū)域為菜單欄,包括新建、我的任務(wù)、快速篩選、最近編輯、團隊協(xié)作、數(shù)量定制和人工客服3區(qū)域為用戶名稱和軟件版本信息4區(qū)域為4個功能按鍵,分別是“設(shè)置”、“工具箱”、“教程與幫助”及“關(guān)于我們”按鈕5區(qū)域為熱門采集模板6區(qū)域為軟件教程,可以在此處查看八爪魚詳細視頻教程三PART.03數(shù)據(jù)采集器的初級應(yīng)用模板任務(wù)模式及實例模板任務(wù)是利用系統(tǒng)內(nèi)置模板進行數(shù)據(jù)采集的模式。八爪魚采集器經(jīng)過數(shù)據(jù)統(tǒng)計,對常用的200多個網(wǎng)站進行任務(wù)模板化,用戶可以直接調(diào)取模板,輸入簡單的幾個參數(shù)進行采集優(yōu)點:格式規(guī)整、使用簡單,可以根據(jù)不同的參數(shù)進行不同程度的自定義采集,采集到的數(shù)據(jù)通??梢詽M足用戶的使用需求缺點:為因為事先制定了模板,用戶只能在參數(shù)上進行自定義修改自定義任務(wù)模式及實例用戶需要通過列表詳情頁中每個商品的標(biāo)題進入商品的詳情頁中,可以進行打開網(wǎng)頁、翻動每一頁、單擊當(dāng)前頁所有商品的標(biāo)題、提取數(shù)據(jù)等操作自定義任務(wù)模式及實例使用“下一頁”選項進行翻頁,單擊“下一頁”按鈕后,在“操作提示”面板中選擇“循環(huán)點擊下一頁”選項,流程中生成循環(huán)框以及框內(nèi)的“點擊翻頁”模塊自定義任務(wù)模式及實例依次單擊兩個商品標(biāo)題,采集器就將所有同類型的標(biāo)題選中,單擊“操作提示”面板中的“循環(huán)點擊每個元素”選項,即可生成循環(huán)點擊詳情頁模塊自定義任務(wù)模式及實例依次單擊兩個商品標(biāo)題,采集器就將所有同類型的標(biāo)題選中,單擊“操作提示”面板中的“循環(huán)點擊每個元素”選項,即可生成循環(huán)點擊詳情頁模塊,出現(xiàn)列表和翻頁循環(huán)嵌套流程自定義任務(wù)模式及實例正則表達式是一種“規(guī)則字符串”,用來表達對字符串的過濾邏輯。它會從左往右閱讀一句話,在滿足條件的位置開始和結(jié)束,并取出其中的內(nèi)容。正則表達式可以幫助我們檢測內(nèi)容是否符合篩選邏輯,并提取出字符串中需要的部分。它具有靈活、功能強、邏輯好的特點,可以用極簡方式達到復(fù)雜控制的效果。它的主要應(yīng)用方式為匹配和替換。自定義任務(wù)模式及實例采集過程中,有時可能只想采集網(wǎng)頁中某些特征的數(shù)據(jù),而忽略其他數(shù)據(jù),這時我們除了可以使用前文提到的觸發(fā)器功能外,還有一種更簡單的方式就是分支判斷。分支判斷可以設(shè)置多種條件,針對不同的條件,分支會從左往右進行判斷,滿足條件則進行操作,不滿足條件則右移一個條件再判斷,直到條件判斷完或滿足條件為止。小結(jié)謝謝觀看數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)數(shù)據(jù)科學(xué)與統(tǒng)計系列規(guī)劃教材數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)第二章:數(shù)據(jù)采集高級應(yīng)用及采集實例目錄CONTENTS數(shù)據(jù)采集的高級應(yīng)用01數(shù)據(jù)采集的采集實例02一PART.01數(shù)據(jù)采集的高級應(yīng)用屏蔽網(wǎng)頁廣告屏蔽網(wǎng)頁廣告操作用于屏蔽一部分網(wǎng)頁內(nèi)的廣告(如左右兩側(cè)的彈窗廣告等),以便加快網(wǎng)頁加載速度及打開網(wǎng)頁后更清楚地看到需要采集的數(shù)據(jù)。因網(wǎng)頁情況不同,八爪魚采集器內(nèi)部算法不一定可以適應(yīng)所有情況,所以頁面本身的采集數(shù)據(jù)有可能會被屏蔽。禁止加載圖片該操作主要用于解決某些網(wǎng)站圖片太多導(dǎo)致的網(wǎng)頁加載速度過慢,或廣告圖片太多導(dǎo)致網(wǎng)頁圖片加載速度過慢的問題。因網(wǎng)頁情況不同,部分網(wǎng)站的設(shè)置是若不加載圖片就一直保持加載狀態(tài)。若選中“不加載網(wǎng)頁圖片”復(fù)選框后,網(wǎng)頁加載一直無法完成,則可以不選中,也可以配合“超時時間”或Ajax設(shè)置解決。增量采集通過對比采集網(wǎng)頁的URL進行識別,對比過程中發(fā)現(xiàn)某URL已經(jīng)采集過,則不進行二次采集增量采集觸發(fā)器法通過判斷每一條數(shù)據(jù)的更新日期來判斷是否為增量數(shù)據(jù),可以通過觸發(fā)器相關(guān)設(shè)置進行操作,如果網(wǎng)頁列表順序為時間排序,則可以設(shè)置為發(fā)現(xiàn)早于多久之前的數(shù)據(jù)則停止本次采集;如果網(wǎng)頁列表順序不按時間排序,則可以設(shè)置發(fā)現(xiàn)早于多久之前的數(shù)據(jù)則丟棄本條數(shù)據(jù)。登錄采集面對需要登錄的頁面,采集器可以模擬人的操作,進行賬號和密碼的輸入,并單擊“登錄”按鈕完成登錄登錄采集Cookie登錄是利用了瀏覽器緩存了當(dāng)前的一個網(wǎng)頁狀態(tài),可以快速進入當(dāng)前狀態(tài)的頁面。每個網(wǎng)站的Cookie機制不一樣,有些網(wǎng)站的Cookie一年后都有效,有些網(wǎng)站可能新開一個網(wǎng)頁、換臺計算機,或者幾分鐘后就失效了。這種網(wǎng)站其實是不適合用Cookie方式登錄的,建議用前面輸入賬號的方式登錄,所以需要我們根據(jù)自己要采集的網(wǎng)站情況進行處理。登錄采集獲取Cookie登錄采集Cookie位置圖片與附件采集與下載部分網(wǎng)頁包含了圖片與附件。對于圖片和附件,采集器可以將它們的鏈接采集下來,然后利用下載工具進行批量下載至指定位置存儲。附件及圖片鏈接的提取操作二PART.02數(shù)據(jù)采集的采集實例金融網(wǎng)站的數(shù)據(jù)采集單擊“主頁”界面中“新建”選項下方的“自定義任務(wù)”按鈕,新建自定義采集任務(wù),然后在“網(wǎng)址”輸入框中輸入實訓(xùn)網(wǎng)址(東方財富網(wǎng)),單擊“保存設(shè)置”按鈕保存網(wǎng)址。金融網(wǎng)站的數(shù)據(jù)采集在瀏覽頁面中單擊基金右側(cè)的“排行”按鈕,在“操作提示”面板中單擊“點擊該鏈接”選項進入排行頁面。金融網(wǎng)站的數(shù)據(jù)采集單擊某單元格,在“操作提示”面板中單擊“TR”選項即可選擇整行數(shù)據(jù)。金融網(wǎng)站的數(shù)據(jù)采集再次進行上方的操作,選中第二行某單元格,單擊“操作提示”面板中的“TR”選項,再單擊“選中全部子元素”,此時八爪魚采集器選中所有50行數(shù)據(jù)。單擊“操作提示”面板中的“采集數(shù)據(jù)”選項,流程圖中生成循環(huán)提取數(shù)據(jù)模塊。金融網(wǎng)站的數(shù)據(jù)采集單擊流程圖中的“循環(huán)列表”流程后,在瀏覽器中單擊“下一頁”按鈕,在“操作提示”面板中單擊“循環(huán)點擊下一頁”選項,流程圖中生成“循環(huán)翻頁”模塊。金融網(wǎng)站的數(shù)據(jù)采集數(shù)據(jù)采集完成后,單擊“導(dǎo)出數(shù)據(jù)”按鈕,選擇導(dǎo)出方式,單擊“確定”按鈕,選擇存放位置即可。百度地圖中店鋪的數(shù)據(jù)采集打開八爪魚采集器,在“主頁”界面中單擊“新建”中的“自定義任務(wù)”按鈕,輸入百度地圖網(wǎng)址并保存設(shè)置。百度地圖中店鋪的數(shù)據(jù)采集在地圖界面上單擊查找文本框,然后在“操作提示”面板中選擇“輸入文本”,緊接著在“操作提示”面板中輸入“火鍋”,最后單擊“點擊該按鈕”。百度地圖中店鋪的數(shù)據(jù)采集在搜索頁面中單擊第一個店鋪數(shù)據(jù)使其變成藍色,然后在“操作提示”面板中依次單擊“選中子元素”、“選中全部”、“采集數(shù)據(jù)”按鈕,即可提取頁面數(shù)據(jù)。百度地圖中店鋪的數(shù)據(jù)采集選中流程圖中的“循環(huán)列表”,在頁面中找到“下一頁按鈕”并單擊,然后再單擊“循環(huán)點擊下一頁”,完成翻頁循環(huán)設(shè)置。百度地圖中店鋪的數(shù)據(jù)采集單擊界面上方的“采集”按鈕,再單擊“啟動本地采集”按鈕開始采集單擊界面上方的“采集”按鈕,再單擊“啟動本地采集”按鈕開始采集。數(shù)據(jù)采集完成后,單擊“導(dǎo)出數(shù)據(jù)”按鈕,選擇導(dǎo)出方式,單擊“確定”按鈕。電商產(chǎn)品的數(shù)據(jù)采集打開自定義任務(wù)采集模式,輸入實例網(wǎng)址并保存設(shè)置。電商產(chǎn)品的數(shù)據(jù)采集單擊頁面內(nèi)第一個商品鏈接,然后在“操作提示”面板中依次單擊“選中全部”和“循環(huán)點擊每個元素”按鈕。電商產(chǎn)品的數(shù)據(jù)采集通過移動鼠標(biāo)指針使商品介紹中商品屬性區(qū)域全部選中后單擊,隨后在出現(xiàn)的“操作提示”面板中單擊“采集該元素的InnerHtml”。電商產(chǎn)品的數(shù)據(jù)采集在流程圖中單擊“提取數(shù)據(jù)”流程的設(shè)置按鈕,再依次單擊“格式化數(shù)據(jù)”和“正則表達式匹配”按鈕。電商產(chǎn)品的數(shù)據(jù)采集在正則表達式匹配對話框中單擊“不懂正則?試試正則工具”,然后在源文本中仔細觀察,例如我們想提取“6GB”,就可以在右側(cè)依次設(shè)置“6GB”的開始和結(jié)束標(biāo)識,再依次單擊“生成”、“匹配”和“應(yīng)用”按鈕,即可在大量源文本中提取出用戶認(rèn)為有價值的運行內(nèi)存“6GB”。職場招聘的數(shù)據(jù)采集在八爪魚采集器主界面,單擊“新建”中的“模板任務(wù)”選項,找到“獵聘招聘”模板并單擊。職場招聘的數(shù)據(jù)采集可以查閱該模板的“模板介紹”、“采集字段預(yù)覽”、“采集參數(shù)預(yù)覽”、“示例數(shù)據(jù)”,并仔細查看使用方法后單擊“立即使用”按鈕。職場招聘的數(shù)據(jù)采集根據(jù)模板的使用方法及采集數(shù)據(jù)的要求,配置本模板參數(shù),包括搜索關(guān)鍵字和翻頁次數(shù),最后單擊“保存并啟動”。職場招聘的數(shù)據(jù)采集單擊界面上方的“采集”按鈕,再單擊“啟動本地采集”按鈕開始采集。數(shù)據(jù)采集完成后,單擊“導(dǎo)出數(shù)據(jù)”按鈕,選擇導(dǎo)出方式,單擊“確定”按鈕,選擇存放位置即可。小結(jié)謝謝觀看數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)數(shù)據(jù)科學(xué)與統(tǒng)計系列規(guī)劃教材數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)第四章:數(shù)據(jù)清洗及整理目錄CONTENTS數(shù)據(jù)清洗及整理簡介01數(shù)據(jù)清洗的基本方法02數(shù)據(jù)整理的基本方法03一PART.01數(shù)據(jù)清洗及整理簡介數(shù)據(jù)清洗及整理簡介概念:所謂數(shù)據(jù)清洗就是將臟數(shù)據(jù)清洗掉,提高數(shù)據(jù)質(zhì)量,即:檢測和去除數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù),去除空白數(shù)據(jù)域和知識背景下的白噪聲。直白地說,數(shù)據(jù)清洗的結(jié)果就是對各種數(shù)據(jù)進行合適的處理后,得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù),提供給數(shù)據(jù)統(tǒng)計、數(shù)據(jù)挖掘等使用。例如:廚師與菜的關(guān)系。原則:(1)完整性:無缺失值。(2)唯一性:無重復(fù)值。(3)合法性:無錯誤值(在合法區(qū)間內(nèi))。(4)一致性:是指同一個字段的字段值類型和量綱相同。二PART.02數(shù)據(jù)清洗的基本方法數(shù)據(jù)清洗的基本方法重復(fù)項處理:(1)常規(guī)情況注意是否全選所有列(2)特殊情況:含空格/含日期缺失值處理:(1)填充原值(2)填充均值(3)無法填充→少:刪除個別行;多:刪除該列數(shù)據(jù)清洗的基本方法分列:(1)按分隔符分(2)按固定寬度分非法值處理:(1)篩選出非法值→刪除(2)按缺失值處理三PART.03數(shù)據(jù)整理的基本方法數(shù)據(jù)整理的基本方法特殊字符處理:(1)空格:“開始”→“查找替換”(2)回車符:=SUBSTITUTE(含回車符的單元格,char(10),””)統(tǒng)一單位(最難):數(shù)據(jù)離散化:連續(xù)的數(shù)值型數(shù)據(jù)劃分成區(qū)間段表示(1)如果有業(yè)務(wù)規(guī)定,則按業(yè)務(wù)知識劃分:如分?jǐn)?shù)可以劃分為:優(yōu)秀(85分及以上)、良好(75-84)、及格(60-74)、不及格(59及以下)(2)如果沒有業(yè)務(wù)規(guī)定,則按等“等寬劃分”(分布均勻)或“等頻劃分”(分布不均勻)數(shù)據(jù)整理的基本方法自定義分組:用于定性數(shù)據(jù)類別較多時,劃分大類數(shù)值數(shù)據(jù)類型的轉(zhuǎn)換:(1)帶綠色標(biāo)識符(2)不帶綠色標(biāo)識符:復(fù)制粘貼出一個新列,即可轉(zhuǎn)換為帶綠色標(biāo)識符的狀態(tài)匹配:將“招聘城市”劃分為:一線城市、新一線城市、二線城市、三線城市、四線城市、五線城市VLOOKUP(要查找的值,要查找的區(qū)域,數(shù)據(jù)在查找區(qū)域的第幾列數(shù),0或1)0或false:精確匹配(一般用精確匹配)1或不填或true:近似匹配數(shù)據(jù)整理的基本方法日期時間型數(shù)據(jù)處理:(1)日期值提?。喝掌谥岛瘮?shù)或TEXT()(2)日期格式轉(zhuǎn)換:轉(zhuǎn)換原因:數(shù)據(jù)內(nèi)容顯示不完整;對格式有特定要求(必須為日期型);同一列數(shù)據(jù)格式不統(tǒng)一,多種形式混合在一起,想要統(tǒng)一格式。轉(zhuǎn)換方法:自定義數(shù)字格式;添加分隔符或查找替換分隔符;分列(也是通用方法)。數(shù)據(jù)整理的基本方法日期時間型數(shù)據(jù)處理:(3)日期計算:計算間隔天數(shù):日期值直接相減計算間隔年數(shù)或月數(shù):DATEDIF()函數(shù)計算間隔時間(時分秒形式):時間值直接相減計算間隔時間(秒形式):將“時分秒”形式做進一步處理HOUR(M2)*3600+MINUTE(M2)*60+SECOND(M2)小結(jié)謝謝觀看數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)數(shù)據(jù)科學(xué)與統(tǒng)計系列規(guī)劃教材數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)第五章:數(shù)據(jù)可視化目錄CONTENTS圖表的正確選擇01Excel常用圖表的繪制及美化02在線圖表軟件的使用03一PART.01圖表的正確選擇圖表的正確選擇圖表的正確選擇圖表的正確選擇二PART.02Excel常用圖表的繪制及美化Excel常用圖表的繪制及美化單變量圖表雙變量圖表三PART.03在線圖表軟件的使用在線圖表軟件的使用微詞云、Echarts、BDP個人版、ChartCube……小結(jié)謝謝觀看數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)數(shù)據(jù)科學(xué)與統(tǒng)計系列規(guī)劃教材數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)第六章:數(shù)據(jù)分析報告的撰寫目錄CONTENTS數(shù)據(jù)分析報告概述01數(shù)據(jù)分析報告的結(jié)構(gòu)02撰寫報告的注意事項03一PART.01數(shù)據(jù)分析報告概述23e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109123數(shù)據(jù)分析報告的寫作原則數(shù)據(jù)分析報告的作用數(shù)據(jù)分析報告的分類數(shù)據(jù)分析基礎(chǔ)與實踐數(shù)據(jù)分析報告概述e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐數(shù)據(jù)分析報告概述章節(jié)章節(jié)內(nèi)容第1章數(shù)據(jù)分析概述第2章商務(wù)數(shù)據(jù)采集概述及初級應(yīng)用第3章數(shù)據(jù)采集高級應(yīng)用及采集實例第4章數(shù)據(jù)清洗與整理第5章數(shù)據(jù)展示數(shù)據(jù)分析報告的原則數(shù)據(jù)分析基礎(chǔ)與實踐嚴(yán)謹(jǐn)性原則真實性原則寫作原則創(chuàng)新性原則規(guī)范性原則真實性原則數(shù)據(jù)分析報告的作用呈現(xiàn)分析結(jié)果審視現(xiàn)狀預(yù)警提供決策支持?jǐn)?shù)據(jù)分析基礎(chǔ)與實踐數(shù)據(jù)分析報告的分類數(shù)據(jù)分析基礎(chǔ)與實踐按照業(yè)務(wù)場景分類Follower數(shù)據(jù)分析報告種類問題發(fā)掘型事實展示型混合型s按照要面對的問題分類按照針對的分類受眾對內(nèi)匯報型對外分享型對外提交型對外展示型對外發(fā)布型經(jīng)營分析型學(xué)術(shù)分析型產(chǎn)品分析型銷售、市場分析型按照展現(xiàn)形式分類PPT型電子文檔型可視化圖表型媒體型(H5、視頻等)二PART.02數(shù)據(jù)分析報告的結(jié)構(gòu)e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐數(shù)據(jù)分析報告的結(jié)構(gòu)發(fā)現(xiàn)問題分析問題解決問題開篇正文結(jié)尾e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐數(shù)據(jù)分析報告的結(jié)構(gòu)標(biāo)題開篇正文結(jié)尾數(shù)據(jù)獲取說明背景介紹現(xiàn)狀描述分析建模描述分析結(jié)論與建議附錄e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐數(shù)據(jù)分析報告的結(jié)構(gòu)研究問題要聚焦表達明確內(nèi)容簡潔具有特色標(biāo)題數(shù)據(jù)分析報告的結(jié)構(gòu)數(shù)據(jù)分析基礎(chǔ)與實踐《銷售崗位招聘情況及薪資影響因素分析》《消費金融行業(yè)的用戶違約風(fēng)險探索》自改革開放以來,中國經(jīng)濟展現(xiàn)大好形勢,我國營銷行業(yè)也進入了高速發(fā)展階段,目前我國營銷行業(yè)占比越來越大,各種銷售崗位也深入到社會生活的各個層面。隨著行業(yè)的發(fā)展,應(yīng)運而生的“銷售員”越來越來深受年輕白領(lǐng)青睞,那么銷售員的崗位需求到底怎樣?各地區(qū)的主要要求是什么?《霧霾來了—石家莊空氣質(zhì)量指數(shù)分析》近幾年來,我國較多地區(qū)空氣質(zhì)量變差,霧霾也成為了人們關(guān)注的熱點之一,因為它時時刻刻影響著人們的生活,而石家莊就是受霧霾影響程度最大的城市之一,所以最近幾年來石家莊的空氣質(zhì)量逐步下降,導(dǎo)致生活環(huán)境變差,人民的生活質(zhì)量下降,那到底是什么在影響著石家莊的空氣質(zhì)量呢?消費金融是指向各階層消費者提供消費貸款的現(xiàn)代金融服務(wù)方式。無論從金融產(chǎn)品創(chuàng)新還是擴大內(nèi)需角度看,消費金融都對人們的生活帶來了很多便利,但隨著消費金融行業(yè)的用戶越來越多,也引發(fā)了許多客戶違約的事件,那我們應(yīng)該如何在不影響客戶體驗的情況下,減小客戶的違約風(fēng)險呢?數(shù)據(jù)分析報告的結(jié)構(gòu)數(shù)據(jù)分析基礎(chǔ)與實踐01020304行業(yè)概述發(fā)展趨勢存在的問題研究目的背景介紹三PART.03撰寫報告的注意事項e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐撰寫報告的注意事項01邏輯清晰03分析合理02表達嚴(yán)謹(jǐn)04排版簡潔e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐數(shù)據(jù)分析報告的結(jié)構(gòu)總結(jié)報告概述PARTONE報告結(jié)構(gòu)PARTTWO寫作注意事項PARTTHREE案例PARTFOUR小結(jié)謝謝觀看數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)數(shù)據(jù)科學(xué)與統(tǒng)計系列規(guī)劃教材數(shù)據(jù)分析基礎(chǔ)與實戰(zhàn)第七章:數(shù)據(jù)分析案例實踐目錄CONTENTS基于馬蜂窩旅游產(chǎn)品的游記分析01基于電商數(shù)據(jù)的競品分析02小結(jié)03一PART.01基于馬蜂窩旅游產(chǎn)品的游記分析e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐基于馬蜂窩旅游產(chǎn)品的游記分析e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐基于馬蜂窩旅游產(chǎn)品的游記分析e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐基于馬蜂窩旅游產(chǎn)品的游記分析e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐基于馬蜂窩旅游產(chǎn)品的游記分析e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D404485DE90708939AC7AF7E9F1763229B7B8F9D84847A4CD81ACC4954AD75B3F977FCFAD20E635EB55EBA083B552261A446BE65BB2304DDF42D6EB56502A8CA9F7DB4A29EEB5B695C191D3A07E09FCA806B6C885743398AB49B334E1F05871613CFDD49BAF4949B2109數(shù)據(jù)分析基礎(chǔ)與實踐基于馬蜂窩旅游產(chǎn)品的游記分析二PART.02基于電商數(shù)據(jù)的競品分析e7d195523061f1c0fa07f38d8c1154c57bf8f7993b42569d03F573E7557F37EDE61EF06A794A4E9123C1071E4224D40448

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論