商業(yè)數(shù)據(jù)分析理念與方法 課件 第1-3章 認識商業(yè)分析、商業(yè)數(shù)據(jù)獲取和清洗、商業(yè)競爭分析_第1頁
商業(yè)數(shù)據(jù)分析理念與方法 課件 第1-3章 認識商業(yè)分析、商業(yè)數(shù)據(jù)獲取和清洗、商業(yè)競爭分析_第2頁
商業(yè)數(shù)據(jù)分析理念與方法 課件 第1-3章 認識商業(yè)分析、商業(yè)數(shù)據(jù)獲取和清洗、商業(yè)競爭分析_第3頁
商業(yè)數(shù)據(jù)分析理念與方法 課件 第1-3章 認識商業(yè)分析、商業(yè)數(shù)據(jù)獲取和清洗、商業(yè)競爭分析_第4頁
商業(yè)數(shù)據(jù)分析理念與方法 課件 第1-3章 認識商業(yè)分析、商業(yè)數(shù)據(jù)獲取和清洗、商業(yè)競爭分析_第5頁
已閱讀5頁,還剩244頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第1章

認識商業(yè)分析近年來,隨著科技發(fā)展,大數(shù)據(jù)和互聯(lián)網(wǎng)思維融入產(chǎn)業(yè)革新,對傳統(tǒng)商業(yè)模式產(chǎn)生沖擊。商業(yè)分析應(yīng)運而生,成為處理和分析海量數(shù)據(jù)、服務(wù)傳統(tǒng)商業(yè)的重要手段。學(xué)習(xí)目標1.了解商業(yè)分析的概念,熟悉商業(yè)分析與數(shù)據(jù)分析的區(qū)別。2.掌握商業(yè)分析的流程,了解商業(yè)分析的步驟。3.了解商業(yè)分析的常用工具。4.了解分析商業(yè)問題的流程和方法。目錄CONTENTS01商業(yè)分析簡介02商業(yè)分析流程03商業(yè)分析常用的分析工具04商業(yè)分析常見的分析問題商業(yè)分析簡介01一、商業(yè)分析概念

商業(yè)分析正向創(chuàng)新方向發(fā)展,需要掌握“實時收集數(shù)據(jù)”、處理“大數(shù)據(jù)”、進行“預(yù)測分析和自動化分析”的能力,并需深入學(xué)習(xí)獲取信息、統(tǒng)計分析方式和應(yīng)用工具。商業(yè)分析是通過定義需求和推薦解決方案來實現(xiàn)企業(yè)變革的實踐。商業(yè)分析需要考慮變革、企業(yè)、“需要”或者“需求”、解決方案、價值和利益相關(guān)者。變革是為了適應(yīng)戰(zhàn)略方向和商業(yè)環(huán)境,企業(yè)需要分析供應(yīng)商、顧客、競爭對手等外部因素以及其他可能影響商業(yè)分析的組成部分。了解真實需求需要進行大量調(diào)研分析,解決方案需要針對需求設(shè)計和實施,價值是衡量解決方案的重要依據(jù),利益相關(guān)者是工作中需要打交道的各方。二、商業(yè)分析在企業(yè)中的應(yīng)用

(1)商業(yè)分析的應(yīng)用。商業(yè)分析在現(xiàn)代企業(yè)中扮演重要角色,目標是將信息、數(shù)據(jù)挖掘與業(yè)務(wù)結(jié)合,為企業(yè)提供最佳問題解決方案。通過量化的統(tǒng)計方式與技術(shù)分析歷史數(shù)據(jù),挖掘其中的價值,提高決策的科學(xué)性和準確性。商業(yè)分析主要面向企業(yè)處理一個項目的全流程,需要解決“是什么”“為什么”“怎么做”的問題。(2)商業(yè)分析的常見類型。商業(yè)分析可以分為四種類型:描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析。描述性分析解答“發(fā)生了什么?”,診斷性分析解答“為什么會發(fā)生這種情況?”,預(yù)測性分析解答“未來可能會發(fā)生什么?”,規(guī)范性分析解答“我們應(yīng)該采取哪些行動?”。描述性分析是商業(yè)分析流程的第一步,為進一步分析奠定了基礎(chǔ)。三、商業(yè)分析與數(shù)據(jù)分析

綜合上述概念,可以看出商業(yè)分析的對象很寬泛,不僅包含結(jié)構(gòu)化數(shù)據(jù),還涵蓋文本信息、網(wǎng)絡(luò)信息等非結(jié)構(gòu)化數(shù)據(jù),分析的方法手段也不僅局限于數(shù)據(jù)分析和挖掘的方法,還包括對文本、音頻、視頻等信息的分析方法,最終進行數(shù)據(jù)處理、分析、挖掘和呈現(xiàn),并提供最佳的解決方案。由此可見,商業(yè)分析與數(shù)據(jù)分析關(guān)系密切,在研究過程中會將兩個概念連在一起使用,兩者之間存在非常多的共同點和不同點。三、商業(yè)分析與數(shù)據(jù)分析

商業(yè)分析數(shù)據(jù)分析共同點商業(yè)分析與數(shù)據(jù)分析都需要掌握數(shù)據(jù)分析工具;需要對數(shù)據(jù)有較高的敏感度;需要提供決策參考依據(jù);需要有強大的業(yè)務(wù)理解能力。不同點定義利用數(shù)據(jù)分析和統(tǒng)計方法,分析企業(yè)之前的商業(yè)表現(xiàn),預(yù)測和指導(dǎo)未來商業(yè)戰(zhàn)略利用統(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,開發(fā)數(shù)據(jù)功能需要掌握的能力創(chuàng)新能力、溝通能力、管理能力、邏輯思維能力、研究分析能力、產(chǎn)業(yè)領(lǐng)域?qū)I(yè)知識數(shù)據(jù)分析能力、數(shù)字敏感度、編程技能、數(shù)據(jù)可視化能力、報告闡述能力工作內(nèi)容解決企業(yè)內(nèi)部挑戰(zhàn)與問題,如行業(yè)研究、市場競爭研究、消費者研究等專注于資料與統(tǒng)計分析,描述問題原因,預(yù)測未來發(fā)展趨勢,支持決策商業(yè)分析流程02一、商業(yè)問題界定

商業(yè)分析的最初階段的目標包括清楚地了解項目目標和業(yè)務(wù)需求,以及確定計劃實施的時間和步驟。項目需求獲取確定商業(yè)分析目標從項目需求獲取入手。項目需求可以分為顯性和隱性兩種。需求篩選需求篩選應(yīng)符合4個篩選維度,即真實性、一致性、價值性、可行性。需求排序一般情況下,越靠近基礎(chǔ)服務(wù)的需求越重要,因為越基礎(chǔ)的服務(wù)越靠近產(chǎn)品所滿足的本質(zhì)需求。二、商業(yè)數(shù)據(jù)收集

(1)商業(yè)數(shù)據(jù)類型截面數(shù)據(jù)在同一時間(時期或時點)截面上反映不同對象的同一特征變量的觀測值,是樣本數(shù)據(jù)中的常見類型之一。時間序列數(shù)據(jù)對同一對象在不同時間進行連續(xù)觀察所取得的數(shù)據(jù)。它著眼于研究對象在時間順序上的變化,尋找空間(對象)歷時發(fā)展的規(guī)律,也稱為動態(tài)序列數(shù)據(jù)。面板數(shù)據(jù)時間序列數(shù)據(jù)和截面數(shù)據(jù)相結(jié)合的一種數(shù)據(jù)資源,在分析時,多采用面板數(shù)據(jù)模型。二、商業(yè)數(shù)據(jù)收集

(2)商業(yè)數(shù)據(jù)收集的原則。①要根據(jù)商業(yè)研究的預(yù)期目標來取舍。②收集的數(shù)據(jù)要盡量全面,即完整性要高。③收集的數(shù)據(jù)質(zhì)量要高,盡量是高精度、有權(quán)威的商業(yè)數(shù)據(jù)。(3)商業(yè)數(shù)據(jù)來源。商業(yè)數(shù)據(jù)一般來源于5個方面:內(nèi)部數(shù)據(jù)、合作伙伴的數(shù)據(jù)、企業(yè)調(diào)研數(shù)據(jù)、公開數(shù)據(jù)、網(wǎng)絡(luò)平臺或工具軟件采集的數(shù)據(jù)。三、商業(yè)數(shù)據(jù)挖掘

通過多種方法對企業(yè)數(shù)據(jù)進行收集,會發(fā)現(xiàn)收集到的企業(yè)數(shù)據(jù)量巨大,但真正具有價值的數(shù)據(jù)卻比較少,想要獲得有用的數(shù)據(jù),需要對大量的數(shù)據(jù)進行深層分析,此過程被稱為數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的應(yīng)用數(shù)據(jù)中,提取出潛在且有用的數(shù)據(jù)的過程,數(shù)據(jù)挖掘是一種綜合技術(shù),通常通過統(tǒng)計、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。廣義的數(shù)據(jù)挖掘是一個完整的知識發(fā)現(xiàn),包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模。三、商業(yè)數(shù)據(jù)挖掘

數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換和數(shù)據(jù)的離散化等。數(shù)據(jù)建模數(shù)據(jù)建模(模型選擇)是對預(yù)處理后的數(shù)據(jù)進行挖掘的過程。主要是指針對不同的數(shù)據(jù)集選擇統(tǒng)計模型和算法,不同的統(tǒng)計模型和算法適應(yīng)不同的任務(wù)。算法的選擇在目標的制定階段就要有所考慮,選擇統(tǒng)計模型的方法是通過多種模型進行數(shù)據(jù)訓(xùn)練,對每種結(jié)果進行評估,選擇其中誤差最小的統(tǒng)計模型即可。四、商業(yè)數(shù)據(jù)分析

商業(yè)數(shù)據(jù)分析是通過數(shù)據(jù)挖掘,找到數(shù)據(jù)潛在價值,結(jié)合商業(yè)分析目標,采用適當?shù)姆治龇椒ǚ治龃罅繑?shù)據(jù)以提取有用信息和形成結(jié)論,解決企業(yè)遇到的各種問題。其中,客戶分析、營銷分析、社交媒體分析、用戶行為分析、網(wǎng)站運營分析、欺詐行為監(jiān)測是商業(yè)分析的主要應(yīng)用場景。通過這些分析方法,企業(yè)可以掌握客戶行為特征、制定適當?shù)臓I銷策略、優(yōu)化社交媒體運營、了解用戶行為習(xí)慣、評估網(wǎng)站運營效果、預(yù)防欺詐行為等。五、商業(yè)應(yīng)用

商業(yè)應(yīng)用是指將數(shù)據(jù)分析結(jié)果與結(jié)論應(yīng)用到實際生產(chǎn)的過程。根據(jù)需求的不同,商業(yè)應(yīng)用可以是一份包含數(shù)據(jù)分析結(jié)果和對現(xiàn)狀的具體整改措施的數(shù)據(jù)分析報告,也可以是將模型應(yīng)用在生產(chǎn)系統(tǒng)中的一套解決方案。在多數(shù)項目中,無論提供的是數(shù)據(jù)分析報告,還是解決方案,最終都需要需求方對數(shù)據(jù)進行評估,即對數(shù)據(jù)分析結(jié)果的評價,常見的評價指標有精度、召回率等。商業(yè)分析常用分析工具03一、Excel

Excel的分析工具調(diào)出步驟如下:單擊“文件”→“選項”→“加載項”按鈕選中“分析工具庫”選項,單擊“轉(zhuǎn)到”按鈕,在“加載項”對話框中勾選“分析工具庫”復(fù)選框,單擊“確定”按鈕,便可在菜單欄的“數(shù)據(jù)”選項卡中找到分析工具了。主要介紹以下5種:包括方差分析、相關(guān)系數(shù)、協(xié)方差、指數(shù)平滑和回歸分析。方差分析可判斷樣本間的均值是否相等;相關(guān)系數(shù)用于判斷變量間是否線性相關(guān);協(xié)方差反映變量間的總體誤差;指數(shù)平滑用于修正預(yù)測值的誤差;回歸分析用于估計和預(yù)測變量間的關(guān)系。二、R

R語言是一種為統(tǒng)計計算和繪圖而生的語言和環(huán)境,它是一套開源的數(shù)據(jù)分析解決方案,由一個龐大且活躍的全球性研究型社區(qū)維護。R語言具備可擴展能力且擁有豐富的功能選項,可以幫助開發(fā)人員構(gòu)建自己的工具及方法,從而順利實現(xiàn)數(shù)據(jù)分析。R可運行于多種平臺之上,包括Windows、UNIX和macOSX等。R具有強大的數(shù)據(jù)處理功能,從數(shù)據(jù)的預(yù)處理到數(shù)據(jù)的分析建模,以及后續(xù)的繪圖,R都能很好的實現(xiàn)。三、Python

目前,Python已經(jīng)成為最受歡迎的程序設(shè)計語言之一。由于Python的簡潔性、易讀性及可擴展性,眾多開源的科學(xué)計算擴展庫都提供了Python的調(diào)用接口,如著名的計算機視覺庫(OpenCV)、三維可視化庫(VTK)、醫(yī)學(xué)圖像處理庫(ITK)。而Python專用的科學(xué)計算擴展庫就更多了,如以下3個十分經(jīng)典的科學(xué)計算擴展庫:NumPy、SciPy和Matplotlib,它們分別為Python提供了快速數(shù)組處理、數(shù)值運算及繪圖功能。因此,由Python及其眾多的科學(xué)計算擴展庫所構(gòu)成的開發(fā)環(huán)境十分適合用于工程技術(shù)及科研人員處理實驗數(shù)據(jù)、制作圖表,甚至開發(fā)科學(xué)計算應(yīng)用程序。商業(yè)分析常見問題分析04一、競爭分析

競爭分析從廣義上來講指競爭戰(zhàn)略分析,競爭戰(zhàn)略分析就是要講清楚“行業(yè)”“競爭”“戰(zhàn)略”三個方面,競爭戰(zhàn)略分析的主要目的在于了解競爭對手的經(jīng)營狀況,了解目標客戶的未來需求,以及發(fā)現(xiàn)新的消費點和新的客戶群,最終實現(xiàn)在未來市場競爭活動中占據(jù)主導(dǎo)位置。分析內(nèi)容具體含義:①行業(yè)概念、整體現(xiàn)狀、行業(yè)發(fā)展趨勢、未來市場及行業(yè)變化趨勢、企業(yè)的外部優(yōu)勢、劣勢、內(nèi)部機會和威脅——講“行業(yè)”,即行業(yè)研究。②行業(yè)主要企業(yè)服務(wù)和產(chǎn)品之間的競爭——講“競爭”。③行業(yè)發(fā)展戰(zhàn)略選擇——講“戰(zhàn)略”。二、商業(yè)風(fēng)險

商業(yè)風(fēng)險是指在商業(yè)活動中,由各種不確定因素引起的,給商業(yè)主體帶來獲利或損失的機會或可能性的一切客觀經(jīng)濟現(xiàn)象?,F(xiàn)實中的商業(yè)風(fēng)險無處不在,如市場價格的波動、物價的波動、消費者的價值觀的變化等都是市場經(jīng)濟條件下的商業(yè)風(fēng)險。本書從商業(yè)實踐角度介紹了五種統(tǒng)計相關(guān)的風(fēng)險管理方法,分別是可行性分析、主觀評分法、層次分析法、決策樹法和不確定性風(fēng)險估計方法,以實現(xiàn)商業(yè)風(fēng)險的管理實踐。三、質(zhì)量管理

質(zhì)量管理是指確定質(zhì)量方針、目標和職責(zé),并通過質(zhì)量管理體系中的質(zhì)量策劃、質(zhì)量控制、質(zhì)量保證和質(zhì)量改進來使其實現(xiàn)的全部活動。對項目進行質(zhì)量管理主要是為了確保項目按照設(shè)計者規(guī)定的要求完成,它包括使整個項目的所有功能活動能夠按照原有的質(zhì)量要求及目標要求得以實施,質(zhì)量管理主要是依賴于質(zhì)量策劃、質(zhì)量控制、質(zhì)量保證及質(zhì)量改進所形成的質(zhì)量保證系統(tǒng)來實現(xiàn)的。本書介紹了三種質(zhì)量管理的統(tǒng)計方法,分別是控制圖、抽樣檢驗方案和正交試驗設(shè)計,以實現(xiàn)對商業(yè)項目的質(zhì)量管理。四、規(guī)劃問題

規(guī)劃問題是指在商業(yè)管理行業(yè)中資源一定,如何實現(xiàn)目標最大化;目標一定,如何實現(xiàn)成本最小化等,以及如何運用統(tǒng)計學(xué)的方法解決這些問題。本書介紹了線性規(guī)劃問題、整數(shù)規(guī)劃問題、運輸問題。五、商業(yè)預(yù)測

商業(yè)預(yù)測是指以市場經(jīng)濟運行的基本規(guī)律為出發(fā)點和落腳點,從行業(yè)發(fā)展的基本態(tài)勢出發(fā),將內(nèi)部和外部的各種信息、數(shù)據(jù)整合起來,從中找尋相關(guān)影響因素,預(yù)測未來發(fā)展趨勢。商業(yè)預(yù)測是保證企業(yè)未來競爭力的基礎(chǔ)和前提,通常是以各種預(yù)測理論、預(yù)測模型為基礎(chǔ)展開的。商業(yè)預(yù)測包含市場潛力預(yù)測、潛在客戶識別預(yù)測、商業(yè)歷史數(shù)據(jù)預(yù)測、風(fēng)險識別預(yù)測等。根據(jù)商業(yè)預(yù)測過程中所發(fā)現(xiàn)的影響因素、機會及挑戰(zhàn),結(jié)合企業(yè)的經(jīng)營情況和發(fā)展要求,制定針對性的政策并將其貫徹到具體的行動中來,是商業(yè)預(yù)測能夠取得最終效果的必然要求。本章習(xí)題

一、簡答題1.商業(yè)分析與數(shù)據(jù)分析的區(qū)別在哪里?2.商業(yè)分析的常見分析工具有哪些?二、案例分析據(jù)統(tǒng)計,二胎政策使得每年新生嬰兒多增長200~300萬人,因此為月子中心的發(fā)展帶來了無限商機。截至2017年,我國母嬰保健服務(wù)機構(gòu)數(shù)量超過4000家,其中僅月子中心就有3000家以上。同時,月子中心和產(chǎn)后康復(fù)的營業(yè)規(guī)模占據(jù)市場主導(dǎo)地位。其中,成規(guī)模的月子中心已達到1320家。月子中心在全國范圍內(nèi)迅速擴展。西安,古稱長安、鎬京,是陜西省省會、副省級市、關(guān)中平原城市群核心城市、絲綢之路起點城市、中國西部地區(qū)重要的中心城市,以及國家重要的科研、教育、工業(yè)基地。西安下轄11區(qū)2縣,并代管西咸新區(qū),總面積為10108km2,截至2022年年末,常住人口為1299.59萬人,常住人口城鎮(zhèn)化率為79.59%。全年地區(qū)生產(chǎn)總值為11486.51億元。在這樣龐大的人口基數(shù)且經(jīng)濟發(fā)達的背景下,西安的月子中心數(shù)量正在逐年增加。近年來,城市家庭對產(chǎn)后母嬰護理專業(yè)服務(wù)需求的與日俱增,根據(jù)華經(jīng)情報網(wǎng)調(diào)查數(shù)據(jù),陜西省產(chǎn)后母嬰護理服務(wù)行業(yè)高速發(fā)展,僅西安市就有超過2000家產(chǎn)后母嬰護理服務(wù)機構(gòu),超過4000張床位,在全國產(chǎn)后母嬰護理服務(wù)機構(gòu)數(shù)量中排名前十。可愛多月子中心于2019年2月27日成立,位于西安市高新區(qū)高新醫(yī)院附近,擁有較大客戶源。但處于眾多月子中心之間,競爭壓力大。為了使其在眾多月子中心中脫穎而出,請為可愛多月子中心提供商業(yè)分析流程。謝謝第二章商業(yè)數(shù)據(jù)獲取和清洗目錄CONTENTS01商業(yè)數(shù)據(jù)獲取02商業(yè)數(shù)據(jù)清洗商業(yè)數(shù)據(jù)獲取01一、商業(yè)數(shù)據(jù)類型

商業(yè)數(shù)據(jù)是指一個產(chǎn)業(yè)價值鏈上各個重要環(huán)節(jié)的歷史信息和即時信息的集合,其內(nèi)容包括企業(yè)內(nèi)部數(shù)據(jù)、分銷渠道數(shù)據(jù)、消費市場數(shù)據(jù)等。它不僅能揭示產(chǎn)業(yè)的歷史,還能反映產(chǎn)業(yè)的最新發(fā)展,更重要的是能預(yù)示產(chǎn)業(yè)的未來,為該產(chǎn)業(yè)價值鏈上的各類企業(yè)提供可靠的咨詢和指導(dǎo)。根據(jù)不同的分類標準,商業(yè)數(shù)據(jù)可以分為不同的類別,具體如下。一、商業(yè)數(shù)據(jù)類型

(一)數(shù)據(jù)來源的不同根據(jù)數(shù)據(jù)來源的不同,商業(yè)數(shù)據(jù)可以分為交易數(shù)據(jù)、移動通信數(shù)據(jù)、社交數(shù)據(jù)、機器數(shù)據(jù)、互聯(lián)網(wǎng)上的數(shù)據(jù)。①交易數(shù)據(jù)。②移動通信數(shù)據(jù)。③社交數(shù)據(jù)。④機器數(shù)據(jù)。⑤互聯(lián)網(wǎng)上的數(shù)據(jù)。一、商業(yè)數(shù)據(jù)類型

(二)數(shù)據(jù)結(jié)構(gòu)的不同根據(jù)數(shù)據(jù)結(jié)構(gòu)的不同,商業(yè)數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。①結(jié)構(gòu)化數(shù)據(jù)。②半結(jié)構(gòu)化數(shù)據(jù)。③非結(jié)構(gòu)化數(shù)據(jù)。一、商業(yè)數(shù)據(jù)類型

(三)數(shù)據(jù)計量層次的不同根據(jù)數(shù)據(jù)計量層次的不同,商業(yè)數(shù)據(jù)可以分為定類數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)與定比數(shù)據(jù)。①定類數(shù)據(jù)。②定序數(shù)據(jù)。③定距數(shù)據(jù)。④定比數(shù)據(jù)。一、商業(yè)數(shù)據(jù)類型

(四)數(shù)據(jù)時間狀況的不同根據(jù)數(shù)據(jù)時間狀況的不同,商業(yè)數(shù)據(jù)可以分為時間序列數(shù)據(jù)和截面數(shù)據(jù)。①時間序列數(shù)據(jù)。②截面數(shù)據(jù)。二、商業(yè)數(shù)據(jù)獲取途徑

(一)公開數(shù)據(jù)獲取公開數(shù)據(jù)的獲取途徑很多,主要包括中國人民銀行、國家統(tǒng)計局、中國政府網(wǎng)、中國經(jīng)濟數(shù)據(jù)庫、中國互聯(lián)網(wǎng)絡(luò)信息中心等發(fā)布的數(shù)據(jù)統(tǒng)計信息。這里列舉幾個常用的獲取途徑。①中國人民銀行調(diào)查統(tǒng)計司。②中國人民銀行金融市場司。③國家統(tǒng)計局。④國家數(shù)據(jù)網(wǎng)站。⑤中國政府網(wǎng)。二、商業(yè)數(shù)據(jù)獲取途徑

⑥中國經(jīng)濟數(shù)據(jù)庫。⑦中國互聯(lián)網(wǎng)絡(luò)信息中心。⑧199IT中文互聯(lián)網(wǎng)數(shù)據(jù)資訊網(wǎng)。⑨搜數(shù)網(wǎng)。⑩百度指數(shù)。?知網(wǎng)數(shù)據(jù)庫。二、商業(yè)數(shù)據(jù)獲取途徑

(二)市場調(diào)查數(shù)據(jù)獲取1.什么是市場調(diào)查市場調(diào)查是指用科學(xué)的方法,有目的、系統(tǒng)地搜集、記錄、整理和分析市場情況,了解市場的現(xiàn)狀及發(fā)展趨勢,為企業(yè)的決策者制定政策、進行市場預(yù)測、做出經(jīng)營決策、制訂計劃提供客觀且正確的依據(jù)。二、商業(yè)數(shù)據(jù)獲取途徑

2.市場調(diào)查的類型市場調(diào)查涉及的種類和范圍相對較多,按照不同的調(diào)查對象和性質(zhì)可以分為不同的類別。(1)根據(jù)調(diào)查對象分類。根據(jù)調(diào)查對象不同,市場調(diào)查可分為生產(chǎn)者市場調(diào)查和消費者市場調(diào)查。(2)根據(jù)市場調(diào)查的頻率分類。根據(jù)市場調(diào)查的頻率不同,市場調(diào)查可分為定期調(diào)查、經(jīng)常性調(diào)查和一次性調(diào)查。(3)根據(jù)市場調(diào)查的目的、形式和性質(zhì)分類。根據(jù)市場調(diào)查的目的、形式和性質(zhì)不同,市場調(diào)查可分為探索性市場調(diào)查、描述性市場調(diào)查、因果性市場調(diào)查和預(yù)測性市場調(diào)查。二、商業(yè)數(shù)據(jù)獲取途徑

(4)根據(jù)市場調(diào)查的組織形式分類。根據(jù)市場調(diào)查的組織形式不同,市場調(diào)查可分為專題性調(diào)查和綜合性調(diào)查。(5)根據(jù)市場調(diào)查的資料來源分類。根據(jù)市場調(diào)查的資料來源不同,市場調(diào)查可分為實地市場調(diào)查和文案市場調(diào)查。二、商業(yè)數(shù)據(jù)獲取途徑

3.問卷調(diào)查方法問卷調(diào)查按照被調(diào)查者不同,可分為自填式問卷調(diào)查和代填式問卷調(diào)查。其中,自填式問卷調(diào)查按照問卷傳遞方式不同,可分為報刊問卷調(diào)查、郵政問卷調(diào)查、發(fā)送式問卷調(diào)查和網(wǎng)絡(luò)問卷調(diào)查(問卷星、微信小程序等);代填式問卷調(diào)查按照與被調(diào)查者交談方式不同,可分為訪問問卷調(diào)查和電話問卷調(diào)查。二、商業(yè)數(shù)據(jù)獲取途徑4.問卷的設(shè)計問卷一般由卷首語、問題與回答方式、編碼和其他資料4部分組成。(1)卷首語。卷首語是問卷的自我介紹部分。卷首語的內(nèi)容應(yīng)該包括調(diào)查的目的、意義和主要內(nèi)容,對被調(diào)查者的希望和要求,填寫問卷的說明,回收問卷的方式和時間,調(diào)查的匿名和保密原則,調(diào)查者的名稱等。為了能引起被調(diào)查者的重視和興趣,爭取他們的合作和支持,卷首語的語氣要謙虛、誠懇、平易近人,文字要簡明、通俗、有可讀性。卷首語一般放在問卷第一頁的上面,也可單獨作為一封信放在問卷的前面。二、商業(yè)數(shù)據(jù)獲取途徑

例2-1-1下面是“×××市×××區(qū)老年居民智慧養(yǎng)老設(shè)備需求現(xiàn)狀”問卷的卷首語。您好!非常冒昧地占用您兩分鐘時間!我是×××學(xué)校的大四學(xué)生,為準確了解×××區(qū)老年居民智慧養(yǎng)老設(shè)備需求的真實情況,設(shè)計了此份問卷,并以此為基礎(chǔ)進行數(shù)據(jù)分析,希望為相關(guān)廠商、社區(qū)和政府部門改善養(yǎng)老服務(wù)提供建議。本問卷收集的信息僅供論文撰寫使用且采取匿名的方式,絕不會泄露您的個人隱私,并且問卷選項不存在對錯之分,請您根據(jù)自己的實際情況填寫紙質(zhì)問卷。填寫完成后,我將立即收回。感謝您的積極配合!二、商業(yè)數(shù)據(jù)獲取途徑

(2)問題與回答方式。這是問卷的主要組成部分,通常包括調(diào)查者詢問的問題、回答問題的方式、對回答方式的指導(dǎo)和說明等。①問題的種類。②問題的設(shè)計原則。③問題的表述。二、商業(yè)數(shù)據(jù)獲取途徑

③問題的表述。a.表述問題的原則。具體性原則,即問題的內(nèi)容要具體,不要提抽象、籠統(tǒng)的問題。例2-1-2您什么時候感覺到生活的意義?[多選題]1.不被他人打擾,一個人的時候()2.和朋友在一起的時候()3.和家人在一起的時候()4.沉浸在工作中的時候()5.在運動和享受藝術(shù)的時候()這里的“生活的意義”是一個十分抽象的概念。到底什么是“生活的意義”,許多被調(diào)查者也許難以理解。即使人們理解了它的含義,也很難保證這種理解的一致性。此外,這一問題與所列的答案也不是很協(xié)調(diào)。二、商業(yè)數(shù)據(jù)獲取途徑

單一性原則,即問題的內(nèi)容要單一,不要把兩個或兩個以上問題合在一起提出。例2-1-3父母的學(xué)歷是什么?[單選題]1.大專及以下()2.本科()3.研究生及以上()這里詢問的是父母的學(xué)歷,實際上是兩個問題,即“父親的學(xué)歷是什么?”和“母親的學(xué)歷是什么?”,如果父母的學(xué)歷不同,那么被調(diào)查者無法選擇正確的選項。二、商業(yè)數(shù)據(jù)獲取途徑

通俗性原則,即表述問題的語言要通俗,不要使用使被調(diào)查者感到陌生的語言,特別是應(yīng)避免使用過于專業(yè)的術(shù)語。例2-1-4您認為洛倫茲曲線可以用來比較和分析不同國家的財富不平等情況嗎?[單選題]1.可以()2.不可以()這里的“洛倫茲曲線”是一個專業(yè)術(shù)語,非專業(yè)人士不清楚其定義,這會導(dǎo)致被調(diào)查者不回答該問題或隨意選擇一個選項。二、商業(yè)數(shù)據(jù)獲取途徑

準確性原則,即表述問題的語言要準確,不要使用模棱兩可、含混不清或容易產(chǎn)生歧義的語言或概念。例2-1-5您多久去一次超市?[單選題]1.經(jīng)常()2.偶爾()3.從不()這里的選項“經(jīng)?!焙汀芭紶枴北硎霾磺?,每月4次是“經(jīng)?!边€是“偶爾”呢?不同的被調(diào)查者可能有不同的理解,可以把選項修改為1.少于2次()2.3~4次()3.5次以上()二、商業(yè)數(shù)據(jù)獲取途徑

簡明性原則,即表述問題的語言應(yīng)該盡可能簡單、明確,不要冗長和啰唆。客觀性原則,即表述問題的態(tài)度要客觀,不要有誘導(dǎo)性或傾向性的語言。例2-1-6最近幾年,很多農(nóng)村青年涌入城市,導(dǎo)致城市住房需求不斷增大,您認為后續(xù)房價會呈現(xiàn)什么趨勢?[單選題]1.下跌()2.上漲()3.不變()4.不清楚()這里的題干給出了城市住房需求增大的背景,容易誘導(dǎo)被調(diào)查者對后續(xù)房價做出上漲的判斷,影響被調(diào)查者自身的判斷。非否定性原則,即要避免使用否定句表述問題。二、商業(yè)數(shù)據(jù)獲取途徑

b.特殊問題的表述方式。釋疑法,即在問題前面寫一段消除疑慮的功能性文字。假定法,即用一個假言判斷作為問題的前提,然后詢問被調(diào)查者的看法。轉(zhuǎn)移法,即把回答問題的人轉(zhuǎn)移到別人身上,然后請被調(diào)查者對別人的回答做出評價。模糊法,即對某些敏感問題設(shè)計一些比較模糊的答案,以便被調(diào)查者做出真實的回答。例如,個人收入是一個比較敏感的問題,許多人不愿做出具體回答,可以將月平均收入劃分為幾個區(qū)間供被調(diào)查者選擇。c.回答類型?;卮鹩腥N基本類型,即開放型回答、封閉型回答和混合型回答。二、商業(yè)數(shù)據(jù)獲取途徑

(3)編碼。所謂編碼,就是對每份問卷、問卷中的每個問題和每個答案都編定一個唯一的代碼,并以此為依據(jù)對問卷進行數(shù)據(jù)處理。把問卷中詢問的問題和被調(diào)查者的回答,全部轉(zhuǎn)變成為A,B,C或a,b,c等代號和1,2,3等阿拉伯數(shù)字,以便運用計算機對問卷進行數(shù)據(jù)錄入和處理。二、商業(yè)數(shù)據(jù)獲取途徑

對問卷的編碼包括編定被調(diào)查者的地址、類別和戶代碼,調(diào)查開始時間、結(jié)束時間和合計時間的代碼,調(diào)查完成情況的代碼,調(diào)查者和調(diào)查結(jié)果評價的代碼,復(fù)核員和復(fù)核意見的代碼等。對問題的編碼就是指對每個問題編定一個代碼。對答案的編碼,有前編碼和后編碼之分。封閉型回答的每一個答案,在設(shè)計問卷時就已經(jīng)編定了代碼,叫作前編碼;開放型回答的答案,一般是在調(diào)查結(jié)束后根據(jù)答案的具體情況再編定代碼,叫作后編碼。編碼的主要任務(wù)是給每份問卷、每個問題、每個答案確定一個唯一的代碼,如A1、A2、A3、A4、Q1、Q2、Q3、Q4等。二、商業(yè)數(shù)據(jù)獲取途徑

根據(jù)被調(diào)查者、問題、答案的數(shù)量編定一個代碼的位數(shù)。例如,被調(diào)查者在100人以下,就編定兩位數(shù);被調(diào)查者在1000人以下,就編定三位數(shù)。同樣,根據(jù)問題、答案的數(shù)量,也分別編定它們的位數(shù)(一位數(shù)為0~9;兩位數(shù)為00~99;三位數(shù)為000~999;四位數(shù)為0000~9999)。例2-1-22省代碼地市代碼縣市代碼鄉(xiāng)鎮(zhèn)代碼A1A2A3A4□□□□□□□□例2-1-23被調(diào)查者的村代碼類別代碼戶代碼A5B1C1□□□□□□二、商業(yè)數(shù)據(jù)獲取途徑

(4)其他資料。其他資料包括問卷名稱、被調(diào)查者的地址或單位(可以是編號)、調(diào)查者姓名、調(diào)查開始時間和結(jié)束時間、調(diào)查完成情況、復(fù)核員姓名和復(fù)核意見等。這些資料是對問卷進行審核和分析的重要依據(jù)。此外,有的自填式問卷還有一個結(jié)束語。結(jié)束語可以是簡短的幾句話,對被調(diào)查者的合作表示真誠感謝,也可以稍長一點,順便征詢一下被調(diào)查者對問卷設(shè)計和問卷調(diào)查的看法。二、商業(yè)數(shù)據(jù)獲取途徑

5.問卷的整理通過各種渠道收集的數(shù)據(jù)難免會出現(xiàn)差錯、冗余、缺失等現(xiàn)象,如果簡單地把這些數(shù)據(jù)投入分析,可能會導(dǎo)致錯誤的結(jié)論,使得整個數(shù)據(jù)分析過程失去意義。因此為了保證數(shù)據(jù)資料的真實、準確和完整,收集到的數(shù)據(jù)必須經(jīng)過科學(xué)的整理。線上收集的數(shù)據(jù)可以通過數(shù)據(jù)采集軟件直接下載到Excel表格,不需要進行數(shù)據(jù)的審核、編碼和錄入。因此,下面重點講解調(diào)查數(shù)據(jù)整理的流程,即調(diào)查數(shù)據(jù)整理包含的步驟。二、商業(yè)數(shù)據(jù)獲取途徑

每年9月,大一新生報到,為了了解新生的基本情況,很多學(xué)校會對新生進行問卷調(diào)查,調(diào)查的內(nèi)容包括個人信息、家庭情況、專業(yè)認知程度等。這里以“大一新生基本信息調(diào)查”項目為例,講解調(diào)查數(shù)據(jù)整理的流程。調(diào)查數(shù)據(jù)整理主要包括以下幾個步驟。步驟1:對原始資料進行審核、修正。步驟2:編碼。步驟3:數(shù)據(jù)錄入。步驟4:數(shù)據(jù)清洗。步驟5:數(shù)據(jù)預(yù)處理。二、商業(yè)數(shù)據(jù)獲取途徑

調(diào)查數(shù)據(jù)整理流程中的第一個步驟就是“原始數(shù)據(jù)審核、修正”,這是保證調(diào)查質(zhì)量的關(guān)鍵。“問卷審核”是對回收問卷的完整性和訪問質(zhì)量的檢查,目的是確定哪些問卷有效,哪些問卷需要作廢,這些檢查通常在調(diào)查還在進行的過程中就開始了。在“大一新生基本信息調(diào)查”項目中,只要拿到了部分新生反饋的問卷,就可以進行問卷審核。問卷審核的內(nèi)容包括完整性審核、正確性審核、一致性審核、及時性審核和清楚易懂五個方面。二、商業(yè)數(shù)據(jù)獲取途徑

如果第一手數(shù)據(jù)通過了審核,那么就可以對數(shù)據(jù)進行編碼,為數(shù)據(jù)錄入做準備了,下面仍然以“大一新生基本信息調(diào)查”項目為例進行說明,需要注意的是,此時的編碼指的是數(shù)據(jù)錄入時的編碼。事實上在問卷開始設(shè)計的時候,編碼工作就已經(jīng)開始了,此時的編碼設(shè)計原則也適用于問卷設(shè)計時的編碼。數(shù)據(jù)錄入時的編碼就是將問卷信息(包括調(diào)查問題和答案)轉(zhuǎn)換為統(tǒng)一設(shè)計的計算機可識別的代碼。二、商業(yè)數(shù)據(jù)獲取途徑

根據(jù)問卷中問題的類型不同,編碼設(shè)計可分為單選題編碼設(shè)計、多選題編碼設(shè)計、排序題編碼設(shè)計、數(shù)字型開放題編碼設(shè)計和品牌表編碼設(shè)計。①單選題編碼設(shè)計。對單選題只需規(guī)定一個變量,變量取值為選項號。例2-1-27報考前你對西安歐亞學(xué)院的了解程度是什么?1.非常了解2.基本了解3.不了解4.基本不了解5.非常不了解設(shè)計編碼時,變量名可以定義為V1,屬于數(shù)值型變量,變量取值范圍為1、2、3、4、5或9,其中1表示非常了解,2表示基本了解,3表示不了解,4表示基本不了解,5表示非常不了解,9表示該題未回答。二、商業(yè)數(shù)據(jù)獲取途徑

②多選題編碼設(shè)計。第一種方式是將各個可能回答的答案選項都設(shè)為0-1變量,若被調(diào)查者選擇了該答案,則此變量的值為1,否則為0。這種方式的優(yōu)點是便于分析,編碼的結(jié)果不用經(jīng)過轉(zhuǎn)換,可直接分析;缺點是不便于錄入,變量隨選項的增多而增多。例2-1-28填寫報考志愿時,你最關(guān)注學(xué)校哪些方面的信息?(最多選3項)1.學(xué)校知名度2.學(xué)費3.地理位置4.校園環(huán)境5.專業(yè)設(shè)置6.師資力量7.校企合作8.出國機會9.校園活動10.就業(yè)方向11.其他多選題編碼方式一如表2.1.2所示。二、商業(yè)數(shù)據(jù)獲取途徑

表2.1.2多選題編碼方式一二、商業(yè)數(shù)據(jù)獲取途徑

第二種方式是將變量定義為所選題號,變量的值為選項號。這種方式的優(yōu)點是便于錄入和檢查,但分析前要用程序把它們轉(zhuǎn)換為各答案的0-1變量。多選題編碼方式二如表2.1.3所示。表2.1.3多選題編碼方式二二、商業(yè)數(shù)據(jù)獲取途徑

③排序題編碼設(shè)計。第一種方式:變量個數(shù)即選項個數(shù),按照選項排列順序,分別定義各變量為對應(yīng)選項所排次序號。例2-1-29對你選擇西安歐亞學(xué)院的原因按照重要程度進行排序(在重要程度最高的原因前填1,在次重要的原因前填2,依次類推):[]個人對該學(xué)校的向往[]家長或老師的建議[]有朋友就讀于該學(xué)校[]同類院校的對比[]高考分數(shù)的限制排序題編碼方式一如表2.1.4所示。表2.1.4排序題編碼方式一二、商業(yè)數(shù)據(jù)獲取途徑

第二種方式:變量個數(shù)即要求排序項數(shù),依照次序號排列順序,分別定義各變量為各次序號對應(yīng)的選項。例2-1-30你選擇西安歐亞學(xué)院最重要的原因是什么?其次呢?再次呢?1.個人對該學(xué)校的向往2.家長或老師的建議3.有朋友就讀于該學(xué)校4.同類院校的對比5.高考分數(shù)的限制排序題編碼方式二如表2.1.5所示。表2.1.5排序題編碼方式二二、商業(yè)數(shù)據(jù)獲取途徑

④數(shù)字型開放題編碼設(shè)計。對直接回答數(shù)字的問題,變量值就是該數(shù)字。例如,詢問被調(diào)查者每月的生活費預(yù)算,變量值就是每月的生活費預(yù)算,單位為“元”,取值范圍可以設(shè)定為0~10000。⑤品牌表編碼設(shè)計。品牌表是記錄產(chǎn)品品牌的統(tǒng)計表。它是一種編碼表,在涉及產(chǎn)品品牌問題時有助于被調(diào)查者回答,以及調(diào)查者提問和記錄。品牌表中給出所有可能答案選項的代碼,使調(diào)查者可直接編碼。建立品牌表時應(yīng)注意及時了解市場情況,加入新品牌,刪除消失的品牌。另外,注意“其他”選項的設(shè)立,避免出現(xiàn)品牌錯誤、重碼、漏碼等錯誤。編碼完成后就可以進行數(shù)據(jù)錄入了。二、商業(yè)數(shù)據(jù)獲取途徑

1.網(wǎng)絡(luò)爬蟲簡介網(wǎng)絡(luò)爬蟲又稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機器人,在FOAF(FriendOfAFriend)社區(qū)中,經(jīng)常被稱為網(wǎng)頁追逐者,是一種按照一定規(guī)則,自動地抓取萬維網(wǎng)(WorldWideWeb,簡稱Web、3W)信息的程序或者腳本,另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù),大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲,實際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實現(xiàn)的。二、商業(yè)數(shù)據(jù)獲取途徑

八爪魚采集器、R和Python都是非常有力的網(wǎng)絡(luò)爬蟲工具。其中,八爪魚采集器具有圖形化的網(wǎng)絡(luò)爬蟲界面,優(yōu)點是不需要代碼基礎(chǔ),非常容易上手。R和Python是兩種不同的編程語言,使用這兩種語言進行網(wǎng)絡(luò)爬蟲時要求使用者掌握軟件的基本語法和命令。Python傾向于進行大型網(wǎng)絡(luò)爬蟲,與R相比,語法相對復(fù)雜,因此學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲比較復(fù)雜。對軟件應(yīng)用經(jīng)驗較少,同時又想從網(wǎng)上獲取數(shù)據(jù)的初學(xué)者來說,R網(wǎng)絡(luò)爬蟲是最佳的選擇。原因是R的語法相對直觀,規(guī)則更加靈活;對數(shù)據(jù)量不大的用戶來說(小于百萬級),R也能夠非常自如地處理。先學(xué)習(xí)R網(wǎng)絡(luò)爬蟲,等熟悉網(wǎng)絡(luò)爬蟲的原理之后,再過渡到Python網(wǎng)絡(luò)爬蟲是比較容易的。二、商業(yè)數(shù)據(jù)獲取途徑

2.基于八爪魚采集器的網(wǎng)絡(luò)爬蟲案例分析1)八爪魚采集器簡介八爪魚采集器是深圳視界信息技術(shù)有限公司研發(fā)的一款網(wǎng)頁采集軟件,具有使用簡單,功能強大等諸多優(yōu)點。它是一款全網(wǎng)通用的互聯(lián)網(wǎng)數(shù)據(jù)采集器,模擬人瀏覽網(wǎng)頁的行為,通過簡單的頁面點選,生成自動化的采集流程,從而將網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),存儲為Excel或數(shù)據(jù)庫等多種形式。八爪魚采集器以分布式云計算平臺為核心,結(jié)合智能識別算法、可視化操作界面,從不同的網(wǎng)站或者網(wǎng)頁獲取標準化數(shù)據(jù),幫助需要從網(wǎng)頁獲取信息的客戶完成數(shù)據(jù)自動化、標準化采集及導(dǎo)出,提高數(shù)據(jù)獲取效率。二、商業(yè)數(shù)據(jù)獲取途徑

2)八爪魚采集器的獲取八爪魚采集器的獲取和安裝非常簡單,首先進入八爪魚采集器的官方下載界面獲取八爪魚采集器安裝包,如圖2-1-4所示。用戶點擊“立即下載”按鈕,就可以根據(jù)自己計算機的類型選擇合適的安裝包,下載界面如圖2-1-5所示二、商業(yè)數(shù)據(jù)獲取途徑

圖2-1-4八爪魚采集器的官方下載界面圖2-1-5安裝包的下載界面二、商業(yè)數(shù)據(jù)獲取途徑

八爪魚采集器的安裝包下載完成后,雙擊“OctopusSetup版本號.exe”文件,開始安裝。安裝完成后,在“開始”菜單或桌面上找到八爪魚采集器的快捷方式并雙擊,啟動八爪魚采集器。第一次使用八爪魚采集器時需要免費注冊一個賬號,利用賬號登錄后即可使用。二、商業(yè)數(shù)據(jù)獲取途徑

3)八爪魚采集器數(shù)據(jù)采集案例分析(1)案例介紹。進行商業(yè)分析時,經(jīng)常需要從各種網(wǎng)頁獲取數(shù)據(jù),如各大新聞門戶網(wǎng)站的新聞內(nèi)容,電商平臺的在售商品或者招聘平臺的招聘需求等信息。下面以搜狐網(wǎng)、京東網(wǎng)和前程無憂網(wǎng)為例,演示如何通過八爪魚采集器獲取數(shù)據(jù)。(2)八爪魚采集器數(shù)據(jù)采集流程。為了更清晰地展示八爪魚采集器的數(shù)據(jù)采集流程,按照從簡單到復(fù)雜的順序介紹不同需求下的數(shù)據(jù)采集流程,包括單頁面數(shù)據(jù)采集、單頁面列表數(shù)據(jù)采集、單頁面詳情頁數(shù)據(jù)采集、多頁面詳情頁數(shù)據(jù)采集、應(yīng)用正則表達式進行數(shù)據(jù)采集、評論數(shù)據(jù)采集和招聘職位數(shù)據(jù)采集。二、商業(yè)數(shù)據(jù)獲取途徑

3.基于R的網(wǎng)絡(luò)爬蟲案例1)R網(wǎng)絡(luò)爬蟲原理介紹網(wǎng)絡(luò)爬蟲就是自動將網(wǎng)頁的內(nèi)容批量抓取下來。無論使用哪種語言進行網(wǎng)絡(luò)爬蟲,都需要對網(wǎng)頁設(shè)計有一個基本的了解。網(wǎng)頁是用HTML編寫的,只有了解了基本的HTML標簽和標簽的使用方法以后,才能夠很好地從網(wǎng)頁中取出數(shù)據(jù),如在一個段落標簽中取出內(nèi)容或者在一個a標簽中取出href的地址。HTML即超文本標記語言,是由Web的發(fā)明者TimBerners-Lee和同事DanielW.Connolly于1990年創(chuàng)立的一種標記語言,它是標準通用化標記語言SGML的應(yīng)用。HTML是一種建立網(wǎng)頁文件的語言,通過標記式的指令將影像、聲音、圖片、文字動畫、影視等內(nèi)容顯示出來。二、商業(yè)數(shù)據(jù)獲取途徑

(1)整體結(jié)構(gòu)。一個網(wǎng)頁對應(yīng)多個HTML文件,HTML文件以.htm或.html(外語縮寫)為擴展名。標準的HTML文件都具有一個基本的整體結(jié)構(gòu),即HTML文件的開始標記和結(jié)尾標記、HTML文件的頭部和實體兩部分,有三個雙標記符用于頁面整體結(jié)構(gòu)的確認。標記符通常成對出現(xiàn)(部分標記符除外,如</br>、<img/>),部分標記符也可以不成對出現(xiàn),如<p>,但是一般并不贊同這樣做。標記符<html>說明該文件是用HTML來描述的,它表示文件的開始,而</html>則表示該文件的結(jié)尾,它們是HTML文件的開始標記和結(jié)尾標記。二、商業(yè)數(shù)據(jù)獲取途徑

(2)頭部內(nèi)容。<head></head>:這兩個標記符分別表示頭部內(nèi)容的開始和結(jié)尾。頭部中的標記符標記的是網(wǎng)頁的標題、序言、說明等內(nèi)容,它們本身不作為內(nèi)容來顯示,但會影響網(wǎng)頁顯示的效果。頭部中最常用的標記符是標題標記符和<meta>標記符,其中標題標記符用于定義網(wǎng)頁的標題,它的內(nèi)容顯示在網(wǎng)頁窗口的標題欄中,網(wǎng)頁的標題可被瀏覽器用作書簽或收藏。表2.1.6列出了HTML文件頭部中的標記符。

表2.1.6HTML文件頭部中的標記符二、商業(yè)數(shù)據(jù)獲取途徑

(3)實體內(nèi)容。<body></body>:網(wǎng)頁中顯示的實際內(nèi)容均包含在這兩個正文標記符之間。正文標記符又稱為實體標記。①標題:共有六個等級,定義方法如下。<h1></h1>:定義一級標題。<h2></h2>:定義二級標題。<h3></h3>:定義三級標題。<h4></h4>:定義四級標題。<h5></h5>:定義五級標題。<h6></h6>:定義六級標題。二、商業(yè)數(shù)據(jù)獲取途徑

②文本。<p></p>:定義文本。③換行符。</br>:換行符。示例如下。二、商業(yè)數(shù)據(jù)獲取途徑

HTML文件的代碼結(jié)構(gòu)如下:二、商業(yè)數(shù)據(jù)獲取途徑

rvest包是R用戶使用最多的爬蟲包,它語法簡潔,可以解決大部分爬蟲問題。rvest包中的常用函數(shù)如表2.1.7所示。表2.1.7rvest包中的常用函數(shù)二、商業(yè)數(shù)據(jù)獲取途徑

爬取網(wǎng)頁的基本步驟如下。步驟1:獲取網(wǎng)頁的鏈接,代碼為url=""。其中,""里面存放的是爬取網(wǎng)頁的地址,url為存放網(wǎng)頁地址的變量名稱。步驟2:下載網(wǎng)頁,代碼為web=read_html(url,encoding="")。步驟3:提取自己想要的信息,如果是提取文本,代碼一般為name=web%>%html_nodes('')%>%html_text()。步驟4:提取鏈接,代碼為link=web%>%html_nodes('')%>%html_attrs()。二、商業(yè)數(shù)據(jù)獲取途徑

2)R網(wǎng)絡(luò)爬蟲案例分析(1)案例介紹。各類財經(jīng)新聞會影響商家的投資和決策,因此爬取財經(jīng)類新聞是商業(yè)分析過程中很重要的一個環(huán)節(jié),這里以新聞網(wǎng)站新浪財經(jīng)、新浪體育為例,演示如何使用R爬取數(shù)據(jù)。同時,以豆瓣讀書和當當網(wǎng)為例,演示如何使用R爬取圖書信息。(2)基于R的數(shù)據(jù)采集流程。二、商業(yè)數(shù)據(jù)獲取途徑

4.基于Python的網(wǎng)絡(luò)爬蟲案例1)Python網(wǎng)絡(luò)爬蟲原理介紹(1)Python網(wǎng)絡(luò)爬蟲的優(yōu)勢。Python最初被用于編寫shell(自動化腳本),伴隨著版本不斷更新及新語言功能的加入,其作為爬蟲編程語言的優(yōu)勢更加突出。因此,其被越來越多的開發(fā)者選中用于大型程序項目開發(fā)。二、商業(yè)數(shù)據(jù)獲取途徑

(2)Python爬蟲架構(gòu)。Python爬蟲架構(gòu)主要由5部分組成:調(diào)度器、網(wǎng)址管理器、網(wǎng)頁下載器、網(wǎng)頁解析器和應(yīng)用程序。①調(diào)度器。調(diào)度器相當于計算機的CPU,主要負責(zé)協(xié)調(diào)網(wǎng)址管理器、網(wǎng)頁下載器和網(wǎng)頁解析器之間的工作。其工作原理:檢查是否有待爬取的網(wǎng)址;返回待爬取的網(wǎng)址;把下載好的內(nèi)容傳送給網(wǎng)頁解析器進行解析;返回所需要的數(shù)據(jù);下載網(wǎng)址指向的網(wǎng)頁;回傳下載的網(wǎng)頁內(nèi)容;將有價值的數(shù)據(jù)收集起來,組成一個應(yīng)用程序。②網(wǎng)址管理器。網(wǎng)址管理器的功能包括管理待爬取網(wǎng)址、已經(jīng)爬取的網(wǎng)址及防止循環(huán)抓取網(wǎng)址,通過內(nèi)存、數(shù)據(jù)庫及緩存數(shù)據(jù)庫來實現(xiàn)。二、商業(yè)數(shù)據(jù)獲取途徑

③網(wǎng)頁下載器。爬蟲程序根據(jù)傳入的網(wǎng)址下載網(wǎng)頁,并將網(wǎng)頁轉(zhuǎn)換為字符串。網(wǎng)頁下載器中有urlib2(Python的官方基本模塊),包括登錄、代理、cookie及第三方包(Requests)。④網(wǎng)頁解析器。網(wǎng)頁解析器的主要功能是解析字符串,根據(jù)需求提取有價值的數(shù)據(jù),可以采用DOM樹解析方式。網(wǎng)頁解析器也可以采用正則表達式,即通過模糊匹配在字符串中提取有價值的數(shù)據(jù),但是比較難提取復(fù)雜文檔中有價值的數(shù)據(jù)。html.parser、Beautifulsoup和Lxml都采用DOM樹解析方式。⑤應(yīng)用程序。應(yīng)用程序就是由從網(wǎng)頁中提取的有價值數(shù)據(jù)組成的一個應(yīng)用。二、商業(yè)數(shù)據(jù)獲取途徑

(3)Python網(wǎng)絡(luò)爬蟲的工作原理。①發(fā)起訪問請求。首先由HTTP庫向要訪問的網(wǎng)站發(fā)起訪問請求,請求中允許包含headers等額外信息,然后等待服務(wù)器響應(yīng)訪問請求。發(fā)起訪問請求的過程與人工開啟瀏覽器相同,在瀏覽器的地址欄中輸入訪問網(wǎng)址,按回車鍵確認。這個過程將瀏覽器作為一個客戶端,向服務(wù)器發(fā)起訪問請求。②獲取響應(yīng)內(nèi)容。如果服務(wù)器能夠正常響應(yīng),就可以得到響應(yīng)的內(nèi)容。響應(yīng)的內(nèi)容是指要獲取的數(shù)據(jù),可能是HTML文件或二進制數(shù)據(jù)(圖片、視頻等)、JSON字符串。這是一個客戶端請求訪問,服務(wù)器接受的過程,目的是獲取要傳送給瀏覽器的網(wǎng)頁文件二、商業(yè)數(shù)據(jù)獲取途徑

③解析內(nèi)容。若響應(yīng)的內(nèi)容是HTML文件,則使用正則表達式和網(wǎng)頁解析器對其進行解析;若響應(yīng)的內(nèi)容是JSON字符串,則可以直接將其轉(zhuǎn)換成JSON對象進行解析;若響應(yīng)的內(nèi)容是二進制數(shù)據(jù),則可以對其進行保存或進一步處理。這個過程相當于瀏覽器先在本地獲取服務(wù)器端文件,然后解釋并顯示出來。④保存數(shù)據(jù)。數(shù)據(jù)有多種保存方式,可以保存為文本,也可以保存在數(shù)據(jù)庫中,還可以保存為jpg、mp4等特定格式的文件,這相當于在網(wǎng)頁上下載圖片或視頻。二、商業(yè)數(shù)據(jù)獲取途徑

2)Python網(wǎng)絡(luò)爬蟲案例分析①案例介紹。評論數(shù)據(jù)對于人們的消費傾向有很大的影響,下面演示如何使用Python爬取紀錄片“尋味順德”的彈幕數(shù)據(jù)。②基于Python的數(shù)據(jù)采集流程商業(yè)數(shù)據(jù)清洗02一、數(shù)據(jù)清洗及案例

(一)數(shù)據(jù)清洗介紹從名字上可以看出,數(shù)據(jù)清洗就是把“臟”的數(shù)據(jù)“洗掉”,是對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并檢查數(shù)據(jù)的一致性。因為我們收集到的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務(wù)系統(tǒng)中抽取而來,這樣就避免不了存在有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間沖突的情況,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”洗掉,就像在地里挖出來的蘿卜,需要洗凈后加工。數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的第一步,也是保證后續(xù)結(jié)果正確的重要一環(huán)。若不能保證數(shù)據(jù)的正確性,我們可能得到錯誤的結(jié)果,如因小數(shù)點錯誤而造成的數(shù)據(jù)被放大十倍、百倍甚至更大等。在數(shù)據(jù)量較大的項目中,數(shù)據(jù)清洗花費的時間可占整個數(shù)據(jù)分析過程花費時間的一半或以上。一、數(shù)據(jù)清洗及案例

數(shù)據(jù)清洗需要處理以下6類錯誤。①不完整錯誤②無效錯誤③不準確錯誤④不一致錯誤。⑤不統(tǒng)一錯誤⑥重復(fù)錯誤一、數(shù)據(jù)清洗及案例

(二)基于Excel的數(shù)據(jù)清洗案例分析1.案例介紹每年新生報到的時候,各大院校為了了解新生狀況都會進行新生及其家庭情況調(diào)查,以便實用商業(yè)數(shù)據(jù)分析理念與方法給學(xué)生提供更好的服務(wù),使學(xué)生更快地適應(yīng)校園生活。這里以“×××學(xué)院2021級新生及家庭基本信息調(diào)查”數(shù)據(jù)為例,對基于Excel的數(shù)據(jù)清洗過程進行演示。2.基于Excel的數(shù)據(jù)清洗步驟基于Excel的數(shù)據(jù)清洗包括以下幾個環(huán)節(jié):初步了解數(shù)據(jù)、缺失值處理、剔重、分列、合并兩個單元格的內(nèi)容、篩選、數(shù)據(jù)排序、字符串部分內(nèi)容的替換和截取字符串的部分字符。一、數(shù)據(jù)清洗及案例

(三)基于R的數(shù)據(jù)清洗案例分析1.R數(shù)據(jù)清洗的常用函數(shù)(1)缺失值的處理。①na.omit函數(shù)。作用:剔除數(shù)據(jù)結(jié)構(gòu)中值為空(缺失值以NA表示)的數(shù)據(jù)。函數(shù)語法:na.omit(x)。②complete.cases函數(shù)。作用:判斷數(shù)據(jù)結(jié)構(gòu)中是否有存在缺失值的行,如果某行的數(shù)據(jù)缺失,那么將該行標識為F(FALSE),否則標識為T(TRUE)。函數(shù)語法:complete.cases(data1)。一、數(shù)據(jù)清洗及案例

(2)重復(fù)值的處理。函數(shù):unique函數(shù)。作用:刪除所有字段均重復(fù)的行。函數(shù)語法:unique(x)。一、數(shù)據(jù)清洗及案例

(3)排序。①order函數(shù)。作用:R中自帶的排序函數(shù),針對向量進行排序操作。函數(shù)語法:order(x,na.last=T,decreasing=T)。其中,x為待排序的向量;na.last表示是否將NA值放在最后面(默認排序忽略NA值);decreasing表示是否按照降序排列,默認為升序排列。②arrange函數(shù)。作用:plyr包中的函數(shù),針對數(shù)據(jù)框進行排序,可以返回基于某列排序后的數(shù)據(jù)框,方便進行多重排序。函數(shù)語法:arrange(x,x.col1)。其中,x表示數(shù)據(jù)框,x.col1表示數(shù)據(jù)框中某列的名稱。一、數(shù)據(jù)清洗及案例

(4)多余空格的處理。函數(shù):trim函數(shù)。作用:清除字符前后的空格。函數(shù)語法:trim(x),該函數(shù)來自raster包。一、數(shù)據(jù)清洗及案例

(5)字符串數(shù)據(jù)的提取。①substr函數(shù)。作用:提取字符串中的部分字符。函數(shù)語法:substr(s,first,last)。其中,first和last分別為截取的起始位置和結(jié)束位置。注意:使用該函數(shù)時必須設(shè)置參數(shù)first和last,否則會出錯。②substring函數(shù)。作用:提取字符串中的部分字符。函數(shù)語法:substring(s,first,last=1000000)。其中,first和last分別為截取的起始位置和結(jié)束位置??梢灾辉O(shè)置first,last默認為1000000,指字符串的最大長度。一、數(shù)據(jù)清洗及案例

2.案例介紹信用卡用戶能否按時還款是銀行非常關(guān)心的一個問題。這里收集了信用卡用戶的個人信息,包括婚姻狀況、性別、教育水平、消費理念等,將其整理成“01simudata.csv”文件,以此數(shù)據(jù)為例演示基于R的數(shù)據(jù)清洗過程。3.基于R的數(shù)據(jù)清洗步驟一、數(shù)據(jù)清洗及案例

1.Python數(shù)據(jù)清洗的常用函數(shù)(1)缺失值的處理。①isnull()函數(shù)。作用:判斷數(shù)據(jù)中是否存在缺失值。函數(shù)語法:x.isnull(),函數(shù)返回值為True或者False。如果變量x的某個位置缺失,那么返回True,否則返回False。一、數(shù)據(jù)清洗及案例

②isnull().sum()函數(shù)。作用:計算缺失值的數(shù)量。函數(shù)語法:x.isnull().sum(),計算變量x中缺失值的數(shù)量。一、數(shù)據(jù)清洗及案例

③info()函數(shù)。作用:用于查看DataFrame的概況。函數(shù)語法:DataF(verbose=None,buf=None,max_cols=None,memory_usage=None,null_counts=None)。參數(shù)說明:verbose:指明是否打印完整摘要。buf:可寫緩沖區(qū),默認為sys.stdout。max_cols:指明打印完整摘要還是簡短摘要。memory_usage:指明是否應(yīng)顯示DataFrame元素(包括索引)的總內(nèi)存使用情況。null_counts:指明是否顯示非空計數(shù)。若為None,則僅顯示框架是否小于max_info_rows和max_info_columns;若為True,則始終顯示計數(shù);若為False,則從不顯示計數(shù)。一、數(shù)據(jù)清洗及案例

④dropna()函數(shù)。作用:刪除具有缺失值的行。函數(shù)語法:dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)。參數(shù)說明:axis:默認為axis=0,當某行出現(xiàn)缺失值時,將該行丟棄;若axis=1,則當某列出現(xiàn)缺失值時,將該列丟棄。how:指明缺失值的個數(shù),默認為how='any',表示只要某行有缺失值就將該行丟棄;how='all'表示當某行全部為缺失值時,才將其丟棄。thresh:閾值設(shè)定,如果行或列中非缺失值的數(shù)量小于或等于thresh,則該行或該列會被刪除。subset:選擇查找范圍,如subset=['a','d'],即丟棄a列和d列中缺失值所在的行。inplace:布爾值,默認為False,當inplace=True時,表示對原數(shù)據(jù)進行操作,無返回值。一、數(shù)據(jù)清洗及案例

⑤fillna()函數(shù)。作用:填充缺失值。函數(shù)語法:pandas.DataFrame.fillna(value=None,method=None,axsi=None,inplace=False,limit=None)。參數(shù)說明:value:用于填充缺失值的標量值或字典對象。method:插值方式。axis:待填充的軸,默認為axis=0。inplace:布爾值,默認為False,當inplace=True時,表示對原數(shù)據(jù)進行操作,無返回值。limit:對于前向和后向填充,可以連續(xù)填充的最大數(shù)量。一、數(shù)據(jù)清洗及案例

(2)重復(fù)值的處理。①DataFrame.duplicated()函數(shù)。作用:檢測數(shù)據(jù)中是否存在重復(fù)值。函數(shù)語法:DataFrame.duplicated(subset=None,keep="first"/"last"/"False")。參數(shù)說明:subset:對應(yīng)值是列名,表示只考慮寫的列,將列對應(yīng)值相同的行進行去重,默認值為None,即考慮所有列。keep="first"/"last"/"False":first為默認值,表示除第一次出現(xiàn)外,其余相同的值被標記為重復(fù);last表示除最后一次出現(xiàn)外,其余相同的值被標記為重復(fù);False表示所有相同的值都被標記為重復(fù)。使用DataFrame.duplicated()函數(shù)檢測標記Series中的值、DataFrame中的記錄行是否重復(fù),重復(fù)為True,不重復(fù)為False。一、數(shù)據(jù)清洗及案例

②duplicated().sum()函數(shù)。作用:計算重復(fù)值的數(shù)量。函數(shù)語法:data.duplicated().sum()。③DataFrame.drop_duplicates()函數(shù)。作用:刪除數(shù)據(jù)中重復(fù)的行或者列。函數(shù)語法:DataFrame.drop_duplicates(subset=None,keep="first",inplace=False)。一、數(shù)據(jù)清洗及案例

(3)排序。函數(shù):DataFrame.sort_values()函數(shù)。作用:對數(shù)據(jù)進行排序。函數(shù)語法:DataFrame.sort_values(by,axis=0,ascending=True,inplace=False,kind="quicksort",na_position="last",ignore_index=False,key=None)。參數(shù)說明:by:指明要進行排序的列名或索引值。axis:若axis=0或index,則按照列中數(shù)據(jù)的大小排序;若axis=1或columns,則按照索引值中數(shù)據(jù)的大小排序,默認axis=0。ascending:指明是否按指定列數(shù)據(jù)的升序排列,默認為True,升序排列。inplace:指明是否用排序后的數(shù)據(jù)替換原來的數(shù)據(jù),默認為False,不替換。kind:取值為quicksort、mergesort、heapsort,默認值為quicksort。na_position:空值的存放位置,默認存放在last,即最后。一、數(shù)據(jù)清洗及案例

2.案例介紹這里使用與“基于R的數(shù)據(jù)清洗案例分析”相同的數(shù)據(jù),數(shù)據(jù)內(nèi)容不再贅述。3.基于Python的數(shù)據(jù)清洗步驟二、數(shù)據(jù)集成及案例

(一)數(shù)據(jù)集成簡介數(shù)據(jù)處理常常涉及數(shù)據(jù)集成操作,即將來自多個數(shù)據(jù)源的數(shù)據(jù)結(jié)合在一起并形成一個統(tǒng)一的數(shù)據(jù)集,以便為數(shù)據(jù)處理工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。在數(shù)據(jù)集成過程中,需要解決以下幾個問題。二、數(shù)據(jù)集成及案例

1.模式集成模式集成是指使來自多個數(shù)據(jù)源的數(shù)據(jù)相互匹配,其中涉及實體識別。例如,如何判斷一個數(shù)據(jù)集中的“custome_id”與另一個數(shù)據(jù)集中的“custome_number”是否表示同一實體。數(shù)據(jù)集中通常包含元數(shù)據(jù),這些元數(shù)據(jù)可以避免在模式集成時發(fā)生錯誤。二、數(shù)據(jù)集成及案例

2.冗余冗余是數(shù)據(jù)集成中經(jīng)常出現(xiàn)的一個問題。如果一個屬性可以由其他屬性推導(dǎo)出來,那么這個屬性就是冗余屬性。例如,一張顧客數(shù)據(jù)表中的平均月收入屬性就是冗余屬性,因為它可以根據(jù)月收入屬性計算出來。此外,屬性命名不一致也會導(dǎo)致集成后的數(shù)據(jù)集出現(xiàn)冗余。利用相關(guān)分析可以發(fā)現(xiàn)一些數(shù)據(jù)冗余情況。例如,給定兩個變量X和Y,根據(jù)這兩個變量的數(shù)值可分析出這兩個變量間的相互關(guān)系。若兩個變量之間的相關(guān)系數(shù)r>0,則說明兩個變量之間是正關(guān)聯(lián),也就是說,若X增大,則Y也隨之增大,r值越大,說明變量X、Y的正關(guān)聯(lián)關(guān)系越緊密。若相關(guān)系數(shù)r=0,則說明變量X、Y相互獨立,兩者之間沒有關(guān)系。若相關(guān)系數(shù)r<0,則說明變量X、Y之間是負關(guān)聯(lián),也就是說,若X增大,則Y減小。r的絕對值越大,說明變量X、Y的負關(guān)聯(lián)關(guān)系越緊密。二、數(shù)據(jù)集成及案例

3.數(shù)據(jù)值沖突檢測與消除不同數(shù)據(jù)源的屬性值可能不同,出現(xiàn)這種問題的原因可能是表示方式、比例尺度或編碼的差異等。例如,質(zhì)量屬性在一個數(shù)據(jù)源中以千克為單位,而在另一個數(shù)據(jù)源中卻以噸為單位;價格屬性在不同地點采用不同的貨幣單位等。二、數(shù)據(jù)集成及案例

(二)基于R的數(shù)據(jù)集成案例分析1.基于R的數(shù)據(jù)集成函數(shù)(1)merge函數(shù)。作用:通過共同列或者行名合并數(shù)據(jù)框,或者執(zhí)行其他合并操作。函數(shù)語法:merge(x,y,by=intersect(names(x),names(y)),all=F,all.x=all,all.y=all,…)。參數(shù)說明:x、y:要合并的數(shù)據(jù)框或者對象。intersect(names(x),names(y)):表示兩個數(shù)據(jù)框或者對象中共同的變量名稱。all.x:邏輯值,若all.x=T,則x中所有行都被包含在輸出結(jié)果中,y中沒有的行將會產(chǎn)生NA值。all.x默認是F,即只有x與y均有的行會被包含在輸出結(jié)果中。all.y:邏輯值,與all.x類似。二、數(shù)據(jù)集成及案例

(2)XXX_join函數(shù)。①左連接left_join函數(shù)。作用:保留x中所有的行,合并匹配y中的列。函數(shù)語法:left_join(x,y,by)。②右連接right_join函數(shù)。作用:保留y中所有的行,合并匹配x中的列。函數(shù)語法:right_join(x,y,by)。③全連接full_join函數(shù)。作用:保留x和y中所有的行,合并匹配的列。函數(shù)語法:full_join(x,y,by)。二、數(shù)據(jù)集成及案例

④內(nèi)連接inner_join函數(shù)。作用:只保留x中與y匹配的行,合并匹配y中的列。函數(shù)語法:inner_join(x,y,by)。⑤半連接semi_join函數(shù)。作用:根據(jù)在y中這一條件篩選x的行。函數(shù)語法:semi_join(x,y,by)。⑥anti_join函數(shù)。作用:根據(jù)不在y中這一條件篩選x的行。函數(shù)語法:anti_join(x,y,by)。二、數(shù)據(jù)集成及案例

(3)melt函數(shù)。作用:將寬格式數(shù)據(jù)轉(zhuǎn)換為長格式數(shù)據(jù)。函數(shù)語法:melt(data,…,na.rm=F,="value")。參數(shù)說明:data:待轉(zhuǎn)換的數(shù)據(jù)框。na.rm:指明是否刪除NA值。:觀測值轉(zhuǎn)換成一列后的列名,這里是“value”。二、數(shù)據(jù)集成及案例

(4)dcast函數(shù)。作用:將長格式數(shù)據(jù)轉(zhuǎn)換成寬格式數(shù)據(jù)。函數(shù)語法:dcast(data,formula,fun.aggregate=NULL,…,margins=NULL,subset=NULL,drop=T,value.var=…)。參數(shù)說明:data:待轉(zhuǎn)換的數(shù)據(jù)框。formula:形式為x~y,x為行標簽,y為列標簽。fun.aggregate:聚合函數(shù),對value進行處理。margins:指明是否加上邊際值。subset:指明是否對結(jié)果進行條件篩選。drop:指明是否保留缺失值。value.var:要處理的字段。二、數(shù)據(jù)集成及案例

2.案例介紹基于R的數(shù)據(jù)集成中使用的數(shù)據(jù)是ecodata1.csv和ecodata2.csv,其中ecodata1.csv包含年份、全年人均純收入兩個變量,ecodata2.csv包含年份、全年人均消費支出和消費價格指數(shù)三個變量。3.基于R的數(shù)據(jù)集成操作步驟二、數(shù)據(jù)集成及案例

(三)基于Python的數(shù)據(jù)集成案例分析1.基于Python的數(shù)據(jù)集成函數(shù)基于Python的數(shù)據(jù)集成經(jīng)常用到如下函數(shù)。(1)merge函數(shù)。作用:將DataFrame的行連接起來。函數(shù)語法:merge(left,right,how="inner",on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=False,suffixes=("_x","_y")。參數(shù)說明:left:參與合并的左側(cè)DataFrame。right:參與合并的右側(cè)DataFrame。二、數(shù)據(jù)集成及案例

how:連接方法,取值為"inner"、"left"、"right"、"outer"。on:用于連接的列名。left_on:左側(cè)DataFrame中用作連接鍵的列。right_on:右側(cè)DataFrame中用作連接鍵的列。left_index:取值為True時,將左側(cè)DataFrame中的行索引用作連接鍵。right_index:取值為True時,將右側(cè)DataFrame中的行索引用作連接鍵。sort:取值為True時,合并后會對數(shù)據(jù)進行排序,默認為True。suffixes:修改重復(fù)名。二、數(shù)據(jù)集成及案例

(2)concat函數(shù)。作用:可以按某個軸進行連接,也可以指定連接的方式。函數(shù)語法:concat(objs,axis=0,join="outer",join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True)。參數(shù)說明:objs:參與連接的pandas對象的列表或字典,唯一必需的參數(shù)。axis:指明連接的軸向,默認為0。join:取值為"inner"或"outer",默認為"outer",指明其他軸向上的索引是按交集(inner)還是并集(outer)進行合并。join_axes:指明用于其他n-1條軸的索引,不執(zhí)行并集/交集運算。keys:與連接對象有關(guān)的值,用于形成連接軸向上的層次化索引,可以是任意值的列表或數(shù)組、元組數(shù)據(jù)、數(shù)組列表(如果將levels設(shè)置成多級數(shù)據(jù))。levels:指定層次化索引各級別上的索引(如果設(shè)置了keys)。二、數(shù)據(jù)集成及案例

2.案例介紹這里使用與“基于R的數(shù)據(jù)集成”相同的數(shù)據(jù),數(shù)據(jù)內(nèi)容不再贅述。3.基于Python的數(shù)據(jù)集成操作步驟三、數(shù)據(jù)變換及案例分析

(一)數(shù)據(jù)變換簡介數(shù)據(jù)變換主要是指對數(shù)據(jù)進行規(guī)范化處理,使其適合用于數(shù)據(jù)挖掘。簡單的數(shù)據(jù)變換包括對數(shù)據(jù)進行平方、開方、取對數(shù)、差分運算等操作。對數(shù)據(jù)進行處理時,經(jīng)常用到的變換包括二值化、離散化、啞變量編碼、標準化。三、數(shù)據(jù)變換及案例分析

1.二值化二值化,顧名思義就是將一個字段轉(zhuǎn)換為用兩個值表示。二值化通過設(shè)定一個閾值實現(xiàn),原字段大于閾值的被設(shè)置為1,否則被設(shè)置為0。例如,數(shù)據(jù)集中的“salary”字段為個人月收入,如果定義閾值為20000元,那么當個人月收入為50000元時,將個人收入狀況設(shè)置為1;當個人月收入為5000元時,將個人收入狀況設(shè)置為0。三、數(shù)據(jù)變換及案例分析

2.離散化連續(xù)性特征值通常是模型不穩(wěn)定的來源,此外,連續(xù)性特征值可能與目標變量呈現(xiàn)復(fù)雜的相關(guān)性,而將連續(xù)性特征值按照一定方法轉(zhuǎn)化為離散性特征值后可能會帶來模型效果的提升。常用的離散化方法包括等寬離散、等頻離散、人工離散等。二值化可以看作離散化的特殊情況。三、數(shù)據(jù)變換及案例分析

3.啞變量編碼對于無序的分類變量,許多模型不支持其運算(在R中許多模型(如回歸模型)會自動將因子變量轉(zhuǎn)換為啞變量,省去了很多麻煩),可以先生成啞變量,再進行深入分析。啞變量被認為是量化了的分類變量,因此應(yīng)用非常廣泛。啞變量又稱為虛擬變量或虛設(shè)變量,一般使用0和1來表示分類變量的值是否處于某一分類水平。一般有m個分類水平的變量經(jīng)過啞編碼之后,會生成m個啞變量,各個啞變量之間兩兩互斥,應(yīng)用時通常僅使其中m-1個進入模型,留下1個作為對照組,對照組可以通過其他m-1個啞變量完全還原出來。在使用啞變量建模時,一般需要保證這m-1個啞變量都進入模型,或者都不進入模型。三、數(shù)據(jù)變換及案例分析

4.標準化在商業(yè)分析中,不同的變量存在單位不同的問題,如流量使用MB作為單位,而金額使用元作為單位,因此流量、金額無法直接進行比較。同時,同一變量采用不同單位也會無法直接比較,如收入用“元”作單位和用“萬元”作單位會在數(shù)值上相差很大。這樣的差異性會強烈影響模型的結(jié)果。為了避免因為變量間單位差異導(dǎo)致模型不穩(wěn)定,需要將變量的單位消除,使它們在一個“標準”的尺度上進行比較分析。因此,需要采用標準化技術(shù),常用的標準化方法包括max-min標準化、z-score標準化和小數(shù)點定標標準化,這三種標準化方法的公式如下。三、數(shù)據(jù)變換及案例分析

(1)max-min標準化。max-min標準化將變量映射到[0,1]上,若數(shù)據(jù)集中且某個數(shù)值很大,則標準化后的各值都接近0且相差不大。max-min標準化容易受到極端值的影響。三、數(shù)據(jù)變換及案例分析

(2)z-score標準化。式中,mean為一組變量的均值;sigma為一組變量的標準差。z-score標準化將一組變量變換為均值為0、標準差為1的一組變量,z-score標準化是目前應(yīng)用最廣的標準化方法。三、數(shù)據(jù)變換及案例分析

(3)小數(shù)點定標標準化。通過改變屬性值的小數(shù)位數(shù),將一組變量映射到[-1,1]上,移動的小數(shù)位數(shù)取決于屬性值絕對值的最大值。三、數(shù)據(jù)變換及案例分析

(二)基于Excel的數(shù)據(jù)變換案例分析1.案例介紹這里仍然使用“×××學(xué)院2021級新生及家庭基本信息調(diào)查”數(shù)據(jù)介紹基于Excel的數(shù)據(jù)變換。2.基于Excel的數(shù)據(jù)變換操作步驟三、數(shù)據(jù)變換及案例分析(三)基于R的數(shù)據(jù)變換案例分析1.案例介紹這里仍然使用“基于R的數(shù)據(jù)清洗案例分析”中的信用卡用戶數(shù)據(jù)進行演示,數(shù)據(jù)內(nèi)容不再贅述。2.基于R的數(shù)據(jù)變換操作步驟三、數(shù)據(jù)變換及案例分析(四)基于Python的數(shù)據(jù)變換案例分析1.案例介紹這里仍然使用“基于R的數(shù)據(jù)清洗案例分析”中的信用卡用戶數(shù)據(jù)進行演示,數(shù)據(jù)內(nèi)容不再贅述。2.基于Python的數(shù)據(jù)變換操作步驟四、數(shù)據(jù)歸約及案例分析(一)數(shù)據(jù)歸約簡介對于小型或中型數(shù)據(jù)集來說,一般的數(shù)據(jù)預(yù)處理步驟已經(jīng)足夠。但對于大型數(shù)據(jù)集來說,在應(yīng)用數(shù)據(jù)挖掘技術(shù)以前,還可能進行一個中間的、額外的步驟——數(shù)據(jù)歸約。數(shù)據(jù)歸約是指在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。數(shù)據(jù)歸約主要有兩個途徑:屬性歸約和數(shù)值歸約,分別針對原始數(shù)據(jù)集中的屬性和記錄。數(shù)據(jù)歸約的常用方法如下。四、數(shù)據(jù)歸約及案例分析1.屬性歸約使用較為廣泛的屬性歸約算法為主成分分析(PrincipalComponentAnalysis,PCA)。PCA是一種數(shù)學(xué)變換的方法,它把給定的一組相關(guān)變量通過線性變換轉(zhuǎn)換成另一組不相關(guān)的變量,這些新的變量按照方差遞減的順序排列。在線性變換中保持變量的總方差不變,使第一變量具有最大的方差,稱第一變量為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱第二變量為第二主成分,依次類推,i個變量就有i個主成分。設(shè)X的協(xié)方差矩陣為Σ,則Σ必為半正定對稱矩陣,求特征值(按從大到小的順序排列)及其特征向量。可以證明,所對應(yīng)的特征向量就是第i主成分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論