金融大數(shù)據(jù)分析 課件 項目二 大數(shù)據(jù)采集與清洗認知 任務1-4_第1頁
金融大數(shù)據(jù)分析 課件 項目二 大數(shù)據(jù)采集與清洗認知 任務1-4_第2頁
金融大數(shù)據(jù)分析 課件 項目二 大數(shù)據(jù)采集與清洗認知 任務1-4_第3頁
金融大數(shù)據(jù)分析 課件 項目二 大數(shù)據(jù)采集與清洗認知 任務1-4_第4頁
金融大數(shù)據(jù)分析 課件 項目二 大數(shù)據(jù)采集與清洗認知 任務1-4_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

金融大數(shù)據(jù)分析大數(shù)據(jù)采集與清洗認知目錄1大數(shù)據(jù)分析流程概述2大數(shù)據(jù)分析工具Python基礎3數(shù)據(jù)采集4數(shù)據(jù)清洗

1.大數(shù)據(jù)分析流程概述提問導入:大數(shù)據(jù)分析的幾個步驟順序是怎么樣的?按你所認為的順序排列以下步驟。數(shù)據(jù)分析數(shù)據(jù)清洗數(shù)據(jù)采集數(shù)據(jù)可視化報告發(fā)布

課堂討論:你平時如何收集數(shù)據(jù)?如何判斷你收集的數(shù)據(jù)是準確的?你平時處理數(shù)據(jù)的工具是什么?1.大數(shù)據(jù)分析流程概述大數(shù)據(jù)分析目的數(shù)據(jù)分析首先思考,為什么要開展數(shù)據(jù)分析,通過這次數(shù)據(jù)分析要解決什么問題?1.大數(shù)據(jù)分析流程概述收集金融產(chǎn)品銷售數(shù)據(jù):銷售時間、數(shù)量、金額、頻率、最大和最小銷售量等優(yōu)化產(chǎn)品設計收集客戶數(shù)據(jù):基礎信息、產(chǎn)品瀏覽時間點、產(chǎn)品信息關注點、產(chǎn)品購買頻率、數(shù)量金額等客戶精準營銷大數(shù)據(jù)分析目的大數(shù)據(jù)分析主要有三個目的:總結(jié)規(guī)律、優(yōu)化現(xiàn)狀、預測未來。1.大數(shù)據(jù)分析流程概述精準營銷客戶價值管理風險控制金融大數(shù)據(jù)分析目的大數(shù)據(jù)分析流程1.大數(shù)據(jù)分析流程概述數(shù)據(jù)采集數(shù)據(jù)預處理數(shù)據(jù)分析數(shù)據(jù)可視化報告發(fā)布Python基礎及爬蟲數(shù)據(jù)清洗數(shù)據(jù)標準化數(shù)據(jù)建模數(shù)據(jù)挖掘可視化處理圖表呈現(xiàn)管理駕駛艙與發(fā)布管理大數(shù)據(jù)分析流程1.大數(shù)據(jù)分析流程概述數(shù)據(jù)的來源不僅包括來自企業(yè)內(nèi)部的數(shù)據(jù),也包括來自企業(yè)外部的數(shù)據(jù)。內(nèi)部數(shù)據(jù)可以是企業(yè)各類信息系統(tǒng)中的數(shù)據(jù),外部數(shù)據(jù)可以是爬取外部網(wǎng)頁的數(shù)據(jù)或從數(shù)據(jù)服務商處購買的數(shù)據(jù)等。由中國人民銀行印發(fā)的《金融業(yè)數(shù)據(jù)能力建設指引》已于2021年2月9日正式實施。要遵循國家法律法規(guī)、管理制度,符合國家及金融行業(yè)標準規(guī)范,建立健全數(shù)據(jù)安全管理長效機制和防護措施,嚴控訪問權(quán)限,嚴防數(shù)據(jù)泄露、篡改、損毀與不當使用,依法依規(guī)保護數(shù)據(jù)主體隱私權(quán)不受侵害。大數(shù)據(jù)分析流程1.大數(shù)據(jù)分析流程概述對不符合要求的數(shù)據(jù)進行數(shù)據(jù)清洗以保證數(shù)據(jù)的完備性和數(shù)據(jù)質(zhì)量、對數(shù)據(jù)進行標準化處理以使數(shù)據(jù)集符合數(shù)據(jù)挖掘時的算法要求。1.數(shù)據(jù)清洗數(shù)據(jù)清洗是對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并保證數(shù)據(jù)一致性。2.數(shù)據(jù)標準化數(shù)據(jù)標準化是用于消除不同評價指標的單位量綱和數(shù)量級帶來的數(shù)據(jù)不可比性,又稱數(shù)據(jù)無量綱化或數(shù)據(jù)歸一化。大數(shù)據(jù)分析流程1.大數(shù)據(jù)分析流程概述數(shù)據(jù)分析是指用適當?shù)姆治龇椒肮ぞ?,對處理過的數(shù)據(jù)進行分析,提取有價值的信息,形成有效結(jié)論的過程。數(shù)據(jù)挖掘其實是一種高級的數(shù)據(jù)分析方法,就是從大量的數(shù)據(jù)中挖掘出有用的信息,它是根據(jù)用戶的特定要求,從浩如煙海的數(shù)據(jù)中找出所需的信息,以滿足用戶的特定需求。數(shù)據(jù)挖掘側(cè)重解決四類數(shù)據(jù)分析問題:分類、聚類、關聯(lián)和預測,重點在尋找模式和規(guī)律。大數(shù)據(jù)分析流程1.大數(shù)據(jù)分析流程概述數(shù)據(jù)可視化是指將大型的、集中的數(shù)據(jù)以圖形、圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。以下數(shù)據(jù)可視化圖形有什么特點?大數(shù)據(jù)分析流程1.大數(shù)據(jù)分析流程概述分析框架明確結(jié)論解決方案2.大數(shù)據(jù)分析工具Python基礎

發(fā)起搶答:你能夠說出哪些計算機編程語言?2.大數(shù)據(jù)分析工具Python基礎——開發(fā)環(huán)境Python是一種結(jié)構(gòu)簡單,通俗易懂的計算機編程語言。借助各種第三方庫,Python能實現(xiàn)無所不能的數(shù)據(jù)管理和分析任務。代碼編輯器一個文本編輯器,是具有圖形用戶界面的軟件。具備打開代碼文件、高亮語法顯示、代碼編寫(自動補全)等功能。代碼解釋器運行Python程序時,先運行Python解釋器,通過這個解釋器,去讀取Python程序文件,這個解釋器再以機器指令語言告訴CPU如何去做。集成開發(fā)環(huán)境(IDE),即是一種具有圖形用戶界面的,集代碼的編寫、編譯或解釋、調(diào)試、程序性能監(jiān)測等功能于一體的程序開發(fā)軟件。比較常用的IDE包括PyCharm、VisualStudioCode、Anaconda。2.大數(shù)據(jù)分析工具Python基礎——基本語法輸入數(shù)據(jù)Python變量:數(shù)據(jù)輸入到計算機中后會保存在內(nèi)存里,程序中的數(shù)據(jù)存放到內(nèi)存中的某個位置后,為了方便后續(xù)程序找到和操作這個數(shù)據(jù),需要給這個位置起一個名字,編程語言中把這個名字叫變量。account=123456print(account)account=654321print(account)123456654321str1=’hello!’str2=’world!’print(str1,str2)hello!world!2.大數(shù)據(jù)分析工具Python基礎——基本語法輸入數(shù)據(jù)常用數(shù)據(jù)類型:1.數(shù)字(number)2.字符串(string)3.列表(list)4.字典(dictionary)money=8200.6str1=′本月收入:′months=2print(str1,money)print(′兩個月收入:′,months*money)本月收入:8200.6兩個月收入:16401.2列表account=[1415161718.11,1213141516.22,1314151617.33]字典{key1:valuel,keye2:valeu,..}數(shù)字字符串2.大數(shù)據(jù)分析工具Python基礎——基本語法處理數(shù)據(jù)條件語句:條件判斷語句,是指滿足某些條件,才能做某件事情,而不滿足條件時是不允許做的。條件語句在各類編程語言中均作為基本的語法使用,包括if…,elif…,else…3種條件語句形式,三者的意思通俗地講就是“假如……,或者假如……,剩下的……”currentHour=int(input(′輸入當前的小時(0-24):′))print(currentHour)ifcurrentHour<0orcurrentHour>24:print(′輸入的時間錯誤,請重新輸入?!?currentHour=int(input′輸入當前的小時:′))ifcurrentHour>0andcurrentHour<8:print(′早上好!′)elifcurrentHour<12:print(′上午好′)elifcurrentHour<17:print(′下午好!′)elifcurrentHour<21:print(′晚上好!′)else:print(′該睡覺了,晚安!′)輸入當前的小時(0-24),3232輸入的時間情誤,請重新輸入。輸入當前的小時,21該睡覺了,晚安!2.大數(shù)據(jù)分析工具Python基礎——基本語法處理數(shù)據(jù)函數(shù):函數(shù)是一段可重復調(diào)用的代碼塊,它接收一些輸入(參數(shù)),并可以輸出一些結(jié)果(返回值)print()函數(shù)表示打印字符串;len()函數(shù)表示計算字符長度;format()函數(shù)表示實現(xiàn)格式化輸出;type()函數(shù)表示查詢對象的類型3.數(shù)據(jù)采集討論:如何快速獲得某一天全部基金的凈值、漲跌幅度等信息?3.數(shù)據(jù)采集——數(shù)據(jù)來源企業(yè)內(nèi)部數(shù)據(jù)企業(yè)資源計劃系統(tǒng)、客戶關系管理系統(tǒng)、財務系統(tǒng)等企業(yè)內(nèi)部信息系統(tǒng)的數(shù)據(jù)。3.數(shù)據(jù)采集——數(shù)據(jù)來源【課程思政】數(shù)據(jù)采集和使用需確保用戶充分知情黨的二十大報告指出,要依法將各類金融活動全部納入監(jiān)管。金融理財類APP近些年因數(shù)據(jù)安全問題不斷被點名整改。廣東省通信管理局官網(wǎng)公布了215款因侵害用戶權(quán)益和安全隱患問題被責令限期整改的APP應用名單,其中多款金融理財類App因首次運行未經(jīng)用戶閱讀并同意隱私政策,申請獲取存儲權(quán)限和電話權(quán)限以及隱私政策中未逐一列出獲取個人姓名、出生日期和證件號信息的目的、方式、范圍等違規(guī)行為被通報整改。3.數(shù)據(jù)采集——數(shù)據(jù)來源企業(yè)外部數(shù)據(jù)公開出版物、互聯(lián)網(wǎng)、行業(yè)市場調(diào)查研究報告。3.數(shù)據(jù)采集——數(shù)據(jù)采集工具Python應用:網(wǎng)絡爬蟲工具網(wǎng)絡爬蟲就是獲取網(wǎng)頁并提取和保存信息的自動化程序。瀏覽網(wǎng)頁請求與響應過程示意圖網(wǎng)絡爬蟲工作流程3.數(shù)據(jù)采集——數(shù)據(jù)采集工具網(wǎng)絡爬蟲工具:八爪魚4.數(shù)據(jù)清洗討論:如果收集到的數(shù)據(jù)存在缺失、邏輯錯誤等問題時如何解決?缺失值邏輯錯誤格式錯誤4.數(shù)據(jù)清洗“臟數(shù)據(jù)”無效數(shù)據(jù)缺失數(shù)據(jù)重復數(shù)據(jù)錯誤數(shù)據(jù)沖突數(shù)據(jù)4.數(shù)據(jù)清洗“臟數(shù)據(jù)”的由來:1.數(shù)據(jù)的來源多樣,使得數(shù)據(jù)的標準、格式、統(tǒng)計方法不一樣;2.就是錄入和計算數(shù)據(jù)的代碼有錯誤。【職業(yè)素養(yǎng)】1.細致認真的職業(yè)態(tài)度,確保數(shù)據(jù)錄入的正確性;2.系統(tǒng)思維,對不同來源數(shù)據(jù)的問題提前預判。討論:為什么會出現(xiàn)“臟數(shù)據(jù)”?4.數(shù)據(jù)清洗數(shù)據(jù)清洗(Datacleaning)對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。一般先做全局清洗(即對全部數(shù)據(jù)),再做個別字段的清洗多拆分清洗步驟,每個步驟備份數(shù)據(jù),方便出問題時回退清洗的輸出結(jié)果不要直接放在正式數(shù)據(jù)流\正式文件中4.數(shù)據(jù)清洗——清洗方法1.缺失值:空值處理:根據(jù)實際需要保留空缺、填寫空值為“0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論