《金融大數(shù)據(jù)分析》-課件全套 胡君暉 項目1-6大數(shù)據(jù)與大數(shù)據(jù)金融認(rèn)知-大數(shù)據(jù)與金融監(jiān)管_第1頁
《金融大數(shù)據(jù)分析》-課件全套 胡君暉 項目1-6大數(shù)據(jù)與大數(shù)據(jù)金融認(rèn)知-大數(shù)據(jù)與金融監(jiān)管_第2頁
《金融大數(shù)據(jù)分析》-課件全套 胡君暉 項目1-6大數(shù)據(jù)與大數(shù)據(jù)金融認(rèn)知-大數(shù)據(jù)與金融監(jiān)管_第3頁
《金融大數(shù)據(jù)分析》-課件全套 胡君暉 項目1-6大數(shù)據(jù)與大數(shù)據(jù)金融認(rèn)知-大數(shù)據(jù)與金融監(jiān)管_第4頁
《金融大數(shù)據(jù)分析》-課件全套 胡君暉 項目1-6大數(shù)據(jù)與大數(shù)據(jù)金融認(rèn)知-大數(shù)據(jù)與金融監(jiān)管_第5頁
已閱讀5頁,還剩234頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

金融大數(shù)據(jù)分析項目一大數(shù)據(jù)與大數(shù)據(jù)金融認(rèn)知目錄01初識大數(shù)據(jù)02初識大數(shù)據(jù)金融03Python基礎(chǔ)01初識大數(shù)據(jù)大數(shù)據(jù)的概念數(shù)據(jù),本質(zhì)上是對客觀事物和客觀現(xiàn)象的描述和統(tǒng)計,反映了客觀世界的一些真實存在“巨大的數(shù)據(jù)量”大數(shù)據(jù)是指在一定時間范圍內(nèi)無法用傳統(tǒng)數(shù)據(jù)庫軟件進(jìn)行采集、存儲、管理和分析的數(shù)據(jù)集或數(shù)據(jù)群,需要通過新的處理模式才能體現(xiàn)出的具有高效率、高價值、海量、多樣化特點(diǎn)的信息資產(chǎn)大數(shù)據(jù)的來源社交媒體教育科研工業(yè)領(lǐng)域地理位置網(wǎng)絡(luò)日志交通數(shù)據(jù)金融電商大型設(shè)備計算機(jī)技術(shù)的發(fā)展互聯(lián)網(wǎng)的發(fā)展云計算技術(shù)的進(jìn)步物聯(lián)網(wǎng)、網(wǎng)絡(luò)社交及智能終端的普及大數(shù)據(jù)的產(chǎn)生基礎(chǔ)大數(shù)據(jù)的特征Volume(大體量)330-15th,歐洲所有手抄本書記約800冊1439年印刷機(jī)發(fā)明,1453-1503的50年間,歐洲印刷的書籍就超過這個數(shù)目2013年,世界上存儲的數(shù)據(jù)超過了1.2ZB,如果這些信息存儲在光盤上,高度可以達(dá)到地球和月球之間距離的5倍全球每年產(chǎn)生的數(shù)據(jù)總量在2025年將達(dá)到175ZB,平均每天約產(chǎn)生491EB的數(shù)據(jù)大數(shù)據(jù)的特征產(chǎn)生原因:獲取數(shù)據(jù)的能力大幅提高互聯(lián)網(wǎng)的普及集成電路價格的降低1KB=1024B

1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EBVolume(大體量)大數(shù)據(jù)的特征Variety(多樣性)賬號姓名開戶行余額00001張三北京市通州區(qū)支行10000大數(shù)據(jù):網(wǎng)頁,圖片,音頻,視頻等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)傳統(tǒng)數(shù)據(jù):二維表形式的文本類結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)的特征Variety(多樣性)相對于結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)是指沒有結(jié)構(gòu)的數(shù)據(jù),無法用數(shù)據(jù)庫的二維邏輯結(jié)構(gòu)來表現(xiàn),無法進(jìn)行結(jié)構(gòu)化處理的數(shù)據(jù),具體包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等。非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)上是結(jié)構(gòu)化數(shù)據(jù)之外的一切數(shù)據(jù)大數(shù)據(jù)的特征典型的人為生成的非結(jié)構(gòu)化數(shù)據(jù)包括:?社交媒體:來自新浪微博、微信、QQ、Facebook等平臺的數(shù)據(jù)。?網(wǎng)站:照片共享網(wǎng)站的數(shù)據(jù)。?移動數(shù)據(jù):手機(jī)短信、位置軌跡等數(shù)據(jù)。?通信:聊天、即時消息、電話錄音等數(shù)據(jù)。?媒體:MP3、數(shù)碼照片、音頻文件、視頻文件。?業(yè)務(wù)應(yīng)用程序:MicrosoftOffice文檔等應(yīng)用程序產(chǎn)生的數(shù)據(jù)。Variety(多樣性)大數(shù)據(jù)的特征典型的機(jī)器生成的非結(jié)構(gòu)化數(shù)據(jù)包括:?衛(wèi)星圖像:衛(wèi)星監(jiān)測到的天氣數(shù)據(jù)、地形、軍事活動等數(shù)據(jù)。?科學(xué)數(shù)據(jù):石油和天然氣勘探、空間勘探、地震圖像、大氣數(shù)據(jù)。?數(shù)字監(jiān)控:監(jiān)控設(shè)備產(chǎn)生的照片和視頻數(shù)據(jù)。?傳感器數(shù)據(jù):交通、天氣、海洋傳感器采集產(chǎn)生的數(shù)據(jù)。Variety(多樣性)大數(shù)據(jù)的特征半結(jié)構(gòu)化數(shù)據(jù)是介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù),它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。相對于結(jié)構(gòu)化數(shù)據(jù)“先有結(jié)構(gòu),再有數(shù)據(jù)”的特點(diǎn),半結(jié)構(gòu)化數(shù)據(jù)是先有數(shù)據(jù),再有結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)通常表現(xiàn)為XML或HTML等形式。Variety(多樣性)大數(shù)據(jù)的特征Velocity(時效性)在數(shù)據(jù)量特別大的情況下,也能做到數(shù)據(jù)的實時處理與分析。這也是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。Veracity(準(zhǔn)確性)保證處理結(jié)果具有一定的準(zhǔn)確性大數(shù)據(jù)的特征Value(價值性)價值大價值密度低大數(shù)據(jù)的演化大數(shù)據(jù)的萌芽階段(20世紀(jì)90年代-21世紀(jì)初)這個階段的大數(shù)據(jù)主要是一種構(gòu)想,其概念內(nèi)涵逐漸豐富1997年第八屆美國IEEE的會議論文集中首次使用了“大數(shù)據(jù)”的概念1998年《科學(xué)》刊登一篇名為“大數(shù)據(jù)的處理程序”的文章,明確使用了“BigData”一詞大數(shù)據(jù)的演化大數(shù)據(jù)的發(fā)展階段(21世紀(jì)初-2010年)21世紀(jì)初研究者已經(jīng)開始關(guān)注大數(shù)據(jù),論文中開始討論大數(shù)據(jù)2003-2006年是大數(shù)據(jù)發(fā)展的突破階段,Google發(fā)表了三篇重要論文,俗稱“三架馬車”:分布式系統(tǒng)GFS、大數(shù)據(jù)分布式計算框架MapReduce、NOSQL數(shù)據(jù)庫系統(tǒng)BigTable;2006-2009年為大數(shù)據(jù)發(fā)展的成熟階段,大數(shù)據(jù)技術(shù)并行運(yùn)算與分布式系統(tǒng)基本形成2010年,智能手機(jī)日益廣泛應(yīng)用,移動數(shù)據(jù)量急劇增長大數(shù)據(jù)的演化大數(shù)據(jù)的興盛階段(2011年-至今)2012年《大數(shù)據(jù)時代》的宣傳推廣,大數(shù)據(jù)概念開始風(fēng)靡全球2012年,奧巴馬政府在白宮網(wǎng)站發(fā)布《大數(shù)據(jù)研究與發(fā)展倡議》,標(biāo)志著大數(shù)據(jù)已經(jīng)成為重要的時代特征2014年,“大數(shù)據(jù)”首次寫入我國《政府工作報告》2015年,國務(wù)院正式印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,大數(shù)據(jù)從理論邁向?qū)嶋H應(yīng)用大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別大數(shù)據(jù)傳統(tǒng)數(shù)據(jù)產(chǎn)生方式自產(chǎn)生/采集人工采集存儲方式高性能、高安全、高冗余的大數(shù)據(jù)存儲系統(tǒng)傳統(tǒng)數(shù)據(jù)庫使用方式挖掘數(shù)據(jù)中的規(guī)律和知識從樣本數(shù)據(jù)推斷總體02初識大數(shù)據(jù)金融金融大數(shù)據(jù)VS大數(shù)據(jù)金融金融大數(shù)據(jù)從本質(zhì)上來講,金融大數(shù)據(jù)是應(yīng)用于金融領(lǐng)域的一種大數(shù)據(jù),屬于大數(shù)據(jù)的一種行業(yè)應(yīng)用分類。它包含了銀行、保險公司、證券公司等金融機(jī)構(gòu)、政府監(jiān)管機(jī)關(guān)、機(jī)構(gòu)和個人等各類經(jīng)濟(jì)主體在投資、融資、儲蓄、理財、證券交易過程中的一切信息,這些信息的形式既可以是結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),也可以是半結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)來源并不僅限于金融機(jī)構(gòu)、金融市場和相關(guān)監(jiān)管機(jī)構(gòu),它還包括各類跨行業(yè)大數(shù)據(jù),如電商消費(fèi)大數(shù)據(jù)、社交媒體大數(shù)據(jù)、公共事業(yè)部大數(shù)據(jù)等。金融中的大數(shù)據(jù)-經(jīng)濟(jì)數(shù)據(jù)指標(biāo)國民經(jīng)濟(jì)總體指標(biāo)國內(nèi)生產(chǎn)總值(GDP)、社會消費(fèi)品零售總額、固定資產(chǎn)投資進(jìn)出口總額、工業(yè)增加值、采購經(jīng)理人指數(shù)人口數(shù)、失業(yè)率、國際收支、財政收入和支出物價水平指標(biāo)工業(yè)生產(chǎn)者出廠價格指數(shù)(PPI)、居民消費(fèi)價格指數(shù)(CPI)、工業(yè)生產(chǎn)者購進(jìn)價格指數(shù)(PPIRM)金融指標(biāo)利率(存款利率、貸款利率、貼現(xiàn)率、同業(yè)拆借利率等)貨幣供應(yīng)量指標(biāo)(M0、M1、M2)社會融資規(guī)模、人民幣存貸款余額、匯率、外匯儲備金融中的大數(shù)據(jù)-金融行業(yè)特有指標(biāo)證券業(yè):指數(shù)市盈率、總市值、總成交額銀行業(yè):不良貸款率、撥備覆蓋率、資本充足率保險業(yè):保費(fèi)收入、原保費(fèi)收入、賠款及給付額、保險業(yè)資產(chǎn)總額大數(shù)據(jù)金融的產(chǎn)生背景技術(shù)革命與數(shù)據(jù)增長存儲與計算技術(shù)的進(jìn)步金融業(yè)的轉(zhuǎn)型需求金融危機(jī)與監(jiān)管壓力消費(fèi)者行為的變化基于這些背景因素,大數(shù)據(jù)金融不僅應(yīng)運(yùn)而生,而且迅速成為金融行業(yè)的創(chuàng)新前沿,為金融機(jī)構(gòu)和消費(fèi)者提供了更加智能、精準(zhǔn)和高效的服務(wù)。大數(shù)據(jù)應(yīng)用水平正在成為金融企業(yè)競爭力的核心要素。大數(shù)據(jù)金融的內(nèi)涵大數(shù)據(jù)金融是指金融行業(yè)在其業(yè)務(wù)流程中,特別是在風(fēng)險管理、資金配置、客戶服務(wù)和投資決策等領(lǐng)域,采用大數(shù)據(jù)技術(shù)對大規(guī)模、多源、高頻率的數(shù)據(jù)進(jìn)行采集、存儲、分析和解讀,從而提煉出有價值的信息,進(jìn)而輔助或自動化地做出決策的一種現(xiàn)代化金融活動。其核心是結(jié)合先進(jìn)的數(shù)據(jù)處理與分析技術(shù),從龐大的數(shù)據(jù)集中發(fā)現(xiàn)潛在的模式和關(guān)聯(lián),以提高金融服務(wù)的精度、效率和創(chuàng)新能力。網(wǎng)絡(luò)化的呈現(xiàn)大量的金融產(chǎn)品和服務(wù)通過網(wǎng)絡(luò)來展現(xiàn),包括固定網(wǎng)絡(luò)和移動網(wǎng)絡(luò)01基于大數(shù)據(jù)的風(fēng)險管理理念和工具基于數(shù)據(jù)挖掘的客戶識別和分類將成為風(fēng)險管理的主要手段,動態(tài)、實時的監(jiān)測而非事后的回顧式評價將成為風(fēng)險管理的常態(tài)性內(nèi)容02信息不對稱性大大降低金融產(chǎn)品和服務(wù)的消費(fèi)者和提供者之間信息不對稱程度大大降低03高效率性許多流程和動作都是在線上發(fā)起和完成,有些動作是自動實現(xiàn)的04產(chǎn)品的可控性、可受性風(fēng)險可控、產(chǎn)品收益、流動性可接受05金融服務(wù)邊界被擴(kuò)展對于單個金融企業(yè),可以擴(kuò)大經(jīng)營規(guī)模;金融從業(yè)人員個體服務(wù)對象會更多06普惠金融數(shù)字化服務(wù)對象和范圍大大擴(kuò)展,金融服務(wù)更接地氣07大數(shù)據(jù)金融的特點(diǎn)大數(shù)據(jù)金融的層次大數(shù)據(jù)金融的架構(gòu)重塑競爭格局的變化產(chǎn)業(yè)格局的變化監(jiān)管體系的變化課堂練習(xí)請查找下列大數(shù)據(jù)公司的主要服務(wù)金融對象,以及服務(wù)內(nèi)容,填入下表03Python基礎(chǔ)Python與大數(shù)據(jù)金融為什么Python對金融如此有用?簡單性和靈活性可以快速構(gòu)建MVP工具和第三方庫豐富多樣非常適合金融行業(yè)的數(shù)據(jù)科學(xué)領(lǐng)域分析函數(shù)非常適合基于分析的職業(yè)為新興的金融科技和加密需求提供工具Python與大數(shù)據(jù)金融Python在金融中的應(yīng)用數(shù)據(jù)清洗和處理量化投資即時處理和流量控制風(fēng)險管理金融工具開發(fā)數(shù)據(jù)科學(xué)和人工智能Python的起源Python的創(chuàng)始人為荷蘭人吉多·范羅蘇姆

(GuidovanRossum)。1989年圣誕節(jié)期間,在阿姆斯特丹,Guido為了打發(fā)圣誕節(jié)的無趣,決心開發(fā)一個新的腳本解釋程序,于是有了Python.2021年10月,語言流行指數(shù)的編譯器Tiobe將Python加冕為最受歡迎的編程語言Python的安裝Python官網(wǎng)下載IDE:PyCharmAnacondaPython的運(yùn)行命令行下的運(yùn)行在線運(yùn)行Python3在線工具|菜鳥工具()IDE內(nèi)運(yùn)行Python的基礎(chǔ)語法—變量變量就是一種標(biāo)識符,它是數(shù)據(jù)的名字。變量代表的數(shù)據(jù)不僅可以是數(shù)字,還可以是任意數(shù)據(jù)類型a=5,b=4.0,stu_name=‘張三’變量名命名規(guī)則:變量名只能包含字母、數(shù)字和下劃線(_)變量名可以字母或下劃線開頭,但不能以數(shù)字開頭;變量名不能包含空格,但可使用下劃線來分隔其中的單詞不要將Python關(guān)鍵字和函數(shù)名用作變量名,即不要使用Python保留用于特殊用途的單詞,如print,if,where等message_11_messagemessage1Python的基礎(chǔ)語法—保留字符Python的基礎(chǔ)語法—賦值語句變量=Value等號(=)運(yùn)算符左邊是一個變量名,等號(=)運(yùn)算符右邊是存儲在變量中的值必須在聲明變量的同時,進(jìn)行賦值Python的變量沒有類型,變量的類型由賦值給變量的數(shù)據(jù)來決定對變量賦值時,即在內(nèi)存中創(chuàng)建了對象可以把任意數(shù)據(jù)類型賦值給變量,同一個變量可以反復(fù)賦值,而且可以是不同類型的變量a=5b=4.0stu_name=‘張三’sum=a+bPython的基礎(chǔ)語法—多個變量賦值Python支持同時為多個變量賦值。例如: a=b=c=1以上實例,創(chuàng)建一個整型對象,值為1,三個變量被分配到相同的內(nèi)存空間上。也可以為多個對象指定多個變量。例如: a,b,c=1,2,"john"以上實例,兩個整型對象1和2分別分配給變量a和b,字符串對象"john"分配給變量c。Python的基礎(chǔ)語法—代碼的縮進(jìn)代碼A代碼B:

代碼C

代碼D代碼EPython不像其他程序設(shè)計語言(如Java或者C言語)采取括號“{}”分隔代碼塊,而是采用代碼縮進(jìn)和冒號“:”區(qū)分代碼之間的層次在Python中,對于類定義、函數(shù)定義、流程控制語句,以及異常處理語句等,行尾的冒號和下一行的縮進(jìn)表示一個代碼塊的開始,而縮進(jìn)結(jié)束,則表示一個代碼塊的結(jié)束Python的基礎(chǔ)語法--多行語句Python語句中一般以新行作為語句的結(jié)束符。但是我們可以使用斜杠(\)將一行的語句分為多行顯示,如下所示:total=item_one+\item_two+\item_threedays=['Monday','Tuesday','Wednesday','Thursday','Friday']語句中包含[],{}或()括號就不需要使用多行連接符。如下實例:Python的基礎(chǔ)語法—注釋python中單行注釋采用#開頭python中多行注釋使用三個單引號

'''

或三個雙引號

"""'''

這是多行注釋,使用單引號。

這是多行注釋,使用單引號。

這是多行注釋,使用單引號。

'''

"""

這是多行注釋,使用雙引號。

這是多行注釋,使用雙引號。

這是多行注釋,使用雙引號。

"""#第一個注釋print("Hello,Python!")#第二個注釋Python的基礎(chǔ)語法—運(yùn)算符Python語言支持以下類型的運(yùn)算符:算術(shù)運(yùn)算符比較(關(guān)系)運(yùn)算符賦值運(yùn)算符邏輯運(yùn)算符位運(yùn)算符成員運(yùn)算符身份運(yùn)算符Python的基礎(chǔ)語法—運(yùn)算符—算數(shù)運(yùn)算符運(yùn)算符描述實例+加-兩個對象相加a+b輸出結(jié)果30-減-得到負(fù)數(shù)或是一個數(shù)減去另一個數(shù)a-b輸出結(jié)果-10*乘-兩個數(shù)相乘或是返回一個被重復(fù)若干次的字符串a(chǎn)*b輸出結(jié)果200/除-x除以yb/a輸出結(jié)果2%取模-返回除法的余數(shù)b%a輸出結(jié)果0**冪-返回x的y次冪a**b為10的20次方,輸出結(jié)果100000000000000000000a=10b=20Python的基礎(chǔ)語法—運(yùn)算符—比較運(yùn)算符運(yùn)算符描述實例==等于-比較對象是否相等(a==b)返回False。!=不等于-比較兩個對象是否不相等(a!=b)返回True。>大于-返回x是否大于y(a>b)返回False。<小于-返回x是否小于y。所有比較運(yùn)算符返回1表示真,返回0表示假。這分別與特殊的變量True和False等價。(a<b)返回True。>=大于等于-返回x是否大于等于y。(a>=b)返回False。<=小于等于-返回x是否小于等于y。(a<=b)返回True。a=10b=20Python的基礎(chǔ)語法—運(yùn)算符—賦值運(yùn)算符運(yùn)算符描述實例=簡單的賦值運(yùn)算符c=a+b將a+b的運(yùn)算結(jié)果賦值為c+=加法賦值運(yùn)算符c+=a等效于c=c+a-=減法賦值運(yùn)算符c-=a等效于c=c-a*=乘法賦值運(yùn)算符c*=a等效于c=c*a/=除法賦值運(yùn)算符c/=a等效于c=c/a%=取模賦值運(yùn)算符c%=a等效于c=c%a**=冪賦值運(yùn)算符c**=a等效于c=c**aPython的基礎(chǔ)語法—運(yùn)算符—邏輯運(yùn)算符運(yùn)算符邏輯表達(dá)式描述實例andxandy布爾"與"-如果x為False,xandy返回False,否則它返回y的計算值。(aandb)返回20。orxory布爾"或"-如果x是非0,它返回x的計算值,否則它返回y的計算值。(aorb)返回10。notnotx布爾"非"-如果x為True,返回False。如果x為False,它返回True。not(aandb)返回Falsea=10b=20Python的基礎(chǔ)語法—運(yùn)算符—成員運(yùn)算符a=10b=20list=[1,2,3,4,5];運(yùn)算符描述實例in如果在指定的序列中找到值返回True,否則返回False。x在y序列中,如果x在y序列中返回True。notin如果在指定的序列中沒有找到值返回True,否則返回False。x不在y序列中,如果x不在y序列中返回True。Python的基礎(chǔ)語法—運(yùn)算符—身份運(yùn)算符對于兩個相同的列表對象,其身份通常是獨(dú)立的,但是對于數(shù)值和字符串類型的對象,相同的值其身份通常也是相同的運(yùn)算符描述實例isis是判斷兩個標(biāo)識符是不是引用自一個對象xisy,類似

id(x)==id(y)

,如果引用的是同一個對象則返回True,否則返回Falseisnotisnot是判斷兩個標(biāo)識符是不是引用自不同對象xisnoty

,類似

id(a)!=id(b)。如果引用的不是同一個對象則返回結(jié)果True,否則返回False。isVS==小結(jié)51初識大數(shù)據(jù)1初識大數(shù)據(jù)金融2Python基礎(chǔ)3感謝聆聽!金融大數(shù)據(jù)分析項目二金融大數(shù)據(jù)處理流程目錄01Python數(shù)據(jù)分析工具02金融大數(shù)據(jù)采集03金融大數(shù)據(jù)處理流程金融大數(shù)據(jù)可視化0401Python數(shù)據(jù)分析工具Python中的標(biāo)準(zhǔn)庫56Python3中的標(biāo)準(zhǔn)庫是隨Python解釋器一起安裝的,其中包含了很多的模塊和包os模塊sys

模塊time模塊datetime

模塊math模塊random模塊urlib模塊Python中的第三方庫57PyPI·Python包索引:/Python中的第三方庫58第三方庫可以涵蓋各種領(lǐng)域,包括但不限于:數(shù)據(jù)分析:numpy,pandas,scipy機(jī)器學(xué)習(xí):scikit-learn,tensorflow文本處理:pdfminer,openpyxl,python-docx,beautifulsoup4網(wǎng)絡(luò)爬蟲:requests,scrapyWEB開發(fā):django,pyramid數(shù)據(jù)可視化:matplotlib,mayavi游戲開發(fā):pygame,panda3d數(shù)據(jù)挖掘與可視化中常見第三方庫59擴(kuò)展庫說明NumPy提供復(fù)雜數(shù)組和矩陣運(yùn)算的函數(shù)pandas提供直觀的數(shù)據(jù)結(jié)構(gòu)及強(qiáng)大的數(shù)據(jù)管理和數(shù)據(jù)處理功能matplotlib用戶制圖及其他二維數(shù)據(jù)可視化Seaborn基于matplotlib進(jìn)行高級封裝的可視化庫scikit-learn提供分類、回歸、聚類等機(jī)器學(xué)習(xí)工具statsmodels統(tǒng)計建模分析,包含經(jīng)典的統(tǒng)計學(xué)、經(jīng)濟(jì)學(xué)算法第三方庫的安裝60安裝方法特點(diǎn)使用pip命令在線安裝比較方便,并且會自動解決上級依賴問題下載庫的whl文件離線安裝安裝靈活,但是需要自行解決上級依賴問題通過IDE安裝簡單直接,需要已經(jīng)安裝好IDE(如Pycharm)下載編譯好的文件一般是window系統(tǒng)才提供現(xiàn)成的可執(zhí)行文件包第三方庫的安裝61pip安裝工具D:\>pip-hUsage:pip<command>[options]Commands:installInstallpackages.downloadDownloadpackages.uninstallUninstallpackages.freezeOutputinstalledpackagesinrequirementsformat.listListinstalledpackages.showShowinformationaboutinstalledpackages.checkVerifyinstalledpackageshavecompatibledependencies.configManagelocalandglobalconfiguration.searchSearchPyPIforpackages.第三方庫的安裝62pip安裝工具D:\>pipinstall<第三方庫名>安裝第三方庫D:\>pipinstallpandasD:\>pipinstall–U<第三方庫名>對已安裝的第三方庫進(jìn)行更新D:\>pipinstall-Upandas第三方庫的安裝63pip安裝工具D:\>pipuninstall<第三方庫名>卸載指定第三方庫D:\>pipuninstallpandasD:\>pipdownload<第三方庫名>下載但不安裝指定第三方庫D:\>pipdownloadpandas第三方庫的安裝64pip安裝工具D:\>piplist列出當(dāng)前系統(tǒng)已經(jīng)安裝的第三方庫第三方庫的安裝65pip安裝工具D:\>pipshow<第三方庫名>列出指定第三方庫的詳細(xì)信息第三方庫的安裝66集成安裝通過集成IDE進(jìn)行安裝,如Anaconda文件安裝/第三方庫的導(dǎo)入67import

模塊名稱import

模塊

as

別名import語句模塊名稱.函數(shù)/變量/類

別名.函數(shù)/變量/類

第三方庫的導(dǎo)入682.from語句from模塊名稱import函數(shù)/變量/類

from模塊名稱*直接使用該函數(shù)/變量/類

把一個模塊中的所有內(nèi)容全都進(jìn)行導(dǎo)入第三方庫的導(dǎo)入69import

模塊

as

別名第三方庫的導(dǎo)入70importmathimportmathas

m

frommathimportpifrommathimport*print(math.pi)print(m.pi)print(pi)print(pi)print(ceil(pi))NumPy(NumericPython)71快速、高效的多維數(shù)組對象ndarray一組功能強(qiáng)大的數(shù)組處理函數(shù)線性代數(shù)操作、傅里葉變換以及隨機(jī)數(shù)生成等的接口集成C或C++代碼的接口NumPy(NumericPython)72#-*-coding:utf-8-*-#導(dǎo)入numpy庫importnumpyasnp

data=[1,2,3,4,5]#利用array函數(shù)構(gòu)建一個數(shù)組arr1=np.array(data)print('np.array(data):\n',arr1)#將數(shù)組進(jìn)行輸出#獲取數(shù)組arr1的第4個元素(數(shù)組下標(biāo)從0開始)print('arr1[3]:\n',arr1[3])

#獲取數(shù)組arr1的第2到第4個元素(數(shù)字下標(biāo)從0開始,[]區(qū)間為左閉右開)print('arr1[1:4]:\n',arr1[1:4])#利用arange(N)構(gòu)建數(shù)組,從0-(N-1)的一個數(shù)組,默認(rèn)元素逐步加1arr2=np.arange(5)print('np.arange(5):\n',arr2)Pandas73Python版的Excel一維數(shù)組對象Series二維數(shù)組對象DataFramePandas--Series數(shù)據(jù)結(jié)構(gòu)74#導(dǎo)入pandas庫importpandasaspddata=['a','b','c','d','e']#使用默認(rèn)行索引構(gòu)造一個seriesseri=pd.Series(data)print(seri)index=[1,2,3,4,5]#使用指定的行索引seri1=pd.Series(data,index)print(seri1)Pandas--DataFrame數(shù)據(jù)結(jié)構(gòu)75行索引列索引importpandasaspd#導(dǎo)入pandas包#構(gòu)建部分銀行卡用戶數(shù)據(jù)表格data=pd.DataFrame({'ID':[20013105,16052556,21100614,10121286,21060101],'年齡':[44,32,56,41,27],'性別':['男','男','男','女','女'],'家庭成員':[2,1,1,3,2],'學(xué)歷':['研究生','本科','高中','研究生','本科'],'婚姻狀況':['已婚','未婚','離異','未婚','已婚’]})print('data:\n',data)Pandas--DataFrame數(shù)據(jù)結(jié)構(gòu)76#按行取表格中行索引為1至3的數(shù)據(jù)的第1行至第三行數(shù)據(jù)print('data.iloc[1:4]\n',data.iloc[1:4])

#返回ID、年齡兩列的數(shù)據(jù)print('data[[\'ID\',\'年齡\']]\n',data[['ID','年齡']])#返回前3行數(shù)據(jù),若head()括號中不指定行數(shù),則默認(rèn)為返回前5行print('data.head(3)\n',data.head(3))#將表格數(shù)據(jù)按照ID列的值進(jìn)行排序data1=data.sort_values(by='ID')#輸出上一行代碼的排序結(jié)果print('data.sort_values(data,by=\'ID\')\n',data1)#也支持從EXCEL文件讀取數(shù)據(jù)至dataframe對象中data=pd.read_excel('D:\data.xlsx')Matplotlib77importnumpyasnpimportmatplotlib.pyplotasplt#導(dǎo)入繪圖包#定義X軸的坐標(biāo)值x=np.array([0,10])#定義Y軸的坐標(biāo)值y=np.array([0,100])#根據(jù)X、Y軸坐標(biāo)值對,繪制線圖plt.plot(x,y)#將圖進(jìn)行展示plt.show()Matplotlib78importnumpyasnpimportmatplotlib.pyplotasplt

y=np.array([2,5,8,4,10,15])#指定線圖的顏色plt.plot(y,'r')plt.show()02金融大數(shù)據(jù)采集數(shù)據(jù)采集80數(shù)據(jù)采集又稱為數(shù)據(jù)獲取,為整個數(shù)據(jù)分析提供原始數(shù)據(jù)

大數(shù)據(jù)采集傳統(tǒng)數(shù)據(jù)采集數(shù)據(jù)來源數(shù)據(jù)來源多種多樣,數(shù)據(jù)量巨大來源較單一,數(shù)據(jù)量較少數(shù)據(jù)類型數(shù)據(jù)類型多樣,如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)較單一,以結(jié)構(gòu)化數(shù)據(jù)為主大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集的區(qū)別數(shù)據(jù)采集包括傳統(tǒng)的數(shù)據(jù)采集和大數(shù)據(jù)采集金融數(shù)據(jù)來源81

互聯(lián)網(wǎng)開放數(shù)據(jù)

第三方數(shù)據(jù)金融機(jī)構(gòu)業(yè)務(wù)數(shù)據(jù)金融行業(yè)數(shù)據(jù)來源渠道多種多樣,主要可以分為以下幾種:金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)82互聯(lián)網(wǎng)開放數(shù)據(jù)源通常都是針對某一個具體的行業(yè)或領(lǐng)域(如經(jīng)濟(jì)、衛(wèi)生、地理、生物、社會等),從發(fā)布單位維度劃分,有來自政府、企業(yè)、高校等開放數(shù)據(jù)源供大家查看下載

數(shù)據(jù)類別數(shù)據(jù)源世界各地的社會,環(huán)境和經(jīng)濟(jì)發(fā)展數(shù)據(jù)Gapminder中國歷年及最新宏觀經(jīng)濟(jì)數(shù)據(jù)國家統(tǒng)計局中國各項金融業(yè)務(wù)活動數(shù)據(jù)中國人民銀行中國國際收支、外匯等數(shù)據(jù)國家外匯管理局市場概覽、股票、期權(quán)和基金、債券等數(shù)據(jù)上海證券交易所國內(nèi)金融市場數(shù)據(jù)東方財富網(wǎng)金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)國家統(tǒng)計局國家各部門網(wǎng)站金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)中國人民銀行國家金融監(jiān)督管理總局金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)中國證券監(jiān)督管理委員會金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)金融數(shù)據(jù)來源—第三方數(shù)據(jù)市面上有很多的專業(yè)金融數(shù)據(jù)提供商,以金融數(shù)據(jù)庫、數(shù)據(jù)包或者數(shù)據(jù)服務(wù)平臺的方式為專業(yè)用戶提供數(shù)據(jù)服務(wù),用戶在金融數(shù)據(jù)分析的應(yīng)用程序中可以通過API接口訪問這些免費(fèi)或收費(fèi)的金融數(shù)據(jù)(如股票信息、指數(shù)信息等)數(shù)據(jù)平臺說明Wind(萬得)Wind已經(jīng)建成國內(nèi)完整準(zhǔn)確、以金融證券數(shù)據(jù)為核心的大型金融工程和財經(jīng)數(shù)據(jù)倉庫。Wind的數(shù)據(jù)內(nèi)容涵蓋股票、債券、基金、外匯、金融衍生品、大宗商品、宏觀經(jīng)濟(jì)、財經(jīng)新聞等領(lǐng)域;Wind通過對數(shù)據(jù)的及時更新來滿足機(jī)構(gòu)投資者的需求。CSMAR數(shù)據(jù)庫CSMAR數(shù)據(jù)庫(ChinaStockMarket&AccountingResearchDatabase)是一個經(jīng)濟(jì)金融領(lǐng)域的研究型精準(zhǔn)數(shù)據(jù)庫已涵蓋因子研究、人物特征、綠色經(jīng)濟(jì)、股票、公司、海外、資訊、基金、債券、行業(yè)、經(jīng)濟(jì)、商品期貨等19大系列,包含200+個數(shù)據(jù)庫、4000+張表、6萬+個字段。Bloomberg(彭博資訊)美國彭博資訊公司是全球最大的財經(jīng)資訊公司,也是全球最大的金融信息服務(wù)供應(yīng)商,為全球各地的公司、新聞機(jī)構(gòu)、金融和法律專業(yè)人士提供實時行情、金融市場歷史數(shù)據(jù)、價格、交易信息、新聞和通訊工具。TushareTushare大數(shù)據(jù)開放社區(qū)免費(fèi)提供各類數(shù)據(jù),助力行業(yè)和量化研究。擁有豐富的數(shù)據(jù)內(nèi)容,如股票、基金、期貨、數(shù)字貨幣等行情數(shù)據(jù),公司財務(wù)、基金經(jīng)理等基本面數(shù)據(jù)。提供Http,Python,R等語言的數(shù)據(jù)接口,方便獲取實時數(shù)據(jù)。金融數(shù)據(jù)來源—金融機(jī)構(gòu)業(yè)務(wù)數(shù)據(jù)金融機(jī)構(gòu)在自身的業(yè)務(wù)經(jīng)營過程中,收集和產(chǎn)生了大量的該行業(yè)的業(yè)務(wù)數(shù)據(jù),包括金融機(jī)構(gòu)用戶的基本信息,用戶在金融機(jī)構(gòu)的交易等行為數(shù)據(jù)(如銀行中的用戶資金交易記錄,信用數(shù)據(jù)等)。網(wǎng)絡(luò)爬蟲90網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成通過編程語言(如Python、Java等)來編寫爬蟲程序,模擬瀏覽器向網(wǎng)絡(luò)服務(wù)器發(fā)送請求,獲取相應(yīng)內(nèi)容后,對其進(jìn)行解析,從中提取出需要的數(shù)據(jù)也可以借助于現(xiàn)成的商用數(shù)據(jù)采集軟件(如八爪魚、后羿采集器等)來獲取特定網(wǎng)頁上所需字段的數(shù)據(jù)采集軟件采集網(wǎng)頁數(shù)據(jù)91八爪魚采集器后裔采集器采集軟件采集網(wǎng)頁數(shù)據(jù)--外匯牌價數(shù)據(jù)的抓取92

打開外匯牌價網(wǎng)站,復(fù)制網(wǎng)址2.將網(wǎng)址信息復(fù)制至采集軟件3.在采集軟件中設(shè)置采集條件4.檢查數(shù)據(jù)預(yù)覽,運(yùn)行采集5.將結(jié)果導(dǎo)出至文件Python與網(wǎng)頁數(shù)據(jù)采集93網(wǎng)頁基本結(jié)構(gòu)Python與網(wǎng)頁數(shù)據(jù)采集94網(wǎng)頁中表格數(shù)據(jù)的獲取Python與網(wǎng)頁數(shù)據(jù)采集95網(wǎng)頁中表格數(shù)據(jù)的獲取importpandasaspd#獲取國家外匯管理局網(wǎng)站網(wǎng)址url="/AppStructured/hlw/RMBQuery.do"df=pd.read_html(url)[4]#爬取目標(biāo)網(wǎng)站表格數(shù)據(jù)#查看美元和日元的外匯數(shù)據(jù)df1=df[['日期','美元','日元']]df1.set_index(['日期'])#將日期列作為表格的行索引print(df1)

日期

美元

日元

2023-07-26712.955.06292023-07-25714.065.08822023-07-24714.515.06702023-07-21714.565.13992023-07-20714.665.17242023-07-19714.865.16252023-07-18714.535.16872023-07-17713.265.14672023-07-14713.185.18002023-07-13715.275.1769Python與網(wǎng)頁數(shù)據(jù)采集96網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)庫名說明RequestsRequests庫提供了GET和POST來發(fā)送HTTP請求,使代碼易于理解和調(diào)試,但是不解析提取的HTML數(shù)據(jù)BeautifulSoup與解析器一起從HTML中解析提取數(shù)據(jù),通常和Requests庫一起使用;此外還提供包括檢測頁面編碼,配置輕松lxml一個快速、強(qiáng)大的解析庫,適用于HTML和XML文件Selenium適用于標(biāo)準(zhǔn)網(wǎng)絡(luò)爬蟲無法運(yùn)行的動態(tài)網(wǎng)頁數(shù)據(jù)的抓取,能夠像任何瀏覽器一樣通過運(yùn)行JavaScript來呈現(xiàn)網(wǎng)頁數(shù)據(jù)采集中的信息保護(hù)97網(wǎng)絡(luò)數(shù)據(jù)的獲取隱私保護(hù)03金融大數(shù)據(jù)處理流程大數(shù)據(jù)處理的一般流程數(shù)據(jù)采集系統(tǒng)日志采集網(wǎng)絡(luò)數(shù)據(jù)采集其他數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約數(shù)據(jù)存儲分布式文件系統(tǒng)分布式數(shù)據(jù)庫云存儲數(shù)據(jù)挖掘分類分析關(guān)聯(lián)分析聚類分析預(yù)測數(shù)據(jù)解釋可視化技術(shù)人機(jī)交互技術(shù)數(shù)據(jù)清洗100數(shù)據(jù)清洗是高質(zhì)量數(shù)據(jù)的一道保障,數(shù)據(jù)科學(xué)家80%時間都花費(fèi)在清洗任務(wù)上數(shù)據(jù)清洗使得數(shù)據(jù)標(biāo)準(zhǔn)、干凈、連續(xù),為后續(xù)數(shù)據(jù)統(tǒng)計、數(shù)據(jù)挖掘做好準(zhǔn)備GIGO高質(zhì)量的數(shù)據(jù)應(yīng)該具有下列特點(diǎn):數(shù)據(jù)結(jié)構(gòu)清晰數(shù)據(jù)完整數(shù)據(jù)格式規(guī)范數(shù)據(jù)合理數(shù)據(jù)唯一清洗方式:利用EXCEL軟件利用編程語言提供的工具包(如Python中的NumPy、Pandas庫等)012341張三30175cm60kg2李四35180cm140斤3張三301.75m60kg4NANANANA5王五-1160cm50kg6趙六2565kg012341張三30175cm60kg2李四35180cm140斤3張三301.75m60kg4NANANANA5王五-1160cm50kg6趙六25173cm65kg012341張三30175cm60kg2李四35180cm70kg3張三30175cm60kg4NANANANA5王五-1160cm50kg6趙六25173cm65kg012341張三30175cm60kg2李四35180cm70kg3張三30175cm60kg4NANANANA5王五30160cm50kg6趙六25173cm65kg序號姓名年齡身高體重1張三30175cm60kg2李四35180cm70kg3張三30175cm60kg4NANANANA5王五30160cm50kg6趙六25173cm65kg完整性全面性合法性唯一性數(shù)據(jù)清洗012341張三30175cm60kg2李四35180cm140斤3張三301.75m60kg4NANANANA5王五-1160cm50kg6趙六2565kg序號姓名年齡身高體重1張三30175cm60kg2李四35180cm70kg3王五30160cm50kg4趙六25173cm65kg數(shù)據(jù)清洗對數(shù)據(jù)的整體概況有個初步認(rèn)知數(shù)據(jù)觀測檢測數(shù)據(jù)中的缺失值并做對應(yīng)的處理(刪除或填充)數(shù)據(jù)缺失處理處理數(shù)據(jù)中的重復(fù)值數(shù)據(jù)去重數(shù)據(jù)的規(guī)范化數(shù)據(jù)格式統(tǒng)一檢測并處理數(shù)據(jù)集中的異常值數(shù)據(jù)異常處理數(shù)據(jù)清洗數(shù)據(jù)觀測104在進(jìn)行具體的數(shù)據(jù)處理之前,可以先進(jìn)行數(shù)據(jù)觀測,對數(shù)據(jù)有個整體認(rèn)知,找到數(shù)據(jù)集中可能存在的“臟數(shù)據(jù)”或者需要做進(jìn)一步處理的情況。Pandas中提供了info(),describe()等函數(shù),使得能夠方便查看數(shù)據(jù)的基本情況

函數(shù)名說明info()獲取數(shù)據(jù)各列基本信息,包括總行數(shù)、總列數(shù)、列的名稱,每列的非空數(shù)、列的數(shù)據(jù)類型等describe()獲取數(shù)據(jù)各列的統(tǒng)計信息,包括總數(shù)、平均值、標(biāo)準(zhǔn)差、最小值、上(下)四分位數(shù)、中位數(shù)、最大值等數(shù)據(jù)觀測105importpandasaspd#導(dǎo)入pandas庫customers=pd.read_excel('D:\用戶個人信息.xlsx')#讀取EXCEL數(shù)據(jù)文件print(customers.info())數(shù)據(jù)總行數(shù)為10237,總列數(shù)為7<class'pandas.core.frame.DataFrame'>RangeIndex:10237entries,0to10236Datacolumns(total7columns):#ColumnNon-NullCountDtype----------------------------0ID10237non-nullint641年齡10113non-nullfloat642性別10237non-nullobject3家庭成員10237non-nullint644受教育程度8702non-nullobject5婚姻狀態(tài)9483non-nullobject6收入9117non-nullobjectdtypes:float64(1),int64(2),object(4)memoryusage:560.0+KB數(shù)據(jù)觀測106importpandasaspd#導(dǎo)入pandas庫customers=pd.read_excel('D:\用戶個人信息.xlsx')#讀取EXCEL數(shù)據(jù)文件print(customers.describe())ID年齡家庭成員count1.023700e+0410113.00000010237.000000mean7.391445e+0846.3524182.346000std3.688047e+078.0730201.298332min7.080821e+08-6.0000000.00000025%7.130256e+0841.0000001.00000050%7.179206e+0846.0000002.00000075%7.731464e+0852.0000003.000000max8.283431e+0873.0000005.000000數(shù)據(jù)去重107數(shù)據(jù)的獲取通常是從多處數(shù)據(jù)源匯總得到,數(shù)據(jù)重復(fù)的情況非常常見函數(shù)名說明duplicated()識別是否有數(shù)據(jù)重復(fù)drop_duplicates()刪除重復(fù)值(全部刪除、部分刪除)數(shù)據(jù)去重108print(customers.duplicated())0False1False2False3False4False……10232False10233False10234False10235False10236FalseLength:10237,dtype:bool對表格中所有行依次判斷是否有重復(fù),如果結(jié)果為True,則表示該行和其他行存在重復(fù);反之則認(rèn)為沒有重復(fù)從輸出結(jié)果來看,該函數(shù)不適合行數(shù)較多的表格,不能很直觀地觀察是否存在重復(fù)值

參數(shù)說明subset需要進(jìn)行重復(fù)比較的列集合。默認(rèn)是對全部列進(jìn)行比較keep返回重復(fù)值的標(biāo)記方式,支持三種標(biāo)記方式,默認(rèn)為’first’first:所有重復(fù)記錄行中,第一次出現(xiàn)的行標(biāo)記為False,其余為Truelast:所有重復(fù)記錄行中,最后一次出現(xiàn)的行標(biāo)記為False,其余為Truefalse:所有重復(fù)記錄行均標(biāo)記為TrueDataFrame.duplicated(subset=None,keep='first')參數(shù)說明如下:數(shù)據(jù)去重109print("數(shù)據(jù)總行數(shù)為{},總列數(shù)為{}".format(customers.shape[0],customers.shape[1]))customers.drop_duplicates(inplace=True)print("數(shù)據(jù)去重后總行數(shù)為{},總列數(shù)為{}".format(customers.shape[0],customers.shape[1]))數(shù)據(jù)總行數(shù)為10237,總列數(shù)為7數(shù)據(jù)去重后總行數(shù)為10127,總列數(shù)為7參數(shù)說明subset需要進(jìn)行重復(fù)比較的列集合。默認(rèn)是對全部列進(jìn)行比較keep如果數(shù)據(jù)集中有多條重復(fù)值,指定保留哪條記錄。默認(rèn)選項為’first’,即保留第一次出現(xiàn)的數(shù)據(jù)行。first:保留所有重復(fù)記錄行中第一次出現(xiàn)的數(shù)據(jù)行,其余重復(fù)行均刪除last:保留所有重復(fù)記錄行中最后一次出現(xiàn)的數(shù)據(jù)行,其余重復(fù)行均刪除false:所有重復(fù)記錄行均刪除inplace布爾值,默認(rèn)為False。inplace=True表示直接在原來的表上刪除重復(fù)項,而False表示生成一個副本DataFrame.drop_duplicates(subset=None,*,keep='first',inplace=False,ignore_index=False)部分常用參數(shù)說明如下:數(shù)據(jù)缺失處理110數(shù)據(jù)缺失是真實數(shù)據(jù)集中普遍存在的一種現(xiàn)象,主要包括記錄的缺失和記錄中某些字段的缺失,都有可能導(dǎo)致數(shù)據(jù)分析結(jié)果不準(zhǔn)確。對缺失值的分析主要分兩步進(jìn)行:明確數(shù)據(jù)的缺失情況對缺失數(shù)據(jù)進(jìn)行處理,例如直接刪除、選擇合適的值進(jìn)行填充、不處理等。函數(shù)名說明isnull()查看單元格數(shù)據(jù)是否為空notnull()查看單元格數(shù)據(jù)是否不為空dropna()刪除缺失值數(shù)據(jù)fillna()填充缺失值數(shù)據(jù)數(shù)據(jù)缺失處理111print(customers.isnull())print(customers.isnull().any())print(customers.isnull().all())print(customers.isnull().sum())數(shù)據(jù)缺失處理112customers.dropna(thresh=4

,inplace=True)customers.dropna(subset=['收入'],inplace=True)對于缺失數(shù)據(jù)的處理,通常有直接刪除和選擇合適的值進(jìn)行填充兩種方式1.直接刪除數(shù)據(jù)缺失處理113customers['年齡'].fillna(customers['年齡'].median(),inplace=True)customers['受教育程度'].fillna('未知',inplace=True)customers['婚姻狀態(tài)'].fillna('未知',inplace=True)對于缺失數(shù)據(jù)的處理,通常有直接刪除和選擇合適的值進(jìn)行填充兩種方式2.選擇合適的值進(jìn)行填充填充方法說明均值/中位數(shù)/眾數(shù)等填充使用變量的均值/中位數(shù)/眾數(shù)對缺失值進(jìn)行填充回歸填充用其他變量的值建立擬合模型,進(jìn)行回歸分析,預(yù)測缺失值。插值填充利用已知值建立插值函數(shù),求得插值進(jìn)行填充固定值填充使用一個特定的固定值進(jìn)行填充數(shù)據(jù)格式統(tǒng)一114常見的格式不規(guī)范的情況有:不同的數(shù)據(jù)來源對同一事物描述的單位不一致同樣的數(shù)據(jù)類型,但格式不一致數(shù)據(jù)格式不正確空白字符或者特殊字符大小寫不規(guī)范………數(shù)據(jù)格式統(tǒng)一115(一) 數(shù)據(jù)格式查看print(customers['受教育程度'].unique())print(customers['性別'].value_counts())數(shù)據(jù)格式統(tǒng)一116(二) 數(shù)據(jù)格式規(guī)范處理customers['受教育程度'].replace('大學(xué)','本科生',inplace=True)customers['性別'].replace({'M':'男','F':'女'},inplace=True)

數(shù)據(jù)格式統(tǒng)一117(二) 數(shù)據(jù)格式規(guī)范處理customers['受教育程度’]=customers['受教育程度'].str.strip()customers['受教育程度'].replace('大學(xué)','本科生',inplace=True)customers['性別’]=customers['性別'].str.upper()customers['性別'].replace({'M':'男','F':'女'},inplace=True)

受教育程度:[‘高中'‘研究生''未受教育’‘未知''本科生''博士'‘大

學(xué)’]性別男4495女4184M220F100f7Name:count,dtype:int64數(shù)據(jù)異常處理118異常值通常是指樣本中的個別值,其數(shù)值明顯偏離其余的觀測值。異常值也稱為離群點(diǎn),異常值的分析也稱為離群點(diǎn)分析。在數(shù)據(jù)集中,異常值可能是需要被去掉或修改的噪聲數(shù)據(jù),也有可能是對數(shù)據(jù)分析而言含有重要有效信息的數(shù)據(jù)。統(tǒng)計分析ID年齡家庭成員count1.023700e+0410113.00000010237.000000mean7.391445e+0846.3524182.346000std3.688047e+078.0730201.298332min7.080821e+08-6.0000000.00000025%7.130256e+0841.0000001.00000050%7.179206e+0846.0000002.00000075%7.731464e+0852.0000003.000000max8.283431e+0873.0000005.000000customers['年齡'][customers['年齡']<0]=1

數(shù)據(jù)異常處理1192.四分位數(shù)分析ID年齡家庭成員count1.023700e+0410113.00000010237.000000mean7.391445e+0846.3524182.346000std3.688047e+078.0730201.298332min7.080821e+08-6.0000000.00000025%7.130256e+0841.0000001.00000050%7.179206e+0846.0000002.00000075%7.731464e+0852.0000003.000000max8.283431e+0873.0000005.000000四分位數(shù)也常被用來作為異常值的檢測,所謂的四分位數(shù)方法是指:其中:QL:下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它小;QU:稱為上四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它大;IQR:四分位數(shù)間距,是上四分位數(shù)QU與下四分位數(shù)QL之差異常值<(QL-1.5IQR)或

異常值>(QU+1.5IQR)數(shù)據(jù)預(yù)處理其他步驟04金融大數(shù)據(jù)可視化數(shù)據(jù)可視化122數(shù)據(jù)可視化是一個面向用戶的過程,將大數(shù)據(jù)挖掘及分析結(jié)果在顯示終端以友好、形象、易于理解的形式呈現(xiàn)給用戶數(shù)據(jù)可視化是指利用計算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像進(jìn)行顯示的理論方法和技術(shù)運(yùn)用數(shù)據(jù)可視化技術(shù),可以將復(fù)雜的數(shù)據(jù)結(jié)果轉(zhuǎn)換為靜態(tài)或動態(tài)的圖形,還可以通過交互手段動態(tài)地顯示改變的結(jié)果。使得用戶可以從不同維度觀察數(shù)據(jù),得到對數(shù)據(jù)更深入的理解和分析常見可視化圖表類型123常見可視化圖表類型124圖表類型說明線圖又稱折線圖,特點(diǎn)是反映事物隨序列變化的趨勢,用于比較同一維度上不同數(shù)據(jù)集的變化,適合于比較大的數(shù)據(jù)集柱圖是一種以長方形的長度為變量來表達(dá)數(shù)值的統(tǒng)計圖表,易于比較數(shù)據(jù)之間的差別,適用于數(shù)據(jù)量不大的數(shù)據(jù)集餅圖以餅狀的圖形顯示各數(shù)據(jù)項所占比例,反映部分與整體的關(guān)系。餅圖適用于二維數(shù)據(jù),可以簡單直觀的看到各組成部分的占比情況散點(diǎn)圖數(shù)據(jù)以點(diǎn)的形式進(jìn)行展示,以顯示變量之間的相互關(guān)系。散點(diǎn)圖用于判斷數(shù)據(jù)之間的相關(guān)性,或者發(fā)現(xiàn)數(shù)據(jù)的分布規(guī)律雷達(dá)圖又稱為蜘蛛網(wǎng)圖,是將多個維度的數(shù)據(jù)映射到起始于同一個圓心的坐標(biāo)軸上,可以用于比較多條數(shù)據(jù)在多個維度上的取值漏斗圖因其圖表形狀類似漏斗而得名,由多個梯形從上到下疊加而成。漏斗圖適用于業(yè)務(wù)流程比較規(guī)范,周期長,環(huán)節(jié)多的流程分析樹圖以樹形結(jié)構(gòu)來展示層級數(shù)據(jù)的組織關(guān)系。通過樹圖可以直觀的看到各層級指標(biāo)間的關(guān)系詞云圖詞云圖是文本數(shù)據(jù)的圖形化展示,可以用來展示大量的文本數(shù)據(jù),每個詞通過字體大小或者顏色來展示每個詞的重要程度常見可視化工具125入門級可視化工具商業(yè)智能分析工具編程語言工具pyplot常用函數(shù)126函數(shù)名說明plot()用戶繪制線圖和散點(diǎn)圖scatter()用于繪制散點(diǎn)圖bar()用于繪制垂直和水平條形圖hist()用于繪制直方圖pie()用于繪制餅圖show()用于繪制圖像subplots()用于創(chuàng)建子圖xlabel()/ylabel()設(shè)置X軸和Y軸的標(biāo)簽title()設(shè)置圖表的標(biāo)題127importnumpyasnpimportmatplotlib.pyplotasplt#引入pyplot包

#設(shè)置中文字體plt.rcParams['font.sans-serif']=['SimHei']

x=np.array([1,2,3,4,5])y1=x+1plt.plot(x,y1)

y2=x*2+1#設(shè)置y2線條的格式和顏色plt.plot(x,y2,linestyle='--',color='red',linewidth=3)

#設(shè)置X軸、Y軸的標(biāo)題plt.xlabel('X值')plt.ylabel('Y值')

#進(jìn)行圖片展示plt.show()繪制線圖繪制線圖128importnumpyasnpimportmatplotlib.pyplotasplt#引入pyplot包

#設(shè)置中文字體plt.rcParams['font.sans-serif']=['SimHei']

x=np.array([1,2,3,4,5])y1=x+1plt.plot(x,y1)

y2=x*2+1#設(shè)置y2線條的格式和顏色plt.plot(x,y2,linestyle='--',color='red',linewidth=3)

#設(shè)置X軸、Y軸的標(biāo)題plt.xlabel('X值')plt.ylabel('Y值')

#進(jìn)行圖片展示plt.show()linewidth:設(shè)置線的寬度,取值支持浮點(diǎn)數(shù)linestyle:設(shè)置線的類型,其取值有:

'solid'(默認(rèn))或‘-’(實線)

'dotted'或’:’(點(diǎn)虛線)‘dashed'或’—’(破折線)color:設(shè)置線條的顏色,其取值有:‘r’紅色‘g’綠色‘b’藍(lán)色‘y’黃色‘k’黑色繪制柱狀圖129importmatplotlib.pyplotaspltx=[1,2,3,4,5]y=[20,15,30,28,12]plt.title('柱狀圖')plt.bar(x,y)plt.show()bar()函數(shù)的語法格式如:matplotlib.pyplot.bar(x,height,width=0.8,bottom=None,*,align='center',data=None,**kwargs),常用參數(shù)包括:x:浮點(diǎn)型數(shù)組,柱形圖的x軸數(shù)據(jù)height:浮點(diǎn)型數(shù)組,柱形圖的高度width:浮點(diǎn)型數(shù)組,柱形圖的寬度,默認(rèn)為0.8bottom:浮點(diǎn)型數(shù)組,底座的y坐標(biāo),默認(rèn)0align:柱形圖與x坐標(biāo)的對齊方式,其值有:'center'以x位置為中心,這是默認(rèn)值

'edge',將柱形圖的左邊緣與x位置對齊**kwargs::其他參數(shù)繪制餅圖130importmatplotlib.pyplotasplt#設(shè)置中文字體plt.rcParams['font.sans-serif']=['SimHei']#餅圖各部分標(biāo)簽x=['高中','研究生','未知','本科生','博士','未受教育']#餅圖各部分?jǐn)?shù)據(jù)值y=[8,23,2,54,9,4]#設(shè)置各部分顏色colors=['green','red','blue','lightgreen','gold','skyblue']#繪制圖形,autopct設(shè)置百分比顯示格式plt.pie(y,labels=x,autopct='%1.1f%%',colors=colors)#設(shè)置標(biāo)題plt.title('用戶受教育程度占比分析')plt.show()小結(jié)131Python數(shù)據(jù)分析工具1金融大數(shù)據(jù)采集2金融大數(shù)據(jù)處理流程3金融大數(shù)據(jù)可視化4感謝聆聽!金融大數(shù)據(jù)分析項目三大數(shù)據(jù)在銀行業(yè)的應(yīng)用目錄01大數(shù)據(jù)在銀行業(yè)的應(yīng)用02大數(shù)據(jù)技術(shù)與銀行客戶關(guān)系管理03大數(shù)據(jù)技術(shù)與銀行精準(zhǔn)營銷01大數(shù)據(jù)在銀行業(yè)的應(yīng)用數(shù)據(jù)規(guī)模龐大,種類齊全數(shù)據(jù)格式規(guī)范數(shù)據(jù)的準(zhǔn)確性高數(shù)據(jù)特征提升銀行業(yè)務(wù)效率降低銀行決策風(fēng)險完善銀行多元化金融服務(wù)數(shù)據(jù)價值客戶信息交易記錄信貸數(shù)據(jù)市場數(shù)據(jù)第三方數(shù)據(jù)數(shù)據(jù)類型銀行數(shù)據(jù)隨著互聯(lián)網(wǎng)的普及和發(fā)展,銀行數(shù)據(jù)量呈現(xiàn)爆炸性增長,銀行業(yè)面臨海量數(shù)據(jù)處理挑戰(zhàn)。海量數(shù)據(jù)處理挑戰(zhàn)01客戶對銀行服務(wù)的需求不斷升級,銀行需要提供更個性化、更便捷的產(chǎn)品和服務(wù)??蛻魝€性化需求02在科技驅(qū)動的金融創(chuàng)新環(huán)境下,傳統(tǒng)銀行業(yè)面臨來自金融科技公司的激烈競爭,業(yè)務(wù)模式需要轉(zhuǎn)型升級。傳統(tǒng)金融轉(zhuǎn)型03技術(shù)應(yīng)用和發(fā)展背景通過分析細(xì)分群體特征,銀行可以對不同客戶群進(jìn)行差異化的服務(wù),推送個性化產(chǎn)品和服務(wù),提高綜合服務(wù)水平。客戶細(xì)分客戶關(guān)系在客戶生命周期的不同階段呈現(xiàn)不同的特征,在不同階段所考慮的問題不同,應(yīng)采取不同的策略??蛻羯芷诠芾硗ㄟ^分析客戶信息和行為,預(yù)測客戶需求及偏好,銀行能及時調(diào)整服務(wù)策略,提升客戶滿意度和忠誠度。客戶需求及偏好預(yù)測客戶關(guān)系管理通過收集和分析客戶的交易數(shù)據(jù)和行為數(shù)據(jù),了解客戶的消費(fèi)習(xí)慣和偏好,以提供更精準(zhǔn)的金融服務(wù)。01客戶行為分析根據(jù)客戶的行為分析結(jié)果,銀行可以定制化推薦符合個人需求的金融產(chǎn)品,提升客戶滿意度。02定制化產(chǎn)品推薦利用大數(shù)據(jù)技術(shù)對客戶資料進(jìn)行整合和關(guān)聯(lián)性分析,銀行可以發(fā)現(xiàn)客戶潛在的交叉銷售機(jī)會,優(yōu)化銷售效率,降低銷售成本,提高營銷成功率。03交叉營銷精準(zhǔn)營銷利用大數(shù)據(jù)分析客戶的消費(fèi)習(xí)慣、信用記錄,更準(zhǔn)確地評估信貸風(fēng)險。精準(zhǔn)信貸評估運(yùn)用大數(shù)據(jù)技術(shù)識別異常交易模式,幫助銀行優(yōu)化反欺詐策略,提高風(fēng)險管理效率。反欺詐策略優(yōu)化通過大數(shù)據(jù)實時監(jiān)控市場動態(tài)和客戶行為,及時發(fā)現(xiàn)潛在的金融風(fēng)險并預(yù)警。實時監(jiān)控預(yù)警風(fēng)險評估與管理02大數(shù)據(jù)技術(shù)與銀行客戶關(guān)系管理客戶關(guān)系管理客戶關(guān)系管理是商業(yè)銀行識別、篩選、獲取、保持和增加客戶的系統(tǒng)化方法,是基于數(shù)據(jù)分析技術(shù)所進(jìn)行的客戶管理活動,為銀行的客戶服務(wù)、銷售活動等提供決策支持。定義通過有效的客戶關(guān)系管理,銀行能更好地理解客戶需求,提供個性化服務(wù),以提高客戶滿意度和忠誠度,從而提高客戶價值。提升客戶價值良好的客戶關(guān)系管理有利于銀行及時發(fā)現(xiàn)客戶流失信號,采取挽留措施,降低客戶流失率,保障銀行業(yè)務(wù)的穩(wěn)定發(fā)展。降低客戶流失在收集和分析客戶數(shù)據(jù)時,如何確保數(shù)據(jù)不被泄露,保護(hù)客戶隱私成為一大挑戰(zhàn)??蛻魯?shù)據(jù)安全01現(xiàn)代客戶期待高度個性化的服務(wù),銀行需要深度理解客戶需求和偏好,提供定制化金融產(chǎn)品。個性化需求02銀行需在網(wǎng)點(diǎn)、移動應(yīng)用、在線平臺等多個渠道提供無縫對接的服務(wù)體驗,這對CRM系統(tǒng)提出了高要求。多渠道一致性03現(xiàn)代銀行的CRM挑戰(zhàn)激活存量客戶吸引新客戶0103建立忠誠度計劃,通過積分獎勵、VIP服務(wù)等方式,鼓勵客戶長期合作,增強(qiáng)客戶信任度和忠誠度,將已有客戶轉(zhuǎn)為忠實客戶。通過推出創(chuàng)新產(chǎn)品和服務(wù),采取有競爭力的營銷拓客活動,吸引客戶,并與客戶建立互動聯(lián)系。02建立定期的客戶溝通機(jī)制,了解客戶需求變化,及時解決客戶問題,提升客戶滿意度。建立與客戶的長期互信關(guān)系,使客戶更愿意保持忠誠。保留老客戶客戶關(guān)系管理目標(biāo)客戶關(guān)系管理構(gòu)成通過歷史數(shù)據(jù)建模,預(yù)測客戶流失,采取恰當(dāng)?shù)男袆咏鉀Q客戶的訴求,與銀行的促銷手段相結(jié)合,對客戶進(jìn)行挽留。預(yù)測客戶流失依據(jù)客戶消費(fèi)習(xí)慣、購買頻率等數(shù)據(jù),將客戶劃分為不同價值群體,從而準(zhǔn)確制定業(yè)務(wù)策略,提供個性化服務(wù)??蛻艏?xì)分客戶關(guān)系水平隨時間而變化,在不同階段呈現(xiàn)不同的特征,不同階段所考慮的問題不同,應(yīng)采取不同的策略。客戶生命周期管理客戶生命周期客戶獲取1客戶提升2客戶成熟3客戶衰退4客戶流失5不同階段客戶行為分析在關(guān)系成熟階段,客戶忠誠度提高,他們可能成為口碑傳播者,影響其他潛在客戶。隨著對產(chǎn)品和服務(wù)理解的加深,客戶會有更多具體需求,關(guān)注點(diǎn)轉(zhuǎn)向滿意度和價值實現(xiàn)??蛻粼诋a(chǎn)品或服務(wù)的初期階段通常表現(xiàn)出好奇和試用行為,需要通過吸引和引導(dǎo)來建立關(guān)系。初期:探索與試用成長期:需求與滿意度成熟期:忠誠度與推薦不同階段客戶行為分析客戶終止接受企業(yè)提供的服務(wù),需要分析客戶流失原因,采取有針對性的營銷策略挽回已流失的高價值客戶??蛻舻臉I(yè)務(wù)交易量下降,客戶滿意度和忠誠度降低,甚至尋找新的關(guān)系伙伴。需要采取有效措施來延緩或逆轉(zhuǎn)客戶關(guān)系的衰退,從而保持客戶的長期價值?。衰退期:交易量下降流失期:客戶關(guān)系終止大數(shù)據(jù)技術(shù)在客戶生命周期管理中的應(yīng)用14901對新進(jìn)客戶的主要特征及關(guān)鍵購買因素進(jìn)行分析,從而發(fā)現(xiàn)潛在客戶群并選擇有效的營銷渠道來獲取潛在客戶客戶獲取對流失客戶的相關(guān)數(shù)據(jù)進(jìn)行分析,找出客戶流失的主要原因,進(jìn)而采取有針對性的營銷策略來挽回已流失客戶。05客戶流失分析和跟蹤成熟客戶的深度需求和忠誠程度,進(jìn)而對客戶進(jìn)行交叉營銷和個性化推薦,以提高客戶的黏性。03客戶成熟02分析業(yè)務(wù)使用情況和客戶行為特征,發(fā)現(xiàn)客戶潛在需求和客戶價值提升障礙。適時地推出滿足潛在需求的新產(chǎn)品以及適應(yīng)各類客戶群的個性化服務(wù)??蛻籼嵘O(jiān)控客戶賬戶狀態(tài)的變化,發(fā)現(xiàn)客戶流失驅(qū)動因素,對客戶流失進(jìn)行預(yù)測,采取有針對性的營銷舉措,最大限度地降低客戶流失的可能性。04客戶衰退客戶細(xì)分客戶細(xì)分也稱客戶分類,或客戶群體劃分,指企業(yè)根據(jù)客戶的屬性、特征等各種指標(biāo),依照一定的規(guī)則將客戶分為具有相似需求或行為的多個類別。定義客戶群體細(xì)分后能更準(zhǔn)確地識別不同客戶群體的獨(dú)特需求,提供個性化服務(wù)。理解客戶需求根據(jù)客戶細(xì)分,銀行能更有效地分配資源,提高營銷策略和風(fēng)險管理的針對性。優(yōu)化資源配置商業(yè)銀行的客戶分類標(biāo)準(zhǔn)根據(jù)客戶的年齡、職業(yè)、收入、地理位置等基本信息進(jìn)行分類??蛻魧傩砸罁?jù)客戶的交易頻率、額度和習(xí)慣偏好進(jìn)行分類??蛻粜袨橥ㄟ^分析客戶的利潤貢獻(xiàn)、消費(fèi)潛力,識別高價值客戶和潛在價值客戶。客戶價值客戶消費(fèi)行為與偏好評估客戶對風(fēng)險的接受程度,幫助銀行在推薦投資產(chǎn)品時做出更合適的選擇。研究客戶對不同類型金融產(chǎn)品的需求和偏好,如更傾向于投資還是儲蓄,以定制個性化服務(wù)。分析客戶的日常消費(fèi)習(xí)慣,了解其消費(fèi)模式,識別出節(jié)儉型、普通型和高消費(fèi)型客戶,為精準(zhǔn)營銷提供依據(jù)。消費(fèi)習(xí)慣產(chǎn)品偏好風(fēng)險承受能力大數(shù)據(jù)應(yīng)用于銀行客戶細(xì)分153內(nèi)部數(shù)據(jù)源:銀行交易記錄外部數(shù)據(jù)源:社

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論