Python數(shù)據(jù)分析與可視化項目實戰(zhàn) 課件 項目5 全流程數(shù)據(jù)分析之浙江省歷史名人數(shù)據(jù)分析_第1頁
Python數(shù)據(jù)分析與可視化項目實戰(zhàn) 課件 項目5 全流程數(shù)據(jù)分析之浙江省歷史名人數(shù)據(jù)分析_第2頁
Python數(shù)據(jù)分析與可視化項目實戰(zhàn) 課件 項目5 全流程數(shù)據(jù)分析之浙江省歷史名人數(shù)據(jù)分析_第3頁
Python數(shù)據(jù)分析與可視化項目實戰(zhàn) 課件 項目5 全流程數(shù)據(jù)分析之浙江省歷史名人數(shù)據(jù)分析_第4頁
Python數(shù)據(jù)分析與可視化項目實戰(zhàn) 課件 項目5 全流程數(shù)據(jù)分析之浙江省歷史名人數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

項目背景項目準備項目分析項目實現(xiàn)項目拓展浙江歷史悠久,文化燦爛,是中國古代文明的發(fā)祥地之一,吳越文化的重要發(fā)祥地,被稱為“絲綢之府”、“魚米之鄉(xiāng)”和“文物之邦”,更是孕育了眾多的文化名人,涌現(xiàn)出許多杰出的文學家、藝術(shù)家、學者和政治家。他們的作品和思想對中國歷史和文化產(chǎn)生了深遠的影響。浙江的省會杭州是一座歷史悠久,享有盛譽的歷史名城和文化之都。杭州作為“第19屆亞洲運動會”舉辦城市,以優(yōu)美的城市環(huán)境、便利的交通優(yōu)勢和強大的經(jīng)濟實力向世界展示著現(xiàn)代都市的魅力,同時也展示了獨特的文化魅力。本項目通過對浙江省歷史名人的數(shù)據(jù)分析,可以更全面地了解這個地區(qū)的歷史和文化特點。這將有助于推動浙江省歷史文化的傳承與發(fā)展,進一步提升浙江省在國內(nèi)外的知名度和影響力。同時也有利于提升文化自信、傳承文化遺產(chǎn)。項目背景項目準備項目分析項目實現(xiàn)項目拓展項目背景1、確定分析目標只有弄清分析的目的是什么?才能準確定位分析因子,提出有價值的問題,提供清晰的思路。2、數(shù)據(jù)獲取目標定下來了,接下來要去找相應的數(shù)據(jù)。如果制定目標時完全遵循了第一步的三個注意點,那么現(xiàn)在會很明確要找哪些數(shù)據(jù)。獲取目標數(shù)據(jù)的三類方法:一是從一些有公開數(shù)據(jù)的網(wǎng)站上復制/下載,比如統(tǒng)計局網(wǎng)站、各類行業(yè)網(wǎng)站等,通過搜索引擎可以很容易找到這些網(wǎng)站;二是通過一些專門做數(shù)據(jù)整理打包的網(wǎng)站/api來下載;三是自行收集所需數(shù)據(jù)。項目背景項目準備項目分析項目實現(xiàn)項目拓展項目背景3、數(shù)據(jù)清洗在工作中90%以上的情況,你拿到的數(shù)據(jù)都需要先做清洗工作,排除異常值、空白值、無效值、重復值等等。這項工作經(jīng)常會占到整個數(shù)據(jù)分析過程將近一半的時間。數(shù)據(jù)清洗是確保數(shù)據(jù)質(zhì)量的重要工作。4、數(shù)據(jù)整理清洗過后,需要進行數(shù)據(jù)整理,即將數(shù)據(jù)整理為能夠進行下一步分析的格式,對于初學者,可以用Excel來完成這一工作。5、描述分析數(shù)據(jù)描述:對數(shù)據(jù)的基本情況進行描述,如數(shù)據(jù)的總數(shù)、時間跨度、數(shù)據(jù)來源等。指標統(tǒng)計:分析實際情況的數(shù)據(jù)指標,主要包括四個部分:(1)變化:數(shù)據(jù)隨著時間的變動而增減,如近期銷售額表現(xiàn)。(2)分布:數(shù)據(jù)在不同層次上的表現(xiàn),如地域分布、人群分布。(3)對比:數(shù)據(jù)項之間的對比,如產(chǎn)品線對比、用戶數(shù)對比。(4)預測:根據(jù)數(shù)據(jù)現(xiàn)有的增減幅度,預測未來的狀況。項目背景項目準備項目分析項目實現(xiàn)項目拓展項目背景6、數(shù)據(jù)可視化將數(shù)據(jù)可視化也是一個學問。通過數(shù)據(jù)分析得出結(jié)論后,還需要用圖表展示出來,俗話說得好,“文不如表,表不如圖",用圖表可以更清晰展結(jié)論。7、洞察結(jié)論這一步是數(shù)據(jù)報告的核心,也是最能看出數(shù)據(jù)分析師水平的部分。一個年輕的分析師和一個年長的分析師拿到同樣的圖表,完全有可能解讀出不同的內(nèi)容。8、報告撰寫報告撰寫是整個數(shù)據(jù)分析的最后一步,是對整個數(shù)據(jù)分析過程的總結(jié)。一份優(yōu)秀的報告需要一個明確的主題、清晰的目錄、圖文并茂描述數(shù)據(jù)、結(jié)論與建議。應至少包含以下六塊內(nèi)容:報告背景、報告目的、數(shù)據(jù)來源、數(shù)量等基本情況、分頁圖表內(nèi)容及本頁結(jié)論、各部分小結(jié)及最終總結(jié)。項目分析項目實現(xiàn)項目拓展項目背景項目準備1.分析目標分析唐宋元明清時期籍貫為浙江省的歷史名人中的性別占比、各時期不同地區(qū)的名人數(shù)對比,并根據(jù)數(shù)據(jù)統(tǒng)計出唐宋元明清時期歷史名人最多的地區(qū)。2.數(shù)據(jù)獲取2023年2月,中共中央、國務院印發(fā)《數(shù)字中國建設整體布局規(guī)劃》,提出要推動公共數(shù)據(jù)匯聚利用,暢通數(shù)據(jù)資源大循環(huán),夯實數(shù)字中國建設基礎?!吨泄仓醒雵鴦赵宏P于構(gòu)建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(以下簡稱“數(shù)據(jù)二十條”)提出,對各級黨政機關、企事業(yè)單位依法履職或提供公共服務過程中產(chǎn)生的公共數(shù)據(jù),加強匯聚共享和開放開發(fā)。項目分析項目實現(xiàn)項目拓展項目背景項目準備數(shù)據(jù)作為生產(chǎn)要素已經(jīng)成為數(shù)字時代創(chuàng)新發(fā)展的最新聚焦點。培育數(shù)據(jù)要素市場、發(fā)揮數(shù)據(jù)要素價值、促進經(jīng)濟社會高質(zhì)量發(fā)展成為構(gòu)筑國家競爭新優(yōu)勢的重要舉措。公共數(shù)據(jù)作為數(shù)據(jù)要素中權(quán)威性、通用性、基礎性、可控性、公益性較強的數(shù)據(jù)類型,是數(shù)據(jù)要素的重要組成部分,是推進數(shù)據(jù)要素作用充分發(fā)揮的有機組成部分和有力落地抓手之一。公共數(shù)據(jù)關乎國民經(jīng)濟和社會發(fā)展中生產(chǎn)生活的各個方面,蘊藏著巨大的經(jīng)濟和社會價值,是數(shù)字中國建設的重要數(shù)據(jù)基礎。推進公共數(shù)據(jù)開放利用,已成為推進國家治理體系和治理能力現(xiàn)代化的重要手段,也是推動數(shù)據(jù)這一生產(chǎn)要素更好發(fā)揮其價值的必由之路,對于賦能現(xiàn)代治理、賦能經(jīng)濟發(fā)展、賦能共同富裕具有十分重要的意義。從開放數(shù)據(jù)平臺獲取數(shù)據(jù)。/dxsy/202306/t20230630_158461.shtml項目分析項目實現(xiàn)項目拓展項目背景項目準備3數(shù)據(jù)清洗3.1空值的處理合并后的32207條數(shù)據(jù)中會有空值,這些值對于數(shù)據(jù)統(tǒng)計沒有意義,因此可以進行判斷并作刪除。(1)刪除含有空值的行或列:用dropna()時可以同時剔除Nan和NaT,參數(shù)如下:axis:維度,axis=0表示index行,axis=1表示columns列,默認為0;how:"all"表示這一行或列中的元素全部缺失(為nan)才刪除這一行或列,"any"表示這一行或列中只要有元素缺失,就刪除這一行或列;thresh:一行或一列中至少出現(xiàn)了thresh個才刪除;subset:在某些列的子集中選擇出現(xiàn)了缺失值的列刪除,不在子集中的含有缺失值的列或行不會刪除(有axis決定是行還是列);inplace:篩選過缺失值的新數(shù)據(jù)是存為副本還是直接在原數(shù)據(jù)上進行修改。項目分析項目實現(xiàn)項目拓展項目背景項目準備(2)若發(fā)現(xiàn)dropna()后仍然存在空值,則有可能其中并不是空值,而是空字符串,這里就可以將空字符串替換成空值再進行dropna()操作:df.replace(to_replace=r'^\s*$',value=np.nan,regex=True,inplace=True)df['訂單付款時間'].dropna()(3)填充含有空值的行或列(ffill/bfill),參數(shù)如下:value:需要用什么值去填充缺失值axis:確定填充維度,從行開始或是從列開始method:ffill,用缺失值前面的一個值代替缺失值,如果axis=1,那么就是橫向的前面的值替換后面的缺失值,如果axis=0,那么則是上面的值替換下面的缺失值。backfill/bfill,缺失值后面的一個值代替前面的缺失值。注意這個參數(shù)不能與value同時出現(xiàn)limit:確定填充的個數(shù),如果limit=2,則只填充兩個缺失值。項目分析項目實現(xiàn)項目拓展項目背景項目準備3.2從傳記列獲取姓名在所提供的數(shù)據(jù)中可以看到,第一列為人物傳記,但缺少人物的姓名,因此可以通過分割字符的方式從傳記列中獲取姓名。由于合并后的數(shù)據(jù)有三萬多條,考慮到處理處理效率,同學們可以選擇部分數(shù)據(jù)進行操作練習。

通過觀察可以看到傳記列中的姓名與后面的介紹中間有一個空格,因此可以將空格作為分隔符,使用split()方法實現(xiàn)。操作過程為:1、打開工作表,通過for循環(huán)依次遍歷每行數(shù)據(jù),對傳記所在的A列數(shù)據(jù)進行分割,取出第一個值,也就是索引號為0的值賦給變量model,并追加到data[]中。2、然后再次循環(huán),將取出的姓名值通過sheet.cell(row=i,column=2).value=word依次放入第二列中,如果要放入其他列,則修改column對應的值。最后通過book.save將數(shù)據(jù)存入新表中。3、最后,增加一列“姓名”,用于保存從傳記中獲取的值,項目分析項目實現(xiàn)項目拓展項目背景項目準備3.3補全性別和民族從數(shù)據(jù)中可以看到,性別一欄特別標注了女性,空值默認為男性,民族列中,非漢族進行了標注,空值則默認為“漢族”。項目分析項目實現(xiàn)項目拓展項目背景項目準備3.4常用的格式轉(zhuǎn)換在數(shù)據(jù)處理中常用的格式轉(zhuǎn)換有:(1)清除空格字符strip:調(diào)用map函數(shù)對str對象進行空格去除,若去除逗號可以用map(str.strip(‘,’))df['收貨地址']=df['收貨地址'].map(str.strip())(2)大小寫轉(zhuǎn)換lower/upperdf['編碼']=df['編碼'].strip().lower()#大寫同理,upper()(3)更改數(shù)據(jù)格式astypedf['訂單金額'].astype('int')#int整數(shù)類型,同理float浮點型(4)更改列名即字段名文章來源地址:/blog/411922.htmldf.rename(columns={'實付金額':'實付'})#把實付金額,改成實付(5)保留一個重復值df['收貨地址'].drop_duplicates()#刪除列中后出現(xiàn)的值df['收貨地址'].drop_duplicates(keep='last')#刪除列中先出現(xiàn)的值,即保留最后一個值(6)數(shù)據(jù)替換把收貨地址中的四川改為四川省df['收貨地址'].replace('四川','四川省')項目分析項目實現(xiàn)項目拓展項目背景項目準備3.5將年份轉(zhuǎn)換為對應的朝代1、取出出生年份從數(shù)據(jù)表中可以看到,部分“生卒年”中給的是對應的年份信息,通常是根據(jù)出生年份算所歸屬的朝代,因此需要將類似于1145-1196的年份信息中的出生年份取出來,可以使用“——”作為分隔符來取出出生年。2、確定唐宋元明清時期對應的年份取出年份后通過出生年份對應到所屬年份,由于歷史年代的劃分會有重疊,這里按照以下范圍進行劃分:唐:618-907年宋:960-1270年元:1271-1368年明:1368-1636年,部分記載為1369-1644年,單重疊部分不利于劃分,因此在此次統(tǒng)計中將1368-1636劃分為明代。清:1636-1912年項目分析項目實現(xiàn)項目拓展項目背景項目準備3、確定數(shù)據(jù)的對應邏輯打開整理后的數(shù)據(jù)可以看到,“出生年份”列中包括了年代信息如“明”“清”,還有“?”,以及分割出的出生年份,因此在程序中需要分別判斷屬于哪些類型,比如所屬年代已經(jīng)為漢字的,則保留??梢杂胾'\u4e00'<=sheet["C"+str(row)].value<=u'\u9fff':判斷是否是漢字,如果是出生年份的,再根據(jù)年代值判斷屬于哪個朝代,由于原記錄為文本信息,進行分割后依然是文本,所以在做范圍判斷時,需要進行類型轉(zhuǎn)換,比如唐朝的判斷語句中,用int將sheet["C"+str(row)].value的值由字符型轉(zhuǎn)換為數(shù)值型:int(sheet["C"+str(row)].value)>=618andint(sheet["C"+str(row)].value)<=907)項目分析項目實現(xiàn)項目拓展項目背景項目準備4數(shù)據(jù)篩選根據(jù)數(shù)據(jù)分析的目標,需要統(tǒng)計的是唐宋元明清五個朝代的歷史名人,因此,需要將數(shù)據(jù)進行篩選。5分析描述經(jīng)過篩選后唐宋元明清期間的歷史名人數(shù)據(jù)共有2萬條左右,包括了需要統(tǒng)計信息中的姓名、生卒年、性別、籍貫等字段。主要做以下分析:1、唐宋元明清期間的性別比例、女性在各個朝代的分布情況;2、唐宋元明清的名人數(shù)量占比圖;3、某些地區(qū)在唐宋元明清期間的名人數(shù)量對比;4、找出名人數(shù)量最多的地區(qū)。項目分析項目實現(xiàn)項目拓展項目背景項目準備6數(shù)據(jù)分析及可視化6.1性別比例通過性別列中的值,使用data.groupby("性別")["性別"].count()分組統(tǒng)計統(tǒng)計唐宋元明清時期名人的男女名人數(shù)量,并用餅圖進行展示。6.2女性分布柱形圖根據(jù)上述統(tǒng)計可以看出,浙江省在唐宋元明清期間的女性名人僅占2.9%,下面就來看他們都分布在哪些朝代?可以通過性別進行篩選,并通過生卒年進行分組統(tǒng)計,使用data.query("性別=='女'").groupby("生卒年")["姓名"].count()語句。6.3每個朝代的名人數(shù)餅圖統(tǒng)計唐宋元明清每個朝代的名人數(shù),可以按“生卒年”進行分組統(tǒng)計,使用data.groupby("生卒年")["姓名"].count()實現(xiàn),統(tǒng)計結(jié)果用餅圖展示占比情況。項目分析項目實現(xiàn)項目拓展項目背景項目準備6.4統(tǒng)計某個地區(qū)每個朝代的名人數(shù)量想要得到自己家鄉(xiāng)的名人分布情況,可以通過“籍貫”進行篩選,如查看湖州在唐宋元明清期間的浙江歷史名人數(shù)量,可以使用程序5-13代碼。如果想要對比幾個地區(qū)的數(shù)據(jù),可以使用折線圖,注意:做對比圖時,必須是相同朝代的數(shù)量對比,比如山陰人中只有清代有2個名人,其他時期沒有,就不能與湖州人的數(shù)據(jù)做對比圖,而義烏人和湖州人的朝代一致6.5.名人數(shù)量較多的地區(qū)統(tǒng)計由于籍貫數(shù)據(jù)較多,使用分組統(tǒng)計計算量太大,因此可以使用詞云展示籍貫信息。通過詞云分析可見浙江歷史名人中嘉興人最多,但是觀察數(shù)據(jù)后會發(fā)現(xiàn),由于不同時期劃分的范圍有所不同,包括地名也有變化,因此,要統(tǒng)計杭州的名人,應包括“今屬杭州”的范圍,因此應通過對籍貫中帶’杭州‘的字段進行模糊篩選,從而計算籍貫為杭州的歷史名人數(shù)量。項目分析項目實現(xiàn)項目拓展項目背景項目準備7.分析結(jié)論7.1.性別比例分析通過對浙江省唐宋元明清期間的歷史名人數(shù)據(jù)的量化分析,可以看出古代女性地位較低,因此很少有女性能夠成為歷史名人,從唐朝到清朝近1300年間,僅有523名女性,占總數(shù)的2.9%。男性占比97.1%。7.2.各朝代名人比例分析通過對浙江省唐宋元明清期間的歷史名人統(tǒng)計,看到清朝占比最高為64.1%,唐朝最少為1.3%。根據(jù)提供的數(shù)據(jù)可以看出載入史冊的名人主要為文人墨客、官員及革命工作者,清朝名人較多主要有兩個原因:項目分析項目實現(xiàn)項目拓展項目背景項目準備第一,江浙地區(qū)是清朝時期我國經(jīng)濟最發(fā)達的地區(qū),素有“蘇湖熟、天下足”、“衣被天下”的說法。江浙地區(qū)地少人多,讀書是人們謀生的一種重要手段。在傳統(tǒng)的農(nóng)耕社會,一人中舉會為整個家族帶來豐厚的利益,所以整個家族都會不遺余力的保障子女的教育,這種情況在江浙地區(qū)尤為突出。這種家族式的投入自然產(chǎn)生了豐厚的回報,使得江浙地區(qū)文風盛行、人才輩出,出現(xiàn)了很多“耕讀傳家”的書香門第和有名望的家族。第二,清朝是封建社會的最后一個朝代,浙江受江南文脈所傳承,受儒家家國情懷熏陶,使得他們更有挽救民眾、振興民族的天然的覺悟與擔當,因此投身革命的共產(chǎn)黨人也納入了歷史名人范圍內(nèi)。因此清朝的歷史名人占比最高。而在唐朝時期,浙江地區(qū)相對其他地區(qū)出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論