《統(tǒng)計(jì)分析軟件:使用R與Python》 課件 第1章 引言_第1頁(yè)
《統(tǒng)計(jì)分析軟件:使用R與Python》 課件 第1章 引言_第2頁(yè)
《統(tǒng)計(jì)分析軟件:使用R與Python》 課件 第1章 引言_第3頁(yè)
《統(tǒng)計(jì)分析軟件:使用R與Python》 課件 第1章 引言_第4頁(yè)
《統(tǒng)計(jì)分析軟件:使用R與Python》 課件 第1章 引言_第5頁(yè)
已閱讀5頁(yè),還剩61頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1.1統(tǒng)計(jì)分析概述1.2現(xiàn)有統(tǒng)計(jì)軟件簡(jiǎn)介1.3R下載安裝及使用1.4Python下載安裝及使用第1章引言

引言統(tǒng)計(jì)分析軟件簡(jiǎn)介Excel、SPSS、SAS、Matlab,S-plusPython、RPython語言簡(jiǎn)介下載和安裝PythonAnaconda運(yùn)行PythonR語言簡(jiǎn)介下載和安裝RRstudioMarkdown常用的R包R包和R包合集的安裝R包的使用、更新、遷移數(shù)據(jù)分析的未來要求

1.統(tǒng)計(jì)學(xué)、數(shù)學(xué)、計(jì)算機(jī)等專業(yè)優(yōu)先,有統(tǒng)計(jì)學(xué)應(yīng)用基礎(chǔ);

2.兩年以上移動(dòng)互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)分析經(jīng)驗(yàn),社交類項(xiàng)目經(jīng)驗(yàn)更優(yōu);

3.具備產(chǎn)品經(jīng)理經(jīng)驗(yàn),理解產(chǎn)品設(shè)計(jì)原理與產(chǎn)品邏輯。參與過產(chǎn)品設(shè)計(jì)與執(zhí)行;

4.邏輯思維能力強(qiáng),表達(dá)能力強(qiáng);

5.熟練運(yùn)用各種內(nèi)外部數(shù)據(jù)統(tǒng)計(jì)工具,快速響應(yīng)各個(gè)部門的數(shù)據(jù)需求,至少掌握一種統(tǒng)計(jì)分析工具,如SAS、SPSS、R等;

6.重視數(shù)據(jù)可視化呈現(xiàn),報(bào)告撰寫能力強(qiáng);

7.好奇心強(qiáng),對(duì)數(shù)據(jù)執(zhí)著,對(duì)問題刨根問底。1.1統(tǒng)計(jì)分析概述數(shù)據(jù)分析的未來熱門職位發(fā)展“錢”途良好。統(tǒng)計(jì)學(xué)就業(yè)前景統(tǒng)計(jì)分析的特點(diǎn)1.模型只能是對(duì)客觀世界的一種近似,是現(xiàn)實(shí)的簡(jiǎn)單化或理想化。

Essentially,allmodelsarewrong,butsomeareuseful.——GeorgeBox.“有用的”模型能抓住并凸顯現(xiàn)象中與分析目的最相關(guān)之主要特征,因此統(tǒng)計(jì)分析的成功與對(duì)主題領(lǐng)域的了解密切相關(guān)。統(tǒng)計(jì)分析的特點(diǎn)2.分析者應(yīng)根據(jù)目的來尋找合適的數(shù)據(jù)和分析方法。數(shù)據(jù):數(shù)據(jù)的來源;數(shù)據(jù)的真實(shí)性;數(shù)據(jù)所含信息;數(shù)據(jù)是否適合分析。方法:同一個(gè)問題,可采用多種分析方法,也可能需要多種方法。統(tǒng)計(jì)分析的特點(diǎn)3.統(tǒng)計(jì)分析是一個(gè)學(xué)習(xí)與實(shí)踐的過程統(tǒng)計(jì)學(xué):統(tǒng)計(jì)學(xué)基礎(chǔ)、多元統(tǒng)計(jì)分析、非參數(shù)統(tǒng)計(jì)、貝葉斯統(tǒng)計(jì)計(jì)量經(jīng)濟(jì)學(xué):時(shí)間序列、面板數(shù)據(jù)、微觀計(jì)量、非參數(shù)時(shí)間序列分析:一元、多元、波動(dòng)分析、非線性專業(yè)領(lǐng)域背景知識(shí)有關(guān)軟件:Matlab、R、SPSS、SAS、Python從統(tǒng)計(jì)認(rèn)識(shí)過程而言,充分體現(xiàn)著定性分析和定量分析對(duì)立統(tǒng)一的關(guān)系。定量分析研究是統(tǒng)計(jì)研究的特色所在,但統(tǒng)計(jì)的定量分析不是純粹數(shù)量意義的,即不是就數(shù)量論數(shù)量,而是基于所研究事物本身的特點(diǎn),并且從所研究事物的有關(guān)聯(lián)系或現(xiàn)實(shí)背景中,緊緊扣住認(rèn)識(shí)所研究事物內(nèi)在本質(zhì)這一主題來展開的,注重的是定量分析背后的具體含義和意義,這也正是統(tǒng)計(jì)學(xué)與數(shù)學(xué)的區(qū)別所在。

統(tǒng)計(jì)分析的特點(diǎn)那么統(tǒng)計(jì)研究怎樣才能通過數(shù)量來體現(xiàn)其具體含義與現(xiàn)實(shí)意義?這就必須結(jié)合定性分析,即以定性分析為起點(diǎn),并以定性分析為終點(diǎn)。具體來說,統(tǒng)計(jì)研究總是按照“初步(感性)的定性認(rèn)識(shí)——客觀科學(xué)的定量認(rèn)識(shí)——高級(jí)(理性)的定性認(rèn)識(shí)”這一過程來進(jìn)行的。統(tǒng)計(jì)分析的特點(diǎn)1.2現(xiàn)有統(tǒng)計(jì)軟件簡(jiǎn)介統(tǒng)計(jì)軟件的種類很多。有些功能齊全,有些價(jià)格便宜;有些容易操作,有些需要更多的實(shí)踐才能掌握。還有些是專門的軟件,只處理某一類統(tǒng)計(jì)問題。網(wǎng)上可以獲得的統(tǒng)計(jì)或者計(jì)量軟件起碼有多達(dá)幾百種。面對(duì)太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。SPSS、EXCEL、SAS、Eviews、R語言、Matlab、Python,……統(tǒng)計(jì)軟件的種類很多。差異較大:

功能是否齊全?

價(jià)格是否便宜?是否開源?

是否容易操作?

軟件是否太大?

是否專門性軟件?只處理某一類統(tǒng)計(jì)問題。 面對(duì)太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。1.2現(xiàn)有統(tǒng)計(jì)軟件簡(jiǎn)介統(tǒng)計(jì)軟件——Excel

嚴(yán)格說來并不是統(tǒng)計(jì)軟件,但作為數(shù)據(jù)表格軟件,必然有一定統(tǒng)計(jì)計(jì)算功能。而且凡是有MicrosoftOffice的計(jì)算機(jī),基本上都裝有Excel。注意:有時(shí)在裝Office時(shí)沒有裝數(shù)據(jù)分析的功能,那就必須裝了才行。當(dāng)然,畫圖功能是都具備的。對(duì)于簡(jiǎn)單分析,Excel還算方便,但隨著問題的深入,Excel就不那么“傻瓜”,需要使用函數(shù),甚至根本沒有相應(yīng)的方法了。統(tǒng)計(jì)軟件——Excel

SPSS是軟件英文名稱的首字母縮寫,原意為StatisticalPackagefortheSocialSciences,即“社會(huì)科學(xué)統(tǒng)計(jì)軟件包”。但是隨著SPSS產(chǎn)品服務(wù)領(lǐng)域的擴(kuò)大和服務(wù)深度的增加,SPSS公司已于2000年正式將英文全稱更改為StatisticalProductandServiceSolutions,意為“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”,標(biāo)志著SPSS的戰(zhàn)略方向正在做出重大調(diào)整。

2009年

IBM

收購(gòu)了

SPSS

公司統(tǒng)計(jì)軟件——SPSS操作簡(jiǎn)便:界面非常友好,除了數(shù)據(jù)錄入及部分命令程序等少數(shù)輸入工作需要鍵盤鍵入外,大多數(shù)操作可通過鼠標(biāo)拖曳、點(diǎn)擊“菜單”、“按鈕”和“對(duì)話框”來完成。編程方便:具有第四代語言的特點(diǎn),告訴系統(tǒng)要做什么,無需告訴怎樣做。只要了解統(tǒng)計(jì)分析的原理,不需通曉統(tǒng)計(jì)方法的各種算法,即可得到需要的統(tǒng)計(jì)分析結(jié)果。功能強(qiáng)大:具有完整的數(shù)據(jù)輸入、編輯、統(tǒng)計(jì)分析、報(bào)表、圖形制作等功能。自帶11種類型136個(gè)函數(shù)。全面的數(shù)據(jù)接口:能夠讀取及輸出多種格式的文件。如*.dbf文件,文本數(shù)據(jù)文件,Excel的*.xls文件等均可轉(zhuǎn)換成可供分析的SPSS數(shù)據(jù)文件。能夠把SPSS的圖形轉(zhuǎn)換為7種圖形文件。結(jié)果可保存為*.txt,word,PPT及html格式的文件。統(tǒng)計(jì)軟件——SPSS統(tǒng)計(jì)軟件——SPSS統(tǒng)計(jì)軟件——SAS

功能非常齊全(不如R齊全)的軟件;盡管價(jià)格相當(dāng)不菲,許多公司,特別是美國(guó)制藥公司,還是因?yàn)槠涔δ鼙姸嗪湍承┟绹?guó)政府機(jī)構(gòu)(FDA)認(rèn)可而使用;盡管現(xiàn)在已經(jīng)盡量“傻瓜化”(遠(yuǎn)不如SPSS“傻”),但仍然需要一定的訓(xùn)練才可以進(jìn)入。可以對(duì)它編程;幫助系統(tǒng)很差,查尋不易;對(duì)于基本統(tǒng)計(jì)課程則不那么方便。統(tǒng)計(jì)軟件——SAS統(tǒng)計(jì)軟件——S-plus

這是R出現(xiàn)之前統(tǒng)計(jì)學(xué)家最喜愛的軟件;功能齊全;強(qiáng)大的編程功能,使得研究人員可以編制自己的程序來實(shí)現(xiàn)自己的理論和方法;目前正在進(jìn)行“傻瓜化”以爭(zhēng)取顧客。但仍然以編程方便為顧客所青睞。統(tǒng)計(jì)軟件——S-plus統(tǒng)計(jì)軟件——MATLAB

這也是應(yīng)用于各個(gè)領(lǐng)域的以編程為主的軟件,在理工領(lǐng)域應(yīng)用最廣泛。編程類似于S和R。但是統(tǒng)計(jì)方法不多。StatisticsToolbox—統(tǒng)計(jì)工具箱EconometricsToolbox-計(jì)量經(jīng)濟(jì)學(xué)工具箱統(tǒng)計(jì)軟件——MATLAB統(tǒng)計(jì)軟件——Python簡(jiǎn)介Python是一種面向?qū)ο?、直譯式計(jì)算機(jī)程序設(shè)計(jì)語言,由荷蘭人GuidovanRossum發(fā)明于1989年,1991年發(fā)行第一個(gè)公開發(fā)行版。它常被昵稱為膠水語言,它能夠很輕松的把用其他語言制作的各種模塊(尤其是C/C++)輕松地聯(lián)結(jié)在一起。

之所以選中Python(大蟒蛇的意思)作為程序的名字,是因?yàn)樗且粋€(gè)叫MontyPython的喜劇團(tuán)體的愛好者。Python是一種解釋型、高級(jí)和通用的編程語言,支持多種編程范型,包括結(jié)構(gòu)化、過程式、反射式、面向?qū)ο蠛秃瘮?shù)式編程。它擁有動(dòng)態(tài)類型系統(tǒng)和垃圾回收功能,能夠自動(dòng)管理內(nèi)存使用,并且其本身?yè)碛幸粋€(gè)巨大而廣泛的標(biāo)準(zhǔn)庫(kù)。除此之外,Python官方的第三方庫(kù)的倉(cāng)庫(kù)PythonPackageIndex(PyPI,/)還包括數(shù)十萬個(gè)由第三方團(tuán)隊(duì)或個(gè)人開發(fā)的Python庫(kù)。統(tǒng)計(jì)軟件——Python簡(jiǎn)介Python2.0于2000年發(fā)布,Python3.0于2008年發(fā)布。需要注意的是,Python3.x是Python2.x的主要修訂版,兩者并不完全兼容。根據(jù)TIOBE編程語言排行榜最新數(shù)據(jù),Python是使用率排名第一的編程語言。統(tǒng)計(jì)軟件——Python簡(jiǎn)介

R免費(fèi),永遠(yuǎn)正版R資源公開(不是黑匣子)R可以在UNIX,Windows和MacosX上運(yùn)行R有優(yōu)秀的內(nèi)在幫助系統(tǒng)R有優(yōu)秀的畫圖功能學(xué)生能夠輕松地轉(zhuǎn)到商業(yè)支持的S-Plus程序(如果需要使用商業(yè)軟件)R語言有一個(gè)強(qiáng)大的,容易學(xué)習(xí)的語法,有許多內(nèi)在的統(tǒng)計(jì)函數(shù)統(tǒng)計(jì)軟件——R軟件其它統(tǒng)計(jì)軟件

Eviews:用于處理回歸和時(shí)間序列的經(jīng)濟(jì)類軟件Rats:專門處理時(shí)間序列數(shù)據(jù)Amos:結(jié)構(gòu)模型Nlogit:離散選擇模型和受限因變量模型Stata:面板數(shù)據(jù)模型功能很強(qiáng)大Gauss:運(yùn)算速度最快的計(jì)量經(jīng)濟(jì)學(xué)軟件。計(jì)量經(jīng)濟(jì)學(xué)大牛的最愛。FORTRAN:這是應(yīng)用于各個(gè)領(lǐng)域的歷史很長(zhǎng)的非常優(yōu)秀的數(shù)學(xué)編程軟件,功能強(qiáng)大,也有一定的統(tǒng)計(jì)軟件包。計(jì)算速度比這里介紹的都快得多。但需要編程和編譯。操作不那么容易。KDnuggets-數(shù)據(jù)分析師的工具軟件Kaggle-統(tǒng)計(jì)學(xué)家使用的分析軟件關(guān)于編程語言沒有最好的語言,只有最合適的語言;沒有糟糕的語言,只有糟糕的程序員;沒有一種語言是萬能的,只會(huì)一種語言是萬萬不能的;廢除對(duì)語言的宗教信仰,建立對(duì)語言的哲學(xué)思維;編程就是在人腦和電腦之間尋找最佳平衡點(diǎn)的過程。關(guān)于統(tǒng)計(jì)編程語言個(gè)人認(rèn)為統(tǒng)計(jì)分析最佳搭配:

R[統(tǒng)計(jì)分析]+Python[數(shù)據(jù)預(yù)處理]R語言的由來R語言是從S語言演變而來的。S語言是二十世紀(jì)70年代誕生于貝爾實(shí)驗(yàn)室,由RickBecker,JohnChambers,AllanWilks開發(fā)?;赟語言開發(fā)的商業(yè)軟件Splus,可以方便的編寫函數(shù)、建立模型,具有良好的擴(kuò)展性,取得了巨大成功。1995年由新西蘭Auckland大學(xué)統(tǒng)計(jì)系的RobertGentleman和RossIhaka,編寫了一種能執(zhí)行S語言的軟件,并將該軟件的源代碼全部公開,這就是R軟件,其命令統(tǒng)稱為R語言。1.3R下載、安裝及基本操作R軟件簡(jiǎn)介R是開源軟件,代碼全部公開,對(duì)所有人免費(fèi)。R可在多種操作系統(tǒng)下運(yùn)行,如Windows、MacOS、多種Linux和UNIX等。R需要輸入命令,可以編寫函數(shù)和腳本進(jìn)行批處理運(yùn)算,語法簡(jiǎn)單靈活。目前在R網(wǎng)站上約有20000多個(gè)程序包,涵蓋了基礎(chǔ)統(tǒng)計(jì)學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、生態(tài)學(xué)、地理學(xué)、醫(yī)學(xué)統(tǒng)計(jì)學(xué)、生物信息學(xué)等諸多方面。通過用戶自編程序,R語言很容易延伸和擴(kuò)大。它就是這樣成長(zhǎng)的。R是計(jì)算機(jī)編程語言。對(duì)于熟練的編程者,可能會(huì)覺得該語言比其他語言更容易上手。而對(duì)計(jì)算機(jī)初學(xué)者,學(xué)習(xí)R語言使得學(xué)習(xí)下一步的其他編程不那么困難。那些傻瓜軟件(SAS,SPSS等)語言的語法則完全不同。R的優(yōu)點(diǎn)R的缺點(diǎn)沒有商業(yè)支持(但有網(wǎng)上支持);需要編程,不夠傻瓜;速度不如C++或FORTRAN下載和安裝RTheComprehensiveR

ArchiveNetwork簡(jiǎn)稱CRAN,提供下載安裝程序和相應(yīng)軟件包。R主頁(yè)/

Windows版本下載地址之一:/mirrors.html下載完成后,雙擊/CRAN/bin/windows/base/R-3.5.1-win.exe

開始安裝。一直點(diǎn)擊下一步,各選項(xiàng)默認(rèn)。圖1R軟件首頁(yè)/

R登陸界面(Windows版)菜單欄快捷按鈕控制臺(tái)命令行R程序包為什么要安裝程序包?特定的分析功能,需要用相應(yīng)的程序包實(shí)現(xiàn)。例如:時(shí)間序列分析,往往要用到TSA程序包,多元正態(tài)分布mvtnorm包等等。程序包是什么?

R程序包是多個(gè)函數(shù)的集合,具有詳細(xì)的說明和示例。Window下的R程序包是已經(jīng)編譯好的zip包。每個(gè)程序包包含R函數(shù)、數(shù)據(jù)、幫助文件、描述文件等。常用的R包常用R程序包base-R基礎(chǔ)功能包stats-R統(tǒng)計(jì)學(xué)包nlme-線性及非線性混合效應(yīng)模型Graphics-繪圖lattice-柵格圖TSA-

時(shí)間序列分析mvtnorm-多元正態(tài)分布分析truncnorm-截尾正態(tài)分布cluster-聚類分析TSA包頁(yè)面R程序包在CRAN提供了每個(gè)包的源代碼和編譯好的MacOS、Window下的程序包以TSA包為例,CRAN提供了:Packagesource:TSA_1.01.tar.gzMacOSXbinary:TSA_1.01.tgzWindowsbinary:TSA_1.01.zip

Referencemanual:TSA.pdf

等Window平臺(tái)下程序包為zip文件,安裝時(shí)不要解壓。R程序包安裝1連網(wǎng)時(shí),用函數(shù)install.packages(),選擇鏡像后,程序?qū)⒆詣?dòng)下載并安裝程序包。例如:打開RGui,在控制臺(tái)中輸入

install.packages(“TSA")2安裝本地zip包路徑:Packages>installpackagesfromlocalfiles選擇光盤或者本地磁盤上存儲(chǔ)zip包的文件夾。非CRAN-R程序包安裝3.知道源代碼網(wǎng)址用函數(shù)install.packages(),install.packages("http://www.lepem.ufc.br/jaa/colorout_1.1-0.tar.gz",repos=NULL)install.packages("/hadley/devtools/archive/v1.7.0.tar.gz",repos=NULL,method="libcurl")#httpsisbuiltinvialibcurl.4.github安裝包可以用devtools

library(devtools);install_github("author/package")5.bioconductor安裝包可以用BiocManager

BiocManager::install("Biobase")程序包使用在控制臺(tái)中輸入如下命令:library(TSA)查看幫助文件如何知道TSA程序包內(nèi)部都有哪些函數(shù)?最常用的方法:1輸入命令??TSA2查看pdf幫助文檔(從程序包下載頁(yè)面下載)幫助文件的內(nèi)容以lm函數(shù)為例:?lmCRANtask

Views

是一個(gè)由R語言社區(qū)成員提供的按功能分類的R包合集,如貝葉斯、時(shí)間序列、生存分析等。RTaskViewsRTaskViews如果你想快速安裝某個(gè)類型的R包合集可以用下面的命令(ctv包為必須):#Toautomaticallyinstalltheseviews,thectvpackageneedstobeinstalled,e.g.,via

install.packages("ctv")library("ctv")#andthentheviewscanbeinstalledviainstall.viewsorupdate.views(whichfirstassesseswhichofthepackagesarealreadyinstalledandup-to-date),e.g.,install.views("Econometrics")#or

update.views("Econometrics")

RstudioRstudio是Rstudio(Posit)公司開發(fā)的R語言集成開發(fā)環(huán)境(IDE),在基于窗口的R編程中別廣泛的使用,相對(duì)于R自帶的GUI界面而已具有更加友好的界面、更好的項(xiàng)目管理功能、package管理功能、圖片預(yù)覽功能等。RStudio工具下載:/products/rstudio/download/Rstudio性能:MRO引入“IntelMKLforparallelmathematicalcomputing”發(fā)揮多核處理器的性能,提高了R的運(yùn)行速度。可重復(fù)性:MRO引入了checkpoint包,每天對(duì)R包(CRAN)進(jìn)行鏡像,這樣當(dāng)用戶設(shè)置時(shí)間之后,安裝使用這一天的R包,腳本運(yùn)行的結(jié)果應(yīng)該是一致的。MicrosoftROpen官網(wǎng):/open和對(duì)應(yīng)版本R完全兼容,更新比官方R發(fā)行版要慢,Mac版更慢MicrosoftROpenMarkdownMarkdown是一種輕量級(jí)標(biāo)記語言,純文本格式編寫文檔,可與HTML混編,可導(dǎo)出HTML、Word、PDF格式的文件,是RStudio內(nèi)置的幫助文件的主要格式。RMarkdown則是通過R語言制作的Markdown格式的文件,其中包含嵌入的R語言代碼。通過RMarkdown編寫的文檔,簡(jiǎn)潔、高效、易讀、易寫,所有作業(yè)及作業(yè)要求用:RMarkdown格式MarkdownRMarkdown文檔編輯需要安裝rmarkdown包RMarkdown代碼及編譯結(jié)果在Windows和Mac上安裝和運(yùn)行Python的方法比較簡(jiǎn)單,從Py

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論