




已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第四章 變量的生成與處理,導(dǎo)論,Stata 對數(shù)據(jù)的處理是以變量為前提的 若沒有需要分析的變量,則Stata將一無用處 熟悉變量的內(nèi)容和分布、生成新變量、改變舊變量等是處理數(shù)據(jù)的第一步,4.1. 新變量的生成、規(guī)則及注意事項(xiàng),Stata的變量類型,Stata軟件生成三類變量:numeric(數(shù)值型)變量,string(字符型)變量(相當(dāng)于定性變量)和date(日期)變量。雖然日期變量以數(shù)值型變量的技術(shù)記錄、存儲,但二者的用途卻不同 數(shù)值型變量包括定距和定比變量??梢允钦麛?shù)、小數(shù)、負(fù)數(shù)和正數(shù)。數(shù)值型變量可以有多種存儲方式( Storage Types) 用str類型保存的定性等分類變量也可區(qū)分為多種形式,從str1-str244,Stata的日期變量,日期(date)變量是數(shù)值型變量的一個特例。它們通常以字符的形式輸入(如: 01JAN1992 or 01/01/92),但必須以數(shù)值型數(shù)據(jù)存儲才能有用 Stata有幾個命令可以工作于日期和時間依賴(time-dependent)數(shù)據(jù) Stata將所有的日期保存為從1960年1月1日以來的天數(shù)或月份、季節(jié)等。此前的日期是負(fù)值,此后的是正值。SAS使用同樣的日期方式,但其起始時間是1582年的10月14日。Excel使用1900年1月1日為默認(rèn)起始日。如果讀入Excel數(shù)據(jù),則以字符型變量輸入日期,并重新格式日期,生成變量的路徑,Data Create or change variables,生成變量的窗口,Data Create or change variables Create new variable,基本命令,Stata有四個基本的生成和修改變量的命令:gen、egen、replace和recode . gen和egen分別是generate和extended generate的縮寫,它們用于生成新變量 . replace和recode用來改變現(xiàn)存變量的屬性或數(shù)值 . replace需要與gen一起使用;二者的區(qū)別在于,gen用于生成新變量,replace用于重新定義已經(jīng)存在的變量 . recode也可以與gen一起使用,基本語法,. gen 變量名 = 表達(dá)式1 . replace 變量名 = 表達(dá)式2 if 條件 :生成新變量或替代現(xiàn)存變量取值的基本命令 :新變量或其取值將被替換的變量的名稱 :在gen命令的取值不同于在replace命令的取值 :替換原有變量的取值必須滿足if指定的條件,*yr of schooling recoded(這是一個注釋;*代表注釋) gen edu=0 replace edu=1 if yrsch=11 replace edu=2 if yrsch=12 replace edu=3 if yrsch=13 replace edu=4 if yrsch=14 replace edu=5 if yrsch=15 replace edu=6 if yrsch=16 replace edu=7 if yrsch=21 replace edu=8 if yrsch=22 replace edu=9 if yrsch=23,replace edu=10 if yrsch=24 | yrsch=27 replace edu=11 if yrsch=25 | yrsch=28 replace edu=12 if yrsch=26 | yrsch=29 replace edu=13 if yrsch=31 replace edu=14 if yrsch=32 replace edu=15 if yrsch=33 replace edu=16 if yrsch=34 replace edu=17 if yrsch=35 replace edu=18 if yrsch=36 replace edu=. if yrsch=. | yrsch=-9 tab1 yrsch edu *查看變量的生成是否成功,變量生成的規(guī)則(I),生成新變量、重新定義舊變量時需遵循的一些基本規(guī)則: 變量的名稱可長達(dá)32個字符,必須以字母、漢字或字符(,_,#,$等)開頭(不能使用空白字符或!、?等特殊字符)。變量最后一個字符不能是句號 變量的名稱必須唯一,不能有兩個相同的變量名 Stata區(qū)分大小寫,對大寫、小寫敏感:Variable 不能寫成 variable,反之亦然 使用描述性的變量名字:“變量a”這個名稱沒有任何意義。調(diào)查問題是變量名稱的很好選擇,變量生成的注意事項(xiàng),盡量避免使用同一變量名稱。換言之,不要使用新變量取代舊變量。保持原始變量有助于檢驗(yàn)我們的命令是否正確 充分了解原始變量的分布以及每個數(shù)值代表的含義 遵循不重不漏(exhaustive and mutually exclusive)原則(詳見“生成分組變量”一節(jié)) 在變量生成后,將原始變量和新變量的取值進(jìn)行對比,檢查是否有誤 注意原始變量的缺失值,4.2利用系統(tǒng)變量或下劃線變量(_n和_N)生成新變量 Stata有幾個下劃線變量(_variables,讀為“underscore variables”),因包含下劃線而得名。這類變量并不出現(xiàn)在Stata的Variables(變量)窗口中,故又稱系統(tǒng)變量。其中,經(jīng)常使用的有_n 和_N。系統(tǒng)變量_n 和_N對于數(shù)據(jù)的管理和處理十分有用,尤其是與特殊選項(xiàng)by同時使用時,系統(tǒng)變量 _n,_n 是指當(dāng)前的觀察值,即獨(dú)一無二的觀測序號,從1到_N(_N=總樣本) _n是Stata系統(tǒng)內(nèi)部獨(dú)特的辨識器,標(biāo)志從第一個觀察值開始直到最后一個觀察值(_N)的序列 _n=1為第一個觀測,_n=2為第二個觀測,_n=_N是最后一個觀測 該系統(tǒng)變量適于(1)指示觀察值;(2)生成系列數(shù)值;(3)生成其他變量,使用系統(tǒng)變量_n指示觀察值,系統(tǒng)變量_n表示每個觀察值的位置(numbering observations)。其原則是: 當(dāng)前觀察值: _n 總觀察值(最后一個觀察值_n): _N 第一個觀察值: 1 最后一個觀察值: _N 滯后一個(lag)觀察值: _n-1 前移一個(lead)觀察值: _n+1 第27個觀察值: 27,假如現(xiàn)有以下數(shù)據(jù): +-+ | province personid homesize age girl siblings | (省份) (個人ID)(家庭規(guī)模)(年齡)(女孩)(姊妹數(shù)量) |-| 1. | 21 2106018504 50 5 girl 1 | 2. | 35 3505154103 100 18 boy 0 | 3. | 32 3205093703 246 8 boy 0 | 4. | 37 3708156203 60 9 boy 0 | 5. | 45 4452082404 20 6 girl 3 | 6. | 35 3501117305 25 13 girl 2 | 7. | 45 4526057606 90 10 girl 3 | 8. | 32 3209163903 25 2 boy 0 | 9. | 37 3702093304 68 7 boy 1 | 10. | 37 3704057503 80 20 boy 3 | +-+ 現(xiàn)在想看看每個孩子在省內(nèi)的排序,使用系統(tǒng)變量_n生成新變量,步驟1:對province(即“關(guān)鍵變量”)進(jìn)行排序 . sort province 步驟2:生成感興趣的變量 . by province: gen order =_n :按province的分類進(jìn)行排序和計算 :生成新變量的基本命令 :新變量的名稱 :新變量的取值等于同一province內(nèi)觀察值的序次 步驟3:使用頻數(shù)分布查看生成的結(jié)果是否正確 . tab order,使用系統(tǒng)變量_N生成新變量,系統(tǒng)變量_N代表樣本總數(shù)。最后一個樣本_n即是_N 使用前面的數(shù)據(jù),看看每個省共有幾個孩子在樣本中 步驟1:對province進(jìn)行排序 步驟2:生成感興趣的變量。其命令是: . by province: gen ceb=_N 步驟3:查看結(jié)果正確與否 . tab ceb,生成滯后(lag)變量或移前變量(lead),在分析某些類型數(shù)據(jù)(包括常用的家庭成員數(shù)據(jù)和縱向數(shù)據(jù))的過程中,常常需要根據(jù)研究問題將一個樣本的取值轉(zhuǎn)移到上一個(或下一個)觀察值中。 . gen a = b_n-1 . gen a = b_n+1 :需要生成的新變量的名稱 :現(xiàn)有變量的名稱 :將現(xiàn)有變量的取值下移一行(_n-1)或前移一行(_n+1)的基本命令,. gen a = age_n-1 (1 missing value generated) . gen b = age_n+1 (1 missing value generated) . list +-+ | province personid homesize age girl siblings order a b | |-| 1. | 21 2106018504 50 5 girl 1 1 . 2 | 2. | 32 3209163903 25 2 boy 0 1 5 8 | 3. | 32 3205093703 246 8 boy 0 2 2 18 | 4. | 35 3505154103 100 18 boy 0 1 8 13 | 5. | 35 3501117305 25 13 girl 2 2 18 9 | 10. | 45 4526057606 90 10 girl 3 2 6 . | +-+,4.3生成數(shù)值型變量,使用recode, , gen命令生成新變量,. recode 原變量 (原變量取值 = 新變量取值) *= 其他取值, gen 新變量 :給變量重新賦值的命令 :現(xiàn)有變量的名稱 :現(xiàn)有變量的取值 :新變量的取值;和是一個整體 :*符號表示所有其他沒有列出的數(shù)值,包括缺失值;recode與gen之間有逗號(,)隔開 :生成新變量的命令 :新變量的名稱,以本章數(shù)據(jù)中的變量“yrsch”為例。前面使用genreplace的方法在“yrsch” 的基礎(chǔ)上生成變量“edu”;現(xiàn)在使用另一種簡便的方法生成“edu” 由于變量edu已經(jīng)存在,首先需要刪除該變量: . drop edu . recode yrsch 0=0 11=1 12=2 13=3 14=4 15=5 16=6 21=7 22=8 23=9 24 27=10 25 28=11 26 29=12 31=13 32=14 *=.,gen (edu) 該命令在原變量yrsch的基礎(chǔ)上生成一個新變量(edu) 新變量對原變量的取值重新編碼。原變量照舊保存著 若無gen(edu)部分,則僅取代原有變量的取值,使用數(shù)學(xué)表達(dá)式生成新變量,任何有效的數(shù)學(xué)表達(dá)式在生成變量時都適用。既可以是加、減、乘、除的單獨(dú)表達(dá)式,也可以是混合表達(dá)式: . gen a = b + c + d 加法:將變量b,c,d的數(shù)值累加起來,生成新變量a . gen a = b - c 減法:將變量b的數(shù)值減去變量c的數(shù)值,得到變量a . gen a2 = a*a 乘法:該命令生成新變量a2;a*a是a x a的表達(dá)方式 . gen double a = b/c 除法:用變量b的數(shù)值 除以變量c的數(shù)值,得到新變量a。該變量定義為double類型 . gen a = b/(c2) 新變量a的取值等于變量b的取值除以變量c取值的平方,4.4生成分類變量,*age group . gen agegrp=0 . replace agegrp=1 if age=0 & age=5 & age=10 & age=15 . replace agegrp=. if age = . . egen agegrp = cut(age), at(0,5,10, 15,20),4.5生成虛擬變量 (dummy, dichotomous variable),方法1,. gen 新變量名 = b 限制條件 :生成新變量的基本命令 :新變量名 :舊變量名 :當(dāng)b滿足某種條件時,生成新變量 比如: . gen xiaoxue = edu7 或 . gen xiaoxue =edu=6 或 . gen byte xiaoxue = edu7 或 . gen byte xiaoxue =edu6,方法2,. gen 變量名 1 if取值為1的限制條件 . replace(變量名0 if取值為0的限制條件 比如: . gen xiaoxue = 1 if edu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能醫(yī)療設(shè)備研發(fā)制造協(xié)議
- 建筑結(jié)構(gòu)設(shè)計與施工技術(shù)知識小結(jié)卷
- 農(nóng)戶與農(nóng)場主合作協(xié)議
- 市場營銷消費(fèi)者行為學(xué)模擬題卷設(shè)計思路解析
- 銷售代理委托協(xié)議及傭金支付
- 軟件開發(fā)測試與驗(yàn)收交付協(xié)議
- 低空經(jīng)濟(jì)時代的商業(yè)廣告與傳播方式創(chuàng)新
- DB14-T 3411-2025 草種質(zhì)資源普查技術(shù)規(guī)程
- 互聯(lián)網(wǎng)游戲服務(wù)合同
- 綠色農(nóng)村人居環(huán)境整治建設(shè)宜居美麗鄉(xiāng)村環(huán)境整治是關(guān)鍵動態(tài)PPT模板
- LANTEK蘭特鈑金軟件手冊(下)
- 套管開窗側(cè)鉆技術(shù)
- 礦區(qū)1∶2000地質(zhì)填圖工作細(xì)則
- 嶺南版二年級美術(shù)下冊知識點(diǎn)
- 回彈模量原始記錄表格及計算
- “文明宿舍”評比方案
- 小學(xué)數(shù)學(xué)人教課標(biāo)版二年級下冊9數(shù)學(xué)廣角──推理 教學(xué)反思
- 就遠(yuǎn)原則和就近原則
- 智能除濕裝置施工方案
- 東方海外 OOCL船公司介紹課件
評論
0/150
提交評論