版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第二章 單變量(binling)和雙變量(binling)統(tǒng)計(jì)描述(mio sh)分析第一節(jié) 單變量統(tǒng)計(jì)描述基本技術(shù)變量的計(jì)量尺度/層次1、定類變量最低層次的變量類型。只有類別屬性之分,無(wú)大小程度之分。根據(jù)變量值,只能知道研究對(duì)象的異同。從數(shù)學(xué)運(yùn)算特性來(lái)看,定類變量只有等于或不等于的性質(zhì)。2、定序變量層次高于定類變量。取值除類別屬性外,還有等級(jí)、次序之分。數(shù)學(xué)運(yùn)算特性除等于或不等于外,還有大于或小于。3、定距變量層次高于定序變量。取值除類別屬性、次序之外,取值之間的距離可以用標(biāo)準(zhǔn)化的舉例度量。數(shù)學(xué)運(yùn)算特性除等于不等于,大于小于之外,還可以加減。如收入,以1元為標(biāo)準(zhǔn)化距離,則2000元比1500
2、元多了500元。4、定比變量最高層次變量。除了上述三種屬性外,可以進(jìn)行乘除運(yùn)算。定類定序定距定比=,+,-,1、社會(huì)學(xué)研究中,能夠滿足定距而不能同時(shí)滿足定比要求的變量不多。如智商,因?yàn)橹巧?分只有相對(duì)的意義,0分不等于沒(méi)有智商,且0值不固定。當(dāng)前社會(huì)統(tǒng)計(jì)方法很少要求達(dá)到定比層測(cè),所以只介紹前三種層次變量。2、在社會(huì)學(xué)研究當(dāng)中,有些變量的層次是不統(tǒng)一可變的,可用定序?qū)哟我部捎枚ň鄬哟?,根?jù)研究需要。高層次變量可以降低層次來(lái)使用。一般來(lái)說(shuō),測(cè)量層次越高越好,數(shù)學(xué)特性(txng)就越多,統(tǒng)計(jì)分析就越方便,能了解資料的程度就越深入。二、基本(jbn)技術(shù)1、次數(shù)(csh)分布(定類)針對(duì)定類變量最基本
3、的統(tǒng)計(jì)分析方法。面對(duì)大量的數(shù)據(jù)資料,首先要組織整理,第一步就是要采用次數(shù)分布來(lái)簡(jiǎn)化資料,看某變量的每一個(gè)值出現(xiàn)的次數(shù)是多少。定類變量的取值要求:變量取值必須完備,使得每個(gè)各觀察值都有所歸類;必須互斥,一個(gè)觀察值只能歸入一類,對(duì)于分組數(shù)據(jù)遵循上限不包括在內(nèi)原則。次數(shù)分布可簡(jiǎn)化資料,但不能比較樣本,因?yàn)闃颖玖坎煌?、比、比例和比率(通常保留一位或兩位小數(shù))比:某兩類的次數(shù)相除,如性別比=男性/女性比例:某類次數(shù)除以總數(shù),老年人口比例=老年人口數(shù)/總?cè)丝跀?shù)100%比率:某一確定變量相對(duì)應(yīng)的某些事件發(fā)生的頻率。分子和分母不存在隸屬關(guān)系,有時(shí)是不同的變量,如人均GDP,患病率。3、累加次數(shù)和累加百分比
4、(定序和定距)累加次數(shù)就是把次數(shù)累加起來(lái),分為向上累加和向下累加。作用:知道某值以下或以上的次數(shù)總和。累加百分比同理。4、定距層次的特殊處理定距變量的取值很多,難以計(jì)算每個(gè)值的次數(shù)和百分比,需分組測(cè)量。組限:上限和下限。組距:上限和下限之差。組中值:上限和下限的平均數(shù)。收入次數(shù)1000-1999元502000-3999元604000-7999元308000元以上10 如何分組?要考慮幾個(gè)問(wèn)題:1、組數(shù)太少會(huì)掩蓋變量變動(dòng)時(shí)頻次的變化。組數(shù)太多會(huì)是每組內(nèi)頻次過(guò)少,增加偶然因素,使各組高度參差不齊,看不出規(guī)律。2、等距分組和不等距分組。通常用等距分組,但有時(shí)不等距分組能更好反映現(xiàn)象本質(zhì),如收入100
5、0元和2000元的職工生活水平差距較大,而5000和6000元之間差距較小。5、統(tǒng)計(jì)圖餅圖:多用于定類變量,因?yàn)楸硎咀兞咳≈翟诳傮w中占的比例,而不管(bgun)取值的排序。條形圖:用長(zhǎng)條的高度表示(biosh)變量類別的次數(shù)或百分比,寬度無(wú)意義,一般畫成等寬長(zhǎng)條,用于定類變量和定序變量。直方圖:僅用于定距變量。以長(zhǎng)條(chn tio)面積表示頻次或相對(duì)頻次,條形高度表示頻次密度(單位組距包含的頻次)或相對(duì)頻次密度,寬度是組距。為何用頻次密度而非頻次作為條形高度?因?yàn)榉堑染喾纸M情況下,頻次作為條形高度會(huì)產(chǎn)生錯(cuò)誤,每一組的相對(duì)比例不一致。例如: 初婚年齡組(歲)頻次(人)26-273040-503
6、5根據(jù)頻次來(lái)比較,得出錯(cuò)誤結(jié)論:40-50歲結(jié)婚的人比26-27歲結(jié)婚的人多。頻次密度=頻次/組距;相對(duì)頻次密度=相對(duì)頻次/組距30人/27-26=30(人/歲) 35人/50-40=3.5(人/歲)可見,26-27歲結(jié)婚的頻次密度遠(yuǎn)大于40-50歲結(jié)婚的頻次密度。折線圖:如果用直線聯(lián)結(jié)直方圖中條形頂端的中點(diǎn),則得折線圖。組距減小,線條越平滑,最終成為曲線。社會(huì)學(xué)研究常見曲線如J形曲線、U形曲線、峰狀曲線(單峰、雙峰、多峰)、對(duì)稱和不對(duì)稱曲線(正態(tài)和偏態(tài)、右偏/正向偏和左偏/負(fù)向偏)。以正態(tài)、單峰圖形最為常見。第二節(jié) 集中趨勢(shì)測(cè)量法 用一個(gè)典型的變量值來(lái)代表全體變量,這個(gè)值就稱為集中值或集中趨
7、勢(shì)。用這個(gè)值估計(jì)或預(yù)測(cè)變量肯定有誤差,但是這些數(shù)值是最具代表性的,所以用這個(gè)集中值來(lái)估計(jì)或預(yù)測(cè)變量所產(chǎn)生的誤差最小。一、眾數(shù)(zhn sh)(定類變量) 用頻數(shù)最多的變量(binling)值來(lái)表示變量的集中值。適合任何層次的變量(binling),只要知道頻次分布,就能找到眾值,定距變量可以用頻次密度最高的組的組中值來(lái)表示眾值。中位數(shù)(定序變量)Md 位于最中間的變量值,將觀察總數(shù)一分為二,其中一般比它小,一半比它大。1、根據(jù)原始資料求中位數(shù)N為奇數(shù)時(shí),中位數(shù)位于(N+1/)2的地方。N為偶數(shù)時(shí),取居中位置左右兩數(shù)的平均值。2、根據(jù)分組資料求中位數(shù)組限頻次累計(jì)頻次150-1602020160-
8、1704868170-18032100公式1:中位數(shù)=中位數(shù)組下限+(n/2-低于中位數(shù)組下限的累積次數(shù))/中位數(shù)組次數(shù)組距159.5+(50-20)/4810=165.8中位數(shù)需要數(shù)據(jù)排序,不適合定類變量,適合于定序變量和定距變量,特別是對(duì)分布不規(guī)則的情況,中位數(shù)比較理想。三、均值(定距變量和定比變量)1、根據(jù)原始資料求平均數(shù)=Xi/N2、根據(jù)(gnj)頻次求平均數(shù)= =3、用分組資料(zlio)求平均數(shù):將Xi替換(t hun)為組中值四、眾數(shù)、中位數(shù)和均值的關(guān)系 眾值:主要適用于定類變量,也可用于定序和定距變量 中位數(shù):主要適用于定序,也適用定距變量平均數(shù):主要適用于定距變量統(tǒng)計(jì)方法中,
9、平均數(shù)最常用。對(duì)于定序變量可求平均等級(jí);對(duì)于定類變量,可賦予每類一個(gè)數(shù)值:男為1,女為0,則男性占總體比例就是特殊的均值。雖然平均數(shù)對(duì)資料利用最充分,但對(duì)于嚴(yán)重偏態(tài)的數(shù)據(jù)分布,會(huì)失去應(yīng)有的代表性。眾數(shù)中位數(shù)平均數(shù)主要適用于定類變量主要適用于定序變量主要適用于定距變量最不穩(wěn)定較平均數(shù)的穩(wěn)定性差最穩(wěn)定可最快速求出只需中間的數(shù)據(jù)使用全部數(shù)據(jù)有時(shí)對(duì)個(gè)別值的變動(dòng)很敏感對(duì)極端值不敏感受極端值的影響習(xí)題:1、已知美國(guó)20世紀(jì)90年代的人口自然增長(zhǎng)率:年度1990199119921993199419951996199719981999n8.17.77.46.76.46.06.06.56.06.1計(jì)算以下年間的
10、平均人口自然增長(zhǎng)率:1)1990-1993年的前四年間(7.5%)2)1994-1999年的后六年間(6.2%)3)1990-1999年十年間(6.7%)4)如果原始數(shù)據(jù)丟失,只知道前四年和后六年的平均增長(zhǎng)率,能否計(jì)算出10年間的平均增長(zhǎng)率?如何計(jì)算?(7.5%4+6.2%6)/10=6.7%第三節(jié) 離散趨勢(shì)測(cè)量法一、極差和內(nèi)距1、極差最大值與最小值的差。最容易(rngy)計(jì)算,但只告訴分布范圍,受極端值的影響很大,不可靠。2、內(nèi)距/四分(s fn)位數(shù)間距也叫四分(s fn)位差,將數(shù)據(jù)從小到大排序后,用三個(gè)四分位數(shù)點(diǎn)Q25Q50Q75將其分為四部分,Q75 和Q25的間距就是四分位差。例題
11、:組限相對(duì)頻率累計(jì)頻率150-16020%20%160-17048%68%170-18032%100%Q25=159.5+10(25-20)/48=160.54Q75=169.5+10(75-68)/32=171.69Q75 -Q25=171.69-160.54=11.15二、均方差均方差是對(duì)分布的離散程度較全面的度量。為了衡量所有數(shù)據(jù)偏離其平均值的程度,可以先考慮每個(gè)觀測(cè)值偏離平均值的偏差。但是由于偏差有正有負(fù),相互之間會(huì)抵消,最終偏差平均為零,因而要將所有偏差作平方,然后再求平均才有意義。公式2:均方差MSD=1/n(X-)2公式3:均方差MSD=1/n(X-)2f(頻次表),如果分組資料
12、,X為每一觀測(cè)值的中點(diǎn)。三、方差(Variance)標(biāo)準(zhǔn)差(Standard Deviation)由于某些技術(shù)上的原因,習(xí)慣上將公式2中的n換成n-1,得到了方差S2。公式(gngsh)4:S2=(1/n-1)(X-X)2公式(gngsh)5:S2=(1/n-1)(X-X)2f(頻次(pn c)資料)方差的平方根=標(biāo)準(zhǔn)差S。通過(guò)取平方根,標(biāo)準(zhǔn)差的單位就和原始數(shù)據(jù)的單位一致了。方差和標(biāo)準(zhǔn)差反映的是數(shù)據(jù)對(duì)其平均值的離散程度,因此標(biāo)準(zhǔn)差/方差較小的分布一定比較集中在均值附近,反之比較離散。舉例計(jì)算:身高數(shù)據(jù)S的計(jì)算(取X平均值的近似值為169)X(中位數(shù))fX-(X-)2(X-)2f1514-183
13、24129615712-12144172816344-636158416964000175566362016181161214423041874183241296n=200169S2=10224/(200-1)=51.377S=7.17合計(jì)10224如何利用MSD計(jì)算S2?根據(jù)公式3和公式4的關(guān)系,可知S2=(n/n-1)MSD身高數(shù)據(jù)S的計(jì)算(取X平均值的近似值為169)Xf/nX (f/n)X-(X-)2(X-)2(f/n)151.023.02-183246.48157.069.42-121448.64163.2235.86-6367.92169.3254.08000.00175.2849
14、.0063610.08181.0814.481214411.52187.023.74183246.48n=200f/n=1.00=169.6S2=(200/199)51.12=51.377S=7.17MSD=51.12四、極差、四分位差和標(biāo)準(zhǔn)差的比較標(biāo)準(zhǔn)差四分位差極差適用于定距變量主要適用于定序變量適用于定距變量最穩(wěn)定較標(biāo)準(zhǔn)差的穩(wěn)定性弱最不穩(wěn)定計(jì)算時(shí)使用全部數(shù)據(jù)只需其中兩端數(shù)據(jù)只要兩個(gè)數(shù)受極端值影響較大對(duì)極端值不敏感只對(duì)極端值敏感一般來(lái)說(shuō),樣本均值X是對(duì)分布中心最常用的度量(dling),而樣本標(biāo)準(zhǔn)差S是對(duì)分布形狀最常用的度量。第四節(jié)(s ji) 雙變量(binling)簡(jiǎn)單描述統(tǒng)計(jì)一、相關(guān)的
15、概念一個(gè)變化,另一個(gè)值按照某種規(guī)律在一定范圍內(nèi)變化,被稱為不確定的統(tǒng)計(jì)關(guān)系或相關(guān)關(guān)系。例如收入與支出的關(guān)系。注意區(qū)分函數(shù)關(guān)系與相關(guān)關(guān)系:函數(shù)關(guān)系是確定的,一個(gè)變量取某一值,另一個(gè)變量有確定的值與之對(duì)應(yīng)。例如,銷售量與銷售額(價(jià)格固定)。相關(guān)關(guān)系與因果關(guān)系:相關(guān)的兩個(gè)變量,不一定有因果關(guān)系。對(duì)稱關(guān)系與不對(duì)稱關(guān)系:相關(guān)的兩個(gè)變量有時(shí)互相影響或共同變化的,不存在某一變量變化引起另一個(gè)變化,稱為對(duì)稱關(guān)系。如果X變量引起Y變量變化,而Y變量變化不引起X變量變化,則為不對(duì)稱關(guān)系。二、相關(guān)方向(direction of association) 1、正相關(guān):一個(gè)變量值增大,另一個(gè)也增大,反之都減小。2、負(fù)相
16、關(guān):一個(gè)變量值增大,另一個(gè)減小。相關(guān)方向分析只限于定序或定距變量,定類變量無(wú)高低之分,不可能有正負(fù)之分。三、相關(guān)程度(degree of association)兩個(gè)變量(binling)的相關(guān)程度有強(qiáng)弱之分,通常(tngchng)由0到1,0代表不相關(guān),1代表全相關(guān)。數(shù)值(shz)越大,相關(guān)關(guān)系越強(qiáng)。四、交互分類與聯(lián)列表在討論兩個(gè)變量尤其是兩個(gè)定類變量x和y是否存在相關(guān)關(guān)系時(shí),可以先將數(shù)據(jù)按x分類,然后分別統(tǒng)計(jì)當(dāng)x取不同類別值時(shí)y的分類情況。得到數(shù)據(jù)按兩個(gè)定類變量進(jìn)行交叉分類的頻次分布表,即二維聯(lián)列表。例1:某小區(qū)對(duì)居民的收視愛好進(jìn)行調(diào)查,根據(jù)不同年齡和喜愛的電視節(jié)目類型進(jìn)行分類 表1:年齡
17、和收視愛好的交叉分類表老年中年青年合計(jì)戲曲2010636歌舞5203055球賽2102638合計(jì)274062129 條件次數(shù) 邊緣次數(shù) 邊緣次數(shù):按行或按列合計(jì)起來(lái)的頻次。條件次數(shù):當(dāng)某一變量取不同類別值時(shí),另一變量的頻次。頻次聯(lián)列表的缺陷:由于邊緣次數(shù)不同,僅根據(jù)條件次數(shù)無(wú)法進(jìn)行比較核分析相關(guān)關(guān)系,需要制作條件百分表,表2。表2:不同年齡人群的收視愛好分布老年(%)中年(%)青年(%)戲曲74.125.09.7歌舞18.550.048.4球賽7.425.041.9合計(jì)(%)100.0100.0100.0通過(guò)計(jì)算條件百分比,可以知道:年齡和收視愛好相關(guān),隨著年輕化,喜愛戲曲的比例逐漸下降,而歌
18、舞和球賽越來(lái)越受歡迎。制表規(guī)則(1)要有表號(hào)、標(biāo)題。(2)線條簡(jiǎn)潔、符號(hào)標(biāo)注在標(biāo)題后或第一行變量類別后。(3)小數(shù)點(diǎn)位數(shù)統(tǒng)一。計(jì)算百分率社會(huì)學(xué)研究通常(tngchng)以自變量作為計(jì)算百分率的方向,如表2。如果以因變量來(lái)計(jì)算百分率方向,則得出表3:表3 不同(b tn)收視愛好人群中的年齡分布老年中年青年合計(jì)戲曲55.627.816.7100.0歌舞9.136.454.5100.0球賽5.326.368.4100.0表3表示不同收視愛好的人群中有多少是老人,多少是中年,多少是青年,這容易受到調(diào)查樣本(yngbn)中的年齡分布影響。如果樣本分布如下表,很容易得出老年人比年輕人更喜歡歌舞的結(jié)論。錯(cuò)誤情況:以因變量計(jì)算百分率老年中年青年合計(jì)歌舞205
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版灰土施工項(xiàng)目變更管理合同范本3篇
- 2025年度廣告創(chuàng)意策劃與制作服務(wù)合同3篇
- 二零二五年大蒜種植基地農(nóng)機(jī)設(shè)備租賃合同2篇
- 二零二五年土方材料購(gòu)銷及工程變更評(píng)估合同3篇
- 2025年度能源設(shè)施安全監(jiān)控服務(wù)合同
- 電子商務(wù)項(xiàng)目合同
- 2025版家用空調(diào)租賃及售后安裝維護(hù)合同3篇
- 2024年高頻開關(guān)逆變電源項(xiàng)目可行性研究報(bào)告
- 2025版?zhèn)鶆?wù)承擔(dān)與財(cái)產(chǎn)分割離婚協(xié)議范本
- 軍訓(xùn)心得體會(huì)100字小學(xué)生作文
- 2024年01月北京房山滬農(nóng)商村鎮(zhèn)銀行2024招考筆試歷年參考題庫(kù)附帶答案詳解
- 2024年度寵物用品銷售代理合同范本3篇
- 湖南2025年湖南生物機(jī)電職業(yè)技術(shù)學(xué)院招聘35人歷年參考題庫(kù)(頻考版)含答案解析
- 部隊(duì)物業(yè)服務(wù)投標(biāo)方案
- 2024北京海淀五年級(jí)(上)期末英語(yǔ)(教師版)
- 銷售單 代合同范例
- 期末模擬卷 2024-2025學(xué)年人教版數(shù)學(xué)六年級(jí)上冊(cè)(含答案)
- 煤炭供應(yīng)項(xiàng)目(運(yùn)輸供貨方案)
- 2024-2030年中國(guó)游艇產(chǎn)業(yè)發(fā)展?fàn)顩r規(guī)劃分析報(bào)告權(quán)威版
- 新能源汽車充電樁項(xiàng)目可行性研究報(bào)告模板及范文
評(píng)論
0/150
提交評(píng)論