版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
試驗(yàn)資料的整理特征數(shù)的計(jì)算與第二章XYZ華中師范大學(xué)生命科學(xué)學(xué)院一、總體與樣本二、參數(shù)與統(tǒng)計(jì)數(shù)三、變量與資料四、因素與水平五、處理與重復(fù)六、效應(yīng)與互作七、誤差與錯(cuò)誤八、準(zhǔn)確性與精確性回顧:第一章緒論在生物學(xué)試驗(yàn)及調(diào)查中,通過(guò)對(duì)某種具體事物或現(xiàn)象觀察獲得的結(jié)果稱為資料(data)。原始數(shù)據(jù)無(wú)序有序統(tǒng)計(jì)分析資料整理揭示事物本質(zhì)第一節(jié):試驗(yàn)資料的搜集與整理一、試驗(yàn)資料的類型二、試驗(yàn)資料的搜集三、試驗(yàn)資料的整理對(duì)試驗(yàn)資料進(jìn)行分類是統(tǒng)計(jì)歸納的基礎(chǔ)。數(shù)量性狀資料質(zhì)量性狀資料計(jì)數(shù)資料(非連續(xù)變量資料)計(jì)量資料(連續(xù)變量資料)變量定量變量定性變量連續(xù)變量非連續(xù)變量資料對(duì)資料進(jìn)行分類整理是,必須堅(jiān)持“同質(zhì)”的原則。
數(shù)量性狀(quantitativecharacter)是指能夠以計(jì)數(shù)和測(cè)量或度量的方式表示其特征的性狀。觀察測(cè)定數(shù)量性狀而獲得的數(shù)據(jù)就是數(shù)量性狀資料(dataofquantitativecharacter)。數(shù)量性狀資料的獲得有計(jì)數(shù)和測(cè)量?jī)煞N方式,因而數(shù)量性狀資料又分為計(jì)數(shù)資料和計(jì)量資料兩種。一、數(shù)量性狀資料指用計(jì)數(shù)方式獲得的數(shù)量性狀資料。在這類資料中,它的各個(gè)觀察值只能以整數(shù)表示,在兩個(gè)相鄰整數(shù)間不得有任何帶小數(shù)的數(shù)值出現(xiàn),因此各觀察值是不連續(xù)的,所以該類資料也稱為非連續(xù)變量資料或間斷變量資料或離散變量資料。例如,魚的尾數(shù)只可能是1,2,3,4,…,n1、計(jì)數(shù)資料(enumerationdata)指用測(cè)量或度量法獲得的數(shù)量性狀資料,即用度、量、衡等計(jì)量工具直接測(cè)定獲得的數(shù)據(jù)資料。其數(shù)據(jù)是用長(zhǎng)度、重量、容積、溫度、濃度等來(lái)表示,要帶單位。這種資料的各個(gè)觀測(cè)值不一定是整數(shù),兩個(gè)相鄰的整數(shù)間可以有帶小數(shù)的任何數(shù)值出現(xiàn),其小數(shù)位數(shù)的多少由度量工具的精確度而定,它們之間的變異是連續(xù)性的,因此計(jì)量資料也稱為連續(xù)變量資料。例如,小麥的株高是8095cm,可以是86.5cm或86.54cm。2、計(jì)量資料(measurementdata)
質(zhì)量性狀(qualitativecharacter)是指能觀察到而不能直接測(cè)量的性狀。觀察質(zhì)量性狀而獲得的數(shù)據(jù)就是質(zhì)量性狀資料(dataofqualitativecharacter),也稱為屬性性狀資料。這類性狀本身不能直接用數(shù)值表示,要獲得這類性狀的數(shù)據(jù)資料,須對(duì)其觀察結(jié)果作數(shù)量化處理,其方法有以下兩種:1.統(tǒng)計(jì)次數(shù)法;2.評(píng)分法
二、質(zhì)量性狀資料
1、統(tǒng)計(jì)次數(shù)法(frequencycounting)株數(shù)頻率紅花26626.6%紫花49449.4%白花24024.0%總計(jì)1000100.0%這種由質(zhì)量性狀數(shù)量化得來(lái)的資料又叫次數(shù)資料。在一定的總體或樣本中,根據(jù)某一質(zhì)量性狀的類別統(tǒng)計(jì)其次數(shù),以次數(shù)作為質(zhì)量性狀的數(shù)據(jù)。例如,在研究豌豆的花色遺傳時(shí),紅花與白花雜交,子二代中紅花、紫花和白花的株數(shù)分類統(tǒng)計(jì)如下表。對(duì)某一質(zhì)量性狀分成不同級(jí)別,對(duì)不同級(jí)別進(jìn)行評(píng)分來(lái)表示其性狀差異的方法。從而將質(zhì)量性狀進(jìn)行數(shù)量化,以便統(tǒng)計(jì)分析。例如,小麥感染銹病的嚴(yán)重程度可劃分為0級(jí)(免疫)、1級(jí)(高度抵抗)、2級(jí)(中度抵抗)、3級(jí)(感染)。
2、評(píng)分法(pointsystem)
兩種不同類型的資料相互間是有區(qū)別的,但有時(shí)可根據(jù)研究的目的和統(tǒng)計(jì)方法的要求將一種類型資料轉(zhuǎn)化成另一種類型的資料。例如,獸醫(yī)臨床化驗(yàn)動(dòng)物的白細(xì)胞總數(shù)得到的資料屬于計(jì)數(shù)資料,根據(jù)化驗(yàn)的目的,可按白細(xì)胞總數(shù)過(guò)高、正?;蜻^(guò)低分為三組,清點(diǎn)各組的次數(shù),計(jì)數(shù)資料就轉(zhuǎn)化為質(zhì)量性狀次數(shù)資料。第一節(jié):試驗(yàn)資料的搜集與整理一、試驗(yàn)資料的類型二、試驗(yàn)資料的搜集三、試驗(yàn)資料的整理樣本資料的搜集(collection)是統(tǒng)計(jì)分析的第一步,也是全部統(tǒng)計(jì)工作的基礎(chǔ)。沒(méi)有數(shù)據(jù),就沒(méi)有發(fā)言權(quán)。調(diào)查試驗(yàn)資料搜集的方法普查抽樣調(diào)查隨機(jī)抽樣簡(jiǎn)單隨機(jī)抽樣分層隨機(jī)抽樣整體抽樣雙重抽樣順序抽樣典型抽樣二、試驗(yàn)資料的搜集調(diào)查是對(duì)已經(jīng)存在的事情的資料按某種方案進(jìn)行收集的方法。如地質(zhì)調(diào)查、水樣調(diào)查、河南省內(nèi)的昆蟲調(diào)查等等。資料的調(diào)查又可以分為兩種:普查和抽樣調(diào)查。1、普查(census)
是對(duì)研究對(duì)象的每一個(gè)個(gè)體逐一進(jìn)行調(diào)查的方法。普查一般要求在一定的時(shí)間或范圍進(jìn)行,要求準(zhǔn)確和全面。如人口普查、土壤普查等等。普查可以為制定行業(yè)政策提供理論依據(jù)。消耗大量的人力、物力和時(shí)間一、調(diào)查(survey)人口普查在國(guó)家統(tǒng)一規(guī)定的時(shí)間內(nèi),按照統(tǒng)一的方法、統(tǒng)一的項(xiàng)目、統(tǒng)一的調(diào)查表和統(tǒng)一的標(biāo)準(zhǔn)時(shí)點(diǎn),對(duì)全國(guó)人口普遍地、逐戶逐人地進(jìn)行的一次性調(diào)查登記。人口普查工作包括對(duì)人口普查資料的搜集、數(shù)據(jù)匯總、資料評(píng)價(jià)、分析研究、編輯出版等全部過(guò)程,它是當(dāng)今世界各國(guó)廣泛采用的搜集人口資料的一種最基本的科學(xué)方法,是提供全國(guó)基本人口數(shù)據(jù)的主要來(lái)源。從1949年至今,中國(guó)分別在1953年、1964年、1982年、1990年、2000年與2010年進(jìn)行過(guò)六次全國(guó)性人口普查。抽樣調(diào)查是根據(jù)一定的原則從研究對(duì)象中抽取一部分具有代表性的個(gè)體進(jìn)行調(diào)查的方法。通過(guò)抽樣將獲得的樣本資料進(jìn)行統(tǒng)計(jì)處理,然后利用樣本的特征數(shù)對(duì)總體進(jìn)行推斷。生物學(xué)研究中,進(jìn)行普查的情況極少,多數(shù)情況下還是進(jìn)行抽樣調(diào)查。2、抽樣調(diào)查(samplingsurvey)“你不必吃完整一頭牛,才知道它的肉是咬不動(dòng)的?!?/p>
————SamelJohnson抽樣的方法有多種,主要有:隨機(jī)抽樣法、順序抽樣法和典型抽樣法,一般情況下在統(tǒng)計(jì)學(xué)中常常采用隨機(jī)抽樣的方法。要使樣本無(wú)偏差地估計(jì)總體,除了樣本容量要足夠大之外,重要的是采用科學(xué)的抽樣方法,抽取有代表性的樣本,取得完整而準(zhǔn)確的數(shù)據(jù)資料。
背景法蘭克羅斯??偨y(tǒng)爭(zhēng)取連任、肯薩斯州州長(zhǎng)蘭登為共和黨總統(tǒng)候選人美國(guó)經(jīng)濟(jì)正由大蕭條中逐漸恢復(fù)九百萬(wàn)人失業(yè),于1929年至1933年間實(shí)際所得降低三分之一宣稱一:《文學(xué)文摘》認(rèn)為蘭登將以57%對(duì)43%贏此選戰(zhàn)。此數(shù)字基于二百四十萬(wàn)人之民意調(diào)查結(jié)果。宣稱二:蓋洛普民意測(cè)驗(yàn)所采用分層抽樣調(diào)查了3000人,預(yù)測(cè)羅斯福將當(dāng)選為美國(guó)的新一任總統(tǒng)。選舉結(jié)果羅斯福以62%對(duì)38%贏此選戰(zhàn)。為什么?抽樣的廣泛應(yīng)用緣于大選前的民意測(cè)驗(yàn)《文學(xué)文摘》的取樣辦法:通過(guò)登記的電話簿發(fā)放問(wèn)卷在當(dāng)時(shí)僅有一千一百萬(wàn)個(gè)部宅用電話,而全國(guó)人口超過(guò)1.2億。
可能問(wèn)題的所在取樣偏差:Digest雜志的取樣中包含過(guò)多的富人,而該年貧富間選舉傾向相距極大
怎樣才能預(yù)測(cè)準(zhǔn)?----樣本要有代表性。
1)隨機(jī)抽樣(randomsampling)又被稱為概率抽樣(probabilitysampling),必須滿足2個(gè)條件:一是總體中每個(gè)個(gè)體被抽中的機(jī)會(huì)是均等的;二是總體中任意一個(gè)個(gè)體是相互獨(dú)立的,是否被抽中不受其他個(gè)體的影響。(1)簡(jiǎn)單隨機(jī)抽樣純隨機(jī)抽樣,是指從總體N個(gè)單位中任意抽取n個(gè)單位作為樣本,使每個(gè)可能的樣本被抽中的概率相等的一種抽樣方式。N方法:將總體內(nèi)所有抽樣單位全部編號(hào),采用隨機(jī)方法確定被抽單位編號(hào),這些編號(hào)所對(duì)應(yīng)的抽樣單位抽出來(lái)放在一起就構(gòu)成一個(gè)隨機(jī)樣本。適用對(duì)象:個(gè)體間差異較小、所需抽取的樣本單位較少的情況。4368652571421044038905138052511121014032905例2.1(2)分層隨機(jī)抽樣(stratifiedrandomsampling)分層隨機(jī)抽樣是一種混合抽樣。其特點(diǎn)是將總體按變異原因或程度劃分成若干區(qū)層,然后再用簡(jiǎn)單隨機(jī)抽樣方法,從各區(qū)層按一定的抽樣分?jǐn)?shù)抽選抽樣單位。抽樣分?jǐn)?shù)(samplingfraction):一個(gè)樣本所包括抽樣單位數(shù)與其總體所包括的抽樣單位數(shù)的比值。方法:(1)將總體變異原因與程度劃分成若干區(qū)層,使得區(qū)層內(nèi)變異盡可能小或變異原因相同,而區(qū)層間變異比較大或變異原因不明。(2)在每一個(gè)區(qū)層按一定的抽樣分?jǐn)?shù)獨(dú)立隨機(jī)抽樣。相等配置比例配置最優(yōu)配置如果各區(qū)層抽樣單位數(shù)相等,可采用相等配置如果各區(qū)層抽樣單位數(shù)不等,可按相應(yīng)的抽樣分?jǐn)?shù),將欲抽取的抽樣單位總數(shù)分配到各區(qū)層根據(jù)各區(qū)層抽樣單位數(shù)、抽樣誤差和抽樣費(fèi)用,確定各區(qū)層應(yīng)抽取的抽樣單位。在變異范圍較大的區(qū)層,抽樣分?jǐn)?shù)應(yīng)大一些;在抽樣費(fèi)用較高的區(qū)層,抽樣分?jǐn)?shù)應(yīng)小一些。分層抽樣的抽樣單位數(shù)目配置方法(1)若總體內(nèi)各抽樣單位間的差異比較明顯,那么就可以把總體分為幾個(gè)比較同質(zhì)的區(qū)層,從而提高抽樣的準(zhǔn)確度;(2)分層隨機(jī)抽樣既運(yùn)用了隨機(jī)原理,也運(yùn)用了局部控制原理,這樣不僅可以降低抽樣誤差,也可以運(yùn)用統(tǒng)計(jì)方法來(lái)估算抽樣誤差;例2.2現(xiàn)有一塊麥田,其長(zhǎng)勢(shì)呈單向趨向式變化,欲抽樣估產(chǎn),如何進(jìn)行抽樣?好壞長(zhǎng)勢(shì)(3)整體抽樣(clustersampling)整體隨機(jī)抽樣是把總體分成若干群,以群為單位,進(jìn)行隨機(jī)抽樣,對(duì)抽到的樣本進(jìn)行全面調(diào)查。如果總體內(nèi)主要變異來(lái)源明顯來(lái)自不同區(qū)層間,且每一區(qū)層均較大,則應(yīng)采用分層抽樣;若主要變異來(lái)源明顯來(lái)自區(qū)層內(nèi)各單位間,且每一區(qū)層所占面積較小,則宜用整體隨機(jī)抽樣。例如,估計(jì)麥田的害蟲啃食率,鋼材的合格率等;優(yōu)點(diǎn)1由于一個(gè)整體只要一個(gè)編號(hào),因而減少了抽樣單位編號(hào)數(shù),且因調(diào)查單位數(shù)減少,工作方便;2與簡(jiǎn)單隨機(jī)抽樣相比較,它常提供較為準(zhǔn)確的總體估計(jì)值。3只要各群抽選單位數(shù)相等,整體抽樣也可提供總體平均數(shù)的無(wú)偏估計(jì)。(4)雙重抽樣(doublesampling)變量1變量2簡(jiǎn)單變量復(fù)雜變量如果所研究的性狀是不容易觀察測(cè)定的,或必須有較多費(fèi)用,或要求有精密設(shè)備、復(fù)雜計(jì)算過(guò)程與耗費(fèi)較多調(diào)查時(shí)間的,或必須進(jìn)行破壞性測(cè)定才能獲得觀察結(jié)果的,由于上述種種原因,直接調(diào)查研究這一類型性狀是有困難的。首先,抽取一個(gè)初步樣本(樣本量較小),并搜取一些簡(jiǎn)單項(xiàng)目以獲得有關(guān)總體的信息:做一次隨機(jī)抽樣,調(diào)查y(復(fù)雜)和x(簡(jiǎn)單)兩種性狀,從中求出y依x的回歸方程。這個(gè)樣本容量n不一定很大,但希望x和y有較大的幅度。然后,在此基礎(chǔ)上再進(jìn)行深入抽樣。雙重抽其具體步驟雙重抽樣的優(yōu)點(diǎn):1.對(duì)于復(fù)雜性狀的調(diào)查研究可以通過(guò)僅測(cè)定少量抽樣單位而獲得相應(yīng)于大量抽樣單位的精確度;2.當(dāng)復(fù)雜性狀必須通過(guò)破壞性測(cè)定才能調(diào)查時(shí),則僅有這種雙重抽樣方法可用。2)順序抽樣(ordinalsampling)順序抽樣又稱為系統(tǒng)抽樣、機(jī)械抽樣、等距抽樣它是按某種既定順序從總體(有限總體)中抽取一定數(shù)量的個(gè)體構(gòu)成樣本。這種抽樣方法可避免人們主觀偏見(jiàn)的影響,且使用簡(jiǎn)便如果總體內(nèi)存在周期性變異,則可能會(huì)得到一個(gè)偏差很大的樣本,這種現(xiàn)象在統(tǒng)計(jì)上稱為系統(tǒng)誤差。由順序抽樣得到的樣本不能計(jì)算抽樣誤差,估計(jì)總體值。首先,先將總體從1~N相繼編號(hào),計(jì)算抽樣距離K=N/n。式中N為總體單位總數(shù),n為樣本容量;然后,然后在1~K中抽一隨機(jī)數(shù)k1,作為樣本的第一個(gè)單位,接著取k1+K,k1+2K……,直至抽夠n個(gè)單位為止。順序抽其的基本做法是:將總體中的各單元先按一定的順序排列、編號(hào),然后決定一個(gè)間隔,并在此間隔基礎(chǔ)上選擇被調(diào)查的單位個(gè)體例如:欲求100匹馬的體重,你抽取20匹馬作為樣本來(lái)稱重。1,K=100/20=5;2,15中隨機(jī)選擇3,接著抽取8(3+5),13(8+5),…,98為止。3)典型抽樣(typicalsampling)根據(jù)初步資料或經(jīng)驗(yàn)判斷,有意識(shí)、有目的的選取一個(gè)典型群體作為代表(樣本)進(jìn)行調(diào)查,以估計(jì)整個(gè)總體,這種抽樣方法就稱為典型抽樣。典型樣本代表著總體的絕大多數(shù),如果選擇合適,可得到可靠的結(jié)果,尤其從容量很大的總體中選取較小數(shù)量的抽樣單位時(shí),往往采用這種抽樣方法。這種抽樣多用于大規(guī)模社會(huì)經(jīng)濟(jì)調(diào)查,而在總體相對(duì)較小或要求估算抽樣誤差時(shí),一般不采用這種方法。試驗(yàn)是通過(guò)處理獲得樣本資料的方法。采用合理的試驗(yàn)設(shè)計(jì)能夠以較少的投入獲得較大的收獲,起到“事半功倍”的效果。常見(jiàn)的試驗(yàn)設(shè)計(jì)方法有:對(duì)比設(shè)計(jì)、隨機(jī)區(qū)組設(shè)計(jì)、平衡不完全區(qū)組設(shè)計(jì)、裂區(qū)設(shè)計(jì)、拉丁方設(shè)計(jì)、正交設(shè)計(jì)、正交旋轉(zhuǎn)設(shè)計(jì)等等。試驗(yàn)設(shè)計(jì)須遵循的三大原則是:隨機(jī)、重復(fù)和局部控制。二、試驗(yàn)(experiment)第一節(jié):試驗(yàn)資料的搜集與整理一、試驗(yàn)資料的類型二、試驗(yàn)資料的搜集三、試驗(yàn)資料的整理三、資料的整理(一)原始資料(rawdata)的檢查與核對(duì)調(diào)查試驗(yàn)原始數(shù)據(jù)核對(duì):數(shù)據(jù)本身是否有錯(cuò)誤檢查:取樣是否有差錯(cuò)訂正:不合理數(shù)據(jù)的訂正檢查和核對(duì)原始資料的目的:確保原始資料的完整性和正確性。完整性:是指原始資料無(wú)遺缺或重復(fù)。正確性:是指原始資料的測(cè)量和記載無(wú)差錯(cuò)或未進(jìn)行不合理的歸并。檢查中要特別注意特大、特小和異常數(shù)據(jù)(可結(jié)合專業(yè)知識(shí)作出判斷)。對(duì)于有重復(fù)、異?;蜻z漏的資料,應(yīng)予以刪除或補(bǔ)齊;對(duì)有錯(cuò)誤、相互矛盾的資料應(yīng)進(jìn)行更正,必要時(shí)進(jìn)行復(fù)查或重新試驗(yàn)。不必分組直接進(jìn)行統(tǒng)計(jì)分析小樣本n<30將數(shù)據(jù)分成若干組以便統(tǒng)計(jì)分析大樣本n≥30次數(shù)分布表次數(shù)分布圖統(tǒng)計(jì)分析樣本大小整理的步驟(二)次數(shù)(頻數(shù))分布表統(tǒng)計(jì)表的結(jié)構(gòu)和要求:結(jié)構(gòu)簡(jiǎn)單,層次分明,安排合理,重點(diǎn)突出,數(shù)據(jù)準(zhǔn)確??倷M標(biāo)目(或空白)縱標(biāo)目1縱標(biāo)目2……橫標(biāo)目1橫標(biāo)目2數(shù)字資料……表號(hào)標(biāo)題1、標(biāo)題簡(jiǎn)明扼要、準(zhǔn)確地說(shuō)明表的內(nèi)容,有時(shí)須注明時(shí)間、地點(diǎn)。2、標(biāo)目標(biāo)目分橫標(biāo)目和縱標(biāo)目?jī)身?xiàng)。橫標(biāo)目列在表的左側(cè),縱標(biāo)目列在表的上端,標(biāo)目需注明計(jì)算單位,如%、kg、cm等等。3、數(shù)字一律用阿拉伯?dāng)?shù)字,數(shù)字以小數(shù)點(diǎn)對(duì)齊,小數(shù)位數(shù)一致,無(wú)數(shù)字的用“─”表示,數(shù)字是“0”的,則填寫“0”。4、線條多用三線表,上下兩條邊線略粗。1.計(jì)數(shù)資料的整理采用單項(xiàng)式分組法進(jìn)行整理。特點(diǎn):用樣本變量自然值進(jìn)行分組,每組用一個(gè)或幾個(gè)變量值來(lái)表示。1712141314121114131614141317151414161414151514141411131214131413151413151413141516161413141513151315151514141614151713161416151314141414161213121412151615161413151714131412171415表2-2
100只來(lái)亨雞每月的產(chǎn)蛋數(shù)11~17來(lái)亨雞每月產(chǎn)蛋數(shù)變動(dòng)范圍:分為7組統(tǒng)計(jì)各組次數(shù)計(jì)算頻率和累積頻率制表表2-3
100只來(lái)亨雞每月產(chǎn)蛋數(shù)次數(shù)分布表每月產(chǎn)蛋數(shù)次數(shù)頻率累積頻率FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.001自然值進(jìn)行分組,最大值17,最小值11。2數(shù)據(jù)主要集中在14,向兩側(cè)分布逐漸減少。表2-4小麥品種300個(gè)麥穗穗粒數(shù)的次數(shù)分布表每穗粒數(shù)次數(shù)頻率累積頻率FrequencyPercentCumulativePercent
18-2230.01000.010023-27180.06000.0700
28-32
380.12670.1967
33-37510.17000.3667
38-42680.22670.5934
43-47530.17660.7700
48-52410.13670.906753-57220.07330.980058-6260.02001.000045組?9組2計(jì)量資料的整理計(jì)量資料一般采用組距式(組限式)分組法。全距組數(shù)組距組限歸組制表表2-5
150尾鰱魚體長(zhǎng)(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585
5958546248634661625738585254556652485675725737467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263(1)求全距,又稱極差(range):R=Xmax-Xmin
=85-37=48(cm)(2)確定組數(shù)和組距(classboundary)組數(shù)是根據(jù)樣本觀測(cè)數(shù)的多少及組距的大小來(lái)確定的,同時(shí)考慮到對(duì)資料要求的精確度以及進(jìn)一步計(jì)算是否方便。組數(shù)組距多小統(tǒng)計(jì)數(shù)精確,計(jì)算不方便少大統(tǒng)計(jì)數(shù)不精確,計(jì)算方便組數(shù)的確定樣本容量分組數(shù)
30~60
5~860~100
7~10100~200
9~12200~500
10~18>500
15~30表2-6樣本容量與分組數(shù)的關(guān)系組距的確定即每組內(nèi)的上下限范圍。組距=全距/組數(shù)=48/10=4.810組5cm(3)確定組限(classlimit)和組中值(classmidvalue)組限
是指每個(gè)組變量值的起止界限。上限下限組中值是兩個(gè)組限的中間值。組中值=下限+上限2=組距2下限+=組距2上限-第一組的組中值最好接近于資料的最小值表2-5
150尾鰱魚體長(zhǎng)(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585
5958546248634661625738585254556652485675725737
467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263最小一組的下限必須小于資料中的最小值,最大一組的上限必須大于資料中的最大值;組限取到10分位或5分位上,計(jì)算方便;臨界值就高不就低。35~,40~,45~,…,85~。(4)歸組確定好組數(shù)和各組上下限后,可按原始資料中各觀測(cè)值的次序,將各個(gè)數(shù)值歸于各組,計(jì)算各組的觀測(cè)數(shù)次數(shù)、頻率、累積頻率,制成一個(gè)次數(shù)分布表。計(jì)數(shù)的方法卡片法唱票法畫“正”字畫””表2-6
150尾鰱魚體長(zhǎng)的次數(shù)分布表
組限組中值次數(shù)頻率累積頻率FrequencyPercentCumulativePercent35~37.530.02000.020040~42.540.02670.046745~47.5170.11330.160050~52.5280.18670.3467
55~57.540
0.26660.613360~62.5250.16670.780065~67.5170.11330.897370~72.560.04000.933375~77.570.04670.980080~82.520.01330.993385~87.510.00671.0000(三)次數(shù)分布圖和頻率分布圖定義:把次數(shù)(頻率)分布資料畫成統(tǒng)計(jì)圖形。特點(diǎn):直觀、形象包括:條形圖、餅圖、直方圖、多邊形圖和散點(diǎn)圖統(tǒng)計(jì)圖繪制的基本要求:(1)標(biāo)題簡(jiǎn)明扼要,列于圖的下方;(2)縱、橫兩軸應(yīng)有刻度,注明單位;(3)橫軸由左至右,縱軸由下而上,數(shù)值由小到大;圖形長(zhǎng)寬比例約5:4或6:5;(4)圖中需用不同顏色或線條代表不同事物時(shí),應(yīng)有圖例說(shuō)明。圖2.2月產(chǎn)蛋數(shù)次數(shù)分布柱形圖圖2.2月產(chǎn)蛋數(shù)頻率分布柱形圖條形圖(barchart),又稱柱形圖計(jì)數(shù)資料特點(diǎn):柱形之間要間隔一定的距離屬性資料2餅圖(piechart)圖2-3來(lái)亨雞月產(chǎn)蛋次數(shù)分布圖計(jì)數(shù)資料屬性資料圖2.3鰱魚體長(zhǎng)次數(shù)分布圖3直方圖(histogram),又稱矩形圖計(jì)量資料354045505560657075808590特點(diǎn):各組之間沒(méi)有距離組中值4多邊形圖(polygon),又稱折線圖(broken-linechart)計(jì)量資料圖2.3鰱魚體長(zhǎng)次數(shù)分布圖組中值5散點(diǎn)圖(scatter)來(lái)亨雞月產(chǎn)蛋數(shù)次數(shù)分布散點(diǎn)圖計(jì)數(shù)資料5散點(diǎn)圖(scatter)計(jì)量資料圖2.3鰱魚體長(zhǎng)次數(shù)分布散點(diǎn)圖學(xué)會(huì)函數(shù):max,min,sum,countif,countifs等;Excel中次數(shù)分布圖表的制作Previousreview原始數(shù)據(jù)無(wú)序有序統(tǒng)計(jì)分析資料整理調(diào)查試驗(yàn)資料搜集的方法數(shù)量性狀資料質(zhì)量性狀資料計(jì)數(shù)資料(非連續(xù)變量資料)計(jì)量資料(連續(xù)變量資料)變量定量變量定性變量連續(xù)變量非連續(xù)變量資料不必分組直接進(jìn)行統(tǒng)計(jì)分析小樣本n<30將數(shù)據(jù)分成若干組以便統(tǒng)計(jì)分析大樣本n≥30次數(shù)分布表次數(shù)分布圖統(tǒng)計(jì)分析樣本大小離散數(shù)據(jù):?jiǎn)雾?xiàng)式分組法連續(xù)數(shù)據(jù):組距分組法Previousreview第二節(jié)試驗(yàn)資料特征數(shù)的計(jì)算集中性
是變量在趨勢(shì)上有著向某一中心聚集,或者說(shuō)以某一數(shù)值為中心而分布的性質(zhì)。離散性
是變量有著離中分散變
異的性質(zhì)。變量的分布具有兩種明顯的基本特征:集中性和離散性。集中性離散性平均數(shù)變異數(shù)算術(shù)平均數(shù)中位數(shù)眾數(shù)幾何平均數(shù)極差方差標(biāo)準(zhǔn)差變異系數(shù)調(diào)和平均數(shù)特征數(shù)一、平均數(shù)平均數(shù)是統(tǒng)計(jì)學(xué)中最常用的統(tǒng)計(jì)量,是計(jì)量資料的代表值,表示資料中觀測(cè)數(shù)的中心位置,并且可作為資料的代表與另一組相比較,以確定二者的差異情況。(一)平均數(shù)的種類:算術(shù)平均數(shù)中位數(shù)眾數(shù)幾何平均數(shù)1.算術(shù)平均數(shù)(arithmeticmean)定義:總體或樣本資料中所有觀測(cè)數(shù)的總和除以觀測(cè)數(shù)的個(gè)數(shù)所得的商,簡(jiǎn)稱平均數(shù)、均數(shù)或均值。總體:樣本:樣本統(tǒng)計(jì)量的抽樣分布-SamplingdistributionSimmental如果抽樣是隨機(jī)的,樣本平均數(shù)也是隨機(jī)變量第二節(jié)試驗(yàn)資料特征數(shù)的計(jì)算總體樣本1樣本2樣本m平均數(shù)的抽樣分布n
統(tǒng)計(jì)量?樣本平均數(shù)的分布總體樣本1樣本2樣本mn
統(tǒng)計(jì)量?正態(tài)總體樣本標(biāo)準(zhǔn)差的分布標(biāo)準(zhǔn)差的抽樣分布2.中位數(shù)(median)資料中所有觀測(cè)數(shù)依大小順序排列,居于中間位置的觀測(cè)數(shù)稱為中位數(shù)或中數(shù)。中位數(shù)將該組數(shù)值分為兩半,理論上有50%的變量小于md,,有50%的變量值大于
md,故又稱百分之五十位數(shù),記為P50。Md1、當(dāng)觀測(cè)值個(gè)數(shù)n為奇數(shù)時(shí),(n+1)/2位置的觀測(cè)值,即x(n+1)/2為中位數(shù):
Md=
2、當(dāng)觀測(cè)值個(gè)數(shù)為偶數(shù)時(shí),n/2和(n/2)+1位置的兩個(gè)觀測(cè)值之和的1/2為中位數(shù),即:
高平常測(cè)驗(yàn):
0.2~0.25招生考試或水平考試:0.3~0.4m1mdm2區(qū)分度=m1Tm2T-m2-m1T=試卷區(qū)分度3.眾數(shù)(mode)資料中出現(xiàn)次數(shù)最多的那個(gè)觀測(cè)值或次數(shù)最多一組的組中值或中點(diǎn)值。注意:(1)對(duì)于某些數(shù)據(jù)而言,如均勻分布,并不存在眾數(shù);(2)對(duì)于某些數(shù)據(jù)存在兩個(gè)或兩個(gè)以上的眾數(shù);(3)主要用來(lái)描述頻率分布。M04.幾何平均數(shù)(geometricmean)資料中有n個(gè)觀測(cè)數(shù),其乘積開(kāi)n次方所得數(shù)值。G適用范圍:幾何平均數(shù)適用于變量x為對(duì)數(shù)正態(tài)分布,經(jīng)對(duì)數(shù)轉(zhuǎn)換后呈正態(tài)分布的資料。G=(二)算術(shù)平均數(shù)的計(jì)算方法:直接計(jì)算法減去常數(shù)法加權(quán)平均法1、直接計(jì)算法
樣本含量n<30以下、未經(jīng)分組資料平均數(shù)的計(jì)算。例:隨機(jī)抽取20株小麥測(cè)量它們的株高(cm)分別為:
79858486848382838384818081828182828280
求小麥的平均株高。若變量xi的值都比較大(或都比較小),且接近某一常數(shù)a時(shí),可將它們的值都減去(或加上)常數(shù)a,得到一組新的數(shù)據(jù),計(jì)算其平均數(shù),再重新加上(或減去)常數(shù)a。例:設(shè)a為80(cm)則有:
798584868483828383
2-154643233818081828182828280
4101212220“-80”2、減去(加上)常數(shù)法通常對(duì)樣本容量n≥30且已分組的資料,多在次數(shù)分布表的基礎(chǔ)上采用加權(quán)法計(jì)算平均數(shù)。第i組的次數(shù)fi是權(quán)衡第i個(gè)自然值xi在資料中所占比重大小的數(shù)量,因此將fi
稱為是xi的“權(quán)數(shù)”,加權(quán)法也由此而得名。若為計(jì)數(shù)資料,且不分組,且,此時(shí)直接用自然值乘以次數(shù)來(lái)計(jì)算,即3、加權(quán)平均法例:表2-8株高x次數(shù)ffx791798021608132438264928332498432528518586186式中:—
第i組的組中值;
—
第i組的次數(shù);
—
分組數(shù)
若為分組資料,則用每組組中值乘以該組次數(shù)之和再除以總次數(shù)來(lái)計(jì)算,計(jì)算公式為:例:將100頭長(zhǎng)白母豬的仔豬一月窩重(單位:kg)資料整理成次數(shù)分布表如下,求其加權(quán)平均數(shù)。
表100頭長(zhǎng)白母豬仔豬一月窩重次數(shù)分布表組別組中值(x)次數(shù)(f)fx10~1534520~25615030~352691040~4530135050~5524132060~65852070~753225合計(jì)1004520即這100頭長(zhǎng)白母豬仔豬一月齡平均窩重為45.2kg
計(jì)算若干個(gè)來(lái)自同一總體的樣本平均數(shù)的平均數(shù)時(shí),如果樣本含量不等,也應(yīng)采用加權(quán)法計(jì)算。設(shè)是n1個(gè)數(shù)的平均數(shù),是n2個(gè)數(shù)的平均數(shù),那么全部n1+n2個(gè)數(shù)的算術(shù)平均數(shù)是:
例:某牛群有黑白花奶牛1500頭,其平均體重為750kg,而另一牛群有黑白花奶牛1200頭,平均體重為725kg,如果將這兩個(gè)牛群混合在一起,其混合后平均體重為多少?此例兩個(gè)牛群所包含的牛的頭數(shù)不等,要計(jì)算兩個(gè)牛群混合后的平均體重,應(yīng)以兩個(gè)牛群牛的頭數(shù)為權(quán)數(shù),求兩個(gè)牛群平均體重的加權(quán)平均數(shù),即:(三)算術(shù)平均數(shù)的重要性質(zhì)算術(shù)平均數(shù)與樣本內(nèi)的每個(gè)值都相關(guān),它的大小受每個(gè)值的影響;若每個(gè)Xi都乘以相同的數(shù)k,則原平均數(shù)亦應(yīng)乘以k;若每個(gè)Xi都加上相同的數(shù)a,則原平均數(shù)亦可直接加上a。離均差之和等于零。離均差平方和最小。(四)算術(shù)平均數(shù)的作用(1)指出一組數(shù)據(jù)資料內(nèi)變量的中心位置,標(biāo)志著資料所代表性狀的數(shù)量水平和質(zhì)量水平。(2)作為樣本或資料的代表數(shù)與其他資料進(jìn)行比較。(3)通過(guò)平均數(shù)提供計(jì)算樣本變異數(shù)的基本數(shù)據(jù)。(4)用樣本的平均數(shù)估計(jì)總體平均數(shù)。
用平均數(shù)作為樣本的代表,其代表性的強(qiáng)弱受樣本資料中各觀測(cè)值變異程度的影響。如果各觀測(cè)值變異小,則平均數(shù)對(duì)樣本的代表性強(qiáng);如果各觀測(cè)值變異大,則平均數(shù)對(duì)樣本的代表性弱。三組同年齡、同性別兒童體重(kg)的數(shù)據(jù):
I組:2628303234
II組:2025303540
III組:2327303337三組的平均數(shù)均為30,變異如何體現(xiàn)?例:
集中趨勢(shì)是數(shù)據(jù)分布的一個(gè)重要特征,但單有集中趨勢(shì)還不能很好地描述數(shù)據(jù)的分布規(guī)律。僅用平均數(shù)對(duì)一個(gè)資料的特征作統(tǒng)計(jì)描述是不全面的,還需要引入一個(gè)表示資料中觀測(cè)值變異程度大小的統(tǒng)計(jì)量。
變異性指標(biāo)二、變異數(shù)變異數(shù)的種類:極差方差標(biāo)準(zhǔn)差變異系數(shù)(一)極差(全距,range)極差是數(shù)據(jù)分布的兩端變異的最大范圍,即樣本變量值最大值和最小值之差,用R表示。它是資料中各觀測(cè)值變異程度大小的最簡(jiǎn)便的統(tǒng)計(jì)量。R=max{x1,x2,……,xn}-min{x1,x2,……,xn}={x1,x2,……,xn}max-{x1,x2,……,xn}min表2-5
150尾鰱魚體長(zhǎng)(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585
5958546248634661625738585254556652485675725737
467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263R=85-37=48(cm)三組同年齡、同性別兒童體重(kg)的數(shù)據(jù):
I組:26283032348
II組:202530354020
III組:232730333714例:極差簡(jiǎn)單明了當(dāng)資料很多而又要迅速對(duì)資料的變異程度作出判斷時(shí),可以利用極差。除最大、最小值,不能反映組內(nèi)其他數(shù)據(jù)的變異。樣本較大時(shí)抽到較大值與較小值的可能性也較大,因而樣本極差也較大,故樣本含量相差較大時(shí),不宜用極差來(lái)比較分布的離散度。優(yōu)點(diǎn)缺點(diǎn)用途極差如何準(zhǔn)確地表示樣本內(nèi)各個(gè)觀測(cè)值的變異程度平均數(shù)可以求出各個(gè)觀測(cè)值與平均數(shù)的離差,即離均差。離均差可以反映出一個(gè)觀測(cè)值偏離平均數(shù)的性質(zhì)和程度。離均差之和為零。?圖1圖2圖3圖4平方和(SS)平方和的平均數(shù)樣本量越大,????會(huì)越大!(二)方差(Variance)樣本總體?現(xiàn)有一N=3的近似正態(tài)總體,具有變量3,4,5,可以求出μ=4,
σ
2=0.6667,σ
=0.8165。現(xiàn)以n=2作獨(dú)立的有放回式抽樣??偣部傻玫絅n=32=9個(gè)樣本樣本編號(hào)樣本值
xs2s13,33.00.00.000023,43.50.250.533,54.01.01.044,33.50.250.554,44.00.00.064,54.50.250.575,34.01.01.085,44.50.250.595,55.00.00.0Σ36.03.04.0
平均
4.00.33330.4444
μ=4σ2=0.6667σ
=0.8165自由度(degreeoffreedom,df)自由度指當(dāng)以樣本的統(tǒng)計(jì)量來(lái)估計(jì)總體的參數(shù)時(shí),樣本中可以自由變動(dòng)的變量的個(gè)數(shù)。自由度=樣本個(gè)數(shù)-樣本數(shù)據(jù)受約束條件的個(gè)數(shù)在總體平均數(shù)未知時(shí),要計(jì)算標(biāo)準(zhǔn)差就必須先知道樣本平均數(shù),而樣本平均數(shù)和n都知道的情況下,數(shù)據(jù)的總和就是一個(gè)常數(shù)了。所以,“最后一個(gè)”樣本數(shù)據(jù)就不可以變了,因?yàn)樗亲?,總和就變了,而這是不允許的。所以,為了避免使用有bias的estimator,我們通常使用它的修正值S2:
正態(tài)總體中樣本方差的分布(三)標(biāo)準(zhǔn)差(standarddeviation,Sd)樣本總體樣本方差帶有原觀測(cè)單位的平方單位,在僅表示一個(gè)資料中各觀測(cè)值的變異程度而不作其它分析時(shí),常需要與平均數(shù)配合使用,這時(shí)應(yīng)將平方單位還原,即求出樣本方差的平方根。x=411x2=18841X’=6X’2=76表2-89名男子前臂長(zhǎng)(cm)標(biāo)準(zhǔn)差計(jì)算前臂長(zhǎng)x2x’=x-45x’245202500421764-39441936-11411681-4
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴陽(yáng)幼兒師范高等??茖W(xué)?!秳?dòng)畫場(chǎng)景設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025山西省安全員C證(專職安全員)考試題庫(kù)
- 硅湖職業(yè)技術(shù)學(xué)院《面向?qū)ο蠹夹g(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025甘肅省建筑安全員考試題庫(kù)
- 廣州幼兒師范高等專科學(xué)?!毒G色建筑與綠色施工》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年四川建筑安全員-B證(項(xiàng)目經(jīng)理)考試題庫(kù)
- 廣州衛(wèi)生職業(yè)技術(shù)學(xué)院《溫病學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025貴州建筑安全員B證(項(xiàng)目經(jīng)理)考試題庫(kù)
- 2025黑龍江省安全員-C證(專職安全員)考試題庫(kù)
- 《ESD知識(shí)和控制》課件
- 江蘇揚(yáng)州中學(xué)教育集團(tuán)2023-2024學(xué)年中考三模數(shù)學(xué)試題含解析
- 2025年統(tǒng)編版高考?xì)v史一輪復(fù)習(xí):北洋軍閥統(tǒng)治時(shí)期的政治、經(jīng)濟(jì)與文化 講義
- 電影放映設(shè)備日常維護(hù)保養(yǎng)規(guī)程
- TSHZSAQS 00255-2024 食葵病蟲害防治技術(shù)規(guī)范
- 食材配送消防安全應(yīng)急預(yù)案
- 《供應(yīng)鏈管理》期末考試復(fù)習(xí)題庫(kù)(含答案)
- 招標(biāo)文件范本江蘇版
- 2024年江蘇客運(yùn)從業(yè)資格證繼續(xù)教育
- 人教版高中地理選擇性必修1第一章地球的運(yùn)動(dòng)單元檢測(cè)含答案
- 【人民日?qǐng)?bào)】72則金句期末評(píng)語(yǔ)模板-每頁(yè)6張
- 精細(xì)陶瓷 斷裂韌性試驗(yàn)方法 單邊V型切口梁法
評(píng)論
0/150
提交評(píng)論