數(shù)據(jù)處理及回歸分析_第1頁
數(shù)據(jù)處理及回歸分析_第2頁
數(shù)據(jù)處理及回歸分析_第3頁
數(shù)據(jù)處理及回歸分析_第4頁
數(shù)據(jù)處理及回歸分析_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)處理及回歸分析第一頁,共六十五頁,2022年,8月28日幾種常見的數(shù)據(jù)處理方法線性回歸分析目錄第二頁,共六十五頁,2022年,8月28日§1列表法

---三線式表格一、幾種常見的數(shù)據(jù)處理方法表格的基本結(jié)構(gòu):通常由表頭、項(xiàng)目欄和數(shù)據(jù)欄組成

表頭:表格的編號(hào)、名稱。

項(xiàng)目欄:相關(guān)物理量,單位等。

數(shù)據(jù)欄:記錄測(cè)量數(shù)據(jù)。第三頁,共六十五頁,2022年,8月28日三線式表格無邊框的表格,只由三條橫線組成。分別是:

起始線:表格序號(hào)和名稱應(yīng)寫在起始線上方。分隔線:用來分隔項(xiàng)目欄和數(shù)據(jù)欄。終止線:數(shù)據(jù)到此為止。第四頁,共六十五頁,2022年,8月28日

列表的要求是:(1)簡(jiǎn)明。(2)標(biāo)明物理量的意義,注明單位及數(shù)量級(jí)。(3)正確反映測(cè)量結(jié)果的有效數(shù)字。第五頁,共六十五頁,2022年,8月28日第六頁,共六十五頁,2022年,8月28日§2圖解圖示法

圖示法可以形象、直觀地顯示出物理量之間的函數(shù)關(guān)系,也可以得出某些物理參數(shù),因此它是一種重要的數(shù)據(jù)處理方法。作圖時(shí)要先整理出數(shù)據(jù)表格,并要用坐標(biāo)紙作圖。圖解法是將實(shí)驗(yàn)測(cè)量數(shù)據(jù)按其對(duì)應(yīng)關(guān)系在坐標(biāo)紙上描繪出一條光滑的曲線。此曲線可以顯示出物理量間的關(guān)系。第七頁,共六十五頁,2022年,8月28日作圖要求:

坐標(biāo)軸:一般以自變量為X軸,應(yīng)變量為Y軸。并畫出坐標(biāo)軸,用箭頭標(biāo)明坐標(biāo)軸方向,寫上物理量名稱或符號(hào)、單位。

定標(biāo)尺:標(biāo)明坐標(biāo)紙上的一小格代表的大小。

描點(diǎn):清晰準(zhǔn)確地標(biāo)出實(shí)驗(yàn)數(shù)據(jù)點(diǎn)。

選坐標(biāo)紙:選擇合適的坐標(biāo)紙,包括類型和大小。

連線:用直尺、曲線板等把數(shù)據(jù)點(diǎn)連成直線或光滑曲線。連線時(shí)應(yīng)該使數(shù)據(jù)點(diǎn)均勻分布在圖線兩邊。

標(biāo)上圖名。

第八頁,共六十五頁,2022年,8月28日I(mA)U(V)8.004.0020.0016.0012.0018.0014.0010.006.002.0002.004.006.008.0010.001.003.005.007.009.00電阻伏安特性曲線圖A(1.00,2.76)B(7.00,18.58)由圖上A、B兩點(diǎn)可得被測(cè)電阻R為:作者:xx圖名作圖者姓名第九頁,共六十五頁,2022年,8月28日nλ(nm)1.6500500.0700.01.67001.66001.70001.69001.6800600.0400.0玻璃材料色散曲線圖圖1曲線太粗,不均勻,不光滑。應(yīng)該用直尺、曲線板等工具把實(shí)驗(yàn)點(diǎn)連成光滑、均勻的細(xì)實(shí)線。錯(cuò)在哪里?第十頁,共六十五頁,2022年,8月28日nλ(nm)1.6500500.0700.01.67001.66001.70001.69001.6800600.0400.0玻璃材料色散曲線圖第十一頁,共六十五頁,2022年,8月28日I(mA)U(V)02.008.004.0020.0016.0012.0018.0014.0010.006.002.001.003.00電學(xué)元件伏安特性曲線圖橫軸坐標(biāo)分度選取不當(dāng)。橫軸以3cm

代表1V,使作圖和讀圖都很困難。實(shí)際在選擇坐標(biāo)分度值時(shí),應(yīng)既滿足有效數(shù)字的要求又便于作圖和讀圖,一般以1mm代表的量值是10的整數(shù)次冪或是其2倍或5倍。錯(cuò)在哪里?第十二頁,共六十五頁,2022年,8月28日I(mA)U(V)o1.002.003.004.008.004.0020.0016.0012.0018.0014.0010.006.002.00電學(xué)元件伏安特性曲線第十三頁,共六十五頁,2022年,8月28日定容氣體壓強(qiáng)~溫度曲線1.20001.60000.80000.4000圖3P(×105Pa)t(℃)60.00140.00100.00o120.0080.0040.0020.00圖紙使用不當(dāng)。實(shí)際作圖時(shí),坐標(biāo)原點(diǎn)的讀數(shù)可以不從零開始。錯(cuò)在哪里?第十四頁,共六十五頁,2022年,8月28日物理實(shí)驗(yàn)中心定容氣體壓強(qiáng)~溫度曲線1.00001.15001.20001.10001.0500

P(×105Pa)50.0090.0070.0020.0080.0060.0040.0030.00t(℃)第十五頁,共六十五頁,2022年,8月28日?qǐng)D解法根據(jù)已有圖線,采用解析方法得出物理量之間的函數(shù)關(guān)系,這種由圖線求經(jīng)驗(yàn)公式的方法稱為圖解法。斜率計(jì)算及不確定度第十六頁,共六十五頁,2022年,8月28日曲線的改直在實(shí)際工作中,許多物理量之間的關(guān)系并不都是線性的,但仍可通過適當(dāng)?shù)淖儞Q而成為線性關(guān)系,即把曲線變換成直線,這種方法叫做曲線改直。作這樣的變換不僅是由于直線容易描繪,更重要的是直線的斜率和截距所包含的物理內(nèi)涵是我們所需要的,例如:(1),式中a,b為常量,可變換成的線性函數(shù)斜率為b,截距為lg

a。(2),式中a,b為常量,可變換成的線性函數(shù),斜率為lg

b,截距為lg

a。第十七頁,共六十五頁,2022年,8月28日(3)PV=C,式中C為常量,可變換成P=C(1/V),P是1/V的線性函數(shù),斜率為C。(4),式中p為常量,可變換成的線性函數(shù),斜率為。(5),式中a,b為常量,可變換成的線性函數(shù),斜率為a,截距為b。第十八頁,共六十五頁,2022年,8月28日目的:在數(shù)據(jù)處理過程中,能把所有的數(shù)據(jù)都用上,這樣可以使誤差小一點(diǎn)。

§3逐差法第十九頁,共六十五頁,2022年,8月28日砝碼質(zhì)量(Kg)彈簧伸長(zhǎng)位(cm)

0.00x01.00x12.00x23.00x34.00x45.00x56.00x67.00x7例:測(cè)量每增加1kg,彈簧的平均伸長(zhǎng)量?測(cè)量彈簧的倔強(qiáng)系數(shù)數(shù)據(jù)表第二十頁,共六十五頁,2022年,8月28日逐項(xiàng)逐差法處理這樣,彈簧的平均伸長(zhǎng)量為:這樣處理的缺點(diǎn)在哪里?第二十一頁,共六十五頁,2022年,8月28日跳項(xiàng)逐差法處理首先把數(shù)據(jù)分為兩組然后計(jì)算每增加4kg,彈簧的伸長(zhǎng)量,最后算出每增加1kg,彈簧的平均伸長(zhǎng)量。不確定度?第二十二頁,共六十五頁,2022年,8月28日

優(yōu)點(diǎn):充分利用數(shù)據(jù),達(dá)到多次測(cè)量以減小誤差的效果。

適用條件①因變量和自變量之間為線性關(guān)系。②自變量是等量變化。第二十三頁,共六十五頁,2022年,8月28日§4最小二乘法第二十四頁,共六十五頁,2022年,8月28日二、回歸分析§1相關(guān)與回歸客觀世界中普遍存在著變量間的關(guān)系,而變量間的關(guān)系一般可分為兩類:確定性關(guān)系和非確定性關(guān)系。

確定性關(guān)系:變量間的函數(shù)關(guān)系。第二十五頁,共六十五頁,2022年,8月28日非確定性關(guān)系:不能用函數(shù)來表示的變量間關(guān)系,也稱為相關(guān)關(guān)系或統(tǒng)計(jì)關(guān)系。身高與體重;血壓與年齡;樹高與生長(zhǎng)時(shí)間;商品的銷售量與單價(jià)相關(guān)關(guān)系:對(duì)于兩個(gè)變量,當(dāng)自變量取值一定是,因變量的取值帶有一定隨機(jī)性的兩個(gè)變量之間的關(guān)系第二十六頁,共六十五頁,2022年,8月28日§2回歸分析(1)確定變量之間數(shù)量關(guān)系的可能形式,并用一個(gè)數(shù)學(xué)模型來表示這種關(guān)系形式(2)X是非隨機(jī)變量或隨機(jī)變量,Y是隨機(jī)變量,對(duì)X的每一確定值都有Y的一個(gè)確定分布與之對(duì)應(yīng)。第二十七頁,共六十五頁,2022年,8月28日一個(gè)自變量?jī)蓚€(gè)及兩個(gè)以上自變量回歸分析多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸第二十八頁,共六十五頁,2022年,8月28日§3相關(guān)分析和回歸分析的區(qū)別與聯(lián)系1.聯(lián)系二者具有共同的研究對(duì)象,而且在具體應(yīng)用時(shí),常常必須互相補(bǔ)充。相關(guān)分析需要依靠回歸分析來表明現(xiàn)象數(shù)量相關(guān)的具體形式,而回歸分析則需要依靠相關(guān)分析來表明現(xiàn)象數(shù)量變化的相關(guān)程度。只有當(dāng)變量之間存在著高度相關(guān)時(shí),進(jìn)行回歸分析尋求其相關(guān)的具體形式才有意義。第二十九頁,共六十五頁,2022年,8月28日2.區(qū)別(1)相關(guān)分析研究變量之間相關(guān)的方向和程度,但不能指出變量間相互關(guān)系的具體形式,也無法從一個(gè)變量的變化來推測(cè)另一個(gè)變量的變化情況?;貧w分析則研究變量之間相互關(guān)系的具體形式,它對(duì)具有相關(guān)關(guān)系的變量之間的數(shù)量聯(lián)系進(jìn)行測(cè)定,確定一個(gè)相關(guān)的數(shù)學(xué)方程式,根據(jù)這個(gè)數(shù)學(xué)方程式可以從已知量來推測(cè)未知量,從而為估算和預(yù)測(cè)提供一個(gè)重要的方法。第三十頁,共六十五頁,2022年,8月28日(2)相關(guān)分析可以不必確定變量中哪個(gè)是自變量,哪個(gè)是因變量,其所涉及的變量可以都是隨機(jī)變量。而回歸分析則必須事先研究確定具有相關(guān)關(guān)系的變量中哪個(gè)為自變量,哪個(gè)為因變量。第三十一頁,共六十五頁,2022年,8月28日§4.回歸分析主要解決的問題:⑴從一組數(shù)據(jù)出發(fā),確定這些變量之間的數(shù)學(xué)表達(dá)式——回歸方程或經(jīng)驗(yàn)公式。⑵對(duì)回歸方程的可信程度進(jìn)行統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著。⑶利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的值,預(yù)測(cè)或控制另一個(gè)變量的值,并要知道這種預(yù)測(cè)或控制可達(dá)到的精密度。第三十二頁,共六十五頁,2022年,8月28日§5回歸分析的基本過程1、在定性和定量分析的基礎(chǔ)上確定變量間的相關(guān)關(guān)系。2、建立回歸分析模型。3、對(duì)模型中的參數(shù)求解。4、對(duì)回歸模型的顯著性進(jìn)行檢驗(yàn)。5、回歸模型的修正和改進(jìn)。第三十三頁,共六十五頁,2022年,8月28日§6回歸模型的建立(1)一元線性回歸模型

假定因變量y主要受自變量x的影響,它們之間的簡(jiǎn)單線性回歸模型如下:為參數(shù),為隨機(jī)誤差項(xiàng)。⑴y是x的線性函數(shù)部分加上誤差項(xiàng)⑵線性部分反映了由于x的變化而引起y的變化

第三十四頁,共六十五頁,2022年,8月28日對(duì)于誤差項(xiàng),在回歸分析中有如下假設(shè):(1)誤差項(xiàng)是隨機(jī)變量,它的期望值為0;(2)對(duì)于所有的x值,誤差項(xiàng)的方差為常數(shù);(3)誤差項(xiàng)之間相互獨(dú)立,即與一個(gè)值相聯(lián)系的誤差對(duì)與另一個(gè)值相聯(lián)系的誤差沒有影響;(4)隨機(jī)誤差項(xiàng)服從正態(tài)分布。第三十五頁,共六十五頁,2022年,8月28日§7一元線性回歸方程

描述y的均值或期望與x的關(guān)系的方程叫做回歸方程。由于,,所以不難看出,簡(jiǎn)單線性回歸方程的圖形是一條直線。這條直線被稱為總體回歸直線。是回歸直線的截距,是回歸直線的斜率,E(y)是給定某個(gè)x的值y的均值或期望值。各實(shí)際觀測(cè)點(diǎn)與總體回歸線垂直方向的間隔,就是隨機(jī)誤差項(xiàng)ε,即第三十六頁,共六十五頁,2022年,8月28日如果因變量y與自變量x的相關(guān)關(guān)系是近似直線的關(guān)系,則一元線性回歸的模型為:——y的估計(jì)值或預(yù)測(cè)值,——回歸系數(shù)。確定了a與b的值,直線的位置也就相應(yīng)地確定了。第三十七頁,共六十五頁,2022年,8月28日§8最小二乘法確定模型參數(shù)最小二乘法的基本原理就是尋一條總的看來離各散點(diǎn)最近的一條直線,使實(shí)際值y與相應(yīng)的理論值之間的誤差達(dá)到最小。即:第三十八頁,共六十五頁,2022年,8月28日根據(jù)微積分的極值定理,Q最小的必要條件為:第三十九頁,共六十五頁,2022年,8月28日整理后得如下方程,稱最小二乘法的標(biāo)準(zhǔn)方程:解方程得第四十頁,共六十五頁,2022年,8月28日例:以下表的數(shù)據(jù)擬合生產(chǎn)費(fèi)用對(duì)產(chǎn)量的回歸直線方程企業(yè)編號(hào)產(chǎn)量x生產(chǎn)費(fèi)用y12345678910111240425055657884100116125130140130150155140150154156170167180175185160017642500302542256084705610000134561562516900196001690022500240251960022500237162722528900278893240030625342255200630077507700975012012138601700019372225002275025900合計(jì)10251921101835310505170094第四十一頁,共六十五頁,2022年,8月28日將表中有關(guān)數(shù)據(jù)代入公式中:第四十二頁,共六十五頁,2022年,8月28日生產(chǎn)費(fèi)用對(duì)產(chǎn)量的直線回歸方程為:其中a=124.15(千克)的含義為生產(chǎn)費(fèi)用的起點(diǎn)值;b=0.4027表示產(chǎn)品產(chǎn)量每增加1千件,生產(chǎn)費(fèi)用平均增加0.4027千元。第四十三頁,共六十五頁,2022年,8月28日下圖可看散點(diǎn)圖與回歸直線的關(guān)系:············第四十四頁,共六十五頁,2022年,8月28日§9回歸效果的F檢驗(yàn)從一組數(shù)據(jù)根據(jù)最小二乘法可以擬合出一元線性方程,但是如果散點(diǎn)圖中的數(shù)據(jù)點(diǎn)分散,不呈線性,此時(shí)的線性回歸方程是沒有意義的。因此,提出了所得到的直線是否有顯著意義,即是否與兩個(gè)變量問實(shí)際關(guān)系相符合的問題,即必須對(duì)回歸的效果做顯若性檢驗(yàn)?;貧w顯著性檢驗(yàn)(regressionsignificanttest)方法有:①相關(guān)系數(shù)r檢驗(yàn)法、②t檢驗(yàn)法、③F檢驗(yàn)法,下面討論F檢驗(yàn)法。第四十五頁,共六十五頁,2022年,8月28日xyy{}}離差分解圖第四十六頁,共六十五頁,2022年,8月28日測(cè)量值y1,y2,…,yn之間的差異,是由兩個(gè)方面的原因引起的:一是自變量x取值的不同;二是測(cè)量誤差等其他因素的影響。為了對(duì)線性回歸的效果進(jìn)行檢驗(yàn),需要將他們分離出來,將變量y的n個(gè)測(cè)值yi與其平均值的偏差()分解為有x的不同取值引起的回歸偏差()和由測(cè)量誤差等其他因素造成的殘余誤差()即第四十七頁,共六十五頁,2022年,8月28日兩端平方后求和有SST=SSR+SSE總變差平方和(SST){回歸平方和(SSR){殘差平方和(SSE){并進(jìn)一步用n個(gè)取值的偏離平方和來描述它們,分別記為

第四十八頁,共六十五頁,2022年,8月28日總偏差平方和分解為回歸平方和及殘余平方和?;貧w平方和反映了在y總的偏差中因x和y的線性關(guān)系而引起y變化的大小。殘余平方和反映了在y總的偏離中除了x對(duì)y線性影響之外的其他因素而引起y變化的大小。這些因素包括測(cè)量誤差,x和y不能用直線關(guān)系描述的因柬以及其他未加控制的因素等。如上節(jié)所述,回歸分析的要求就是使殘余平方和最小,即∑殘愈小,回歸效果愈好。

第四十九頁,共六十五頁,2022年,8月28日

總偏差平方和回歸平方和殘余平方和意義反映因變量的n個(gè)觀測(cè)值與其均值得總偏差在總的偏差中因x和y的線性關(guān)系而引起變化的大小在總的偏離中除了x對(duì)y線性影響之外的其它因素而引起y變化的大小三個(gè)平方和的意義:第五十頁,共六十五頁,2022年,8月28日由回歸平方和及殘余平方和的意義可知,一個(gè)線性回歸方程是否顯著,取決于和的大小。若愈大而愈小,則說明與的線性回歸的關(guān)系愈密切。構(gòu)造統(tǒng)計(jì)量:

其中,為回歸平方和的自由度,為殘余平方和的自由度第五十一頁,共六十五頁,2022年,8月28日自由度是指獨(dú)立觀測(cè)值的個(gè)數(shù),因中n個(gè)觀測(cè)值受平均值的約束,則有一個(gè)觀測(cè)值不是獨(dú)立的,即失去了一個(gè)自由度,=n-1,

中只有b是獨(dú)立變化的,即自由度=1。

則=n-2,則有第五十二頁,共六十五頁,2022年,8月28日在給定顯著性水平α下,由F分布表差得臨界值,將計(jì)算值F與比較,若F>,則認(rèn)為該回歸效果顯著,反之,則不顯著。

第五十三頁,共六十五頁,2022年,8月28日中的分母為殘余方差:殘余標(biāo)準(zhǔn)差為:

它的意義表征除了x與y線性關(guān)系之外其他因素影響y值偏的大小

第五十四頁,共六十五頁,2022年,8月28日§10回歸直線的擬合優(yōu)度及測(cè)定系數(shù)擬合優(yōu)度:回歸直線與各觀測(cè)點(diǎn)的接近程度稱為回歸直線對(duì)數(shù)據(jù)的擬合優(yōu)度。工具一──判定系數(shù):對(duì)估計(jì)的回歸方程擬合優(yōu)度的度量工具。第五十五頁,共六十五頁,2022年,8月28日工具二──估計(jì)標(biāo)準(zhǔn)誤:度量各實(shí)際觀察點(diǎn)在直線周圍的離散狀況的統(tǒng)計(jì)量,其實(shí)質(zhì)是對(duì)誤差項(xiàng)e的標(biāo)準(zhǔn)差的估計(jì),它可以看做是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量。第五十六頁,共六十五頁,2022年,8月28日§11非線性回歸1.化曲線擬合為直線擬合的步驟:⑴選擇回歸模型。根據(jù)實(shí)驗(yàn)數(shù)據(jù)散點(diǎn)圖分布的特點(diǎn)以及所掌握的物理規(guī)律,選擇可線化函數(shù)的模型⑵作線性化變量變換后,按一元線性回歸問題計(jì)算待定的系數(shù)、原的剩余平方和。⑶如果對(duì)擬合結(jié)果不滿意,再選擇其它模型,重復(fù)以上步驟。⑷比較不同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論