




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第
4
章
線性回歸回歸分析
用最小二乘法求最佳擬合參數(shù)(如變量系數(shù))的過程。
還包括:變量間的相關性、回歸參數(shù)的標準偏差、數(shù)據(jù)與表達式的吻合程度、分析變量是否獨立曲線擬合——應用數(shù)學方法對觀測數(shù)據(jù)進行處理,從而得出比較符合測量結果的數(shù)學表達式,即近似函數(shù)關系
y=f(x),直線/曲線。最佳擬合判據(jù)——殘差平方和(SumofSquareofResidual)最小,即最小二乘法。第6講數(shù)據(jù)處理-線性與LOGIT回歸任務要求:1.完成上節(jié)課的EXCEL處理工作;2.完成以下統(tǒng)計分析工作:2.1
對各地GDP與就業(yè)人數(shù)進行兩兩比較:4個城市,光GDP就有6對比較結果,所以一共有12對結果;2.2對每個城市的GDP與就業(yè)人數(shù)進行回歸:共8個結果(思考為什么)2.3任選一個城市做因變量,另外三個做自變量,進行多重線性回歸:回歸完成之后逐一剔除自變量觀察結果;2.4做所有城市就業(yè)人數(shù)對總GDP的多重線性回歸:提示,之前應對GDP數(shù)據(jù)進行簡單操作;2.5
選用“員工薪酬與離職決策”數(shù)據(jù),進行離職決策對薪資進行Logit回歸23第4章線性回歸4.1基本概念計算方法
4.2Excel函數(shù)的使用方法4.3一元線性回歸4.4多元線性回歸44.1基本概念計算方法xyABC若已知a,b,則由
xi和方程得計算值yi計算。第i點殘差i:i=
yi-
yi計算=
yi-(axi+b)殘差(residual)平方和不同直線a,b
值不同,SSresid亦不同,
SSresid,C>SSresid,B>SSresid,A,SSresid,A最小。yiyi計算i
一元線性回歸,又稱直線擬合。一個自變量。p914.1.1最小二乘法(1)概念:設從實驗得到n
組x,y數(shù)據(jù)x:x1,
x2
···
xi
···
xn
y:y1,y2···
yi
···
yn
若理論上x,y呈線性關系,則應符合方程
y
=
ax
+
b
求出斜率a、截距b;幾何上是得到一條盡可能靠近各(xi
,yi)點的直線。
判斷標準——殘差平方和最小。圖4.1SSresid與a,b
54.1.1最小二乘法由前式
即SSresid=f(a,b)
殘差平方和最小(極值)的條件(2)求回歸系數(shù)斜率a,截距b的計算方法回歸直線:殘差平方和最小的直線;Excel的趨勢線?;貧w方程:
回歸直線的方程。擬合方程最小二乘法——使殘差平方和最小的方法。→計算斜率a,截距b。64.1.1最小二乘法代入b得
求斜率
a分母>0即即求截距b74.1.2相關系數(shù)
r
相關系數(shù)——衡量回歸方程與原始數(shù)據(jù)相符合的程度的數(shù)值。⑴總離差平方和SS:
yi
-
y平均稱為yi的離差。全部yi
的離差平方之和稱為y
的總離差平方和SS
由yi–
y平均=(yi–yi計算)+(yi計算–y平均)
則
可推導出,上式第三項為0,故SSresid殘差平方和
反映了實驗值yi
與按回歸方程計算的值y計算的總偏差,它越小,表明回歸效果→好。SS回歸回歸平方和
反映了因x與y
的線性關系而引起y變化的大小,它越大,表明回歸效果→好?;貧wregression8⑵r2—r的平方
p95
CoefficientofDetermination,決定系數(shù),判定系數(shù)
定義r2的意義:SS回歸→大,x與y
的回歸關系→重要,r2→大;另
SSresid→小,r2→大,線性關系→好。故r2——表明回歸方程反映
x與y
變量間關系的相關程度的標志。r2計算
Excel趨勢線,RSQ函數(shù),回歸分析等中的r2⑶r
值及其意義
x與y
的相關系數(shù)9
r
值范圍r
正負號取決于其計算式中的分子,且與斜率a符號相同。xyxyxyxyr
>0,a>0,x,y,y與x正相關;r<0,a<0,x,y,y與x負相關;r=0,y與x不存在線性相關關系。|r|=1,y與x存在完全的相關性,實驗數(shù)據(jù)點與回歸線完全重合。|r|<1,y與x存在不同程度的相關性。∵SS=SSresid+SS回歸
,且均>0,∴SS回歸≤SS,|r|≤1,即范圍
r=1~+1
總之,|r|→1,y與x相關性→好,
線性回歸的線性關系→好。圖4.2y與x的相關性
r>0
r<0
r=0
r=110
由Excel可得到
E=4.20E-6p+39.82r=0.9936???(r0.01,8=0.7646)
r
值可由Excel函數(shù)求出
例在指定溫度下某化學反應的活化能E與壓力p關系
E=ap+b,實驗數(shù)據(jù)如下CORREL(array1,array2)p/MPa0.100.200.300.400.500.600.700.800.901.00E/kJ·mol-140.240.740.941.641.842.642.843.243.743.8表4.1活化能E與壓力p實驗數(shù)據(jù)
11上一例題,n=?,臨界值r=?線性??4.1.3回歸方程顯著性的檢驗(1)相關系數(shù)檢驗法方法由自由度f(=n-2)及指定顯著性水平(置信度=1-)得到的r,f臨界值和由n組數(shù)據(jù)最小二乘法計算的r值的相對大小判斷。若計算值r的|r|>相同f及的r,f
臨界值,則y與x線性關系好;
若計算值r的|r|<相同f及的r,f臨界值,則y與x線性關系差。影響相關系數(shù)臨界值的因素
f(Excel中的df)、。
r,f與f(=n-2)、有關,n小,小,r,f
大。如n=5,f=3,取
=0.01,查表得r0.01,3=0.9587;r0.01,8=0.7646
→
r0.01,3>r0.01,8
n=10,臨界值r0.01,8=0.7646,由最小二乘法計算得到
r0.01,8=0.9936,>>
r0.01,8=0.7646,線性顯著相關。12表4.2相關系數(shù)r
臨界值表
(數(shù)理統(tǒng)計給出)n-2a=0.05a=0.01n-2a=0.05a=0.0110.996920.999877110.55290.683520.950000.99000120.53240.661430.87830.95873130.51390.641140.81140.91720140.49730.622650.75450.8745150.48210.605560.70670.8343160.46830.589770.66640.7977170.45550.575180.63190.7646180.44380.561490.60210.7348190.43290.5487100.57600.7079200.42270.536813(1)相關系數(shù)檢驗法r—相關系數(shù)查表可得F臨界值F(m,f),其中m為自變量個數(shù),f=n-2。上題F0.01(1,8)=11.3;由r=0.9936,得F=619,>>F0.01(1,8),則y與x線性
相關關系顯著。多用于多變量檢驗(2)F
檢驗法
n,與
r
通常要求
n≥4(?)
一般要求,=0.05,置信度=1-a=95%,n=4時,r0.05,2=0.950;高要求,=0.01,置信度=99%,n=4時,r0.01,2=0.990。
定義:在一元線性回歸中14(3)其它統(tǒng)計參數(shù)
Page93,101
y值的標準誤差
SE(y)—反映測量值的準確度。SE(y)小,根據(jù)擬合方程計算的y值準確。
斜率a的標準誤差
SE(a)
截距b的標準誤差SE(b)SE(a)、SE(b)是衡量擬合函數(shù)好壞的參數(shù);用于計算斜率a、截距b的置信區(qū)間(t檢驗)。154.2Excel函數(shù)的使用方法p24
函數(shù):計算機執(zhí)行的一步或多步運算過程,包括數(shù)學和三角函數(shù)、較復雜的矩陣運算函數(shù)及復雜的數(shù)據(jù)分析函數(shù)等。12類,300多種。(1)
Excel函數(shù)組成函數(shù)名、參數(shù)函數(shù)名:指定要執(zhí)行的運算。參數(shù)—指定函數(shù)使用的數(shù)值或單元格數(shù)據(jù)。要放在括號()內。(2)基本語法①
開頭必須有=。如=
LOG(10)(也可用+,
-開頭)②
參數(shù)必須放在圓括號()內,()前后無空格,不用參數(shù)的函數(shù)用空()。③參數(shù)間要用逗號“,”隔開;參數(shù)可以是數(shù)值、數(shù)組、單元格、單元格區(qū)域、表達式、函數(shù)(嵌套≤7層)等。
④可用名稱作為參數(shù),如已定義的單元格名、區(qū)域名。16(3)函數(shù)調用方法先選定插入函數(shù)的單元格,用下列方法之一調用函數(shù)。①“插入”/fx→插入函數(shù)→搜索函數(shù)/選擇類別/
選擇函數(shù)→函數(shù)名→輸入?yún)?shù);②鍵盤輸入=函數(shù)名,參數(shù);③輸入=,再點擊左側函數(shù)列表框,選已用過的函數(shù);在()內輸入?yún)?shù);④點擊按鈕S選函數(shù)名。例
概念:函數(shù)調用—使用函數(shù)的過程。函數(shù)的返回值—結果。
用好幫助
菜單欄→幫助/“F1”鍵;有關該函數(shù)的幫助…Excel174.3一元線性回歸
由最小二乘法求直線方程y=ax+b
的參數(shù):斜率slope—a,截距intercept—b;
還有相關系數(shù)
correlation—r/R2,
其它回歸統(tǒng)計值。
184.3.1
用SLOPE()函數(shù)求斜率a
用INTERCEPT()函數(shù)求截距b名稱格式返回值SLOPESLOPE(y值數(shù)列,x值數(shù)列)
斜率a值INTERCEPTINTERCEPT(y值數(shù)列,x值數(shù)列)
截距b值語法
示例:乙酸乙酯皂化反應,為二級反應。
CH3COOC2H5+NaOHDCH3COONa+C2H5OHc0-xc0-xxx
二級反應速率方程用電導率法,測定的電導率
Lt~x呈直線關系,從上二式對t
作圖,其直線斜率為k。Excel19
4.3.2
用CORREL(
)
函數(shù)求相關系數(shù)R語法
CORREL函數(shù)
Coefficientofcorrelation
格式:CORREL(數(shù)列1,數(shù)列2)
參數(shù):自變量、因變量數(shù)列。
返回值:兩數(shù)列的相關系數(shù)R值。實例204.3.3用LINEST(
)函數(shù)作線性回歸分析Linest函數(shù)可對一組數(shù)據(jù)作線性回歸分析。Line
Statistic線性方程的通式為y=ax+b
或y=a1x1+a2x2+...+amxm+bLinest給出回歸參數(shù)a,b,或a1,a2,...,am,b,
數(shù)值數(shù)組形式,即返回{a,b}回歸參數(shù),還可有附加回歸統(tǒng)計值r2,F,df,SS,誤差等。
Linest函數(shù)語法
格式
Linest(y值數(shù)列,x值數(shù)列,常數(shù)_邏輯,統(tǒng)計_邏輯)
參數(shù)
①因變量數(shù)列,②自變量數(shù)列;
③常數(shù)—是否不強制截距為0;為邏輯值:缺省/1/True—不強制b=0;
0/False—強制b=0得到過原點的直線方程y=ax。
④統(tǒng)計—是否返回附加回歸統(tǒng)計值,邏輯值:1/True—有;省/False—無。
返回值為數(shù)值數(shù)組。21數(shù)值數(shù)組(回歸參數(shù)+回歸統(tǒng)計值)數(shù)值數(shù)組的順序斜率mn
m1截距bm的標準誤差b的標準誤差r2
y的標準誤差F值自由度df回歸平方和殘差平方和使用Linest函數(shù)的操作過程:
應先選定將要顯示數(shù)組的區(qū)域,然后輸入函數(shù)、適當參數(shù),再依次按下(不松手)Ctrl+Shift+Enter——輸入?yún)?shù)后“確定”的方法。不能刪除數(shù)值數(shù)組中的單個元素。Excel224.3.4使用“數(shù)據(jù)分析”—“回歸”的線性擬合
Excel有附加的獨立程序包“分析工具庫”,可作線性回歸分析。未曾用過“分析工具庫”的,需加載。
“工具”菜單中有“數(shù)據(jù)分析”。加載方法:(MSOfficeCD→)“工具”菜單加載宏分析工具庫
。
“數(shù)據(jù)分析”中“回歸”進行線性回歸分析的方法
①“工具”菜單“數(shù)據(jù)分析”“分析工具”“回歸”②“回歸”對話框:在“輸入”選項區(qū)輸入數(shù)據(jù)區(qū)域(可含數(shù)據(jù)欄名稱)?!皹酥尽睌?shù)據(jù)欄名稱?!爸眯哦取?5%,99%...“常數(shù)為零”截距=0,若選中就是強制回歸線通過原點。由需要確定。“輸出選項”指定回歸分析數(shù)據(jù)輸出的區(qū)域?!熬€性擬合圖”—數(shù)據(jù)點+預測點?!皻埐睢?“正態(tài)分布”—可不選。輸出匯總表SUMMARYOUTPUT包括:回歸統(tǒng)計、方差分析、回歸參數(shù)及統(tǒng)計。MultipleR=R
的絕對值(復相關系數(shù));AdjustedRSquare
修正的R2(=1-(1-R^2)*(N-1)/(N-k-1)),與n和變量個數(shù)k有關,用于多變量回歸)Excel23
提示回歸值與預測值
回歸值:將實驗數(shù)據(jù)中自變量值代入回歸方程得到的計算值。
預測值:將其它自變量值代入回歸方程得到的計算值。244.4多元線性回歸LINEST和“數(shù)據(jù)分析”的“回歸”還可對多個自變量xi的函數(shù)式
y=a1x1+a2x2+...+amxm+b
作線性擬合,計算出m個xi相對應的系數(shù)a1,a2,...,a
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 不同職業(yè)英文課件
- 內蒙古赤峰市2025屆高三下學期3月二模試題 生物 含解析
- 內蒙古工業(yè)大學《創(chuàng)業(yè)經(jīng)營管理》2023-2024學年第二學期期末試卷
- 內蒙古烏拉特前旗第一中學2025年高三考前仿真模擬化學試題含解析
- 版車庫租賃合同協(xié)議書樣本3
- 山東省德州市樂陵市第一中學2025屆高考模擬調研卷化學試題(二)含解析
- 遼寧大連甘井子區(qū)育文中學2024-2025學年高中三年級教學質量監(jiān)測(二)生物試題含解析
- 伊春市鐵力市2024-2025學年四年級數(shù)學第二學期期末聯(lián)考模擬試題含解析
- 石嘴山市惠農區(qū)2024-2025學年數(shù)學四下期末復習檢測試題含解析
- 西安醫(yī)學高等??茖W校《第二外語(日、德)(4)》2023-2024學年第二學期期末試卷
- 中國鹽業(yè)集團有限公司招聘筆試題庫2024
- 物資拆裝搬運服務方案
- 培養(yǎng)自我認知能力-心理健康教案
- 建筑制圖與識圖教學課件:第八章 結構施工圖
- 2024年甘肅酒泉肅州區(qū)選拔項目人員納入編制管理107人高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 幼教培訓課件:《幼兒園一日活動的組織實施》
- 免疫檢查點抑制劑毒性防治策略探索
- 2024陜西中考數(shù)學二輪專題訓練 題型四 尺規(guī)作圖 (含答案)
- 2024年共青團入團積極分子考試題庫及答案
- 24春國家開放大學《農村環(huán)境保護》形成性考核冊參考答案
- 2024年鄭州市中考二模英語試題含答案
評論
0/150
提交評論