數(shù)據(jù)分析名詞解釋.docx_第1頁
數(shù)據(jù)分析名詞解釋.docx_第2頁
數(shù)據(jù)分析名詞解釋.docx_第3頁
數(shù)據(jù)分析名詞解釋.docx_第4頁
數(shù)據(jù)分析名詞解釋.docx_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

重要名詞解釋數(shù)據(jù)整理1、數(shù)據(jù)(Data)是載荷或記錄信息的按一定規(guī)則排列組合的物理符號(hào)。可以是數(shù)字、文字、圖像,也可以是計(jì)算機(jī)代碼。2、數(shù)據(jù)的類型:按收集方法分、按被描述的現(xiàn)象和時(shí)間分、按計(jì)量尺度分、按獲取途徑分。3、抽樣誤差和非抽樣誤差4、數(shù)據(jù)整理:數(shù)據(jù)整理是根據(jù)研究目的,運(yùn)用科學(xué)的方法,對(duì)調(diào)查數(shù)據(jù)(特別是二手?jǐn)?shù)據(jù))進(jìn)行審核、分類或分組、匯總,使之系統(tǒng)化和條理化,并以集中、簡(jiǎn)明的方式反映調(diào)查對(duì)象總體情況的工作過程。數(shù)據(jù)整理的作用:1 是對(duì)調(diào)查資料的全面檢查。查缺補(bǔ)漏,去偽存真,去粗取精,保證數(shù)據(jù)的真實(shí)。2 是進(jìn)一步分析研究數(shù)據(jù)的基礎(chǔ)。對(duì)數(shù)據(jù)的分析必須借助完備的系統(tǒng)的資料,因此它是研究階段的第一步。3 是保存數(shù)據(jù)的客觀要求。只有進(jìn)行整理之后,才能使原始數(shù)據(jù)具有長(zhǎng)期保存的價(jià)值。5、數(shù)據(jù)缺失是指在數(shù)據(jù)采集時(shí)由于某種原因應(yīng)該得到而沒有得到的數(shù)據(jù);現(xiàn)有數(shù)據(jù)集中某個(gè)或某些屬性的值是不完全的。 缺失數(shù)據(jù)的處理:1 刪除元組:個(gè)案剔除法2 數(shù)據(jù)填充:1) 單一填充:人工填寫、平均值填充、回歸值填充、熱卡填充2) 多重填充:多重插補(bǔ)法3 不處理假設(shè)檢驗(yàn)6、顯著性水平(significance level):是指當(dāng)原假設(shè)正確卻被拒絕的概率或風(fēng)險(xiǎn),即a;它是由人們根據(jù)檢驗(yàn)的要求確定的,社會(huì)科學(xué)研究中通常使用0.1(10%),0.05(5%),0.01(1%)顯著性水平,其統(tǒng)計(jì)意義指的是當(dāng)我們拒絕原假設(shè)_0而接受備擇假設(shè)_1的時(shí)候,我們有10%、5%、1%的幾率犯錯(cuò)誤了(反過來說:我們拒絕原假設(shè)的時(shí)候,我們這一決定有90%、95%、99%的概率是對(duì)的)。7、臨界值(critical value):指的是對(duì)應(yīng)相應(yīng)顯著性水平的值;如果檢驗(yàn)結(jié)果的統(tǒng)計(jì)值高于臨界值,我們有理由拒絕原假設(shè),如果如果檢驗(yàn)結(jié)果的統(tǒng)計(jì)值低于臨界值,我們有理由接受原假設(shè)。8、依據(jù)顯著性水平大小把概率劃分為二個(gè)區(qū)間,小于給定標(biāo)準(zhǔn)的概率區(qū)間稱為拒絕區(qū)間,大于這個(gè)標(biāo)準(zhǔn)則為接受區(qū)間。事件屬于接受區(qū)間,原假設(shè)成立而無顯著性差異;事件屬于拒絕區(qū)間,拒絕原假設(shè)而認(rèn)為有顯著性差異。9、置信度:指根據(jù)樣本對(duì)總體所作的估計(jì)落在一個(gè)指定范圍內(nèi)的可靠程度,即(1- a );通常用一個(gè)百分?jǐn)?shù)表示,如95%的置信度是指根據(jù)樣本對(duì)總體所作的估計(jì)落在一個(gè)指定范圍內(nèi)的可能性為95%,不符合的可能性為5%。10、置信區(qū)間:在一定置信度時(shí),以抽樣結(jié)果為中心,包括總體均值在內(nèi)的可信范圍。11、P 值:當(dāng)原假設(shè)為真時(shí),得到的樣本觀察結(jié)果或更遠(yuǎn)離原假設(shè)值的樣本出現(xiàn)的概率。12、小概率事件:如果對(duì)總體的某種假設(shè)是真實(shí)的,那么不利于或不能支持這一假設(shè)的事件A(小概率事件)在一次試驗(yàn)中幾乎不可能發(fā)生的;要是在一次試驗(yàn)中事件A竟然發(fā)生了,就有理由懷疑該假設(shè)的真實(shí)性,拒絕這一假設(shè)。描述統(tǒng)計(jì)13、數(shù)據(jù)特征值度量:(1)集中趨勢(shì)的度量(2)離散程度的度量(3)偏態(tài)和峰態(tài)信度和效度14、概念(concept):社會(huì)領(lǐng)域元素的標(biāo)簽,解釋社會(huì)領(lǐng)域的某一特定方面。15、構(gòu)念(construct):為了研究目的發(fā)明的概念,例:福利、工作滿意度、智商 特點(diǎn):抽象、需要測(cè)量。16、指標(biāo)(indicator):測(cè)量構(gòu)念的工具,具體表現(xiàn)為變量,分類、順序、數(shù)值變量。17、信度和效度:信度 (reliability):測(cè)量結(jié)果的一致性、穩(wěn)定性和可靠性。效度 (validity):測(cè)量準(zhǔn)確地反映了需要測(cè)量的概念。信度和效度的關(guān)系:信度是效度的必要條件。18、信度的測(cè)量方法: (1)重復(fù)檢驗(yàn)法:對(duì)同一群受訪者用同一個(gè)問卷重復(fù)測(cè)量?jī)纱?,再根?jù)兩次測(cè)量的相關(guān)系數(shù)評(píng)價(jià)信度; (2)交錯(cuò)法:兩份問卷,不同問題,同一目的;(3)折半法:將一份問卷中的問題隨機(jī)分為兩組 ,然后考察這兩部分的測(cè)量結(jié)果的相關(guān)系數(shù)。19、效度的基本理論模型:假設(shè)Yi=Ui+Ui:第i個(gè)樣本的真值Yi:第i個(gè)樣本的測(cè)量值:第i個(gè)樣本測(cè)量值與真值的差異20、效度的種類:表面效度(face validity):測(cè)量結(jié)果與共識(shí)或合理預(yù)測(cè)吻合的程度;內(nèi)容效度(content validity): 測(cè)量?jī)?nèi)容的全面性和相符性;標(biāo)準(zhǔn)關(guān)聯(lián)效度 (criterion-related validity): 某測(cè)量與外在標(biāo)準(zhǔn)相關(guān)的程度,也叫預(yù)測(cè)效度;建構(gòu)效度 (construct validity): 也叫構(gòu)念效度,在某理論體系內(nèi),測(cè)量體現(xiàn)出來的某種結(jié)構(gòu)與理論之間的對(duì)應(yīng)程度??ǚ綑z驗(yàn)和方差分析21、卡方檢驗(yàn):是以卡方分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法,主要用于分類變量。22、影響因素的分類:在所有的影響因素中根據(jù)是否可以人為控制可以分為兩類,一類是人為可以控制的因素,稱為控制因素或控制變量,如種子品種的選定,施肥量的多少;另一類因素是認(rèn)為很難控制的因素,稱為隨機(jī)因素,如氣候和地域等影響因素。在很多情況下隨機(jī)因素指的是實(shí)驗(yàn)過程中的抽樣誤差。23、控制變量的不同水平:控制變量的不同取值或水平,稱為控制變量的不同水平。如甲品種、乙品種;10公斤化肥、20公斤化肥、30公斤化肥等。24、觀測(cè)變量:受控制變量和隨機(jī)因素影響的變量稱為觀測(cè)變量,如農(nóng)作物的產(chǎn)量等。25、單因素方差分析:?jiǎn)我蛩胤讲罘治鰷y(cè)試一個(gè)分類型變量的不同水平變動(dòng)是否造成被關(guān)注的數(shù)值型變量的顯著差異和變動(dòng)。26、方差分析平方和:總的變異平方和記為SST,分解為兩個(gè)部分:一部分由于組內(nèi)抽樣隨機(jī)因素引起的SSE(組內(nèi)Within Groups誤差平方和);另一部分是由不同水平間數(shù)據(jù)引起的誤差,包括抽樣本身的誤差和分組間本身的系統(tǒng)性誤差,記為SSA(組間Between Groups誤差平方和)。27、多因素方差分析:多因素方差分析用來研究?jī)蓚€(gè)及兩個(gè)以上控制變量的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響。多因素方差分析不僅能夠分析多個(gè)因素對(duì)觀測(cè)變量的獨(dú)立影響,還能夠分析多個(gè)控制變量的交互作用能否對(duì)觀測(cè)變量產(chǎn)生顯著影響。28、總平方和:SST為觀測(cè)變量的總誤差平方和;SSA、SSB分別為控制變量A、B獨(dú)立作用引起的變差;SSAB為控制變量A、B兩兩交互作用引起的變差;SSE為隨機(jī)因素引起的變差。相關(guān)和回歸29、相關(guān)關(guān)系的特點(diǎn):(1)一個(gè)變量的取值不能由另一個(gè)變量唯一確定;(2)當(dāng)變量 x 取某個(gè)值時(shí),變量 y 的取值對(duì)應(yīng)著一個(gè)分布;(3)各觀測(cè)點(diǎn)分布在直線周圍 。 30、相關(guān)系數(shù):度量變量之間線性關(guān)系強(qiáng)度的一個(gè)統(tǒng)計(jì)量;若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為p;若是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù),簡(jiǎn)稱為相關(guān)系數(shù),記為 r。31、在回歸分析中,只涉及一個(gè)自變量時(shí)稱為一元回歸,涉及多個(gè)自變量時(shí)則稱為多元回歸。如果因變量與自變量之間是線性關(guān)系,則稱為線性回歸(linear regression);如果因變量與自變量之間是非線性關(guān)系則稱為非線性回歸(nonlinear regression);32、回歸模型分類:33、因變量 y 的取值是不同的,y 取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面:由于自變量 x 的取值不同造成的;除 x 以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響。 變差的大小可以通過該實(shí)際觀測(cè)值與其均值之差來表示。34、誤差平方和的分解:總平方和(SSTtotal sum of squares):反映因變量的 n 個(gè)觀察值與其均值的總誤差; 回歸平方和(SSRsum of squares of regression):反映自變量 x 的變化對(duì)因變量 y 取值變化的影響,或者說,是由于 x 與 y 之間的線性關(guān)系引起的 y 的取值變化,也稱為可解釋的平方和;殘差平方和(SSEsum of squares of error):反映除 x 以外的其他因素對(duì) y 取值的影響,也稱為不可解釋的平方和或剩余平方和。35、殘差(residual):36、虛擬自變量:也稱啞變量,用數(shù)字代碼表示的定性自變量。虛擬自變量可有不同的水平:(1)只有兩個(gè)水平的虛擬自變量,比如,性別(男,女) (2)有兩個(gè)以上水平的虛擬自變量,貸款企業(yè)的類型(家電,醫(yī)藥,其他) 虛擬變量的取值為0,1。37、虛擬自變量的性質(zhì):定性分析38、定性研究:又稱質(zhì)化研究,根據(jù)社會(huì)現(xiàn)象或事物所具有的屬性和運(yùn)動(dòng)中的矛盾變化,從事物的內(nèi)在規(guī)定性來研究事物的一種方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論