數(shù)據(jù)分析名詞解釋.docx

上傳人：q*** IP屬地：河南上傳時(shí)間：2020-02-03 格式：DOCX 頁數(shù)：6 大小：608.32KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

重要名詞解釋數(shù)據(jù)整理1、數(shù)據(jù)（Data）是載荷或記錄信息的按一定規(guī)則排列組合的物理符號(hào)。可以是數(shù)字、文字、圖像，也可以是計(jì)算機(jī)代碼。2、數(shù)據(jù)的類型：按收集方法分、按被描述的現(xiàn)象和時(shí)間分、按計(jì)量尺度分、按獲取途徑分。3、抽樣誤差和非抽樣誤差4、數(shù)據(jù)整理：數(shù)據(jù)整理是根據(jù)研究目的，運(yùn)用科學(xué)的方法，對(duì)調(diào)查數(shù)據(jù)（特別是二手?jǐn)?shù)據(jù)）進(jìn)行審核、分類或分組、匯總，使之系統(tǒng)化和條理化，并以集中、簡(jiǎn)明的方式反映調(diào)查對(duì)象總體情況的工作過程。數(shù)據(jù)整理的作用：1 是對(duì)調(diào)查資料的全面檢查。查缺補(bǔ)漏，去偽存真，去粗取精，保證數(shù)據(jù)的真實(shí)。2 是進(jìn)一步分析研究數(shù)據(jù)的基礎(chǔ)。對(duì)數(shù)據(jù)的分析必須借助完備的系統(tǒng)的資料，因此它是研究階段的第一步。3 是保存數(shù)據(jù)的客觀要求。只有進(jìn)行整理之后，才能使原始數(shù)據(jù)具有長(zhǎng)期保存的價(jià)值。5、數(shù)據(jù)缺失是指在數(shù)據(jù)采集時(shí)由于某種原因應(yīng)該得到而沒有得到的數(shù)據(jù);現(xiàn)有數(shù)據(jù)集中某個(gè)或某些屬性的值是不完全的。缺失數(shù)據(jù)的處理：1 刪除元組：個(gè)案剔除法2 數(shù)據(jù)填充：1）單一填充：人工填寫、平均值填充、回歸值填充、熱卡填充2）多重填充：多重插補(bǔ)法3 不處理假設(shè)檢驗(yàn)6、顯著性水平（significance level）：是指當(dāng)原假設(shè)正確卻被拒絕的概率或風(fēng)險(xiǎn)，即a；它是由人們根據(jù)檢驗(yàn)的要求確定的，社會(huì)科學(xué)研究中通常使用0.1（10%），0.05（5%），0.01（1%）顯著性水平，其統(tǒng)計(jì)意義指的是當(dāng)我們拒絕原假設(shè)_0而接受備擇假設(shè)_1的時(shí)候，我們有10%、5%、1%的幾率犯錯(cuò)誤了（反過來說：我們拒絕原假設(shè)的時(shí)候，我們這一決定有90%、95%、99%的概率是對(duì)的）。7、臨界值（critical value）：指的是對(duì)應(yīng)相應(yīng)顯著性水平的值；如果檢驗(yàn)結(jié)果的統(tǒng)計(jì)值高于臨界值，我們有理由拒絕原假設(shè)，如果如果檢驗(yàn)結(jié)果的統(tǒng)計(jì)值低于臨界值，我們有理由接受原假設(shè)。8、依據(jù)顯著性水平大小把概率劃分為二個(gè)區(qū)間，小于給定標(biāo)準(zhǔn)的概率區(qū)間稱為拒絕區(qū)間，大于這個(gè)標(biāo)準(zhǔn)則為接受區(qū)間。事件屬于接受區(qū)間，原假設(shè)成立而無顯著性差異；事件屬于拒絕區(qū)間，拒絕原假設(shè)而認(rèn)為有顯著性差異。9、置信度：指根據(jù)樣本對(duì)總體所作的估計(jì)落在一個(gè)指定范圍內(nèi)的可靠程度，即（1- a ）；通常用一個(gè)百分?jǐn)?shù)表示,如95%的置信度是指根據(jù)樣本對(duì)總體所作的估計(jì)落在一個(gè)指定范圍內(nèi)的可能性為95%,不符合的可能性為5%。10、置信區(qū)間：在一定置信度時(shí)，以抽樣結(jié)果為中心，包括總體均值在內(nèi)的可信范圍。11、P 值：當(dāng)原假設(shè)為真時(shí)，得到的樣本觀察結(jié)果或更遠(yuǎn)離原假設(shè)值的樣本出現(xiàn)的概率。12、小概率事件：如果對(duì)總體的某種假設(shè)是真實(shí)的，那么不利于或不能支持這一假設(shè)的事件A（小概率事件）在一次試驗(yàn)中幾乎不可能發(fā)生的；要是在一次試驗(yàn)中事件A竟然發(fā)生了，就有理由懷疑該假設(shè)的真實(shí)性，拒絕這一假設(shè)。描述統(tǒng)計(jì)13、數(shù)據(jù)特征值度量：（1）集中趨勢(shì)的度量（2）離散程度的度量（3）偏態(tài)和峰態(tài)信度和效度14、概念（concept）：社會(huì)領(lǐng)域元素的標(biāo)簽，解釋社會(huì)領(lǐng)域的某一特定方面。15、構(gòu)念（construct）：為了研究目的發(fā)明的概念，例：福利、工作滿意度、智商特點(diǎn)：抽象、需要測(cè)量。16、指標(biāo)（indicator）：測(cè)量構(gòu)念的工具，具體表現(xiàn)為變量，分類、順序、數(shù)值變量。17、信度和效度：信度（reliability）：測(cè)量結(jié)果的一致性、穩(wěn)定性和可靠性。效度（validity）：測(cè)量準(zhǔn)確地反映了需要測(cè)量的概念。信度和效度的關(guān)系：信度是效度的必要條件。18、信度的測(cè)量方法：（1）重復(fù)檢驗(yàn)法：對(duì)同一群受訪者用同一個(gè)問卷重復(fù)測(cè)量?jī)纱?，再根?jù)兩次測(cè)量的相關(guān)系數(shù)評(píng)價(jià)信度；（2）交錯(cuò)法：兩份問卷，不同問題，同一目的；（3）折半法：將一份問卷中的問題隨機(jī)分為兩組，然后考察這兩部分的測(cè)量結(jié)果的相關(guān)系數(shù)。19、效度的基本理論模型：假設(shè)Yi=Ui+Ui：第i個(gè)樣本的真值Yi：第i個(gè)樣本的測(cè)量值：第i個(gè)樣本測(cè)量值與真值的差異20、效度的種類：表面效度(face validity)：測(cè)量結(jié)果與共識(shí)或合理預(yù)測(cè)吻合的程度；內(nèi)容效度(content validity): 測(cè)量?jī)?nèi)容的全面性和相符性；標(biāo)準(zhǔn)關(guān)聯(lián)效度 (criterion-related validity): 某測(cè)量與外在標(biāo)準(zhǔn)相關(guān)的程度，也叫預(yù)測(cè)效度；建構(gòu)效度 (construct validity): 也叫構(gòu)念效度，在某理論體系內(nèi)，測(cè)量體現(xiàn)出來的某種結(jié)構(gòu)與理論之間的對(duì)應(yīng)程度?？ǚ綑z驗(yàn)和方差分析21、卡方檢驗(yàn)：是以卡方分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法，主要用于分類變量。22、影響因素的分類：在所有的影響因素中根據(jù)是否可以人為控制可以分為兩類，一類是人為可以控制的因素，稱為控制因素或控制變量，如種子品種的選定，施肥量的多少；另一類因素是認(rèn)為很難控制的因素，稱為隨機(jī)因素，如氣候和地域等影響因素。在很多情況下隨機(jī)因素指的是實(shí)驗(yàn)過程中的抽樣誤差。23、控制變量的不同水平：控制變量的不同取值或水平，稱為控制變量的不同水平。如甲品種、乙品種；10公斤化肥、20公斤化肥、30公斤化肥等。24、觀測(cè)變量：受控制變量和隨機(jī)因素影響的變量稱為觀測(cè)變量，如農(nóng)作物的產(chǎn)量等。25、單因素方差分析：?jiǎn)我蛩胤讲罘治鰷y(cè)試一個(gè)分類型變量的不同水平變動(dòng)是否造成被關(guān)注的數(shù)值型變量的顯著差異和變動(dòng)。26、方差分析平方和：總的變異平方和記為SST，分解為兩個(gè)部分：一部分由于組內(nèi)抽樣隨機(jī)因素引起的SSE（組內(nèi)Within Groups誤差平方和）；另一部分是由不同水平間數(shù)據(jù)引起的誤差，包括抽樣本身的誤差和分組間本身的系統(tǒng)性誤差，記為SSA（組間Between Groups誤差平方和）。27、多因素方差分析：多因素方差分析用來研究?jī)蓚€(gè)及兩個(gè)以上控制變量的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響。多因素方差分析不僅能夠分析多個(gè)因素對(duì)觀測(cè)變量的獨(dú)立影響，還能夠分析多個(gè)控制變量的交互作用能否對(duì)觀測(cè)變量產(chǎn)生顯著影響。28、總平方和：SST為觀測(cè)變量的總誤差平方和；SSA、SSB分別為控制變量A、B獨(dú)立作用引起的變差；SSAB為控制變量A、B兩兩交互作用引起的變差；SSE為隨機(jī)因素引起的變差。相關(guān)和回歸29、相關(guān)關(guān)系的特點(diǎn)：（1）一個(gè)變量的取值不能由另一個(gè)變量唯一確定；（2）當(dāng)變量 x 取某個(gè)值時(shí)，變量 y 的取值對(duì)應(yīng)著一個(gè)分布；（3）各觀測(cè)點(diǎn)分布在直線周圍。 30、相關(guān)系數(shù)：度量變量之間線性關(guān)系強(qiáng)度的一個(gè)統(tǒng)計(jì)量；若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的，稱為總體相關(guān)系數(shù)，記為p；若是根據(jù)樣本數(shù)據(jù)計(jì)算的，則稱為樣本相關(guān)系數(shù)，簡(jiǎn)稱為相關(guān)系數(shù)，記為 r。31、在回歸分析中，只涉及一個(gè)自變量時(shí)稱為一元回歸，涉及多個(gè)自變量時(shí)則稱為多元回歸。如果因變量與自變量之間是線性關(guān)系，則稱為線性回歸(linear regression)；如果因變量與自變量之間是非線性關(guān)系則稱為非線性回歸(nonlinear regression)；32、回歸模型分類：33、因變量 y 的取值是不同的，y 取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面：由于自變量 x 的取值不同造成的；除 x 以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響。變差的大小可以通過該實(shí)際觀測(cè)值與其均值之差來表示。34、誤差平方和的分解：總平方和(SSTtotal sum of squares)：反映因變量的 n 個(gè)觀察值與其均值的總誤差；回歸平方和(SSRsum of squares of regression)：反映自變量 x 的變化對(duì)因變量 y 取值變化的影響，或者說，是由于 x 與 y 之間的線性關(guān)系引起的 y 的取值變化，也稱為可解釋的平方和；殘差平方和(SSEsum of squares of error)：反映除 x 以外的其他因素對(duì) y 取值的影響，也稱為不可解釋的平方和或剩余平方和。35、殘差（residual）：36、虛擬自變量：也稱啞變量，用數(shù)字代碼表示的定性自變量。虛擬自變量可有不同的水平：（1）只有兩個(gè)水平的虛擬自變量，比如，性別(男，女) （2）有兩個(gè)以上水平的虛擬自變量，貸款企業(yè)的類型(家電，醫(yī)藥，其他) 虛擬變量的取值為0，1。37、虛擬自變量的性質(zhì)：定性分析38、定性研究：又稱質(zhì)化研究，根據(jù)社會(huì)現(xiàn)象或事物所具有的屬性和運(yùn)動(dòng)中的矛盾變化，從事物的內(nèi)在規(guī)定性來研究事物的一種方法

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)分析名詞解釋.docx

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)分析名詞解釋.docx

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔