問卷設(shè)計(jì)與錄入_第1頁
問卷設(shè)計(jì)與錄入_第2頁
問卷設(shè)計(jì)與錄入_第3頁
問卷設(shè)計(jì)與錄入_第4頁
問卷設(shè)計(jì)與錄入_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、  問卷在錄入前應(yīng)做哪些工作                                               

2、;                                【來源:深圳市萬人市場調(diào)查有限公司 李香香】      在問卷調(diào)查中,從前期準(zhǔn)備工作到正式執(zhí)行,再到最后的數(shù)據(jù)處理中,在交付錄入公司之前,中間存在問卷回收整理這一步驟, 其實(shí)

3、這一步驟也是非常重要的環(huán)節(jié), 通常的做法是包含下列程序:         1、初步檢查問卷         2、對于空白問卷、亂填、與不完整問卷的處理         3、對于多項(xiàng)答案的處理        4、問卷編碼與錄入     

4、60;  5、數(shù)據(jù)檢查        一、問卷初步檢查       對于市場調(diào)查所回收的問卷,應(yīng)當(dāng)場檢查,否則等訪問員解散回家時(shí)對于有疑問的問卷將無法更正,檢查時(shí)應(yīng)包括下列項(xiàng)目,且最好負(fù)責(zé) 該項(xiàng)目的研究員也參與。    1、首先應(yīng)檢查相關(guān)配額,查看是否與我們要求的配額一樣,若否,應(yīng)當(dāng)著訪問員的面把該卷作廢并要求她重新補(bǔ)做應(yīng)有的配額。    2、答案是夠正確、齊全?問卷的答案是否存在邏輯矛盾,如有,

5、應(yīng)適法核實(shí)清楚,確實(shí)無法核實(shí)的只能將該題作為遺漏值(Missing Value)來處理。    3、字跡是否清楚,尤其是開放題,有時(shí)被訪者的答案很多,而訪問員無法快速記下來,有時(shí)字跡會(huì)比較潦草,或用自己的一些符號和縮寫來代替,應(yīng)在訪問員解散前跟她確認(rèn)清楚。        4、應(yīng)先將問卷按照配額要求分成幾疊,方便下一步錄入員的錄入工作。        二、空白與亂填等不完整問卷的處理    

6、; 1、空白不完整問卷的處理。問卷有時(shí)由于問題不合適,或者被訪者不喜歡回答某些問題,或被訪者、訪問員本身的疏忽而導(dǎo)致問卷中某部分或某些問題有空白現(xiàn)象,這時(shí)如果訪問員可以解決的,就當(dāng)場請?jiān)L問員更正,如果是無法解決的問題,就以遺漏值(Missing Value)的方式來處理,不予以計(jì)算此部分或此題的資料。    2、亂填問卷處理。市場調(diào)查的問卷由于受訪者不認(rèn)真作答或者不耐煩,而將問卷的答案亂填,包括全部不相同的答案或亂填。這種問卷一定要把它作為廢卷處理,如果把這種問卷也納入分析的樣本,對整個(gè)研究結(jié)果是一定會(huì)有影響的。    &#

7、160;   三、對于有多項(xiàng)答案的問卷處理      若市場調(diào)查的問卷是單項(xiàng)的選擇題,但由于問卷上并沒有注明,或者是被訪者覺得答案應(yīng)有兩個(gè)以上,而選擇兩個(gè)或兩個(gè)以上答案,對于這種問卷,目前的處理方法主要有兩種:       1、把它視為遺漏值(Missing Value)的方式處理。如果只有極少數(shù)的問卷發(fā)生這種現(xiàn)象,則對于整個(gè)研究分析并不會(huì)造成影響,可以直接以這種方式處理。       2、用加權(quán)法的方式來

8、處理。如果問卷中這種樣本很多,把它視為遺漏值(Missing Value)來處理會(huì)影響整個(gè)數(shù)據(jù)分析時(shí),可先把這種答案在數(shù)據(jù)庫錄入進(jìn)去,然后由研究員采用加權(quán)法的方式來進(jìn)行處理。        四、問卷編碼與錄入      在問卷處理完之后,接著就是對問卷及答案進(jìn)行編碼。首先是對問卷進(jìn)行編碼,問卷編碼很簡單,只要注意一點(diǎn):不要重復(fù)就可以了。      其次是答案編碼,就是把問卷的答案加以量化成電腦可以接受的語言,如1、2、3、4、

9、5等,一般而言,是根據(jù)問題的答案進(jìn)行分類編碼,答案分幾類就有幾種編碼,通常是在問卷審核時(shí)把碰到的答案都記載下來進(jìn)行歸類然后再編碼。    五、數(shù)據(jù)檢查      問卷在錄入后,就是對數(shù)據(jù)進(jìn)行檢查。數(shù)據(jù)檢查一般分三個(gè)步驟:       首先把所有數(shù)據(jù)進(jìn)行抽查。把每個(gè)錄入員的數(shù)據(jù)按照10%-20%的比例對照問卷進(jìn)行隨機(jī)抽查,如果發(fā)現(xiàn)錯(cuò)誤則對該錄入員的數(shù)據(jù)進(jìn)行加倍的抽查,直到抽查字符差錯(cuò)率控制在千分之三以內(nèi)為止。    &

10、#160;    其次是對項(xiàng)目要求的總體配額進(jìn)行核查。檢查配額是否與項(xiàng)目要求的配額一致。         再次是對數(shù)據(jù)的完整性。對有遺漏值(Missing Value)的地方進(jìn)行檢查核實(shí)。如何快速錄入問卷(一)合理安排問卷的結(jié)構(gòu)2008-05-08 19:41心理學(xué)的“看家功夫”就是編制問卷,但是,如何安排問卷的結(jié)構(gòu),實(shí)現(xiàn)問卷的快速錄入,恐怕很多人都沒有注意過這個(gè)問題。今天,我就這個(gè)問題,提出一個(gè)基于EpiData(一個(gè)快速問卷錄入的軟件)的解決方案。當(dāng)然了,如果你把問卷編制成網(wǎng)頁,讓

11、用戶通過網(wǎng)頁提交的方式,把數(shù)據(jù)保存到數(shù)據(jù)庫中,自然不存在上述的問題。而且,還省了數(shù)據(jù)校驗(yàn)這道工序,既快捷方便,又準(zhǔn)確可靠??墒?,在研究的過程中,往往因?yàn)楦鞣N條件的限制,用戶不能上網(wǎng)填寫問卷,那么,這時(shí)候就只能通過發(fā)放問卷的方式來解決這個(gè)問題(比如,針對某個(gè)工廠的員工的滿意度的調(diào)查,而大部分員工都在車間干活,不會(huì)上網(wǎng)),而且一發(fā)放就是幾百份問卷,大部分人這時(shí)候想到的唯一的辦法就是利用Excel進(jìn)行錄入,的確,不容否認(rèn),Excel操作簡單方便,是非常好的數(shù)據(jù)錄入工具。但是,一般來說,如果實(shí)現(xiàn)快速錄入問卷,至少要兩個(gè)人,一人錄入,一個(gè)口頭報(bào),這樣如果配合好的話,是可以實(shí)現(xiàn)快速的錄入的;但是,如果只有

12、一個(gè)人,這個(gè)問題就比較麻煩,一邊要看問卷,一邊還要看屏幕,而且每錄入完一個(gè)數(shù)據(jù)都至少要按一個(gè)回車鍵或Tab鍵,嚴(yán)重影響了數(shù)據(jù)錄入的速度。這里,我向大家推薦一款免費(fèi)的數(shù)據(jù)錄入軟件EpiData,在進(jìn)入正題之前,我覺得有必要說明一點(diǎn),那就是要想真正提高數(shù)據(jù)錄入的速度,光有軟件是不行的,因?yàn)楝F(xiàn)在錄入問卷是人,不是機(jī)器,所以問卷結(jié)構(gòu)的安排如果符合人的認(rèn)知特點(diǎn),使人更容易識(shí)記與復(fù)述,就可以有效的提高錄入的速度并減少錯(cuò)誤。(1)       問卷的結(jié)構(gòu)最好能每5個(gè)形成一組。根據(jù)短時(shí)工作記憶的容量是7±2,所以,5-9個(gè)容量都是可以接受的

13、,但是考慮到我們有逢5識(shí)記的特點(diǎn)(劃“正”字就是一個(gè)很好的例子),且要考慮到后期的核對,所以選擇5個(gè)為一組是比較合適的。(2)       提供一個(gè)標(biāo)記,供視覺停留之用人們在物理世界中要記住行走的路線,往往是利用一些突出的、與眾不同的景物標(biāo)志。在問卷的不同位置提供容易辨認(rèn)的內(nèi)容表達(dá)方式同樣可以幫助我們掃描和記住問卷的內(nèi)容,因此,添加一些視覺標(biāo)簽,把不同的內(nèi)容在視覺效果上加以區(qū)分,將提高我們掃視問卷的速度。以下是某份問卷的一部分的截圖根據(jù)上述我提到的兩個(gè)原則,我將問卷的結(jié)構(gòu)和底紋做了修改,結(jié)果,如下圖所示(3)  &

14、#160;    給每個(gè)被擇項(xiàng)添加了編號請看下面的例子Q.請問您現(xiàn)在使用的手機(jī)廠牌為何?NOKIAMotorolaERICSSONSONYLENOVOSIEMENSPHILIPSPanasonic其它 Q.請問您現(xiàn)在使用的手機(jī)廠牌為何?1.NOKIA2.Motorola3.ERICSSON4.SONY5.LENOVO6.SIEMENS7.PHILIPS8.Panasonic9.其它 注:每個(gè)選項(xiàng)前的數(shù)字僅僅是為后期數(shù)據(jù)錄入方便而設(shè)置的,并無任何其他含義。對比上述兩種問卷的設(shè)計(jì),后面一種由于給每個(gè)被擇項(xiàng)添加了編號(一定要添加注,以免填寫人員產(chǎn)生誤解),因而簡化了后期

15、的數(shù)據(jù)錄入工作。(4)       回收時(shí)一定要給每一份問卷編號(按編號順序整理好),以便后期核對方便。格式:在每份問卷的最開始的位置如右上角添上如下:問卷編號_訪問員編號_如何快速錄入問卷(二)如何使用EpiData快速錄入問卷1/2數(shù)據(jù)錄入軟件EpiData轉(zhuǎn)載于在臨床科研觀察中,通常我們先要作出一個(gè)詳盡的病例觀察表用來采集臨床資料,當(dāng)這些資料積累到一定數(shù)量,我們會(huì)將它們輸入計(jì)算機(jī),使其數(shù)字化,方便保存和管理,最后再將這些數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)處理,找出其中規(guī)律性的東西。其中使臨床資料數(shù)字化是承上啟下的一步,對于從事臨床工作的醫(yī)生來說主要

16、存在幾個(gè)問題:1.沒有數(shù)據(jù)庫的基礎(chǔ)知識(shí),不知道如何處理臨床紛繁復(fù)雜的數(shù)據(jù);2.在大量數(shù)據(jù)錄入時(shí)容易出現(xiàn)錯(cuò)誤。而數(shù)據(jù)錄入軟件Epidata具有簡單、好用、實(shí)用的特點(diǎn),極其方便臨床醫(yī)生使用。1Epidata的基礎(chǔ)知識(shí)EpiData主要用于數(shù)據(jù)輸入。它可以將我們在臨床觀察之中所使用的觀察表格“計(jì)算機(jī)化”,計(jì)算機(jī)上的表格可以與我們的觀察表完全一樣,使得數(shù)據(jù)輸入變得直觀、簡便。EpiData由三種基本文件組成:1) .QES文件 (調(diào)查表文件文件),它的作用是定義調(diào)查表(問卷)的結(jié)構(gòu)。2) .REC文件 (數(shù)據(jù)文件),它包括數(shù)據(jù)以及已經(jīng)定義好的編碼。3) 

17、;.CHK文件 (數(shù)據(jù)錄入核查文件),數(shù)據(jù)輸入字段的有效性規(guī)則。字段是Epidata中最重要的概念,每個(gè)字段就是我們臨床觀察表中的一個(gè)小項(xiàng)目。它包括:1)字段的名稱,它是給計(jì)算機(jī)識(shí)別的字段的名字,如V1、V2等,當(dāng)然如果我們不去專門定義的話,Epidata可以自動(dòng)給字段定義一個(gè)名稱。2)字段的文本描述,即解釋這個(gè)字段在我們臨床觀察表之中所代表的具體觀察指標(biāo),如年齡、性別、檢查結(jié)果等。3)字段的數(shù)據(jù)變量,根據(jù)字段的性質(zhì),可以規(guī)定該字段的變量及變量長度,Epidata支持的數(shù)據(jù)變量有:數(shù)字、文本、大寫文本、歐洲日期、美國日期、布爾函數(shù)、自動(dòng) ID-號、聲索引字段等,可以基本滿足

18、臨床觀察的需要。2 EpiData運(yùn)行界面介紹運(yùn)行EpiData.exe會(huì)出現(xiàn)程序運(yùn)行界面(圖1)。圖1第一行是EpiData菜單欄,所有命令都可以在其中找到:1.文件,下列菜單有:新建文件、打開文件、選項(xiàng)、近期使用的文件名及退出等。2.數(shù)據(jù)核對,下列菜單有:增加/更改檢查項(xiàng)。3.數(shù)據(jù)淙?/span>/輸出,下列菜單有:數(shù)據(jù)輸入/修改、根據(jù)調(diào)查表文件(.QES)產(chǎn)生新的數(shù)據(jù)文件、備份數(shù)據(jù)文件、導(dǎo)入數(shù)據(jù)、數(shù)據(jù)輸出、追加/合并數(shù)據(jù)文件等。4.其他功能,下列菜單有:顯示數(shù)據(jù)文件結(jié)構(gòu)、數(shù)據(jù)輸入的信息、檢查數(shù)據(jù)、顯示數(shù)據(jù)列表、變量基本描述(編碼表)、對兩個(gè)相同數(shù)據(jù)文件進(jìn)行有效性檢查、合理

19、性檢查、計(jì)算記錄數(shù)等。5.工具,下列菜單有:根據(jù)數(shù)據(jù)文件生成調(diào)查表文件、清理數(shù)據(jù)文件、重建索引、根據(jù)修改的調(diào)查表更新數(shù)據(jù)文件、更改字段名、編輯數(shù)據(jù)文件標(biāo)簽、復(fù)制數(shù)據(jù)文件結(jié)構(gòu)、顏色表、數(shù)據(jù)重新編碼、刪除所有核對命令、壓縮數(shù)據(jù)文件、創(chuàng)建文檔、恢復(fù)文檔等。6.窗口設(shè)置,下列菜單有:水平平鋪、垂直平鋪、重疊窗口、顯示所有窗口、工具欄等。7.幫助。第二行是EpiData工作過程工具欄,有6個(gè)項(xiàng)目:1建立調(diào)查表文件,2生成數(shù)據(jù)文件,3添加核對命令,4數(shù)據(jù)錄入,5其他功能,6數(shù)據(jù)輸出。第三行是EpiData常用的幾個(gè)快捷工具按鈕,大多數(shù)是與我們常用的word軟件相似,如:新建文件、打開文件、保存、復(fù)制、粘貼

20、、剪切等工具按鈕,其中“數(shù)據(jù)表預(yù)覽、選擇字段類型、數(shù)碼編輯器”按鈕是EpiData比較獨(dú)特的。編輯數(shù)據(jù)表文件就在下面的空白部分。3使用EpiData建立臨床數(shù)據(jù)錄入表3.1建立調(diào)查表文件點(diǎn)擊“建立調(diào)查表文件”按鈕,選擇“建立新調(diào)查表文件”,命名為“腦血管病人血脂調(diào)查表”并進(jìn)行保存。這時(shí)生成的是.QES文件。3.1.1 打開原始的調(diào)查表(圖2)。圖23.1.2 根據(jù)原始表格在EpiData輸入相關(guān)內(nèi)容。在“姓名”之后,點(diǎn)擊“選擇字段類型”按鈕,在選項(xiàng)卡片之中選擇“文本”,設(shè)置為文本,長度8個(gè)字節(jié)(注意一個(gè)漢字的長度需要2個(gè)字節(jié)),點(diǎn)擊“插入”按鈕(圖3)圖33.1.3

21、0;依此類推將其他觀察指標(biāo)進(jìn)行輸入并保存(如圖4)圖43.1.4 點(diǎn)擊數(shù)據(jù)表預(yù)覽按鈕,一張電子觀察表就誕生了(圖5)。圖53.2建立數(shù)據(jù)文件雖然生成的數(shù)據(jù)預(yù)覽表與我們的原始觀察表很相似,但是這時(shí)還不能進(jìn)行數(shù)據(jù)的錄入,我們需要建立數(shù)據(jù)文件,即.REC文件。這個(gè)步驟很簡單。點(diǎn)擊“生成數(shù)據(jù)文件”按鈕,選擇“生成數(shù)據(jù)文件”,軟件會(huì)自動(dòng)提示要由我們剛剛作成的“腦血管病人血脂調(diào)查表.QES”文件,生成“腦血管病人血脂調(diào)查表.REC”文件(圖6),直接選擇確定,這時(shí),軟件會(huì)要求輸入對數(shù)據(jù)文件的描述(數(shù)據(jù)文件標(biāo)簽),這里最好輸入錄入者的姓名,比如“陳醫(yī)生”。圖63.3數(shù)據(jù)輸入點(diǎn)擊“輸入數(shù)據(jù)”按鈕,打

22、開“腦血管病人血脂調(diào)查表.REC”文件,這時(shí)會(huì)出現(xiàn)與“數(shù)據(jù)表預(yù)覽”時(shí)看到的一樣的表格,不過這個(gè)表格是可以填寫的,現(xiàn)在我們就可以一項(xiàng)一項(xiàng)將數(shù)據(jù)輸入,數(shù)據(jù)錄入完整后,軟件會(huì)自動(dòng)提醒進(jìn)行保存(圖7),確認(rèn)保存之后就可以輸入下一張表格的數(shù)據(jù)了。圖73.4數(shù)據(jù)輸出點(diǎn)擊“數(shù)據(jù)輸出”按鈕,選擇“腦血管病人血脂調(diào)查表.REC”文件。EpiData2.1為我們提供了豐富的數(shù)據(jù)輸出類型,如文本文件、dBase III、Excel文件、Stata 文件、spss文件、sas文件等,大大方便了我們后期對數(shù)據(jù)的處理。圖8為輸出的文本文件,圖9為輸出的excel文件。圖8圖9如何快速錄入問卷(二)如何使用Epi

23、Data快速錄入問卷2/2 4優(yōu)化數(shù)據(jù)表用我們上述介紹的方法已經(jīng)足以完成一個(gè)臨床觀察表的數(shù)字化,并且可以順利地將數(shù)據(jù)輸出并進(jìn)行統(tǒng)計(jì)計(jì)算。但是Epidata的功能不僅于此,我們知道,Epidata有三種主要文件,上面的方法只涉及了.QES文件和.REC文件,.CHK文件有什么作用呢?我們對于某些字段的數(shù)據(jù)并不滿足于僅僅是長度或位數(shù)的設(shè)置,Epidata提供了對這些字段的進(jìn)一步設(shè)置功能。點(diǎn)擊工作過程工具條中“添加核對命令”按鈕,仍舊選擇“腦血管病人血脂調(diào)查表.REC”這個(gè)數(shù)據(jù)文件,同樣會(huì)出現(xiàn)我們做好的電子表格,這時(shí)軟件也會(huì)自動(dòng)生成同名的.CHK文件,同時(shí)會(huì)有一個(gè)數(shù)據(jù)核對窗口(如圖10)。圖10可以

24、看到這個(gè)數(shù)據(jù)核對窗口上半部是字段的名稱、字段的內(nèi)容及字段數(shù)據(jù)類型,下半部份就是我們需要設(shè)置的內(nèi)容了。4.1 Rang,Legal:是定義一個(gè)字段的數(shù)字范圍及合理數(shù)。例如,我們對“年齡”字段進(jìn)行設(shè)置,輸入“50-85”(圖11),表示這個(gè)字段只能輸入5080的數(shù)字,否則軟件會(huì)彈出錯(cuò)誤信息。圖11同樣,對“性別”字段我們可以將Rang,Legal設(shè)置為“男,女”,那么在錄入數(shù)據(jù)時(shí),一旦輸入任何其他文字,軟件也會(huì)彈出錯(cuò)誤信息(圖12)。圖124.2 Jump:跳轉(zhuǎn)命令。臨床上有些問題只是需要部分人來回答,例如當(dāng)前字段為性別sex (1=male, 2=female) ,則可定義如果sex=1跳轉(zhuǎn)至字

25、段V23,而當(dāng)sex=2跳轉(zhuǎn)至V40,我們就可以在Jump后填入1>V23, 2>V40。4.3 Must enter:如果當(dāng)前字段必須輸入數(shù)據(jù),則需要使用這個(gè)規(guī)則,選擇Yes。Epidata的默認(rèn)選擇為No。4.4 Repeat:如果在編輯表中Repeat選擇項(xiàng)中選擇“Yes”則前一個(gè)記錄中的該字段值將自動(dòng)出現(xiàn)在下一個(gè)記錄的該字段中,當(dāng)然這個(gè)數(shù)值是可以改變的。4.5 Value label:是將一組具有解釋數(shù)值意義的文本與數(shù)值結(jié)合。例如,我們對“職業(yè)”這個(gè)字段進(jìn)行設(shè)置,點(diǎn)擊Value label后的“”,在“數(shù)據(jù)編輯標(biāo)簽”中設(shè)置數(shù)字和其所代表的職業(yè),數(shù)字和職業(yè)之間用空格分開,選擇

26、“接受并關(guān)閉”(圖13)。圖13當(dāng)錄入職業(yè)時(shí),按F9鍵,這時(shí)會(huì)彈出一張轉(zhuǎn)換表,我們可以分別選擇1,2,3,4,5,6分別代表工人,干部,職員,教師,農(nóng)民,其他(圖14)。圖145如何核查數(shù)據(jù)文件為了保證數(shù)據(jù)錄入的可靠性,我們可以讓兩個(gè)人分別輸入同樣的一組調(diào)查表數(shù)據(jù),Epidata提供了對兩個(gè)相同數(shù)據(jù)文件的檢查功能。我們還是以“腦血管病人血脂調(diào)查表.QES ”調(diào)查表文件生成“腦血管病人血脂調(diào)查表1.REC”數(shù)據(jù)文件,用“章醫(yī)生”作為數(shù)據(jù)文件標(biāo)簽,錄入和“腦血管病人血脂調(diào)查表.REC”(文件標(biāo)簽是“陳醫(yī)生”)同樣的數(shù)據(jù),當(dāng)然為了檢驗(yàn)Epidata的數(shù)據(jù)檢查功能,部分字段的變量是不同的。點(diǎn)擊工作過程

27、工具條中“其他功能”按鈕,選擇“對兩個(gè)相同數(shù)據(jù)文件進(jìn)行有效性檢查”,選擇“章醫(yī)生”和“陳醫(yī)生”錄入的兩個(gè)數(shù)據(jù)文件,Epidata會(huì)自動(dòng)對兩個(gè)文件進(jìn)行比較,并給出報(bào)告,這時(shí)我們發(fā)現(xiàn)這兩個(gè)數(shù)據(jù)文件“記錄1”的“FIELD5”和“記錄3”的“AA”變量是不一樣的(圖15),追溯原表,我們發(fā)現(xiàn)是“記錄1”和“記錄3”中的“學(xué)歷”和“病案號”的錄入有錯(cuò)誤。這個(gè)報(bào)告也可以存成.not文件,方便將來核查及修改。圖15Epidata的這些功能已經(jīng)能夠滿足一般臨床科研觀察數(shù)據(jù)的需要,當(dāng)然如果你還有一些編程的知識(shí)就可以更好地使用這個(gè)軟件。Epidata是一個(gè)免費(fèi)軟件,有漢化版,網(wǎng)上可以找到并下載,目前最新的版本號

28、是3.02版。希望大家能試用一下這個(gè)軟件,你會(huì)覺得它對你的問卷錄入有很大的幫助的。注:程序及幫助文件下載網(wǎng)址:http:/www.epidata.dk/download.php o(_)o.調(diào)查問卷錄入流程的計(jì)算機(jī)優(yōu)化作者:復(fù)旦大學(xué)社會(huì)學(xué)系   轉(zhuǎn)貼自:    調(diào)查問卷數(shù)據(jù)的編碼、錄入是問卷調(diào)查中極其不起眼的一個(gè)環(huán)節(jié),以至于幾乎所有的社會(huì)研究方法的教材中都只有寥寥幾頁來介紹它的實(shí)施方法,而且彼此大同小異,以至于缺乏足夠的操作性。但調(diào)查問卷數(shù)據(jù)的編碼錄入?yún)s又是一個(gè)問卷調(diào)查中極其重要的環(huán)節(jié),因?yàn)樗钦{(diào)查的結(jié)果向計(jì)算機(jī)的二進(jìn)制數(shù)據(jù)轉(zhuǎn)變的一個(gè)關(guān)鍵環(huán)節(jié),

29、如果處理不當(dāng),不但可能延長編碼錄入所需要的時(shí)間,而且有可能在這個(gè)環(huán)節(jié)上造成數(shù)據(jù)錯(cuò)誤,降低調(diào)查的可信度和有效性。因此,保證高效率、低錯(cuò)誤率的完成問卷數(shù)據(jù)的編碼和錄入工作便是一個(gè)調(diào)查順利完成的必要條件了。 然而,在很多從事問卷調(diào)查工作或研究的相關(guān)人士眼中,數(shù)據(jù)的編碼和錄入環(huán)節(jié)是一個(gè)機(jī)械的步驟,而不像諸如問卷設(shè)計(jì)、調(diào)查報(bào)告撰寫等環(huán)節(jié)那樣需要相當(dāng)?shù)闹R(shí)積累,并且充滿著藝術(shù)性。在理想的狀態(tài)下,情況的確是如此,只有要足夠的金錢和人力的投入,數(shù)據(jù)編碼、錄入的工作是可以在足夠短的時(shí)間里毫無差錯(cuò)的完成的。但是在現(xiàn)實(shí)生活中,由于受到了經(jīng)費(fèi)和人力的限制,我們不可能以人海和錢海戰(zhàn)術(shù)來提高效率、降低錯(cuò)誤率。因此,在經(jīng)費(fèi)

30、、人力的局限條件下(這種情況下最好尋求專業(yè)的問卷錄入公司比較好-編者注),如何在不增加大成本的投入的前提下通過優(yōu)化編碼錄入流程的方法來提高效率、降低錯(cuò)誤率便成為一個(gè)值得研究的問題了。在接下來,本文便將致力于通過計(jì)算機(jī)技術(shù)的利用來實(shí)現(xiàn)上述目的,并希望能夠達(dá)到以下幾點(diǎn)目標(biāo): 1.降低錄入的錯(cuò)誤率,提高錄入效率。除了通過改善工作環(huán)境來提高編碼、錄入工作的正確率以外,本文同樣希望能夠通過分析研究,借助計(jì)算機(jī)技術(shù)在編碼錄入階段避免錯(cuò)誤的產(chǎn)生,同時(shí)在事后能夠提供強(qiáng)大而且方便的糾錯(cuò)查找和校驗(yàn)手段。 2.降低對于登錄員、錄入員的要求。在一項(xiàng)問卷調(diào)查中,一般必須要對登錄員、錄入員進(jìn)行時(shí)間不短的必要培訓(xùn)以使其能夠

31、按照調(diào)查的要求完成工作(對登錄員還需要配以必要的編碼手冊),而在要求嚴(yán)格的商業(yè)調(diào)查中,登錄員甚至都需要通過相關(guān)的考核。而對登錄員、錄入員的高要求也就意味著整個(gè)問卷調(diào)查成本的提高。本文希望能夠通過分析研究,借助計(jì)算機(jī)技術(shù)降低對于登錄員、錄入員的要求(理想目標(biāo)是將登錄員和錄入員合而為一),縮短對于登錄員、錄入員的培訓(xùn)時(shí)間。 3.改善登錄員、錄入員的工作環(huán)境。編碼及錄入過程是一個(gè)極其枯燥的過程,長時(shí)間的編碼、錄入工作很容易導(dǎo)致相關(guān)工作人員的心理煩躁,進(jìn)而影響編碼、錄入工作的速度和正確率。本文希望能夠通過分析研究,借助計(jì)算機(jī)技術(shù)改善登錄員、錄入員的工作環(huán)境,進(jìn)而提高工作速度和正確率。 4.提供多種數(shù)據(jù)

32、格式輸出的解決方案。在數(shù)據(jù)分析的階段里,國內(nèi)較多使用的統(tǒng)計(jì)軟件便有SPSS、SAS、STATA、MINITAB、QUANTUM等多種統(tǒng)計(jì)軟件,如果能夠借助相關(guān)的計(jì)算機(jī)技術(shù)輸出盡可能多的數(shù)據(jù)格式,以方面之后的數(shù)據(jù)分析同樣也是本文的目標(biāo)之一。 傳統(tǒng)的數(shù)據(jù)編碼、錄入環(huán)節(jié) 正如本文開頭所述,在國內(nèi)的諸多社會(huì)研究方法教材中,對于數(shù)據(jù)編碼、錄入環(huán)節(jié)的介紹大同小異,因此本文便引用高等教育出版社出版袁方主編的社會(huì)調(diào)查原理與方法一書中的相關(guān)章節(jié)來介紹傳統(tǒng)的問卷調(diào)查數(shù)據(jù)的相關(guān)步驟。在袁方的書中,資料的電子計(jì)算機(jī)匯總大致分成四個(gè)步驟:編碼、登陸、錄入和程序編制。除了最后一個(gè)程序編制環(huán)節(jié)現(xiàn)在一般已經(jīng)由事先編制完成的統(tǒng)

33、計(jì)軟件完成外,其他的三個(gè)環(huán)節(jié)還是在被應(yīng)用在目前較多的問卷調(diào)查中的。對于這三個(gè)環(huán)節(jié),袁方是這樣介紹的: (一)編碼 編碼是將問卷中的信息數(shù)字化,轉(zhuǎn)換成統(tǒng)計(jì)軟件和統(tǒng)計(jì)程序能夠識(shí)別的數(shù)字,這項(xiàng)工作是一種信息代換的過程。編碼工作主要是建立編碼手冊,編碼手冊紀(jì)錄著每一個(gè)數(shù)字所表示的實(shí)際意義,它相當(dāng)于打電報(bào)的密碼手冊。調(diào)查者要根據(jù)它將問卷調(diào)查資料轉(zhuǎn)換成能夠統(tǒng)計(jì)、計(jì)算的數(shù)字、錄入計(jì)算機(jī),然后再根據(jù)它將計(jì)算機(jī)整理出來的結(jié)果轉(zhuǎn)換成我們能閱讀的文字。 (二)登錄 登錄是將編好碼的問卷資料過錄到資料卡片上去,以便于將它們錄入到計(jì)算機(jī)的磁帶、軟盤或硬盤上去。登錄是一項(xiàng)簡單工作,但要耐心細(xì)致,要保證資料全息轉(zhuǎn)換不出差錯(cuò)

34、。 (三)錄入 錄入是將登錄在資料卡片上的數(shù)據(jù)錄入到計(jì)算機(jī)的存儲(chǔ)設(shè)備(磁帶、軟盤、硬盤)上,其工作性質(zhì)同登錄相同。所不同的是登陸的操作是在資料卡片上進(jìn)行,錄入是在計(jì)算機(jī)的終端上進(jìn)行。一般來說在完成了這項(xiàng)工作后原始資料就可以束之高閣了。只要有編碼手冊、資料卡片或磁帶、磁盤就能再現(xiàn)原始資料。 對于上面的介紹,我們首先不在細(xì)節(jié)上分析整個(gè)流程的問題(這將是下面重要內(nèi)容),光光是從大局來看我們便很容易就可以發(fā)現(xiàn)整個(gè)流程一個(gè)根本的問題沒有充分的利用計(jì)算機(jī)。隨著計(jì)算機(jī)軟件硬件的不斷發(fā)展,計(jì)算速度越來越快、界面越來越友好,計(jì)算機(jī)能夠輔助我們干的事情也就越來越多了??赡苁莻鹘y(tǒng)的問卷數(shù)據(jù)編碼錄入過程中,計(jì)算機(jī)始終

35、扮演著一個(gè)簡單的錄入工具的作用,而大量本來最合適計(jì)算機(jī)的高強(qiáng)度機(jī)械工作卻留給了登錄員和錄入員。在這樣的工作分配下,編碼和錄入的效率是不可能有大幅度的提高,而人面對高強(qiáng)度機(jī)械工作必然會(huì)產(chǎn)生的狀態(tài)下降情況也必然會(huì)影響編碼和錄入的效率。因此,在下面的分析部分中,在充分發(fā)現(xiàn)傳統(tǒng)流程弊端的前提下重新定位計(jì)算機(jī)所應(yīng)當(dāng)扮演的角色,盡量讓計(jì)算機(jī)分擔(dān)高強(qiáng)度、機(jī)械工作,便成為重中之重。                   &#

36、160;          傳統(tǒng)方法的問題 按照袁方一書的定義,編碼是一種信息代換的過程,也就是按照一定的規(guī)則將原始的信息映射成計(jì)算機(jī)可以接受的數(shù)字信息。雖然編碼的定義相當(dāng)簡單,但是實(shí)際上在操作過程中卻遠(yuǎn)遠(yuǎn)沒有那么簡單,經(jīng)常會(huì)出現(xiàn)這樣那樣的問題,下邊將結(jié)合具體的事例(如果不加說明,本文中所有的事例均取自復(fù)旦大學(xué)社會(huì)學(xué)系浦東新區(qū)社會(huì)發(fā)展調(diào)查問卷)進(jìn)行分析。 常見問題一:偽文字內(nèi)容轉(zhuǎn)換成數(shù)字選項(xiàng)的效率低下。在一份調(diào)查問卷中,除了少數(shù)的開放式文字題以外,實(shí)際上還有不少偽文字題出現(xiàn)。比如在問卷卡一中的第4題“文化

37、程度”提供了8個(gè)選擇項(xiàng),第5題“您的職業(yè)”提供了12個(gè)選擇項(xiàng),屬于標(biāo)準(zhǔn)的封閉式選擇題。而問卷卡一中的第17題“您父親的職業(yè)是_文化程度是_”表面上看上去是開放式的文字題,但實(shí)際上是和前面兩題同類型的選擇題,而且共享同樣的選擇項(xiàng)。只不過因?yàn)檫x擇項(xiàng)占用過多的問卷幅面,基于節(jié)省問卷篇幅的考慮而是以文字題的形式表現(xiàn)。這些題目在訪問員訪問的時(shí)候應(yīng)該參照前面填入相關(guān)的編號,但是由于訪問員或者方法的問題,實(shí)際填入的往往是文字。對于這些題首先要根據(jù)填寫的內(nèi)容在前兩題中找出對應(yīng)的選擇項(xiàng),然后再進(jìn)行登陸。從問卷設(shè)計(jì)的角度來看,上述提到的處理方式的確可以起到縮短問卷篇幅,提高訪問者回答的意愿,但是從編碼上來看,卻給

38、登錄員帶來了額外的工作,要么將所有的選擇項(xiàng)全部背出來,要么反復(fù)察看問卷前面的選擇項(xiàng),而前者可能因?yàn)橛洃涘e(cuò)誤帶來額外的編碼錯(cuò)誤,后者則必然因?yàn)榉磸?fù)察看延長編碼的時(shí)間,降低編碼的速度。 常見問題二:高位補(bǔ)零。在編碼的過程中,我們一般使用的都是固定長度的編碼表(欄),對于某一題所占用的編碼長度都事先有所規(guī)定。如果本題填寫內(nèi)容沒有使用到事先規(guī)定的編碼長度,那么就需要在高位補(bǔ)零。如問卷卡一中的第題“出生年月:_年_月”,本題一共占用第至第共四個(gè)編碼列,分別是年兩個(gè),月兩個(gè)。在處理月份的編碼時(shí),由于有的月份是一位數(shù),有的月份是兩位數(shù),所以在處理一位數(shù)月份的時(shí)候就需要在高位補(bǔ)一個(gè)零。比如問卷填寫的是月,那么

39、在編碼時(shí)就需要編碼為。在實(shí)際的操作中來看,高位補(bǔ)零是一項(xiàng)執(zhí)行起來效率比較低的工作。除了必須填寫大量不表示任何信息的數(shù)字信息外,在登陸的過程中還需要隨時(shí)留意在需要的地方補(bǔ)零,而這同樣也會(huì)降低效率。而且如果登錄員使用的是簡單的編碼表或者問卷邊上的編碼欄沒有清楚的標(biāo)明編碼長度的話,登錄員很容易忘記補(bǔ)零,使接下來的信息被編在錯(cuò)誤的編碼列中。 常見問題三:處理缺填選項(xiàng)。由于種種原因(如訪問員不盡責(zé)任、被調(diào)查者因?yàn)殡[私問題拒絕回答),在調(diào)查問卷中往往會(huì)出現(xiàn)一些沒有填寫的調(diào)查項(xiàng)。對于這些缺填的選項(xiàng),登陸工作同樣需要進(jìn)行。對于此部分工作,在袁方一書中有詳細(xì)的規(guī)則介紹,這里就直接引用?!敖o無回答答案的編碼最常用

40、的是,對需要不指一個(gè)格的可以重復(fù)所給的數(shù)字(如或);給不知道答案的編碼常為或,。對大多數(shù)問題上述方法是可行的,因?yàn)橹概蓴?shù)字往往從開始,又很難超過,所以讓無回答為,不知道為很方便,但對少數(shù)問題,和兩者均可能是被回答的問題本身所需要的數(shù)字(如家庭中子女的數(shù)目),在這種情況下,無回答和不知道的編碼必須是在經(jīng)驗(yàn)上絕不會(huì)出現(xiàn)的數(shù)字(例如,;因?yàn)樽优當(dāng)?shù)目決不會(huì)有那么多)。這樣往往在編碼時(shí)要多增加個(gè)格,如問家庭的子女?dāng)?shù)目,要占兩格,如果回答有個(gè)孩子,在登陸時(shí)要寫(高位空格補(bǔ));無回答的編碼為,不知道編碼為?!倍趯?shí)際的處理過程中,最麻煩的就是對于不同的題目缺填選項(xiàng)有不同的映射規(guī)則。比如問卷卡一中的第題“您或

41、您的祖輩搬遷到浦東來居住已經(jīng)_年”,本題編碼列為共列,本題對于缺省項(xiàng)可以使用或者處理,因?yàn)榧热皇窃谄謻|接受訪問的浦東居民那么在浦東居住的年份必然不可能是年,而且從經(jīng)驗(yàn)上來看浦東這塊土地成型不過百年,居住的年份不可能為年,因?yàn)橛煤投伎梢员硎救碧?。但是問卷卡一的第題“如果您已結(jié)婚,那么您有幾個(gè)子女?_個(gè)”,本題中可以用來作為缺填的選項(xiàng),因?yàn)榻?jīng)驗(yàn)上目前家庭幾乎不可能出現(xiàn)擁有個(gè)子女的情況,但是沒有子女而需要用來表示的情況卻經(jīng)??梢?。又如問卷卡七第題,“您目前的月收入狀況:()基本工資_元;()各種補(bǔ)貼_元;()獎(jiǎng)金_元”,本題第三小題獎(jiǎng)金一項(xiàng)共占用共三個(gè)編碼列。在處理此題缺填情況的時(shí)候,一般就必須使用

42、來表示。因?yàn)楸辉L人很有可能沒有任何月獎(jiǎng)金收入,填寫的的確是,在編碼時(shí)需要用表示。而從經(jīng)驗(yàn)上來看,一個(gè)人的獎(jiǎng)金收入恰巧是元的可能性很小,因此可以用來表示缺填的情況。上面的三個(gè)例子便可以發(fā)現(xiàn)在實(shí)際的編碼過程中如何處理缺填項(xiàng)是一件極其復(fù)雜的事情,編碼人員必須隨時(shí)警惕才能夠在不同的調(diào)查項(xiàng)中使用不同的映射規(guī)則來正確的完成編碼工作。 常見問題四:相倚問題的處理。按照袁方一書的說法,“在設(shè)計(jì)問題時(shí),常常遇到這樣的情況,有的問題只適用于一部分被調(diào)查對象。而一個(gè)被調(diào)查者是否需要回答這一問題,常常依據(jù)它對于該問題前的另一個(gè)問題的回來來定我們通常把前一個(gè)問題叫做過濾性問題或篩選性問題,而把后一問題叫做相倚問題?!睆?/p>

43、某種程度上來說,對于相倚問題的處理實(shí)際上和映射規(guī)則五中處理缺填選項(xiàng)是大同小異的,因?yàn)橄嘁袉栴}的過濾性問題必然帶來大量漏填的問題,比如問卷卡四第42題X小題“您是否知道上海市政府制定的七不規(guī)范”?,如果你的選擇是(1)知道,那么就需要回答下邊的七道題目“您已經(jīng)做到了哪幾條?”,但如果你的選擇是(2)知道一部分或者(3)不知道(雖然發(fā)生這種情況的機(jī)會(huì)很小,但的確會(huì)有發(fā)生的可能),那么剛才的七道題目就無需回答了。而在登陸的時(shí)候就仍舊需要把這七道題目進(jìn)行登陸。上文已經(jīng)說過處理缺填選項(xiàng)有時(shí)候是一件相當(dāng)麻煩的事情,而當(dāng)遇到相倚問題的時(shí)候卻不得不面對大量的缺填選項(xiàng),處理的難度可見一斑,可想而知,在處理這部分

44、內(nèi)容的編碼時(shí),效率和正確率可想而知。 常見問題五:錯(cuò)輸漏輸數(shù)據(jù)。登錄和錄入是兩個(gè)極其機(jī)械的環(huán)節(jié),而且在錄入所有的編碼時(shí),由于整個(gè)編碼一般比較長(對于一些大型的調(diào)查更是如此,雖然很多大型調(diào)查將問卷分成了多個(gè)編碼卡來處理,比如浦東新區(qū)社會(huì)發(fā)展調(diào)查問卷便將整個(gè)問卷分成了張編碼卡,但即使這樣每張卡的編碼長度仍舊比較長,比如卡一的編碼長度是,卡二的編碼長度是,卡三的編碼長度是,卡四的編碼長度是,卡五的編碼長度是,卡六的編碼長度是,卡七的編碼長度是,卡八的編碼長度是),因此在登錄錄入的環(huán)節(jié)中無論登錄員錄入員工作是多么的耐心細(xì)致,但是出現(xiàn)錯(cuò)誤便是在所難免的。 以上便是筆者總結(jié)歸納的傳統(tǒng)過程中的幾個(gè)常見問題,

45、同時(shí)總結(jié)了可能降低效率或者帶來錯(cuò)誤的地方。在目前絕大多數(shù)的問卷調(diào)查中,以上六條映射規(guī)則都是由人工來執(zhí)行的,因此下面我們所要做的就是結(jié)合現(xiàn)有的計(jì)算機(jī)技術(shù),對于計(jì)算機(jī)在編碼過程中的作用重新定位,看看計(jì)算機(jī)在提高效率降低錯(cuò)誤率上究竟可以做些什么。 計(jì)算機(jī)優(yōu)化的思路 先來看問題一:文字內(nèi)容轉(zhuǎn)換成數(shù)字選項(xiàng)。對于登錄員來說最大的困難便是必須記憶或者反復(fù)察看問卷前半部分以便知道所填寫文字所對應(yīng)的編碼項(xiàng)。而這個(gè)過程完全可以由計(jì)算機(jī)來代替,一來利用計(jì)算機(jī)強(qiáng)大的存儲(chǔ)功能,只需要實(shí)現(xiàn)把所有的文字對應(yīng)編碼項(xiàng)全部實(shí)現(xiàn)錄入電腦,計(jì)算機(jī)便可以立即而且是隨時(shí)給出相關(guān)的信息,而不像登錄員必須有一個(gè)漫長的記憶過程;二來由于計(jì)算機(jī)

46、是在數(shù)據(jù)庫中讀取文字對應(yīng)的編碼項(xiàng),因此幾乎不可能出現(xiàn)錯(cuò)誤發(fā)生的可能,而不像登錄員很容易出現(xiàn)記憶錯(cuò)誤而導(dǎo)致編碼的錯(cuò)誤。因此筆者認(rèn)為,這個(gè)過程完全可以由計(jì)算機(jī)來代替,登錄員只需要在計(jì)算機(jī)中選擇需要的文字,然后由計(jì)算機(jī)配對進(jìn)而輸出對應(yīng)的編碼項(xiàng)。 接著再來看問題二:高位補(bǔ)零。人工處理的時(shí)候困難主要在于很容易忘記執(zhí)行這條規(guī)則,造成編碼長度不正確的問題。而且從這條映射規(guī)則出現(xiàn)的原因來看,只是為了保證計(jì)算機(jī)能夠正確識(shí)別信息而制定的由人適應(yīng)電腦的規(guī)則。由人適應(yīng)電腦的初衷本來違背了本文由計(jì)算機(jī)代替人工進(jìn)行機(jī)械繁瑣工作的原則,因此筆者認(rèn)為與其保留這個(gè)步驟給登錄員代來麻煩,不如索性廢除這條映射規(guī)則。只需要能夠告訴計(jì)

47、算機(jī)問卷中每一道題目的內(nèi)容已經(jīng)錄入完畢,由計(jì)算機(jī)自動(dòng)處理進(jìn)行下一題的錄入,這樣就不需要隨時(shí)記住額外的錄入大量的零,給登錄員造成困惑。 然后再來看問題三:處理缺填選項(xiàng)。這條規(guī)則對于登錄員而言是最為麻煩,因?yàn)楸仨氹S時(shí)面對不同的處理方案。但是從計(jì)算機(jī)處理的角度來看,其實(shí)記憶那么多的處理方案完全不必要由登錄員來完成,完全可以交由計(jì)算機(jī)來完成,而登錄員所需要做的只是告訴計(jì)算機(jī)本項(xiàng)缺填,至于缺填之后應(yīng)該對應(yīng)的編什么樣的碼,那么就是計(jì)算機(jī)的工作了。 繼續(xù)看問題四:相倚問題的處理。正如前面所說的,相倚問題的處理很大程度上就類似于處理大量的缺填規(guī)則。所以就像我們用計(jì)算機(jī)來處理缺省規(guī)則五的方案那樣,具體的缺選項(xiàng)究

48、竟應(yīng)該編什么碼肯定將繼續(xù)由計(jì)算機(jī)來代勞。除此之外,計(jì)算機(jī)還有什么可以代勞的呢?我們可以發(fā)現(xiàn),如果一道篩選問題帶來的是跳過多道甚至大量的題目,登錄員仍舊需要一道一道的告訴計(jì)算機(jī)這些題目均為缺填,這仍然是一件麻煩的事情。因此我們更希望計(jì)算機(jī)能夠自動(dòng)判斷篩選問題,如果需要跳過大量題目的話,那么由計(jì)算機(jī)自動(dòng)將所有跳過的選項(xiàng)都按照缺填的方法來處理,這樣可以避免登錄員的無效錄入,有效的提高編碼效率。 最后問題五:既然錄入時(shí)的錯(cuò)誤是在所難免的,那么我們應(yīng)當(dāng)做的就應(yīng)當(dāng)是利用計(jì)算機(jī)把這個(gè)錯(cuò)誤發(fā)生的可能降低到最小。首先,我們在錄入的過程中就要避免錄入錯(cuò)誤。計(jì)算機(jī)應(yīng)當(dāng)能夠一發(fā)現(xiàn)可能的錄入錯(cuò)誤立刻提示錄入員,防患于未

49、然。計(jì)算機(jī)不是萬能的,它當(dāng)然不可能完全的就在錄入過程中發(fā)現(xiàn)錯(cuò)誤所在,但是對于某些明顯的錄入錯(cuò)誤,它還是有可能發(fā)現(xiàn)的。仍舊以浦東新區(qū)社會(huì)發(fā)展調(diào)查問卷為例,問卷卡一第題“您的性別:()男()女”,對應(yīng)的編碼列是第列。它可能的編碼只是或者,如果出現(xiàn)、以外的編碼,那么顯然是出現(xiàn)了登錄或者錄入的錯(cuò)誤。計(jì)算機(jī)對于這樣的錯(cuò)誤,通過事先設(shè)定的校驗(yàn)規(guī)則,完全是可以事先找出。其次,當(dāng)錄入完成后發(fā)現(xiàn)多錄入或者少數(shù)入了數(shù)據(jù)之后,如何能夠快速的進(jìn)行查找。對于查錯(cuò),一般而言二分法或者黃金分割法都是用來處理數(shù)據(jù)查錯(cuò)較好解決方案(具體的實(shí)施方法請參見相關(guān)資料),但是要利用二分法或者黃金分割法來進(jìn)行差錯(cuò),有兩個(gè)必要的前提:一、

50、能夠準(zhǔn)確快速的定位任何一個(gè)編碼列;二、快速的找出特定編碼列對應(yīng)的問卷答題項(xiàng),以便兩者進(jìn)行對比確定是否出現(xiàn)錯(cuò)誤。而在傳統(tǒng)的登錄錄入過程中要做到這兩點(diǎn)缺是相當(dāng)困難,對于第一個(gè)前提,在編碼表上固然可以增加豎向的列號,但是在錄入到計(jì)算機(jī)時(shí),一般采用的文本編輯軟件都缺乏相應(yīng)的編碼列號;而第二點(diǎn),則必須在知道編碼列號之后再查找問卷以確定相應(yīng)的題目,速度較慢。因此如何利用計(jì)算機(jī)來更好的解決這兩個(gè)問題,便是我們下文所要仔細(xì)解決的問題了 以上便是筆者對于計(jì)算機(jī)優(yōu)化的簡單分析,當(dāng)然上面討論的仍舊只停留在一個(gè)思路的階段,至于具體怎樣通過計(jì)算機(jī)來實(shí)現(xiàn),并且是最好的實(shí)現(xiàn),那便是本文后半部分的事情了。  

51、60;                            常用的計(jì)算機(jī)優(yōu)化方法的分析 對于上述的分析,相關(guān)的社會(huì)調(diào)查、市場調(diào)查人士多少早已有所認(rèn)識(shí),因此已經(jīng)有了一些通過計(jì)算機(jī)優(yōu)化的方法,方法的具體操作方法很多,不過如果從實(shí)現(xiàn)原理上來看,大致有種。而這三種計(jì)算機(jī)的優(yōu)化方法有一個(gè)共同的特點(diǎn):將編碼、登錄、錄入的過程融為一體,登錄

52、員在腦中完成編碼過程后便直接錄入計(jì)算機(jī),跳過登錄和錄入的過程。國內(nèi)的一些調(diào)查研究書中都沒有提到,但是在艾爾·巴比的社會(huì)研究方法中提到了此種方法的可行性,“假使搜集到的問卷資料已經(jīng)整理的非常完備了,你們就可以直接將這些資料錄入到電腦中,而不必要再用另外的編碼表甚至是連頁緣編碼也不用?!?第一種:利用非固定字段長度的數(shù)據(jù)庫(或者類似產(chǎn)品)。在很多小型的問卷調(diào)查中,我們會(huì)發(fā)現(xiàn)很多調(diào)查的問卷編碼錄入過程是利用EXCEL這樣的無固定長度數(shù)據(jù)庫產(chǎn)品來完成的,每一道題目占用EXCEL的一個(gè)表格列,登錄員每錄入完一道題目,按下TAB按鈕,進(jìn)入下一題的錄入。這種錄入方法的改進(jìn)不大,主要是提高的查錯(cuò)的方

53、便性。利用EXCEL的單元格標(biāo)記和表格頭,可以快速的進(jìn)行查錯(cuò)。但是這種方法有一個(gè)致命的缺點(diǎn),那就是帶來了很多的額外工作必須利用TAB鍵來表明題目之間的分割,如果遇到題目眾多而每一個(gè)小題編碼列教短的情況的話,那么增加的額外工作是很明顯的。還是以浦東新區(qū)社會(huì)發(fā)展調(diào)查問卷為例,此問卷共有需要編碼的題目289題(以問卷旁的編碼列行數(shù)計(jì)算),總編碼長度為585,如果采用傳統(tǒng)的錄入方法需要擊鍵586次(585個(gè)編碼數(shù)字+1個(gè)分行符表示問卷結(jié)束),而采用這種優(yōu)化方法,總共需要擊鍵874鍵(585個(gè)編碼數(shù)字+1個(gè)分行符表示問卷結(jié)束+288個(gè)TAB分隔符號表示題目技術(shù)),比原來的錄入方法多擊鍵49.15%,差錯(cuò)

54、便利性隨之帶來的錄入內(nèi)容冗長十分明顯。經(jīng)常容易造成在查錯(cuò)上節(jié)省的時(shí)間遠(yuǎn)遠(yuǎn)比不上多擊鍵的時(shí)間,優(yōu)化方法反而起不到優(yōu)化的作用,因此一般除了小型調(diào)查外,較少采用這種優(yōu)化方法。 第二種:利用固定字段長度的數(shù)據(jù)庫(或者類似產(chǎn)品)。這種方法實(shí)際上是對上面一種優(yōu)化方法的再次優(yōu)化,針對額外需要錄入的TAB分隔符進(jìn)行了改進(jìn)。至于改進(jìn)方法就是不使用EXCEL這樣的非固定字段長度的數(shù)據(jù)庫(或者類似產(chǎn)品),而是使用諸如FOXBASE、FOXPRO這樣的固定字段長度的數(shù)據(jù)庫(或者類似產(chǎn)品)。只需要實(shí)現(xiàn)設(shè)定好每一題的編碼長度,以后在編碼錄入的時(shí)候只要錄入完相應(yīng)的編碼,系統(tǒng)便會(huì)自動(dòng)跳到下一題的錄入,免去了大量徒勞的TAB按

55、鍵,提高了效率。不過這種方法同樣只能夠在時(shí)候差錯(cuò)上有一些優(yōu)化,其他的優(yōu)化作用幾乎沒有。 第三種:自編程序法。這種優(yōu)化方法較少看到有人采用,但是去不能否認(rèn)這是最完善的解決方案。所謂自編程序法就是請專門的程序員編制出針對特定問卷的錄入軟件,在程序編制的過程中就把事先設(shè)想好的優(yōu)化方法全部做到相應(yīng)的軟件中去。利用這樣的軟件進(jìn)行錄入優(yōu)化程度是最高的,幾乎可以完成上文中提到的所有的優(yōu)化思路,在給錄入工作帶來極大便利的同時(shí)還可以大大提高準(zhǔn)確性。但是,這種方法的優(yōu)化程度高是以犧牲通用性為代價(jià)的,為每一份問卷的錄入都必須要編寫一個(gè)特定的程序,不但因此必須付出額外而且是高昂的編制費(fèi)用,而且每換一份問卷就必須重新編

56、寫一次,可復(fù)用程度很低。而且如果需要諸如兩遍錄入校驗(yàn)或者網(wǎng)絡(luò)協(xié)同錄入等功能的時(shí)候,程序編制的難度會(huì)急劇增加,隨之而來的就是費(fèi)用的急劇增加。一般而言除非經(jīng)費(fèi)十分寬裕,否則不會(huì)采用這種方法。 以上簡單介紹了現(xiàn)在經(jīng)常采用的三種優(yōu)化方法,我們會(huì)發(fā)現(xiàn)他們雖然有優(yōu)點(diǎn),但是缺點(diǎn)更多。 但是我們從上述的三種方法里,可以大致的看出一個(gè)優(yōu)化的思路來,一個(gè)理想的計(jì)算機(jī)優(yōu)化方案應(yīng)該具有以下幾個(gè)特性: 1.所用軟件的廉價(jià)性。如果需要額外指出大筆費(fèi)用購置相應(yīng)軟件,這對于絕大多數(shù)調(diào)查來說是不可能的。所以我們希望解決方案中涉及的軟件價(jià)格最好相對較低,甚至免費(fèi)更好。 2.按題錄入,同時(shí)自動(dòng)處理題與題的間隔。也就是像上文說的優(yōu)化

57、方法二中的軟件那樣利用事先設(shè)定的題目編碼長度就可以自動(dòng)識(shí)別題與題的間隔。 3.錄入時(shí)即提供基本的查錯(cuò)功能,能夠處理諸如僅涉及(1)男(2)女的編碼項(xiàng)中出現(xiàn)3或者0的情況 4.提供良好的編碼提示。遇到諸如文字轉(zhuǎn)化為相應(yīng)編碼項(xiàng)的題目,能夠在登錄員需要的時(shí)候彈出選擇項(xiàng)供登錄員選擇。 5.對于相倚問題的自動(dòng)跳過。 6.支持雙錄入,并提供完善的雙錄入 查錯(cuò)功能,將可能的錄入錯(cuò)誤降到最低。                   &

58、#160;           回首頁簡要介紹幾種問卷錄入軟件                       作者:復(fù)旦大學(xué)社會(huì)學(xué)系   轉(zhuǎn)貼自:         

59、;                           針對問卷數(shù)據(jù)錄入的問題,目前已經(jīng)由軟件開發(fā)者開發(fā)了多款相應(yīng)的數(shù)據(jù)錄入專用軟件。既然在上文中我們已經(jīng)提出了作為一個(gè)優(yōu)秀的數(shù)據(jù)錄入軟件的幾點(diǎn)要求,那么下面就結(jié)合上述的幾個(gè)要求,一一對它們進(jìn)行比較分析,從中選擇出最適合我們要求的軟件來。 選擇一:SPSS Data Entry。從這個(gè)軟件的

60、名稱中我們就可以看出這個(gè)軟件和我們常用的社會(huì)統(tǒng)計(jì)軟件SPSS有著千絲萬縷的關(guān)系。SPSS Data Entry正是由同一個(gè)軟件軟件公司專門針對問卷設(shè)計(jì)、錄入環(huán)節(jié)開發(fā)的專用軟件,是一種快速、精確地錄入數(shù)據(jù)的有力工具。包括以下功能:1, 問卷設(shè)計(jì),同時(shí)建立數(shù)據(jù)庫結(jié)構(gòu),數(shù)據(jù)有效性檢驗(yàn)、字段間邏輯關(guān)系檢驗(yàn)、條件跳轉(zhuǎn)等??商幚矶噙x題。2, 問卷錄入,核對。在實(shí)際的使用過程中,不得不感嘆它的強(qiáng)大功能,幾乎可以完成我們上面談到的所有錄入優(yōu)化方法,而且都完成的盡善盡美。即使將它稱作最優(yōu)秀的問卷錄入軟件也毫不過份,但是最為遺憾的就是,SPSS Data Entry是一個(gè)大型的商業(yè)軟件,價(jià)格不菲,在國內(nèi)尚沒有看到

61、公開的報(bào)價(jià),雖然有代理公司代理銷售,但是從其臺(tái)灣95000新臺(tái)幣(約合31000人民幣)的售價(jià)來估算,它在國內(nèi)的售價(jià)也絕對不是普通的研究者所能夠承受的。高昂的價(jià)格使得它所帶來的優(yōu)勢變得毫無意義,因此在這里我們不得不被迫放棄選擇它作為編碼錄入計(jì)算機(jī)優(yōu)化的實(shí)現(xiàn)軟件。 選擇二:Quantum。Quantum是一套綜合統(tǒng)計(jì)軟件,一共由個(gè)部分組成,分別是:quanqest:主要是設(shè)計(jì)問卷;quancept:CATI;quinput:數(shù)據(jù)錄入(包含邏輯查錯(cuò)功能);quantum:程序編寫(包含再查錯(cuò)功能);quanver:交叉分析功能,并與SPSS、SAS有交口,輕松得到SPSS格式數(shù)據(jù)。其中我們需要使用

62、的就是它quinput的部分。和SPSS Data Entry類似,quinput同樣是一個(gè)優(yōu)秀的錄入優(yōu)化方案,它的方便程度不輸于SPSS Data Entry,國內(nèi)很多的市場調(diào)查公司使用的都是這款軟件。但是,Quantum的價(jià)格同樣令我們感到遺憾,該軟件采用軟件狗加密,在市場上不出售,只提供出租(類似SAS),年租金在人民幣8萬元左右。這樣的價(jià)格更不是我們所能夠承受的,因此只能夠忍痛割愛了。 選擇三:EPI INFO2000。EPI INFO 2000是專門為流行病學(xué)調(diào)查所設(shè)計(jì)的一套綜合統(tǒng)計(jì)軟件。與上面的軟件不同,它是CDC(美國疾病預(yù)防與控制中心)編制、為第三世界國家提供的免費(fèi)軟件,設(shè)計(jì)時(shí)

63、充分考慮了不發(fā)達(dá)國家的國情(所以對系統(tǒng)的要求非常低)和疾病調(diào)查數(shù)據(jù)的特點(diǎn),能很方便的對數(shù)據(jù)進(jìn)行儲(chǔ)存、核對、連接,當(dāng)然也可以進(jìn)行各種常用的流行病學(xué)統(tǒng)計(jì)分析,是到研究現(xiàn)場收集數(shù)據(jù)、進(jìn)行預(yù)分析的及好工具。該軟件可以從/epiinfo/下載得到,國內(nèi)曾經(jīng)流行過它之前的6.0版本,這里介紹的是最新的在WINDOWS下使用的2000版本。在EPI INFO2000中有一個(gè)十分好用的數(shù)據(jù)錄入模塊,在數(shù)據(jù)錄入時(shí),可執(zhí)行如重復(fù)(REPEAT)、只讀(READ ONLY)和必須(REQUIRED)等字段特點(diǎn)。合法和編碼字段有下拉(dropdown)數(shù)值表。多行字段在錄入文字時(shí)自動(dòng)翻滾。純文本字段翻滾到128個(gè)字符。是我們一個(gè)較好的選擇。不過在實(shí)際的使用過程中,筆者發(fā)現(xiàn)EPI INFO2000有兩個(gè)不小的缺陷:1.由于是使用Visual Basic進(jìn)行設(shè)計(jì)的,所以EPI INFO2000的執(zhí)行速度較慢。而且BUG(錯(cuò)誤不少),經(jīng)常會(huì)無緣不顧報(bào)錯(cuò),出現(xiàn)無法使用的情況。2.錄入過程以犧牲效率為代價(jià)過于簡單化了。使用過EPI INFO 2000錄入的人都會(huì)覺得用它錄入太簡單了,就和我

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論