版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Bibexcel進行文獻計量分析指南分析文本數(shù)據(jù)(中醫(yī)方劑和藥物分析)一、軟件簡介Bibexcel是一個用于文獻計量分析、特別是引文分析的完美工具。用戶可以在HYPERLINK http:/www.umu.se/inforskwww.umu.se/inforsk網(wǎng)站上獲得最新版本(據(jù)本人驗證,應(yīng)該是 HYPERLINK http:/www8.umu.se/inforsk/Bibexcel/ http:/www8.umu.se/inforsk/Bibexcel/這個網(wǎng)站)。其安裝也十分簡單,只需要把文件拷貝到硬盤的目錄下即可。記住,要把幫助文檔即:也放在同一個目錄下(在bibexcel打開的情況
2、下,按下F1即可出現(xiàn)幫助系統(tǒng)的內(nèi)容,不過是全英文的)。如果本指南不能滿足你的需求請到該網(wǎng)站上瀏覽網(wǎng)頁。Bibexcel 因其靈活性而十分強大,但過于靈活會在剛開始使用的時候會帶來一點點困惑,有的時候好幾件事情通過一個步驟就完成了,有的時候需要把幾種不同數(shù)據(jù)集結(jié)合在一起來處理文件。使用Bibexcel過程中需要幫助的時候可以按F1獲得幫助,但是這個幫助往往是面向比較熟練的用戶,老用戶明確自己要做什么因而需要略加指點后在Bibexcel下完成的任務(wù)。幸運的是還有一些筆記來填充教程和快速指南留下的空缺。二、原理介紹Bibexcel軟件的核心原理是“共詞分析法”。該方法最早起源于20 世紀70 年代中
3、后期,屬于內(nèi)容分析法的一種。該方法主要統(tǒng)計一組詞中兩兩之間同時出現(xiàn)于一篇文獻的次數(shù),以這種“共現(xiàn)”次數(shù)反映這些詞之間的關(guān)聯(lián)程度,然后借助聚類方法可分析學科的主題結(jié)構(gòu)。共詞分析法的原理可描述為:兩個詞的“共詞強度” (指兩個詞同時出現(xiàn)于一篇論文中的次數(shù))越高,則這兩個詞之間的關(guān)聯(lián)越緊密。1 定義共詞分析(Co-word Analysis)是通過對反映文獻主題內(nèi)容的關(guān)鍵詞進行統(tǒng)計分析,研究文獻內(nèi)在聯(lián)系和科學結(jié)構(gòu)。2 流程2.1 確定分析問題2.2 確定分析單元一種是從關(guān)鍵詞列表、標題、摘要等進行提取;另一種數(shù)據(jù)收集方式則是利用專門的語詞提取軟件直接從全文抽取。(本文講的方法與此有相似之處)2.3
4、高頻詞的選定高頻詞的確定主要有兩種方法:一種是結(jié)合研究者的經(jīng)驗在選詞個數(shù)和詞頻高度上平衡,該方法具有一定的主觀性;另一種是結(jié)合齊普夫第二定律輔助判定高頻詞的界限。(齊普夫定律是美國學者G.K.齊普夫于本世紀40年代提出的詞頻分布定律。它可以表述為:如果把一篇較長文章中每個詞出現(xiàn)的頻次統(tǒng)計起來,按照高頻詞在前、低頻詞在后的遞減順序排列,并用自然數(shù)給這些詞編上等級序號,即頻次最高的詞等級為1,頻次次之的等級為2,頻次最小的詞等級為。若用f表示頻次,r表示等級序號,則有frC(C為常數(shù))。人們稱該式為齊普夫定律。)(但是齊普夫的表達僅適宜于中頻詞的情況,高頻與低頻詞與該表述偏差較大。于是對詞頻分布規(guī)
5、律又有許多補充和深化的研究。)2.4 計算共詞頻率,得到共詞矩陣在共詞分析中,為方便詞對共現(xiàn)頻率的運算。設(shè)計共詞矩陣,對于N個高頻詞的共詞分析中,便形成一個N-N的共詞矩陣。共詞矩陣的計算方法有如下幾種:包容指數(shù)法、臨近指數(shù)法、相互包容系數(shù)法。2.5 對共詞矩陣進行處理,揭示共詞信息常用的分析方法如下。(1)共詞聚類分析法借助數(shù)據(jù)挖掘中的聚類分析法,對共詞關(guān)系網(wǎng)絡(luò)中的詞與詞之同的距離進行數(shù)學運算分析,將距離較近的主題詞聚集起來,形成一個個概念相對獨立的類團。類團分析是共詞聚類分析的核心內(nèi)容。(2)共詞關(guān)聯(lián)分析法在共詞關(guān)聯(lián)分析的過程,涉及到4個重要的概念:支持度、置信度、期望可信度、作用度。(3
6、)共詞詞頻分析法詞頻分析法是利用能夠揭示或表達文獻核心內(nèi)容的關(guān)鍵主題詞在某一研究領(lǐng)域文獻中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點和發(fā)展動向的文獻計量方法,是定性分析法的一種。(4)突發(fā)詞監(jiān)測法突發(fā)詞監(jiān)測是Kleinberg于2002年提出話題的突發(fā)監(jiān)測(Brust detection)算法,它關(guān)注焦點詞一相對增長率突然增長的詞。基于單個詞的詞頻增長率變化更有可能涉及到領(lǐng)域局部熱點的變化。3 應(yīng)用領(lǐng)域(1)揭示特定領(lǐng)域內(nèi)的研究主題及其層次之間的關(guān)系,以及其對應(yīng)的研究方向間的關(guān)系,劃分科學子研究領(lǐng)域并確定其研究結(jié)構(gòu);(2)從橫向和縱向角度揭示特定領(lǐng)域內(nèi)研究主題之間以及同其他研究主題之間的關(guān)系;(3)考
7、察特定研究領(lǐng)域內(nèi)研究主題發(fā)展的歷史脈絡(luò)及其子領(lǐng)域的演進態(tài)勢;(4)通過詞間關(guān)系的數(shù)據(jù)挖掘達到學科主題知識發(fā)現(xiàn)的目的。三、軟件操作以分析文本文檔為例由于Bibexcel設(shè)計之初是專門用于文獻計量分析、特別是引文分析的工具,該軟件用于對文獻的關(guān)鍵詞、標題、摘要、期刊等進行提取和分析。所以,在進行介紹本文的用bibexcel軟件進行中醫(yī)藥方劑和藥物分析的方法之前,先大概介紹一下bibexcel軟件正統(tǒng)的用法和意義。兩種用法的差別在于,用于bibexcel分析的起始文本文檔不同,其他的后續(xù)分析的操作方法,均一樣。(有點長,著急者,可以略過不看,不影響使用本軟件)Bibexcel是瑞典科學家佩爾松(pe
8、rsson)開發(fā)的文獻計量學研究軟件,Bibexcel用于幫助用戶分析文獻數(shù)據(jù)或者是文本類型格式的數(shù)據(jù),實現(xiàn)引文分析。Bibexcel處理的數(shù)據(jù)來自集成在ISIWeb of Knowledge平臺上的數(shù)據(jù)庫,包括Web of Science數(shù)據(jù)庫、DerwentInnovation Index數(shù)據(jù)庫和Medline數(shù)據(jù)庫等。Bibexcel除了對來源于上述數(shù)據(jù)庫中數(shù)據(jù)的相關(guān)知識單元(作者、關(guān)鍵詞、參考文獻等)做頻次分析和排序外,還實現(xiàn)了知識單元的共現(xiàn)關(guān)系矩陣。將產(chǎn)生的共現(xiàn)數(shù)據(jù)存入excel表格中,借助Ucinet、Netdraw可視化軟件,做進一步的可視化分析。在WOS(Web of Scie
9、nce),下載前需要對要下載的記錄進行標記。然后開始下載所選擇的論文,保證下載項目中包括論文的引文??梢酝ㄟ^“download for future analysis(為進一步分析而下載)”或者通過電子郵件發(fā)給自己,兩種方式都生成純文本文件。這個純文本文件是bibexcel進行分析的本體資料的開始。這個文本文檔在Bibexcel或者文本編輯器中打開的原始數(shù)據(jù)文件應(yīng)該是下面這個樣子:FN ISI Export FormatVR 1.0PT JournalAU Brown, SBlackmon, KTI Aligning manufacturing strategy and business-le
10、vel competitivestrategy in new competitive environments: The case forstrategic resonanceSO JOURNAL OF MANAGEMENT STUDIESNR 190CR 1998, IND WEEK 1207, V247, P22YOUNDT MA, 1996, ACAD MANAGE J, V39, P836ZAJAC EJ, 2000, STRATEGIC MANAGE J, V21, P429ZAJAC EJ, 1989, STRATEGIC MANAGE J, V10, P413BP 793EP 8
11、15PG 23JI J. Manage. Stud.PY 2005PD JUNVL 42IS 4GA 929TJJ9 J MANAGE STUD-OXFORDUT ISI:000229369000004ERPT JournalAU Brown, SCousins, PDTI Supply and operations: Parallel paths and integrated strategiesSO BRITISH JOURNAL OF MANAGEMENTNR 105CR ANDERSON JC, 1991, INT J OPER PROD MAN, V11, P86BADRI MA,
12、2000, OMEGA, V2, P155BEACH R, 2000, INT J OPER PROD MAN, V20, P7WOMACK J, 1996, LEAN THINKINGWOMACK J, 1990, MACHINE CHANGED WORLZAIRI M, 1992, INT J OPER PROD MAN, V12, P34BP 303EP 320PG 18JI BRIT. J. MANAGE.PY 2004PD DECVL 15IS 4GA 874LZJ9 BRIT J MANAGEUT ISI:000225353200002ERPT JournalAU Laycock,
13、 MTI Transforming Rover, renewal against the odds 1981-1994 -Pilkington,ASO LONG RANGE PLANNINGNR 1CR PILKINGTON A, 1994, T ROVER RENEWAL ODDSBP 738EP 739PG 2JI Long Range Plan.PY 1996PD OCTVL 29IS 5GA VW288J9 LONG RANGE PLANNUT ISI:A1996VW28800021ER現(xiàn)在,你可以開始使用Bibexcel了.注:每一個文檔都必須有個固定的開頭即:FN ISI Expo
14、rt FormatVR 1.0每條記錄以ER結(jié)束,所以上面這個文檔有三條完整的記錄。實際的文獻量遠不止這些,可以是幾百條記錄。其中PT,AU,SO,CD, PY等為標簽,可以要也可以不要,視自己的所需而定,這些縮寫詞具體所指如下:AU,author,【來源作者】TI,title,【來源篇名】/【來源文獻】SO,source,【期刊】/【來源期刊】DE,description,【標引詞】C1,unit,【機構(gòu)名稱】/【作者機構(gòu)】CR,referenceNR,coutPY,year,【年代卷期】等等。上面的文本文檔需要進行一定的處理,然后才能生成bibexcel可識別的文本文件。(如果是正統(tǒng)的用法
15、,如進行引文分析之類的,則轉(zhuǎn)換格式這方面內(nèi)容在Bibexcel的幫助文件中有很多介紹,運行Bibexcel時按下F1進入幫助系統(tǒng),查詢索引和條目,如下載、轉(zhuǎn)換到dialog和數(shù)據(jù)準備(downloading, convert to dialog, preparing the data)。在閱讀分析步驟之前閱讀介紹部分有益無害。)讓你的數(shù)據(jù)變成Bibexcel的正確格式的第一步是選擇好你的數(shù)據(jù)文件然后點擊“Misc- Convert to dialog-convert from Web of Science”菜單。如果沒有這樣處理過文件,則需要通過在左上角選擇原始數(shù)據(jù)(使用view file查看
16、文件按鈕來檢查),然后利用菜單命令:Misc-Convert to dialog-convert from Web of Science。最后會得到一個.doc文件(與你原始文件同文件名,只不過是以.doc結(jié)尾)。在抽取出你要進一步分析的字段之前,選擇和查看這個文件,比如在每一行的開頭是否有完好的標簽(PT-, AU-, SO-, CD-, PY-等),這些標簽表明記錄的內(nèi)容,是否有干凈的行結(jié)束標識“|”和記錄結(jié)束標志“ER |”。注意Bibexcel如何把分號作為的字段中多個條目的分隔符,比如作者和引文。這些分隔符會有助于以后分析中把各個條目分割開來。轉(zhuǎn)換結(jié)果如下:PT- Journal|A
17、U- Brown S; Blackmon K|TI- Aligning manufacturing strategy and business-level competitive strategy in new competitive environments: The case for strategic resonance|SO- JOURNAL OF MANAGEMENT STUDIES|NR- 190|CD- 1998, IND WEEK 1207, P22, V247; YOUNDT MA, 1996, V39, P836, ACAD MANAGE J; ZAJAC EJ, 2000
18、, V21, P429, STRATEGIC MANAGE J; ZAJAC EJ, 1989, V10, P413, STRATEGIC MANAGE J|BP- 793|EP- 815|PG- 23|JI- J. Manage. Stud|PY- 2005|PD- JUN|VL- 42|IS- 4|GA- 929TJ|J9- J MANAGE STUD-OXFORD|JN- JOURNAL OF MANAGEMENT STUDIES, 2005, V42, N4, P793-815|UT- ISI:000229369000004 ER|PT- Journal|AU- Brown S; Co
19、usins PD|TI- Supply and operations: Parallel paths and integrated strategies|SO- BRITISH JOURNAL OF MANAGEMENT|NR- 105|CD- ANDERSON JC, 1991, V11, P86, INT J OPER PROD MAN; BADRI MA, 2000, V2, P155, OMEGA; BEACH R, 2000, V20, P7, INT J OPER PROD MAN; WOMACK J, 1996, LEAN THINKING; WOMACK J, 1990, MA
20、CHINE CHANGED WORL; ZAIRI M, 1992, V12, P34, INT J OPER PROD MAN|BP- 303|EP- 320|PG- 18|JI- BRIT. J. MANAGE|PY- 2004|PD- DEC|VL- 15|IS- 4|GA- 874LZ|J9- BRIT J MANAGE|JN- BRITISH JOURNAL OF MANAGEMENT, 2004, V15, N4, P303-320|UT- ISI:000225353200002 ER|PT- Journal|AU- Laycock M|TI- Transforming Rover
21、 renewal against the odds 1981-1994 -Pilkington,A|SO- LONG RANGE PLANNING|NR- 1|CD- PILKINGTON A, 1994, T ROVER RENEWAL ODDS|BP- 738|EP- 739|PG- 2|JI- Long Range Plan|PY- 1996|PD- OCT|VL- 29|IS- 5|GA- VW288|J9- LONG RANGE PLANN|JN- LONG RANGE PLANNING, 1996, V29, N5, P738-739|UT- ISI:A1996VW28800021
22、 ER|上面是bibexcel用于Web of Science之類文獻分析的文檔的轉(zhuǎn)換。據(jù)本人的試驗,可被bibexcel識別的原始數(shù)據(jù)文件只要包括下面紅線的三個部分即可,即:文檔開頭、來源文獻和結(jié)束標志。其他標簽代號,可有可無。 下面則介紹如何生成一個可以被bibexcel識別的中醫(yī)方劑藥物的文本文檔。1. 將數(shù)據(jù)轉(zhuǎn)換成TXT格式 將數(shù)據(jù)輸入成如下的格式,如圖:其中“TI-”是標簽,本義是“標題”(也就是文章的篇名),在本方法中,此標簽并無實際意義,只是作為一個標識符而已,相當于是一個偽冒的“標題”。“TI-”后面跟一個空格,然后輸入具體藥名,每個藥名之間也用一個空格分開。(上面說的空格是英
23、文的空格,即一個字符串,不是漢語的空格兩個字符串)每一首方劑的最后一味藥物后面跟一個“|”標記,表示該方劑結(jié)束。(也就是該行結(jié)束),然后摁回車鍵,另起下一行。此處僅舉幾例,實際上可以分析幾百首以上的方劑。 2. 抽取“TI-”字段的內(nèi)容生成.out文件在完成上述格式轉(zhuǎn)換后,我們就可以創(chuàng)建OUT文件了。創(chuàng)建OUT文件是我們使用Bibexcel軟件進行文獻計量學分析的第一步。第一步:在文件管理系統(tǒng)中選擇上面的實例文本文檔“新建文本文檔.txt”,點擊“view file”查看該文檔。如圖:第二步:在“Old tag”文本框中鍵入字段標識符“TI” 標簽。第三步:在“Select field to
24、be analysed”下拉框中,選擇正確的數(shù)據(jù)格式(blank separated field to treat each word alone,字段由空格分隔使每一個單元獨立計數(shù))。第四步:點擊“prep”按鈕,在出現(xiàn)的一系列對話框中,按下圖所示選擇各個提示框,完成OUT文件的創(chuàng)建,即:“確定”“否”“否”。生成的.out文件(即將方劑中的每一味藥單獨提取出來,以便統(tǒng)計分析)。第一列的數(shù)字表示來源的方劑序號。此處可按下F1查看進一步操作這個.out文件的數(shù)據(jù)的幫助內(nèi)容(英文的)。附:各標簽代號的對話框選擇(了解一下,以便日后備用)根據(jù)你要分析的知識單元,在Old Tag中填寫相應(yīng)的標簽代號
25、。 作者、關(guān)鍵詞、機構(gòu)、參考文獻、被引期刊的標簽依次為AU、DE、C1、CD、CD。輸入相應(yīng)的標簽后,在Select field to be analysed下拉列表框中選擇“Any ; separated field”; 如果要分析標題,在輸入TI標簽后,在Select field to be analysed下拉列表框中選擇“blank separated field to treat each word alone”; 如果要分析被引期刊,在輸入CD標簽后,在Select field to be analysed下拉列表框中選擇“JN-Journal”。然后點Prep,在彈出的對話框中,
26、點擊“確定”,生成后綴名為.out文件。與此對應(yīng)的是:不同標簽代號生成cit文件的對話框選擇(后面詳述)選中.out,在Frequency distribution(頻率分布)下拉列表框中選擇相應(yīng)的分析對象, 分析作者共現(xiàn),選擇“Author” 分析關(guān)鍵詞共現(xiàn),選擇“whole string” 分析機構(gòu)共現(xiàn),選擇“whole string” 分析參考文獻共現(xiàn),選中“Cited Reference” 分析被引期刊共現(xiàn),選擇“whole string”。 分析標題詞共現(xiàn),選擇“whole string”選擇相應(yīng)的分析單元后,在下面的復選框中選擇“Sorted descending(降序排列)”,點
27、擊Start按鈕,在彈出的窗口中,點擊“確定”,生成后綴名為.cit文件。當然,你還可以用來自其他數(shù)據(jù)源(如數(shù)據(jù)庫或者excel)生成自己的.out文件,然后用Bibexcel執(zhí)行下面分析步驟。只要保證是同一格式并且是純文本。3. 計算頻率分布生成.cit文件第一步:在文件管理系統(tǒng)中選擇OUT文件。第二步:在“Select type of Unit”下拉框中,選擇計數(shù)單位,如“whole strings”。并在在下方的多選框中,選擇排序方式,如選擇“Sort descending”,即按降序排列。第三步:點擊“Start”按鈕。在出現(xiàn)的對話框中,按下圖所示選擇提示框,完成*.cit文件的創(chuàng)建,
28、即:“確定”。生成的*.cit文件,顯示各味藥物在方劑中出現(xiàn)的頻次,按降序排列,可以看出:生姜出現(xiàn)5次,甘草出現(xiàn)5次,半夏5次,防風4次。如圖:附注:在下方的多選框中,選擇計算方法,默認的計算方法是“whole counts”,可以改變?yōu)椤癴ractional counts”。(不過本人沒有試驗過)4. 共現(xiàn)分析生成. COC文件了解了來源文獻或者引文中的各個字段的頻數(shù)之后,有一種有意義的探索即:“共現(xiàn)和網(wǎng)絡(luò)”,該法是了解引文或者字詞之間的關(guān)系和網(wǎng)絡(luò)/地圖。這種探索在Bibexcel中叫做共現(xiàn),在幫助文件的生成矩陣部分有介紹??梢杂媚阈枰娜魏螖?shù)據(jù)建立共現(xiàn)矩陣。下面說明如何利用Bibexcel
29、軟件進行最基本的文獻計量學分析。Analyze菜單包括一系列特殊功能,使我們可以完成引文網(wǎng)絡(luò)分析,以及其他共現(xiàn)分析。書目記錄中的一個共現(xiàn)關(guān)系意味著兩個單元共同出現(xiàn)在同一個元數(shù)據(jù)字段中。很明顯,兩個單元只有一個共現(xiàn)關(guān)系是沒有意義的,但如果兩個單元的共現(xiàn)關(guān)系頻繁出現(xiàn)在一定量的記錄中,就是很有趣的了。創(chuàng)建COC文件的步驟:第一步:在“Select file here”中選中CIT文件,點擊“View file”查看文檔。在“The List”框中顯示cit文件的內(nèi)容(選中與顯示,兩者有別,詳后)。第二步:從cit文件列表中標記將要分析的單元。 選擇將要分析的單元,將要分析的單元在主窗口中涂藍,加亮。
30、 從菜單條中選擇“Analyze-Co-occurrence-Select units via listbox” 本案例,對頻次在2以上的藥物做一共現(xiàn)分析,作為示例,如上圖。 在“Select file here”中選中OUT文件。注意:不要在The List中顯示OUT文件,即不要查看該文件(即不要點擊“View file”按鈕,)。因為,你要保持你剛剛選擇的單元涂藍,加亮中。第三步:從菜單中選擇“Analyze-Co-occurrence-Make pairs via listbox” 這個過程將會生成coc文件。在出現(xiàn)的一系列對話框中,按下圖所示選擇各個提示框,完成coc文件的創(chuàng)建,即:
31、“否”“確定”。生成的coc文件(即將方劑中的每兩味藥進行共現(xiàn)分析),里面包含共現(xiàn)頻次以及配對的兩個項目。第一列的數(shù)字表示某兩味藥共現(xiàn)的頻次。其中,半夏和生姜共現(xiàn)的次數(shù)是5次,甘草和枳殼共現(xiàn)的次數(shù)是5次,茯苓和生姜共現(xiàn)的次數(shù)是5次,等等。如圖:在.coc文件上可供執(zhí)行的操作有:1. 聚類分析(使用Persson Party Clustering算法,算法原理不詳)2. 生成可供進行MDS分析的矩陣。在.coc文件中生成共現(xiàn)數(shù)據(jù),然后這個文件可以轉(zhuǎn)換成為類似excel四格表的矩陣,其中單元格的數(shù)字是行和列標題的頻數(shù)。如同上面所說的,兩個單元只有一個共現(xiàn)關(guān)系是沒有意義的,只有當兩個單元的共現(xiàn)關(guān)系頻
32、繁出現(xiàn)在一定量的記錄中,才有意義。所以,為了保證分析的共現(xiàn)關(guān)系有意義,以及節(jié)省分析時間,要選取出現(xiàn)一定頻次的藥物進行共現(xiàn)分析。(當然,這個分析時間是相當快的。還有,也可以對所有藥物進行共現(xiàn)分析,那就不需要這一步操作,直接進入第三步操作。)對于一定頻次的界定,也即“高頻詞的選定”有兩種方法,上文已論。復述如下:結(jié)合研究者的經(jīng)驗在選詞個數(shù)和詞頻高度上平衡,該方法具有一定的主觀性;結(jié)合齊普夫第二定律輔助判定高頻詞的界限,該方法僅適宜于中頻詞的情況,高頻與低頻詞與該表述偏差較大。作為用來輔助中醫(yī)的工具,高頻詞的選定應(yīng)該以中醫(yī)的醫(yī)理為主。5. 進行MDS矩陣分析生成. ma2文件該操作有兩種方法。第一種
33、方法:(來自本文后面所附)第一步:在“Select file here”中選中.cit文件,點擊“view file”。附:該法也可以在The List顯示窗口中選擇頻次較高的前多少位分析對象,然后點擊“Analyze-co-occurrence-select units via listbox”。第二步:選中.coc文件,點擊“Analyze-make a matrix for MDS etc” 在對話框依次選擇“確定”“否”“是”“否”“是”“確定”。生成ma2文件,得到矩陣,(可選擇生成方陣,還是下三角矩陣)如圖: 第三步:生成的共現(xiàn)矩陣文件名為.ma2,將其打開,另存為后綴名為.xls
34、文件。第二種方法:分為兩步,先生成.ccc文件,再生成.ma2文件。(來自“bibexcel_操作步驟”一文)第一步:在“Select file here”中選中.coc文件,再選擇工具欄“Analyze-List units in pairs”,得到后綴名為.ccc的文件。在出現(xiàn)的對話框中選擇“確定”生成的ccc文件,如圖:第二步:在“Select file here”中選中.ccc文件,并查看,并在文件列表中單擊文件“關(guān)鍵詞.coc”(只選中,不查看),再選擇工具欄“Analyze-Make a matrix for MDS etc”,即得到共詞矩陣。在對話框依次選擇“確定”“否”“是”“
35、否”“是”“確定”即生成ma2文件,得到矩陣,如圖:不過,似乎這兩種方法做出來的結(jié)果不一樣。(本人認為還是以第一種方法為主)一般用戶都需要一個含有.coc文件中項目的正方形矩陣。為了把.coc文件中數(shù)據(jù)列表轉(zhuǎn)換為矩陣,像從前那樣選擇同樣的單詞加亮它們:使用“analyse: coocurrance: select units via listbox”,然后選擇你的.cit文件,操作“analyse: make a matrix”,生成一個.ma2結(jié)果矩陣文件,由于它仍然是純文本文件,可以用于其他程序中。將這些矩陣文件輸入到UCINET等其他程序中的一個問題是,矩陣中只有每一列的頂部帶有標簽而側(cè)
36、面行則沒有,解決問題的辦法就是重新構(gòu)建矩陣。這就需要先把.ma2文件轉(zhuǎn)換并且保存為到excel文件。即打開該excel文件,先插入一個新的空列,再把頂部第一行拷貝下來,然后選擇“edit(編輯): paste special(選擇性粘貼): transpose(轉(zhuǎn)置)”,點擊“確定”后就把標簽加到每一行的前面了。這就生成了一個帶有完整標簽的正方共現(xiàn)矩陣,更像一個四格表可以輸入到SPSS中進行因子分析,對項目進行統(tǒng)計分組。至此,文獻數(shù)據(jù)知識單元共現(xiàn)關(guān)系矩陣構(gòu)建完畢。我個人一般使用像UCINET之類的程序?qū)@些數(shù)據(jù)進行進一步的網(wǎng)絡(luò)分析,因為.coc文件與帶有標記的.DL格式數(shù)據(jù)文件類似,但是把頻數(shù)
37、放在最左邊而不是右邊的一列,把數(shù)據(jù)轉(zhuǎn)移到UCINET相對容易。如果你也想做這些分析,請閱讀UCINET的幫助文件了解如何把數(shù)據(jù)輸入到分析軟件中去。我采用的步驟包括把.coc文件輸入到excel中去,剪切左側(cè)一列的頻數(shù)并復制到右邊,把所有三列剪切粘貼到一個文本編輯器,給文件添加標題使其具有DL格式,比如:從UCINET中獲得的結(jié)果往往會提供有關(guān)數(shù)據(jù)矩陣狀態(tài)的清晰視圖,如下圖,并且可以使用更多的分析工具。Pilkington個體網(wǎng)的作者同被引圖6. 創(chuàng)建供pajek軟件使用的文件生成net、vec和c lu文件1. 創(chuàng)建net文件第一步 選擇*.coc文件。第二步 從菜單條中選擇 Mapping-
38、Create net-file for pakek. 這個過程將會生成net文件。2. 創(chuàng)建vec文件3. 創(chuàng)建clu文件在創(chuàng)建clu文件之前,首先要執(zhí)行聚類分析,聚類分析的過程會產(chǎn)生*.per、*.pe2和*.pe3等三種類型文件。創(chuàng)建clu文件依賴的是*.pe2文件。第一步 選擇*.pe2文件。第二步 從菜單條中選擇 Mapping-Create clu-file 這個過程將會生成clu文件。引文耦合對于引文共現(xiàn)和同被引分析在描繪文獻之間關(guān)系上還有一些爭議,有人推薦使用引文耦合(bibliometric coupling,書目對)。引文耦合不是分析不同被引文獻之間的聯(lián)系,而是顯示和分析來源
39、文獻之間的聯(lián)系,不用說,使用Bibexcel中的共現(xiàn)單元方法也可以實現(xiàn)這種分析。Alan Pilkington9.1.0610Alan Pilkington 【HYPERLINK mailto:a.pilkingtonrhul.ac.uka.pilkingtonrhul.ac.uk】【翻譯:zilu85hotmai】【中醫(yī)方劑藥物分析方法編輯:雨巖舊客、309300772】擴展閱讀bibexcel傳統(tǒng)用法 引文共現(xiàn)與分析軟件Bibexcel瑞典科學家佩爾松(persson)開發(fā)的文獻計量學研究軟件Bibexcel7用于幫助用戶分析文獻數(shù)據(jù)或者是文本類型格式的數(shù)據(jù),實現(xiàn)引文分析。Bibexcel
40、處理的數(shù)據(jù)來自集成在ISI Web of Knowledge平臺上的數(shù)據(jù)庫,包括Web of Science數(shù)據(jù)庫、Derwent Innovation Index數(shù)據(jù)庫和Medline數(shù)據(jù)庫等。Bibexcel除了對來源于上述數(shù)據(jù)庫中數(shù)據(jù)的相關(guān)知識單元(作者、關(guān)鍵詞、參考文獻等)做頻次分析和排序外,還實現(xiàn)了知識單元的共現(xiàn)關(guān)系矩陣。將產(chǎn)生的共現(xiàn)數(shù)據(jù)存入excel表格中,借助Ucinet、Netdraw可視化軟件,做進一步的可視化分析。Bibexcel界面如圖1所示。Bibexcel構(gòu)建知識單元共現(xiàn)關(guān)系矩陣處理流程如下:Step1:打開Bibexcel,出現(xiàn)上圖所示的操作界面,在select f
41、ile here這個框口中選擇數(shù)據(jù)源所在的文件夾,右邊的窗口會顯示出這個文件夾中的所有文件。選中合并后的文本文檔,先點擊“Edit doc file-Repalce line feed with carriage return”點擊“Misc-convert to diologe format-convert from web of science”,會彈出一個對話框,點擊“確定”,就會生成一個后綴名為.doc的文件;Step2:選中.doc文件,點擊View file按鈕,The list窗口就會顯示這個文件的內(nèi)容。根據(jù)你要分析的知識單元,在Old Tag中填寫相應(yīng)的標簽代號。作者、關(guān)鍵詞、
42、機構(gòu)、參考文獻、被引期刊的標簽依次為AU、DE、C1、CD、CD。輸入相應(yīng)的標簽后,在Select field to be analysed下拉列表框中選擇“Any ; separated field”;如果要分析被引期刊,在輸入CD標簽后,在Select field to be analysed下拉列表框中選擇“JN-Journal”,然后點Prep按鈕,在彈出的對話框中,點擊“確定”,生成后綴名為.out文件;Step3:選中.out, 在Frequency distribution(頻率分布)下拉列表框中選擇相應(yīng)的分析對象,如果分析作者共現(xiàn),選擇“Author”;如果分析關(guān)鍵詞共現(xiàn),選擇
43、“whole string”;如果分析機構(gòu)共現(xiàn),選擇“whole string”;如果分析參考文獻共現(xiàn),選中“Cited Reference”; 如果分析被引期刊共現(xiàn),選擇“whole string”;選擇相應(yīng)的分析單元后,在下面的復選框中選擇“Sorted descending(降序排列)”,點擊Start按鈕,在彈出的窗口中,點擊“確定”,生成后綴名為.cit文件;Step4:選中.out文件,在Frequency distribution下面的復選框中選擇“remove duplicate(取消復制)”和“make new out-file(生成新的out文件)”,點擊Start按鈕,在
44、彈出的窗口中,點擊“確定”,生成后綴名為.oux文件;Step5:選中.cit文件,點擊“view file”, 在The List顯示窗口中選擇頻次較高的前多少位分析對象,然后點擊“Analyze-co-occurrence-select units via listbox”,然后選中.oux文件, 點擊“Analyze-co-occurrence-make pairs via listbox”,在彈出的窗口中,點擊“否”,此時生成后綴名為.coc文件;Step6:選中.cit文件,同樣點擊“view file”, 在The List顯示窗口中選擇頻次較高的前多少位分析對象,然后點擊“Ana
45、lyze-co-occurrence-select units via listbox”,然后選中.coc文件,點擊“Analyze-make a matrix for MDS etc”, 在彈出的對話框中,按照提示,點“是”還是“否”,選擇生成方陣還是下三角矩陣,生成的共現(xiàn)矩陣文件名為.ma2,將其打開,另存為后綴名為.xls文件。一般用戶都需要一個含有.coc文件中項目的正方形矩陣。為了把.coc文件中數(shù)據(jù)列表轉(zhuǎn)換為矩陣,像從前那樣選擇同樣的單元加亮它們:使用“analyse: coocurrance: select units via listbox”,然后選擇你的.cit文件,操作“a
46、nalyse: make a matrix”,生成一個.ma2結(jié)果矩陣文件,由于它仍然是純文本文件,可以用于其他程序中。將這些矩陣文件輸入到UCINET等其他程序中的一個問題是,矩陣中只有每一列的頂部帶有標簽而側(cè)面行則沒有,解決問題的辦法就是重新構(gòu)建矩陣。這就需要先把.ma2文件轉(zhuǎn)換并且保存為到excel文件。即打開該excel文件,先插入一個新的空列,再把頂部第一行拷貝下來,然后選擇“edit(編輯): paste special(選擇性粘貼): transpose(轉(zhuǎn)置)”,點擊“確定”后就把標簽加到每一行的前面了。這就生成了一個帶有完整標簽的正方共現(xiàn)矩陣,更像一個四格表可以輸入到SPSS中進行因子分析,對項目進行統(tǒng)計分組。至此,文獻數(shù)據(jù)知識單元共現(xiàn)關(guān)系矩陣構(gòu)建完畢。Bibexcel可以構(gòu)建作者共現(xiàn)矩陣、關(guān)鍵詞共現(xiàn)矩陣、機構(gòu)共現(xiàn)矩陣、參考文獻共現(xiàn)矩陣。為了直觀理解各知識單元之間的共現(xiàn)關(guān)系,需要進一步借助可視化分析軟件來實現(xiàn)。先使用Ucinet軟件將
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年健身俱樂部會員卡續(xù)費合同3篇
- 二零二五年度城市道路燈箱廣告經(jīng)營權(quán)轉(zhuǎn)讓合同3篇
- 二零二五年度共享辦公空間租賃管理協(xié)議8篇
- 專用自卸車建設(shè)項目可行性研究報告申請立項備案
- 二零二五年度別墅買賣合同:豪華住宅產(chǎn)權(quán)轉(zhuǎn)讓范本3篇
- 2025年度消防安全宣傳教育培訓合同范本3篇
- 淮北市和淮南市2025屆高三第一次質(zhì)量檢測(一模)地理試卷(含答案)
- 化學-安徽省淮北市和淮南市2025屆高三第一質(zhì)量檢測(淮北淮南一模)試題和答案
- 2020-2021學年【江西省撫州市】八年級(上)期末生物試卷
- 2025年山西文旅集團招聘筆試參考題庫含答案解析
- 【8地RJ期末】安徽省蕪湖市無為市2023-2024學年八年級上學期期末地理試題(含解析)
- 2023學年杭州市十四中高二數(shù)學(上)期末考試卷附答案解析
- 新增值稅法學習課件
- 五級(程控交換)職業(yè)技能鑒定理論考試題及答案
- 醫(yī)療救護合作協(xié)議
- 《微元法的應(yīng)用》課件
- 文職-管理學基礎(chǔ)知識點
評論
0/150
提交評論