自然語言處理技術(shù)在中高職課程銜接中的應(yīng)用_第1頁
自然語言處理技術(shù)在中高職課程銜接中的應(yīng)用_第2頁
自然語言處理技術(shù)在中高職課程銜接中的應(yīng)用_第3頁
自然語言處理技術(shù)在中高職課程銜接中的應(yīng)用_第4頁
自然語言處理技術(shù)在中高職課程銜接中的應(yīng)用_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、.自然語言處理技術(shù)在中高職課程銜接中的應(yīng)用-職業(yè)技術(shù)教育論文自然語言處理技術(shù)在中高職課程銜接中的應(yīng)用 申玫徐寧趙曉玲(青島遠(yuǎn)洋船員職業(yè)學(xué)院山東青島266071)摘要:在中高職課程銜接的實際中,存在著中高職專業(yè)設(shè)置不對口、專業(yè)課程內(nèi)容重復(fù)等問題。為了選擇對口專業(yè)及查找重復(fù)課程,采用人工手段對教育教學(xué)文件進(jìn)行分析研究,效率低、精確性差。而使用計算機(jī)自然語言處理技術(shù)對中高職教學(xué)文件中的文本數(shù)據(jù)進(jìn)行分析,可以快速獲得中高職相關(guān)專業(yè)之間的相似度及專業(yè)課程內(nèi)容之間的重復(fù)度,為課程設(shè)置提供科學(xué)依據(jù)。將自然語言處理技術(shù)用于青島遠(yuǎn)洋船員職業(yè)學(xué)院“船舶工程技術(shù)”專業(yè)中高職課程銜接問題上,對相關(guān)文件進(jìn)行分析,得到合

2、理的結(jié)論。關(guān)鍵詞:中高職銜接;自然語言處理技術(shù);課程設(shè)置中圖分類號:G712 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-5727( 2015 )11-0060-04作者簡介:申玫(1984-),女,青島遠(yuǎn)洋船員職業(yè)學(xué)院船舶與海洋工程系講師,研究方向為船舶與海洋工程教學(xué) 和研究?;痦椖浚?013年交通運(yùn)輸職業(yè)教育教學(xué)指導(dǎo)委員會科研項目“船舶工程技術(shù)專業(yè)群中高職教育課程銜接研究”(項目編號:2013840)中高職教育課程銜接主要存在兩個方面的難題:其一,中高職教育沒有實行專業(yè)歸類對口招生報考制度,造成中高職專業(yè)設(shè)置的對應(yīng)關(guān)系不明確,各院校自行選擇對接專業(yè),造成很多中職專業(yè)在升高職時不對口。其二,中高職

3、專業(yè)課程內(nèi)容重復(fù),使中職畢業(yè)生升入高職時重復(fù)學(xué)習(xí)相同的課程內(nèi)容。在我國,中高職課程銜接仍然依賴于專家經(jīng)驗。對口專業(yè)的判斷及重復(fù)課程的篩選是通過對“人才培養(yǎng)方案”和“課程標(biāo)準(zhǔn)”等文本文件的內(nèi)容進(jìn)行人工分析。面對多個專業(yè),每個專業(yè)數(shù)十門課程,采用人工分析,工作效率低,專業(yè)的對口程度和課程重復(fù)程度難以精確的衡量。為了科學(xué)高效地進(jìn)行中高職課程銜接,不能僅僅依賴經(jīng)驗和人工分析,而應(yīng)該運(yùn)用計算機(jī)技術(shù),對各院校多年積累的課程數(shù)據(jù)文件進(jìn)行深入分析研究,使中高職課程銜接方法具備精確性和實用性。如何讓計算機(jī)對“人才培養(yǎng)方案”和“課程標(biāo)準(zhǔn)”等文本文件進(jìn)行自動識別分析是科學(xué)高效進(jìn)行中高職課程銜接的關(guān)鍵。自然語言處理(

4、Natural Language Processing,簡稱NLP)就是用計算機(jī)來處理、理解以及運(yùn)用人類語言(如中文、英文等),它屬于人工智能的一個分支,是計算機(jī)科學(xué)與語言學(xué)的交叉學(xué)科,又常被稱為計算語言學(xué),是計算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。自然語言處理技術(shù)可以實現(xiàn)文本分類聚類、文本自動摘要、機(jī)器翻譯、檢索系統(tǒng)、問答系統(tǒng)、人機(jī)交互等諸多功能,其中重要的一項任務(wù)就是文本相似度分析。文本相似度分析最為著名的應(yīng)用案例之一是搜索引擎,如谷歌、百度等,人們能通過輸入文字來查找相關(guān)的新聞等網(wǎng)絡(luò)資源,另外,在檢測學(xué)術(shù)論文是否抄襲方面文本相似度也有其關(guān)鍵技術(shù)的應(yīng)用。所謂文本相似度計算是指利用計算

5、機(jī)自動計算文本間的相似程度,文本相似度是表示兩個或多個文本之間相似程度的一個度量參數(shù),相似度大,說明文件相似程度高,反之文件相似程度就低。本文運(yùn)用自然語言處理中的文本相似度算法對中高職課程相關(guān)的文本數(shù)據(jù)進(jìn)行分析,能夠快速地找出中高職對口專業(yè),指導(dǎo)課程銜接方案的合理設(shè)置。一、自然語言處理中的文本相似度算法文本相似度度量任務(wù)就是衡量兩個文本之間語義相似的程度,是自然語言處理中一個非常重要的任務(wù)。常規(guī)的文本相似度度量方法是將文本轉(zhuǎn)化詞匯的集合,分析每個詞在單個文本中出現(xiàn)的次數(shù)以及在整個語料庫中出現(xiàn)的次數(shù),進(jìn)而利用每個文本的詞頻信息構(gòu)建為一個向量,并利用向量間的余弦相似度或Jaccard相似度等方法計

6、算文本之間的相似度。圖1顯示了文本相似度算法的主要流程。 (一)預(yù)處理計算機(jī)可以快速地計算出兩列數(shù)組之間的相似度,也可以分析出兩個矩陣之間的相似度,但對于兩篇文本來說,相似度的計算要相對復(fù)雜。因為,文本是非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)挖掘的算法要應(yīng)用到文本對象之上,就必須對文本進(jìn)行預(yù)處理,使其結(jié)構(gòu)化,即將文本轉(zhuǎn)化為數(shù)組或向量。對于中文文本的預(yù)處理技術(shù)主要包括中文分詞和停用詞過濾兩個方面。1中文分詞技術(shù)中文文本與英文文本不同,詞與詞之間沒有空格,讀者閱讀時要根據(jù)經(jīng)驗和語言知識來自行分詞。因而,計算機(jī)對于中文的處理相對于以英文為代表的西文處理存在更大的難度?,F(xiàn)有的分詞方法主要有:基于字符串匹配的分詞方法、基

7、于理解的分詞方法和基于統(tǒng)計的分詞方法。對于分析者來說,自行開發(fā)中文分詞算法難度較大,目前有很多開源的軟件和在線工具都可以完成分詞工作,如Jieba、SCWS、中科院張華平開發(fā)的ICTCLAS、武漢大學(xué)沈陽開發(fā)的ROST-CM等。2停用詞過濾在文本處理中,有一些詞出現(xiàn)頻繁但意義不大,為了提高文本的分析速度和精度,須將這些詞忽略。比如,“的”、“在”、“是”等幾乎是中文文本中出現(xiàn)頻率最高的詞,這類詞對文本相似度的計算會產(chǎn)生不良的干擾。對于這類問題的解決,可以利用現(xiàn)有的“中文停用詞表”將這些詞進(jìn)行過濾刪除。但是較為精確的方法是計算文本中每個詞的TF-IDF值,將TF-IDF值為0的詞刪除。TF-ID

8、F是用來評估某一詞匯對于一個文件集或一個語料庫中的其中一份文件的重要程度的統(tǒng)計方法。詞匯的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。比如,“船體的認(rèn)識”被分詞后變成“船體”、“的”、“認(rèn)識”,其中“的”是停用詞,而“船體”和“認(rèn)識”這兩個詞在計算文本相似度中的重要程度是不同的?!按w”這個詞較為專業(yè),“認(rèn)識”這個詞較為普通,在中高職院校的教學(xué)文件中幾乎每篇都會出現(xiàn)“認(rèn)識”這個詞。當(dāng)某個詞在所有文本中都會出現(xiàn),那么,它對文本相似性也就沒有貢獻(xiàn)了。(二)基于余弦相似度的文本相似度算法經(jīng)過預(yù)處理之后,兩篇文本被轉(zhuǎn)換為兩份詞匯表數(shù)據(jù),分別用向量Dl(n)和

9、D2(m)來表示,其中n和m表示兩表中詞匯的數(shù)目。文本相似度工作就是計算分析Dl(n)和D2(m)的相似度。具體步驟如下:(1)將兩份詞匯表中重復(fù)多次的詞合并,并將兩份詞匯表匯總成一個總詞匯表,用向量A(p)表示,其中p表示詞匯的數(shù)目,pm+n。 二、中高職課程銜接文本數(shù)據(jù)來源近年來,中高職教育銜接是我國教育領(lǐng)域的研究熱點,各級教育部門頒發(fā)了一系列文件,如教育部關(guān)于推進(jìn)中等和高等職業(yè)教育協(xié)調(diào)發(fā)展的指導(dǎo)意見、國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)、山東省中等職業(yè)學(xué)校教學(xué)指導(dǎo)方案等。在進(jìn)行文本相似度分析時,要合理選擇相關(guān)文本進(jìn)行研究。本文所選的數(shù)據(jù)來源有以下兩個方面:判斷對口專業(yè)

10、的文本文件主要有:地方教育部門或行業(yè)指導(dǎo)委員會制定的各專業(yè)教育教學(xué)指導(dǎo)性文件,如山東省中等職業(yè)學(xué)校教學(xué)指導(dǎo)方案或各中高職院校制定的人才培養(yǎng)方案。中等職業(yè)學(xué)校專業(yè)教學(xué)指導(dǎo)方案是中等職業(yè)學(xué)校專業(yè)建設(shè)和專業(yè)教學(xué)的基本指導(dǎo)文件,內(nèi)容包括教學(xué)計劃和各門課程的課程標(biāo)準(zhǔn)。人才培養(yǎng)方案是人才培養(yǎng)的總體設(shè)計,反映著一個學(xué)院人才培養(yǎng)的指導(dǎo)思想和整體思路,關(guān)系著學(xué)院人才培養(yǎng)的內(nèi)容、途徑和質(zhì)量。衡量專業(yè)課程內(nèi)容重復(fù)情況的文本文件主要有:地方教育部門、行業(yè)指導(dǎo)委員會或院校制定的人才培養(yǎng)方案和課程標(biāo)準(zhǔn)。其中課程標(biāo)準(zhǔn)是指規(guī)定某一學(xué)科的課程性質(zhì)、課程目標(biāo)、內(nèi)容目標(biāo)、實施建議的教學(xué)指導(dǎo)性文件,是衡量課程內(nèi)容重復(fù)度的主要依據(jù)。三

11、、實例分析青島遠(yuǎn)洋船員職業(yè)學(xué)院是一所高職院校,其船舶工程技術(shù)專業(yè),在面對機(jī)械制造技術(shù)、焊接技術(shù)應(yīng)用、電氣運(yùn)行與控制等多個中職專業(yè)的畢業(yè)生時,如何能對口接收并進(jìn)行合理的課程設(shè)置,是學(xué)院開展中高職教育銜接的關(guān)鍵。(一)選擇對口專業(yè)根據(jù)教育部頒發(fā)的中等職業(yè)學(xué)校專業(yè)目錄(2010年修訂),將山東省教育廳開發(fā)的6個中職專業(yè)(船舶建造與維修、焊接技術(shù)應(yīng)用、機(jī)械制造技術(shù)、機(jī)電技術(shù)應(yīng)用、電氣運(yùn)行與控制、旅游服務(wù)與管理)的教學(xué)指導(dǎo)方案與青島遠(yuǎn)洋船員職業(yè)學(xué)院“船舶工程技術(shù)專業(yè)”人才培養(yǎng)方案進(jìn)行文本相似度分析,得到數(shù)據(jù)結(jié)果,如圖2所示。 通過對人才培養(yǎng)方案進(jìn)行文本相似度分析,可以看出,高職“船舶工程技術(shù)”專業(yè)的三個

12、方向“船體”、“輪機(jī)”和“電氣”,與6個中職專業(yè)的相似程度各不相同:與“船體方向”對口的中職專業(yè),按相似度依次為“船舶建造與維修”、“焊接技術(shù)應(yīng)用”、“機(jī)械制造技術(shù)”:與“輪機(jī)方向”對口的中職專業(yè),按相似度依次為“船舶建造與維修”、“機(jī)電技術(shù)應(yīng)用”、“機(jī)械制造技術(shù)”;與“電氣方向”對口的中職專業(yè),按相似度依次為“船舶建造與維修”、“機(jī)電技術(shù)應(yīng)用”、“機(jī)械制造技術(shù)”、“電氣運(yùn)行與控制”。本文選擇“旅游服務(wù)與管理”作為與其他專業(yè)對比的參考專業(yè),與船舶工程技術(shù)三個方向均不對口,相似度極低,與生活常識相符合。(二)判斷重復(fù)課程中高職對口專業(yè)經(jīng)常會出現(xiàn)課程內(nèi)容重復(fù)的問題,專業(yè)對口程度越高,其課程重復(fù)的可

13、能性就越大。通過分析課程標(biāo)準(zhǔn)的文本相似度,可能得到課程內(nèi)容的重復(fù)程度,從而指導(dǎo)課程安排和課時分配,避免中職學(xué)生升入高職后重復(fù)學(xué)習(xí)。圖3以中職“船舶制造與修理”專業(yè)與高職“船舶工程技術(shù)”專業(yè)船體方向為例,將4門高職課程分別與9門中職課程進(jìn)行了文本相似度分析。為了直觀判斷出中職課程與高職課程之間的相關(guān)度,將高職的任一課程與所有中職課程對比繪制成折線圖,如圖2所示。將高職機(jī)械設(shè)計、電工基礎(chǔ)、結(jié)構(gòu)制圖、修造工藝這4門課與中職9門課程進(jìn)行比較,可以得出以下結(jié)論。 第一,高職機(jī)械設(shè)計課程與中職各課程相似度均不高,說明課程內(nèi)容沒有重復(fù);第二,高職電工基礎(chǔ)課程與中職各課程相似度均不高,說明課程內(nèi)容沒有重復(fù);第

14、三,高職結(jié)構(gòu)制圖課與中職船舶識圖課的相似度非常高,說明課程內(nèi)容重復(fù);第四,高職修造工藝課與中職船舶建造與修理課的相似度非常高,說明課程內(nèi)容重復(fù)。通過對每門課程的“課程標(biāo)準(zhǔn)”的文本相似度進(jìn)行分析,可以準(zhǔn)確快速地得出各門課程重復(fù)程度,對與中職課程重復(fù)程度高的高職課程,如“結(jié)構(gòu)制圖”和“修造工藝”等應(yīng)考慮免修或適當(dāng)減免學(xué)時。運(yùn)用自然語言處理技術(shù),分析文本文檔、為課程設(shè)置提供可靠依據(jù),在中高職教育課程銜接領(lǐng)域是全新的嘗試。本文通過使用自然語言處理技術(shù),對中高職銜接相關(guān)教育教學(xué)文件進(jìn)行文本相似度分析。通過青島遠(yuǎn)洋船員職業(yè)學(xué)院的實驗驗證,這種方法可以定量地對中高職教育銜接時對口專業(yè)進(jìn)行篩選,以及對重復(fù)課程

15、進(jìn)行判斷,取得了良好的分析效果,具有較強(qiáng)的科學(xué)性和應(yīng)用性。將自然語言處理引入中高職教育銜接領(lǐng)域,可以充分利用現(xiàn)有的教學(xué)文件數(shù)據(jù),提高各項教育教學(xué)決策的速度和準(zhǔn)確性,促進(jìn)了職業(yè)教育水平的整體提高。隨著自然語言處理技術(shù)的不斷發(fā)展,通過計算機(jī)可以高速地對海量數(shù)據(jù)進(jìn)行分析,這些數(shù)據(jù)不僅包括院校原有的教育教學(xué)文檔,還包括行業(yè)發(fā)展趨勢、社會人才需求等文本數(shù)據(jù),并自動生成適應(yīng)社會發(fā)展情況的“人才培養(yǎng)方案”、“課程標(biāo)準(zhǔn)”等教育教學(xué)文檔,從而實現(xiàn)教育決策的“人工智能”。參考文獻(xiàn):1顧日國,自然語言語義、語義自動化處理與知識本體寫在“知識本體”專號前面的話J,當(dāng)代語言學(xué),2013 (2):127-128.2金希茜基于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論