基于語(yǔ)義分析的網(wǎng)絡(luò)不良信息過(guò)濾算法研究概要課件_第1頁(yè)
基于語(yǔ)義分析的網(wǎng)絡(luò)不良信息過(guò)濾算法研究概要課件_第2頁(yè)
基于語(yǔ)義分析的網(wǎng)絡(luò)不良信息過(guò)濾算法研究概要課件_第3頁(yè)
基于語(yǔ)義分析的網(wǎng)絡(luò)不良信息過(guò)濾算法研究概要課件_第4頁(yè)
基于語(yǔ)義分析的網(wǎng)絡(luò)不良信息過(guò)濾算法研究概要課件_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于語(yǔ)義分析的

網(wǎng)絡(luò)不良信息過(guò)濾算法研究計(jì)算機(jī)科學(xué)與技術(shù)系呂濱黑龍江工程學(xué)院科學(xué)研究基金項(xiàng)目基于語(yǔ)義分析的

網(wǎng)絡(luò)不良信息過(guò)濾算法研究計(jì)算機(jī)科學(xué)與技術(shù)系研究目的針對(duì)網(wǎng)絡(luò)信息安全審核的實(shí)際需要,研究一種基于語(yǔ)義分析的算法,實(shí)現(xiàn)對(duì)各種動(dòng)態(tài)更新的Web頁(yè)面、電子郵件、新聞發(fā)布、BBS論壇、BLOG等文本類短信息的自動(dòng)安全審核。研究目的針對(duì)網(wǎng)絡(luò)信息安全審核的實(shí)際需要,研究一種基于語(yǔ)義分析研究的意義替代人工自動(dòng)完成對(duì)上網(wǎng)前的信息安全審核,實(shí)現(xiàn)全方位高效的信息監(jiān)管,從信息源頭解決有害信息入侵和傳播的問(wèn)題。在語(yǔ)義分析、模式識(shí)別等人工智能技術(shù)領(lǐng)域開(kāi)辟我們的研究方向,為今后深入開(kāi)展這方面的研究奠定基礎(chǔ)。研究的意義替代人工自動(dòng)完成對(duì)上網(wǎng)前的信息安全審核,實(shí)現(xiàn)全方位技術(shù)背景本課題的研究涉及信息分析和過(guò)濾技術(shù),是當(dāng)前信息領(lǐng)域的研究熱點(diǎn)。目前該領(lǐng)域的研究焦點(diǎn)是數(shù)據(jù)挖掘和分類檢索技術(shù),其研究的最終目標(biāo)就是要提供一種智能化的工具,從浩瀚的數(shù)據(jù)海洋中采集到用戶需要的有用信息。應(yīng)用到信息安全領(lǐng)域就是根據(jù)對(duì)某種敏感信息的特征描述或樣本訓(xùn)練,獲得識(shí)別這類信息的元數(shù)據(jù)并據(jù)此對(duì)網(wǎng)上傳輸?shù)男畔⑦M(jìn)行甄別,實(shí)現(xiàn)對(duì)有害信息的濾除或阻斷,保證信息安全。目前對(duì)網(wǎng)絡(luò)信息過(guò)濾的研究集中在特征信息提取和自適應(yīng)算法上。技術(shù)背景本課題的研究涉及信息分析和過(guò)濾技術(shù),是當(dāng)前信息領(lǐng)域的研究現(xiàn)狀文本過(guò)濾技術(shù)基于規(guī)則方法基于數(shù)理統(tǒng)計(jì)方法基于關(guān)鍵詞或關(guān)鍵詞表達(dá)式常見(jiàn)規(guī)則算法:RipperDecisionTreeBoostingRoughSet典型統(tǒng)計(jì)算法:BayesKNNRocchioSVMVSMaANDbORc按給定的關(guān)鍵字查找,規(guī)則簡(jiǎn)單,查找速度快,命中率高,但準(zhǔn)確率和召回率低,主要用于各種搜索引擎。按照固定規(guī)則或通過(guò)樣本訓(xùn)練獲得的規(guī)則生成規(guī)則庫(kù),再以某種匹配算法考核目標(biāo)文本。速度快,命中率和準(zhǔn)確率較高,目前主要用于防火墻、防病毒或垃圾郵件軟件基于統(tǒng)計(jì)方法是利用統(tǒng)計(jì)學(xué)原理,通過(guò)大量正、反例樣本計(jì)算推出結(jié)果,提取出必要的特征信息,并以此甄別目標(biāo)文檔。該方法智能化程度較高,可以獲得較高的召回率和準(zhǔn)確率,主要用于信息采集。研究現(xiàn)狀文本過(guò)濾技術(shù)基于規(guī)則方法基于數(shù)理統(tǒng)計(jì)方法基于關(guān)鍵詞或幾個(gè)重要研究機(jī)構(gòu)該領(lǐng)域目前在國(guó)內(nèi)外有很多非?;钴S的研究機(jī)構(gòu),他們?cè)谛畔⑦^(guò)濾的理論和應(yīng)用方面都取得了一些很有價(jià)值的研究成果。幾個(gè)重要研究機(jī)構(gòu)該領(lǐng)域目前在國(guó)內(nèi)外有很多非常活躍的研究機(jī)構(gòu),重要國(guó)際學(xué)術(shù)會(huì)議TREC(textretrievalconference)文本檢索會(huì)議、TDT(topicdetectionandtracking)主題檢測(cè)和跟蹤會(huì)議,是由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局(NIST)和國(guó)防部高級(jí)研究計(jì)劃局(DARPA)組織召開(kāi)的一年一度的國(guó)際會(huì)議,是文本檢索領(lǐng)域最權(quán)威的國(guó)際會(huì)議,代表了當(dāng)今世界文本檢索領(lǐng)域的最高水平。重要國(guó)際學(xué)術(shù)會(huì)議TREC(textretrievalco研究?jī)?nèi)容

1、提取各種非法廣告、垃圾郵件、垃圾短信、不良言論、攻擊性等不良信息的共性和個(gè)性特征,確定檢索方向和內(nèi)容;2、研究典型算法的適應(yīng)性,分析存在的問(wèn)題,根據(jù)既定的檢測(cè)特征和檢測(cè)來(lái)源以及檢測(cè)過(guò)程可以在確認(rèn)有害信息后立即終止的特點(diǎn),對(duì)算法加以改進(jìn)和優(yōu)化,滿足本項(xiàng)目要求。3、初步檢驗(yàn)和測(cè)試新算法的過(guò)濾效果,進(jìn)一步調(diào)整和優(yōu)化算法。研究?jī)?nèi)容1、提取各種非法廣告、垃圾郵件、垃圾短信、不良言論技術(shù)關(guān)鍵在文本中提取出符合要求的特征信息。作為識(shí)別不良信息的特征信息,既要具有所有不良信息的共性特征,還要具有代表某類不良信息的個(gè)性特征,它們都是進(jìn)行信息過(guò)濾的依據(jù),也是影響過(guò)濾效果的重要因素。其次是匹配算法,它決定著系統(tǒng)的運(yùn)行效率和精度,實(shí)時(shí)檢測(cè)強(qiáng)調(diào)較高的速度和準(zhǔn)確性,因此必須設(shè)計(jì)與之相適應(yīng)的匹配算法,簡(jiǎn)化檢測(cè)規(guī)則,實(shí)現(xiàn)較高的運(yùn)行效率。技術(shù)關(guān)鍵在文本中提取出符合要求的特征信息。作為識(shí)別不良信息研究思路和可行性分析本項(xiàng)目以理論研究為主,運(yùn)用統(tǒng)計(jì)分析方法,先抽象出研究對(duì)象的一般和個(gè)性特征,確定層次關(guān)系,在此基礎(chǔ)上建立初始過(guò)濾算法的數(shù)學(xué)模型,再對(duì)此模型進(jìn)行上機(jī)測(cè)試驗(yàn)證,根據(jù)測(cè)試結(jié)果反復(fù)修正和優(yōu)化過(guò)濾算法,直至達(dá)到預(yù)期目標(biāo)系統(tǒng)研究的樣本分析、文本掃描、模式匹配以及數(shù)據(jù)處理的相關(guān)的技術(shù)問(wèn)題已經(jīng)有比較成熟的技術(shù)方案,對(duì)比現(xiàn)有技術(shù)和本研究要解決的問(wèn)題,技術(shù)上已經(jīng)沒(méi)有重大障礙。本課題組前期已經(jīng)作了大量的基礎(chǔ)性工作,掌握了第一手資料,明確了研究目標(biāo)和技術(shù)關(guān)鍵,擬定了研究方法和技術(shù)路線,制定了較詳細(xì)的技術(shù)方案,這些工作可以保證項(xiàng)目的順利進(jìn)行。研究思路和可行性分析本項(xiàng)目以理論研究為主,運(yùn)用統(tǒng)計(jì)分析方法,特色與創(chuàng)新基于語(yǔ)義分析的技術(shù)是本項(xiàng)研究的最大特點(diǎn),相比基于簡(jiǎn)單規(guī)則的過(guò)濾技術(shù),它的智能化程度更高,因此更有實(shí)用價(jià)值。算法是軟件知識(shí)產(chǎn)權(quán)的核心內(nèi)容,因此算法研究更具有挑戰(zhàn)性和創(chuàng)新性。將基于文本內(nèi)容的信息過(guò)濾技術(shù)用于信息安全領(lǐng)域具有重要意義和廣闊的市場(chǎng)前景,所以本研究具有較高的社會(huì)效益和經(jīng)濟(jì)效益。特色與創(chuàng)新基于語(yǔ)義分析的技術(shù)是本項(xiàng)研究的最大特點(diǎn),相比基于簡(jiǎn)預(yù)期成果在國(guó)內(nèi)外公開(kāi)發(fā)行的期刊上發(fā)表研究論文一篇至二篇寫出代表過(guò)濾算法的核心代碼提交完整的研究報(bào)告預(yù)期成果在國(guó)內(nèi)外公開(kāi)發(fā)行的期刊上發(fā)表研究論文一篇至二篇預(yù)期研究進(jìn)展及經(jīng)費(fèi)預(yù)算

項(xiàng)目的進(jìn)度安排:2007年1月-2007年3月:數(shù)據(jù)采集和調(diào)研,制定研究方案設(shè)計(jì)。2007年4月-2007年10月:建立數(shù)學(xué)模型。2007年11月-2008年3月:編寫程序,進(jìn)行模擬計(jì)算、計(jì)算結(jié)果驗(yàn)證和結(jié)果分析。2008年4月-2008年6月:撰寫研究報(bào)告,結(jié)題。經(jīng)費(fèi)預(yù)算:預(yù)期研究進(jìn)展及經(jīng)費(fèi)預(yù)算項(xiàng)目的進(jìn)度安排:研究團(tuán)隊(duì)本課題組由六名35以下青年教師和4名03級(jí)學(xué)生組成。通過(guò)本課題的研究可以把科研和指導(dǎo)學(xué)生畢業(yè)設(shè)計(jì)結(jié)合起來(lái)。本課題組的教師成員長(zhǎng)期從事計(jì)算機(jī)應(yīng)用領(lǐng)域的教學(xué)、科研和指導(dǎo)畢業(yè)設(shè)計(jì)工作,具有堅(jiān)實(shí)的理論基礎(chǔ)和相關(guān)課題的研究經(jīng)驗(yàn),有能力完成本課題的研究工作。研究團(tuán)隊(duì)本課題組由六名35以下青年教師和4名03級(jí)學(xué)生組成。主要參考文獻(xiàn)[1]URIHANANI,etc.InformationFiltering:OverviewofIssues,ResearchandSystems.UserModelingandUser-AdaptedInteraction11:203~259,2001[2]W.Cohen,“Fasteffectiveruleinduction”,inMachineLearning:ProceedingsoftheTwelfthInternationalConference,LakeTaho,California,MonganKanfmann,pp.115-123,1995[C][3]QuinlanJR,Inductionofdecisiontrees,MachineLearning,1986,(1):81-106.[4]J.R.Quinlan,C4.5:ProgramsforMachineLearning,SanMateo,Calif:MorganKaufmann,1993[5]于玲,吳鐵軍.集成學(xué)習(xí):Boosting算法綜述[J].模式識(shí)別與人工智能,2004,17(1):52-59.[6]王海川,張麗明.一種新的Adaboost訓(xùn)練算法[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版),2004,43(1):27-32.[7]PawlakZ.Roughsets–theoreticalaspectsofreasoningaboutdata.KluwerAcademicPublishers,Dordrecht,1991.[8]梁久禎,自適應(yīng)加速Bayes方法在文本分類中的應(yīng)用,2003年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集,2003年8月[9]WeifengSu,Cross-LanguageTextFilteringBasedonTextConceptsandkNN,ComputationalLinguisticsandChineseLanguageProcessingVol.7,No.1,February2002,pp.79-90[10]黃萱菁等,基于向量空間模型的文本過(guò)濾系統(tǒng).軟件學(xué)報(bào).13卷4期.2002[11]武旭、須德,基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn),北方交通大學(xué)學(xué)報(bào),Vol.27No.22003年4月[12]龐劍鋒(Pangjianfeng)卜東波(Budongbo)白碩(Baishuo),基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn),2003年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集,2003年8月[13]N.Littlestone.Learningquicklywhenirrelevantattributesabound:Anewlinearthresholdalgorithm.MachineLearning,2:285-318.1988[14]NCanceddaetal.Kernelmethodsfordocumentfiltering.ReportatTREC-11,2002.[15]SERobertson,SWalker,HZaragoza&MicrosoftCambridgeatTREC-11:Filteringtrack.ReportatTREC-11,2002.[16]TZhang.Regularizedwinnowmethods.InAdvancesinNeuralInformationProcessingSystems13,pages703-709,2001.[17]陳彩云,李治國(guó).一種基于SVD和Rough集的信息過(guò)濾方法.計(jì)算機(jī)工程與應(yīng)用,2003年.[18]BadrulM.Sarwar,GeorgeKarypis,JosephA.Konstan,JohnT.Riedl.(2000).ApplicationofDimensionalityReductioninRecommenderSystem--ACaseStudy,ACMWebKDD2000WebMiningforE-CommerceWorkshop,2000[19]D.A.Hull,J.O.Pedersen,andH.Shutze.Methodcombinationfordocumentfiltering,InProceedingsofSIGIR,pages279-298,1996.[20]F.Se

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論