數(shù)位文字知識(shí)探勘以中文索引典之建構(gòu)及應(yīng)用為例.ppt

上傳人：j*** IP屬地：四川上傳時(shí)間：2019-07-15 格式：PPT 頁數(shù)：52 大小：1.54MB 積分：15 舉報(bào) 版權(quán)申訴

數(shù)位文字知識(shí)探勘以中文索引典之建構(gòu)及應(yīng)用為例.ppt_第2頁

數(shù)位文字知識(shí)探勘以中文索引典之建構(gòu)及應(yīng)用為例.ppt_第3頁

數(shù)位文字知識(shí)探勘以中文索引典之建構(gòu)及應(yīng)用為例.ppt_第4頁

數(shù)位文字知識(shí)探勘以中文索引典之建構(gòu)及應(yīng)用為例.ppt_第5頁

已閱讀5頁，還剩47頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)位文字知識(shí)探勘 - 以中文索引典之建構(gòu)及應(yīng)用為例,文字知識(shí)探勘簡(jiǎn)介索引典建構(gòu)：緣由與目的相關(guān)之研究關(guān)鍵詞自動(dòng)擷取關(guān)聯(lián)詞自動(dòng)擷取應(yīng)用範(fàn)例成效評(píng)估,曾元顯 .tw 資訊中心國(guó)立臺(tái)灣師範(fàn)大學(xué),近年研究主題演進(jìn)圖,知識(shí)探勘,知識(shí)探勘（knowledge discovery, KD）擷取隱晦、有用、未被發(fā)掘、有潛在價(jià)值的規(guī)則、資訊或知識(shí)的一種過程實(shí)務(wù)上，運(yùn)用資訊組織與分析等探勘技術(shù)，與使用者互動(dòng)，反覆探索，發(fā)現(xiàn)訊息或規(guī)律，人工解讀結(jié)果，轉(zhuǎn)換規(guī)律訊息成資訊或知識(shí)。資料探勘（data mining, DM）處理結(jié)構(gòu)化（structured）資料，即資料間有共同欄位文字探勘（text mining, TM）處理非結(jié)構(gòu)化資料，資料常為自由文字,知識(shí)探勘步驟與技術(shù),步驟：資料蒐集資料清理資料轉(zhuǎn)換探勘技術(shù)運(yùn)用結(jié)果呈現(xiàn)與解讀,技術(shù)：關(guān)聯(lián)分析（association）分類（classification）歸類（clustering）概略化（generation）預(yù)測(cè)（prediction）序列分析（sequence analysis）特徵詞彙擷取索引與檢索摘要（summarization）,資訊組織與主題分析,資訊組織與主題分析的技術(shù)內(nèi)容資訊檢索權(quán)威控制詞彙關(guān)聯(lián) 內(nèi)容摘要主題歸類文件分類圖書館學(xué)較重視標(biāo)準(zhǔn)化的作業(yè)與架構(gòu) 資訊科技較重視自動(dòng)化技術(shù)的運(yùn)用,索引典自動(dòng)建構(gòu)：前言,檢索失敗的主要因素之一：字彙不匹配問題查詢?cè)~與索引詞不相同的情況例:筆記型電腦與筆記本電腦,行政院長(zhǎng)與閣揆改進(jìn)方法：查詢擴(kuò)展、權(quán)威檔、索引典查詢擴(kuò)展(query expansion) 加入更多與查詢主題相關(guān)的詞彙，或更改查詢?cè)~的權(quán)重權(quán)威檔 (authority file) 記錄及解決同義異名詞的工具索引或檢索時(shí)，將各種同義異名詞對(duì)應(yīng)起來，視為相同的詞彙處理,索引典自動(dòng)建構(gòu)：前言,索引典 (thesaurus) 除同義詞外，還有紀(jì)錄廣義詞、狹義詞、反義詞、相關(guān)詞等列舉主題詞彙，將詞彙間的語意或主題關(guān)係標(biāo)示出來的知識(shí)庫查詢時(shí)，可互相推薦，以擴(kuò)展或縮小查詢範(fàn)圍，或提示相關(guān)概念的不同查詢用語例攜帶型電腦：筆記型電腦、掌上型電腦使檢索從字串比對(duì)層次，提升到語意比對(duì)層次人工製作索引典，準(zhǔn)確度高，但召回率低、成本大、建構(gòu)速度慢、事先選用的詞彙可能與後續(xù)或其他新進(jìn)的文件無關(guān) 一般目的索引典運(yùn)用在特定領(lǐng)域的文件檢索上，無法提升檢索效能針對(duì)每一種文獻(xiàn)領(lǐng)域製作索引典，耗時(shí)費(fèi)力,索引典自動(dòng)建構(gòu)：前言,共現(xiàn)索引典(co-occurrence thesaurus) 利用詞彙的共現(xiàn)性，自動(dòng)建構(gòu)詞彙關(guān)聯(lián)（term association）或稱關(guān)聯(lián)詞庫成本低、建構(gòu)速度快、召回率高、與館藏文件用詞一致，但準(zhǔn)確率低詞彙關(guān)係：主題相關(guān)，不一定語意相關(guān) 例：李登輝與康乃爾、中華電訊與ADSL,關(guān)聯(lián)檢索研究成果,曾元顯, 漸進(jìn)式關(guān)聯(lián)詞庫之建構(gòu)方法, 中華民國(guó)發(fā)明專利，專利號(hào)： I 290684 . 有效期：2007/12/01-2023/05/08 透過國(guó)科會(huì)小產(chǎn)學(xué)計(jì)畫，技術(shù)移轉(zhuǎn)國(guó)內(nèi)廠商產(chǎn)業(yè)應(yīng)用：誠(chéng)品書店（/）政府研究資訊系統(tǒng)GRB智慧搜尋系統(tǒng)（38萬筆）,研究方法,文獻(xiàn)探討、技術(shù)瞭解、優(yōu)缺點(diǎn)分析、適用範(fàn)圍分析歸納重點(diǎn) 提出改進(jìn)方法實(shí)驗(yàn)測(cè)試成效比較不同研究之間的比較同一研究?jī)?nèi)，對(duì)照組之比較提出適用情況與應(yīng)用方向持續(xù)評(píng)估與改進(jìn),相關(guān)研究：Salton 89,Salton 曾提出建構(gòu)共現(xiàn)索引典的架構(gòu)：算出各個(gè)詞彙間的相似度相似度：詞彙在各文件之間，共同出現(xiàn)的情形（或主題相似度）重要的索引詞彙，任兩詞彙皆拿來比對(duì)相似度計(jì)算量至少 M2，M ：所有重要詞彙的個(gè)數(shù) 依此相似度將詞彙歸類成索引典類別( thesaurus classes )（或主題類別）,Tj=(d1j, d2j, , dnj), n：所有文件的個(gè)數(shù),相關(guān)研究：Salton 89,歸類方式，主要有： Complete-link: 一開始，每個(gè)詞彙（元素），都單獨(dú)視為一類兩個(gè)類別之間的相似度，若超過某個(gè)門檻值，就結(jié)合並歸成同一類，如此重複歸類兩個(gè)類別之間的相似度，定義為跨類別元素之間相似度最低者易產(chǎn)生多數(shù)個(gè)索引典類別（thesaurus class），但每類僅有少數(shù)個(gè)詞彙 Single-link: 同上述作法，但兩個(gè)類別之間的相似度，定義為跨類別元素之間相似度最高者易產(chǎn)生少數(shù)個(gè)類別，但每類都有大量的詞彙透過共現(xiàn)索引典的查詢擴(kuò)展，檢索成效的召回率，通?？商嵘?10% 至 20% 小結(jié)：歸類運(yùn)算量太大，運(yùn)用在大量文件上，耗時(shí)長(zhǎng)久,相關(guān)研究： Chen 96,相關(guān)研究： Chen (JASIS 95),定義非對(duì)稱的詞彙相似度詞彙 Tj 在文件 i 中的權(quán)重: 詞彙 Tj 及 Tk 在文件 i 中的權(quán)重: Cluster_weight(Tj, Tk) Cluster_weight(Tk, Tj) 若Tj =Artificial Intelligence, wj =2,相關(guān)研究： Chen (JASIS 95),從 4714 文件中 (共 8 MB), 產(chǎn)生了 1,708,551 個(gè)詞對(duì)（co-occurrence pairs ）由於關(guān)聯(lián)詞對(duì)太多，每個(gè)詞，限制其關(guān)聯(lián)詞數(shù)最多100 個(gè)，如此刪除了 60% 的詞對(duì)，剩下 709,659 個(gè)詞對(duì)（由 7829 個(gè)不同的詞組成）產(chǎn)生上述的詞對(duì)，在 Sun Sparc 工作站上要花 9.2 CPU 小時(shí)、磁碟空間 12.3 MB 成效評(píng)估： 6個(gè)受試者，16 個(gè)預(yù)選的詞，請(qǐng)每個(gè)受試者先就每個(gè)詞，聯(lián)想出相關(guān)的詞??；再?gòu)南到y(tǒng)提示的關(guān)聯(lián)詞，判斷哪些是相關(guān)或不相關(guān) 兩種結(jié)果比較，召回率分別為 28.60% 與 61.89% ；精確率為 77.08% 及 24.17% 小結(jié)：人工聯(lián)想精確率高、召回率低；機(jī)器產(chǎn)生關(guān)聯(lián)詞較多、準(zhǔn)確度較低,相關(guān)研究： Sanderson and Croft (SIGIR99),概念階層的範(fàn)例：from Sanderson and Crofts paper,相關(guān)研究： Sanderson and Croft (SIGIR99),目的：從檢出的文件中自動(dòng)產(chǎn)生概念階層（concept hierarchies），便利使用者瞭解檢出文件的大致內(nèi)容第一步：詞彙選擇（決定哪些詞彙要列在概念階層中）: 來源 1: 檢索結(jié)果的前幾篇中比對(duì)程度較佳的段落裡，找出常常一起出現(xiàn)的詞彙來源 2: 每一篇檢出文件的最相關(guān)段落裡，取符合下列條件的詞?。?(df_in_retrieved_set / df_in_collection) = 0.1 者平均從 TREC 的每個(gè)查詢結(jié)果的前 500 篇文件中，擷取出 2430 個(gè)詞第二步：詞彙關(guān)聯(lián)分析: 任意兩個(gè)詞都拿來做包含關(guān)係（subsumption relationship）比較： P(Tj | Tk) = 1 and P(Tk | Tj) = 0.8 and P(Tk | Tj) 1, if Tj 包含 Tk 平均每個(gè)查詢擷取出 200 包含對(duì)（subsumption pairs）由這些包含對(duì) 產(chǎn)生概念階層，即包含者為父節(jié)點(diǎn)，被包含者為其子節(jié)點(diǎn),相關(guān)研究： Sanderson and Croft (SIGIR99),成效評(píng)估：測(cè)試包含者與被包含者的關(guān)聯(lián)程度（relatedness）由 8 個(gè)受試者判斷，67% 包含對(duì)被判斷為相關(guān)（interesting for further exploring）比較：51% 詞彙對(duì)（隨意配對(duì)，而非用包含關(guān)係配對(duì)者）被判斷為相關(guān) 小結(jié)：此方法在查詢時(shí)才進(jìn)行，查詢反應(yīng)時(shí)間會(huì)受影響提示的詞彙只限於檢索結(jié)果的前N篇，不是一個(gè) 全域索引典（global thesaurus）隨機(jī)配對(duì)，關(guān)聯(lián)度高，顯示詞彙選擇的重要性,關(guān)聯(lián)詞分析,先前的作法共現(xiàn)性的單位為文件兩個(gè)詞彙在文件中距離越大，關(guān)係密切的可能性越低需要分析的詞對(duì)個(gè)數(shù)多，許多詞對(duì)的關(guān)聯(lián)分析徒勞無功計(jì)算量：M2n，M:所有詞彙個(gè)數(shù), n :所有文件個(gè)數(shù) 例：n=10,000, M=10,000 (M=1000), 計(jì)算量：1012 (1010) 新的作法共現(xiàn)性的單位縮小到段落或句子需要分析的詞對(duì)個(gè)數(shù)少計(jì)算量：K2Sn，K:文件關(guān)鍵詞數(shù), S:文件句子數(shù), n:同上例：n=10,000, K=30, S=20, 計(jì)算量：6x106,關(guān)聯(lián)詞分析：新的方法：Tseng 2002,主要分二個(gè)步驟：擷取個(gè)別文件的關(guān)鍵詞關(guān)鍵詞的關(guān)聯(lián)分析與累積關(guān)鍵詞擷取關(guān)鍵詞：文件內(nèi)有意義且具代表性的詞彙關(guān)鍵詞：呈現(xiàn)文件主題意義的最小單位各種文獻(xiàn)自動(dòng)化處理的必要步驟。關(guān)鍵詞的認(rèn)定是主觀的判斷，不利於電腦的自動(dòng)處理重複性假設(shè)：如果文件探討某個(gè)主題，那麼應(yīng)該會(huì)提到某些特定的字串好幾次具有客觀性、可自動(dòng)處理假設(shè)簡(jiǎn)單，可適用於不同領(lǐng)域,關(guān)聯(lián)詞分析：新的方法：Tseng 2002,第一步：詞彙選擇：每篇文件先用詞庫（長(zhǎng)詞優(yōu)先法）斷詞再由關(guān)鍵詞擷取演算法擷取關(guān)鍵詞（至少出現(xiàn)2次者）（包含新詞）以停用詞過濾擷取出的關(guān)鍵詞，並依詞頻（term frequency）高低排序選詞頻最高的 N 個(gè)詞作關(guān)聯(lián)分析第二步：詞彙關(guān)聯(lián)分析: 每篇文件選出來的詞，以下面公式計(jì)算兩個(gè)詞彙的權(quán)重 wgt： where NSi denotes number of all sentence in document i and NS(Tij) denotes in document i the number of sentences in which term Tj occurs. 關(guān)聯(lián)詞的權(quán)重超過門檻值（1.0）者，才依下面公式累積其權(quán)重關(guān)聯(lián)詞的最後相似度定義為：原方法：僅單純累加每對(duì)關(guān)聯(lián)詞的權(quán)重新方法：加入 IDF (inverse document frequency ) 及詞彙長(zhǎng)度,關(guān)鍵詞自動(dòng)擷取方法,比較：詞庫比對(duì)法：詞庫需持續(xù)維護(hù)更新統(tǒng)計(jì)分析法：容易遺漏統(tǒng)計(jì)特徵不足者文法剖析法：需詞庫、詞性標(biāo)記等資源與運(yùn)算適合作為關(guān)鍵詞的名詞片語少於 50% Arppe 1995,關(guān)鍵詞自動(dòng)擷取方法 Tseng 97, 98, 99, 2001,找出最大重複出現(xiàn)字串（maximally repeated pattern）的演算法 token : 一個(gè)中文字（character）或英文字（word） n-token: 輸入文字中，任意連續(xù)的 n tokens （與 n-gram 類似）演算法三步驟：步驟一 : 轉(zhuǎn)換輸入文字成 2-token 串列步驟二 : 依合併規(guī)則重複合併 n-tokens 成 (n+1)-tokens，直到無法合併步驟三 : 依過濾規(guī)則，過濾不合法的詞彙,依過濾規(guī)則，過濾不合法的詞彙,詞頻,關(guān)鍵詞自動(dòng)擷取過程範(fàn)例,輸入文字: “BACDBCDABACD”, 假設(shè) 門檻值 = 1 步驟一 : 產(chǎn)生 L = (BA:2 AC:2 CD:3 DB:1 BC:1 CD:3 DA:1 AB:1 BA:2 AC:2 CD:3) 步驟二: token 合併 : 第一次 :合併 L 成 L1= (BAC:2 ACD:2 BAC:2 ACD:2) 丟掉: (BA:2 AC:2 CD:3 DB:1 BC:1 DA:1 AB:1 BA:2 AC:2 CD:3) 留住 : (CD:3) 第二次 : 合併 L1 成 L2 = (BACD:2 BACD:2) 丟掉 : (BAC:2 ACD:2 BAC:2 ACD:2) 留住 : (CD:3) 第三次 : 合併 L2 成 L3 = ( ) 丟掉 : ( ) 留住 : (CD:3 BACD:2) 步驟三: 無須過濾,關(guān)鍵詞自動(dòng)擷取範(fàn)例 Tseng 2000：英文範(fàn)例,Web Document Clustering: A Feasibility Demonstration Users of Web search engines are often forced to sift through the long ordered list of document returned by the engines. The IR community has explored document clustering as an alternative method of organizing retrieval results, but clustering has yet to be deployed on the major search engines. The paper articulates the unique requirements of Web document clustering and reports on the first evaluation of clustering methods in this domain. A key requirement is that the methods create their clusters based on the short snippets returned by Web search engines. Surprisingly, we find that clusters based on snippets are almost as good as clusters created using the full text of Web documents. To satisfy the stringent requirements of the Web domain, we introduce an incremental, linear time (in the document collection size) algorithm called Suffix Tree Clustering (STC), which creates clusters based on phrases shared between documents. We show that STC is faster than standard clustering methods in this domain, and argue that Web document clustering via STC is both feasible and potentially beneficial.?,Terms extracted before filtering 1. clusters based on : 3 2. document clustering : 3 3. of Web : 3 4. on the : 3 5. search engines : 3 6. STC is : 2 7. Web document clustering : 2 8. Web search engines : 2 9. clustering methods in this domain : 2 10. requirements of : 2 11. returned by : 2,Terms extracted after filtering 1. clusters based : 3 2. document clustering : 3 3. Web : 3 4. 5. search engines : 3 6. STC : 2 7. Web document clustering : 2 8. Web search engines : 2 9. clustering methods in this domain : 2 10. requirements : 2 11. returned : 2,關(guān)鍵詞自動(dòng)擷取範(fàn)例 Tseng 2000：中文範(fàn)例,Comparison of Three Metadata Related Standards 在本文中，我們介紹了三個(gè)跟 metadata 相關(guān)的標(biāo)準(zhǔn)，它們分別是 FGDC 的 Digital Geospatial Metadata、Dublin Core、和 URC。雖然它們各有自己的設(shè)計(jì)目標(biāo)和特質(zhì)，但都是假設(shè)其操作環(huán)境為類似網(wǎng)際網(wǎng)路的環(huán)境。FGDC 的 Digital Geospatial Metadata 是設(shè)計(jì)來專門處理地理性資料，由於它有聯(lián)邦行政命令的支持，可說是已成為美國(guó)在地理方面的資料著錄國(guó)家標(biāo)準(zhǔn)。Dublin Core 則比較像是 USMARC 的網(wǎng)路節(jié)縮版，使非專業(yè)人士也能在短時(shí)間內(nèi)熟悉和使用此格式來著錄收藏資料，但在現(xiàn)階段祇針對(duì)類似傳統(tǒng)印刷品的電子文件。由 IETE 的 URI 工作小組所負(fù)責(zé)的 URC，其原始的設(shè)計(jì)目的雖是用來連結(jié) URL 和 URN，但為因應(yīng)電子圖書館時(shí)代的要求，其內(nèi)含逐漸擴(kuò)大，雖然尚在發(fā)展中，但由於有 IETE 的支持，未來成為網(wǎng)際網(wǎng)路上通用標(biāo)準(zhǔn)的可能性極大。在此文中，我們也從幾個(gè)不同角度，分析和比較這三個(gè) metadata 格式的異同和優(yōu)缺點(diǎn)。,Terms before filtering 1. 設(shè) 計(jì) : 3 2. 資料 : 3 3. 網(wǎng) 路 : 3 4. 標(biāo) 準(zhǔn) : 3 5. Dublin Core : 2 6. FGDC 的 Digital Geospatial Metadata : 2 7. IETE 的 : 2 8. 三個(gè) : 2 9. 文中 : 2 10. 比較 : 2 11. 它們 : 2 12. 由於 : 2 13. 地理 : 2 14. 成為 : 2 15. 我們 : 2 16. 的支持 : 2 17. 的設(shè) 計(jì) 目 : 2 18. 格式 : 2 19. 著錄 : 2 20. 電子 : 2 21. 網(wǎng) 際網(wǎng) 路 : 2 22. 環(huán) 境 : 2 23. 雖然 : 2 24. 類似 : 2,Terms after filtering 1. 設(shè) 計(jì) : 3 (design) 2. 資料 : 3 (data) 3. 網(wǎng) 路 : 3 (network) 4. 標(biāo) 準(zhǔn) : 3 (standard) 5. Dublin Core : 2 6. FGDC 的 Digital Geospatial Metadata : 2

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)位文字知識(shí)探勘以中文索引典之建構(gòu)及應(yīng)用為例.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)位文字知識(shí)探勘以中文索引典之建構(gòu)及應(yīng)用為例.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔