文本特征提取技術

上傳人：1*** IP屬地：江西上傳時間：2023-09-02 格式：PPTX 頁數(shù)：57 大小：2.30MB 積分：19.9 舉報 版權(quán)申訴

已閱讀5頁，還剩52頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

文本特征提取2023/9/2五校聯(lián)合大數(shù)據(jù)分析碩士培養(yǎng)非結(jié)構(gòu)化數(shù)據(jù)分析主要內(nèi)容2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析文本表示特征提取特征權(quán)重文本表示第一講：文本挖掘簡介2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析文本表示及文本預處理2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析去掉html一些tag標記停用詞(stopwords)去除、詞根還原(stemming)(中文)分詞、詞性標注、短語識別、…詞頻統(tǒng)計(TFIDF)數(shù)據(jù)清洗：去掉噪聲文檔或文檔內(nèi)垃圾數(shù)據(jù)向量空間模型[G.Salton,1971]2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析向量空間模型(VectorSpaceModel)自然語言處理常用模型基本概念文檔（Document）：句子、段落、整篇文章特征項（Term/Feature）：詞根/詞/短語/其他項的權(quán)重（Weight）：每個特征項在文檔中的重要程度。

VSM示意圖—數(shù)據(jù)結(jié)構(gòu)化一般思路2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析特征詞1特征詞2特征詞3……特征詞n文檔1權(quán)重11權(quán)重12權(quán)重13……權(quán)重1n文檔2權(quán)重21權(quán)重22權(quán)重23……權(quán)重2n文檔3權(quán)重31權(quán)重32權(quán)重33……權(quán)重3n文檔4權(quán)重41權(quán)重42權(quán)重43……權(quán)重4n………………………………文檔m權(quán)重m1權(quán)重m2權(quán)重m3……權(quán)重mnVSM示意圖相似度比較內(nèi)積計算Cosine計算2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析

文本表示注解2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析文本表示注解2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析用單個漢字（對應英語語系中的字符串）做特征，不考慮詞語的含義。直接利用漢字在文本中出現(xiàn)的統(tǒng)計特性對文本進行劃分；直觀明了，且操作簡單，尤其對于英文文本或其他西語文本的劃分非常容易，計算機可以直接利用空格進行分隔。但是基于單個漢字表示方法往往無法很好的代表語義信息。比較之下，使用詞做特征成為一種更好的選擇。詞是中文語義的最小信息單位，詞可以更好的反映句子中的信息，但是分析難度也提升了。以中文文本為例，詞與詞之間沒有明確的分隔標記，計算機無法自動識別詞語的邊界，因此正確分詞是這種表示方法的關鍵。該方法比較常用。文本表示注解2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析詞性（PartOfSpeech，POS）作為特征可以更好的識別詞語之間的關系。讓計算機來自動地給文本中的詞標注詞性，然后利用詞性進行詞義分析。如：什么樣的名詞經(jīng)常和什么樣的動詞同時出現(xiàn)，這對于詞語之間關系的研究開拓了新的思路。詞性標注技術的成熟為詞組組塊（PhraseChunking）的界定與實體及關系（EntitiesandRelationship）的識別打下了良好的基礎，有利于我們更深入的探索文本語義的信息。且詞組的形式提高了特征向量的語義含量，使得向量更稀疏。近年來，詞性標注（POS-tagging）、詞組組塊（PhraseChunking）、實體及關系(EntitiesandRelationship)相關的研究也開展了很多，取得了很多可喜的成果，有興趣的讀者可以參考后面所附的文獻進行深入學習。特征權(quán)重2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析特征權(quán)重2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析衡量某個特征項在文檔表示中的重要程度或者區(qū)分能力的強弱更好的對文本進行表示一般利用文本的統(tǒng)計信息：詞頻常用的權(quán)重計算方法2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析

TF-IDF例子（Saltonetal.,1983）2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析假設抓取了來自門戶網(wǎng)站“經(jīng)濟”“娛樂”“科技”三個版塊各300篇文章，其中有一篇文章，共有100個詞，其中“粒子”“和”“應用”三個詞分別出現(xiàn)了5次、35次和15次，我們想將該文檔進行歸類，看它屬于“經(jīng)濟”“娛樂”“科技”文檔中的哪一類。初步分析認為，“粒子”、“應用”兩個詞應該對文章分類的作用較大，而“和”對于文章的分析意義不大。更進一步的，如果目標是進行文檔的歸類，有理由認為“粒子”一詞對于該文章的歸屬的貢獻要高于“應用”?！皯谩币辉~的專業(yè)性不及“粒子”。TF-IDF

應用舉例2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析詞語詞頻（TF）文檔頻率(DF)文檔逆頻率(IDF)權(quán)重（TF*IDF）粒子0.05509000.063和0.359009000應用0.154509000.045但是如果只關注詞頻

，“應用”一詞的權(quán)重更高。這時候，可以利用IDF的計算公式進行權(quán)重的處理，計算三個詞的文檔頻率和文檔逆頻率，假設50篇文章中出現(xiàn)了“粒子”一詞，450篇文章中出現(xiàn)了“應用”一詞，900篇文章中均出現(xiàn)了“和”這個詞語。那么采用TF*IDF方法計算得到的權(quán)重如下：特征權(quán)重注解2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析特征加權(quán)方法最初用于信息檢索，特征加權(quán)主要有三個層次，局部加權(quán)、全局加權(quán)和標準化(Chisholmetal.,1999)。一般化的特征加權(quán)表示式如下：

是詞語w在文檔d中的局部權(quán)重。

是詞語w在文檔集合中的全局權(quán)重，

是文檔d的標準化因子。局部加權(quán)僅使用詞語在文檔中出現(xiàn)的統(tǒng)計量，而全局加權(quán)則使用整個數(shù)據(jù)集中的統(tǒng)計量進行計算。特征提取2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析特征提取的意義2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析文本集合包含的特征太多10,000–1,000,000uniquewords…andmore特征減少后，某些算法才能使用有些分類方法無法處理1,000,000以上的特征減少訓練時間有些分類方法的訓練時間與特征個數(shù)的平方成正比，或更糟使預測模型更快、更小能提升總體性能EliminatesnoisefeaturesAvoidsoverfitting特征提取思路2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析特征選擇(FeatureSelection)文檔頻率信息增益卡方統(tǒng)計量互信息特征重構(gòu)(Re-parameterisation)潛在語義分析文檔頻率（DocumentFrequency,DF）2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析文檔頻率（DF）指文本數(shù)據(jù)中包含某個詞條的文檔的個數(shù)。通過文檔頻率進行特征選擇就是按照文檔頻率的大小對詞條進行排序，將文檔頻率小于某一閾值的詞刪除，從而降低特征空間的維數(shù)。文檔頻率2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析基于DF的啟發(fā)式要點太頻繁的詞項沒有區(qū)分度,DF大于某個閾值去掉太稀有的詞項獨立表達的類別信息不強稀有詞項的全局影響力不大在訓練集中，某些文檔如果有某個稀有詞項，它們通常也會有一些常見詞項（對那一類）和通常信息獲取觀念有些抵觸：稀有的更有代表性（這是一種adhoc方法，不依據(jù)什么理論）最容易實現(xiàn)，可擴展性好文檔頻率2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析Baeza-YatesandRibeiro-Neto（1990）研究表明，若一個特征在語料集80%的文檔中都出現(xiàn)了，它對于分類來說是無意義的。這樣的詞語主要是指停用詞等，通過對這部分詞語的壓縮，可以使特征向量空間壓縮到原始的40%或者更多。對于出現(xiàn)頻率過低的詞語，考慮到增加一個變量對于現(xiàn)實帶來的成本，一般不利用這樣的詞語，而是盡可能少的選取其他詞條。YangandPedersen（1997）試驗表明：在分類效果沒有變差的前提下將特征空間的維數(shù)約減為原來的1/10是可能的，約減為1/100所帶來的損失很小。熵2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析對分類系統(tǒng)來說，文檔類別C的可能取值是每一個類別出現(xiàn)的概率是

為類別的總數(shù)，熵定義為：熵/平均熵2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析在觀察到特征項

以后，文檔落入某個文檔類的概率就應該是條件概率此時系統(tǒng)的熵為：該特征項的熵：該值越大，說明分布越均勻，越有可能出現(xiàn)在較多的類別中；該值越小，說明分布越傾斜，特征項可能出現(xiàn)在較少的類別中信息增益(InformationGain,IG)2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析該term為整個分類所能提供的信息量特征項出現(xiàn)與否導致的熵的變化考慮和不考慮特征的熵的差值

信息增益2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析信息增益2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析信息量與變量可能的變化有關，跟變量具體的取值沒有任何關系，只和變量所取的種類多少以及發(fā)生概率有關），種類和發(fā)生概率決定了信息量的大小。Quinlan提到了這一點，信息增益的方法總是傾向于選擇有多種屬性的特征。只能考察特征對整個系統(tǒng)的貢獻，而不能具體到某個類別上，這就使得它只適合用來做所謂“全局”的特征選擇（指所有的類都使用相同的特征集合），而無法做“局部”的特征選擇（每個類別有自己的特征集合，因為有的詞，對這個類別很有區(qū)分度，對另一個類別則無足輕重）。χ2統(tǒng)計量2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析基本思想通過觀察實際值與理論值的偏差來確定理論的正確與否。假設兩個變量確實是獨立的，然后觀察實際值與理論值的偏差程度。如果偏差足夠小，認為誤差是很自然的樣本誤差，兩者確實獨立；如果偏差大到一定程度，使得這樣的誤差不太可能是偶然產(chǎn)生或者測量不精確所致，認為兩者相關。2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析那么偏差為：χ2統(tǒng)計量2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析χ2統(tǒng)計量2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析卡方度量兩者(term和類別)獨立性的缺乏程度χ2越大，獨立性越小，相關性越大若AD<BC,則類和詞獨立,N=A+B+C+D低頻詞缺陷2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析只統(tǒng)計文檔中是否出現(xiàn)詞條T，卻忽略了詞條T在文檔中出現(xiàn)頻率的信息，使得卡方檢驗對低頻詞有所偏袒，這就夸大了低頻詞的作用。如果某一特征只在一類文檔中頻繁出現(xiàn)，通過卡方法計算出來的卡方統(tǒng)計量很低，在特征選擇時這種特征詞就會被排除掉，但是這種在少量文檔中頻繁出現(xiàn)的特征詞很有可能對分類的貢獻很大，比如專指概念?；バ畔⒎?MutualInformation,MI)2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析MI越大,特征項t和c共現(xiàn)程度越大(N=A+B+C+D)互信息特點2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析MI(t,C)的值越大，t對于C的區(qū)分能力越強對同一個類，不同的詞項，在同樣P(t|C)情況下，相對稀有的t會得到較大的值，即MI受到詞條邊際概率的影響，從下面的公式中可得：

潛在語義分析

(LatentSemanticAnalysis，LSA)2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析特征重構(gòu)方法SVD分解是LSA的數(shù)學基礎特征值與特征向量實對稱矩陣的正交化SVD矩陣分解低階近似特征值/特征向量設A是n階方陣，如果數(shù)和n維非零列向量，使：

成立，則稱數(shù)為方陣A的一個特征值，非零列向量稱為A的對應于特征值的特征向量（或稱為A的屬于特征值的特征向量）。具體步驟為

將特征向量正交化;3.再將特征向量單位化.4.利用正交矩陣將實對稱矩陣對角化這樣共可得到m個兩兩正交的單位特征向量有5.以為列向量構(gòu)成正交矩陣實對稱矩陣正交化由可得其中Q的列為矩陣A的單位正交特征向量,仍表示對角矩陣,其中對角線上的值為A的特征值，按從大到小排列。最后，QT=Q-1，因為正交矩陣的逆等于其轉(zhuǎn)置。實對稱矩陣對角化

已知矩陣A，尋找行空間的一組標準正交基記為V，通過A作用到行空間的這組標準正交基上AV，得到列空間的一組基向量，記為B，把B標準化后得U，這里就可以得到用分量的形式表示：

奇異值分解SVD對于

，方程兩邊同乘，可以得到,由于V是標準正交基構(gòu)成的矩陣，有，因此可得：

U，V求解？

由，可以得到：

而

為對稱非負定矩陣，為對角矩陣，可以得到為的特征向量構(gòu)成的矩陣。

低階近似和F-范數(shù)2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析令

表示一個

階的原始數(shù)據(jù)矩陣,矩陣的秩為

為了不失一般性，我們假定

的均值為0，SVD奇異值分解可以表示成下面的過程：根據(jù)著名EckartandYoung(1936)年的結(jié)果,對于任意的有：在Frobenius范數(shù)下，SVD的前r個元素給出了矩陣的秩為r的一個最優(yōu)估計。，，

潛在語義分析(LatentSemanticAnalysis,LSA，1990，Deerwesteret.al）2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析LSA是文本分析中一種常用的降維技術。該方法以文檔詞頻矩陣為基礎進行分析，得到了向量空間模型中文檔的高維表示，并通過投影形成文檔在潛在語義空間中的低維表示。理論依據(jù)是我們認為有一種潛在的語義結(jié)構(gòu)隱含在文檔中詞語的上下文使用模式中，而文檔詞頻共現(xiàn)矩陣在一定程度上可以反映出詞和不同主題之間的關系。潛在語義分析方法很好的解決了同義詞和一詞多義等現(xiàn)象給文本分析造成的困難。LSA被提出后，被廣泛用于文本檢索和聚、分類技術中。LSA理解2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析

X表示一個文檔和詞語的共現(xiàn)頻率矩陣,X的每一行均代表一個文檔向量，每一列代表詞語向量。LSA將每個文本視為以詞語（特征）為維度的空間中的一個點，認為一個包含語義的文本出現(xiàn)在這種空間中，它的分布不是隨機的，而是應該服從某種語義結(jié)構(gòu)。同樣地，也將每個詞語視為以文檔為維度的空間中的一個點。文檔是由詞語組成的，而詞語又要放到文本中去理解，體現(xiàn)了一種“詞語-文檔”之間的雙重概率關系。LSA示意圖2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析性質(zhì)2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析從數(shù)據(jù)壓縮的角度看，“近似矩陣”是秩為

K的前提下矩陣X的最小二乘意義下的最佳近似。LSA不同于向量空間模型中文本和詞語的高維表示，它將文本和詞語的高維表示投影在低維的潛在語義空間中，縮小了問題的規(guī)模，得到詞語和文本的相對不那么稀疏的低維表示，同時這種低維表示揭示出了“文檔-語義-詞語”之間的聯(lián)系。K值的選擇2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析k值過大則會使運算量增大，一般選特征值個數(shù)

時，對于，可令滿足貢獻率不等式：

（

可取40%，50%．．．．）潛語義分析缺點2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析但是可以注意到

，

分解的兩個向量元素，可以為正值，也可以為負值，這些性質(zhì)導致

和

總是很難解釋。潛在語義分析過程中奇異值分解的物理意義不夠明確，較難控制詞義聚類的效果；此外該算法涉及高維且復雜的矩陣運算，這使得其在計算機上的實現(xiàn)也存在一定的困難。LSI應用例子2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析編號

文本Doc1我們學習了探索性數(shù)據(jù)分析課程。Doc2數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析。Doc3數(shù)據(jù)分析:一般要分析的目標比較明確，分析條件也比較清楚。Doc4數(shù)據(jù)分析可幫助人們作出判斷，以便采取適當行動。Doc5數(shù)據(jù)挖掘一般指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。Doc6數(shù)據(jù)挖掘：目標不是很清晰，要依靠挖掘算法來找出隱藏在大量數(shù)據(jù)中的規(guī)則、模式、規(guī)律等。處理稀疏詞匯后—文本矩陣2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析詞匯Doc1Doc2Doc3Doc4Doc5Doc6方法010000分析132100目標000001判斷000100數(shù)據(jù)021112算法000011挖掘000012隱藏000010利用VSM得到相似度2023/9/2非結(jié)構(gòu)化數(shù)據(jù)分析上述實例文本字數(shù)較少，我們采用余弦公式計算相似度。在VSM中是把每一行作為對應詞匯的詞匯向量的，則通過計算“數(shù)據(jù)”和“分析”的相似度為0.700，“數(shù)據(jù)”和“挖掘”的相似度為0.674，“分析”和“挖掘”的相似度為0，可見在VSM中，“分析”和“挖掘”沒有任何關系的，但是，事實究竟是怎樣的呢

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

文本特征提取技術

文檔簡介

溫馨提示

最新文檔

評論

文本特征提取技術

文檔簡介

溫馨提示

最新文檔

評論

相關文檔