版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第四章詞頻分布規(guī)律(齊普夫定律)漢字總數(shù):5-6萬(wàn)字常用漢字:<1萬(wàn)字(總數(shù)的20%-)1000個(gè)漢字:90%文獻(xiàn)2400個(gè)漢字:99%文獻(xiàn)3800個(gè)漢字:99.99%文獻(xiàn)66萬(wàn)字的《毛澤東選集》四卷合訂本:2775個(gè)漢字,<1/10一、基本概念1、詞頻:某一個(gè)單詞在文章或講話中出現(xiàn)的次數(shù)2、單詞頻率:某詞出現(xiàn)的頻次與文集中所有詞出現(xiàn)的總次數(shù)之比3、詞頻字典:以詞頻多寡為序的詞典,顯示不同詞匯被人們運(yùn)用程度的差異(每個(gè)詞有兩個(gè)參數(shù):頻次和序號(hào))中國(guó)第一部詞頻字典:
1934,近代教育學(xué)家陳鶴琴(統(tǒng)計(jì)來(lái)源:55個(gè)萬(wàn)個(gè)詞匯的文集,分析出單字4261個(gè),但對(duì)詞頻未進(jìn)行統(tǒng)計(jì))世界上第一部詞頻字典:
1889,德國(guó)學(xué)者凱丁《德語(yǔ)頻率詞典》(統(tǒng)計(jì)來(lái)源:總字?jǐn)?shù)110萬(wàn)詞匯的文集)1986,北京外國(guó)語(yǔ)學(xué)院《現(xiàn)代漢語(yǔ)頻率詞典》共1808114字詞其中:4574個(gè)單字---991字頻等級(jí)
31159單詞---757詞頻等級(jí)4、最省力法則:在各種運(yùn)動(dòng)中,人們有意無(wú)意地總是選擇一條最省力的途徑行事。
--------1949年,美國(guó)哈佛大學(xué)教授齊夫《人類行為與最省力原則--人類生態(tài)學(xué)引論》二、齊夫定律的研究背景假設(shè)有一個(gè)文集含N個(gè)詞匯,在N充分大的情形下,按照詞匯在文集中出現(xiàn)的頻次n遞減排列,可得一詞頻表:詞頻n1n2n3n4n5…..nr…….nL詞序12345……r……..nLnr*r=C1916年,德國(guó)速記專家艾思杜:1928年,美國(guó)電話公司物理學(xué)家貢東:logrlognrαnr*rtgα=Cnr*rβ=Cnr*r=Cnr=cr-1450nr/N=cr-1/N令:
fr=nr/Nc/N=K
fr=Kr-1K=0.102序號(hào)為1的單詞出現(xiàn)頻率1935年,齊夫驗(yàn)證fr=Kr-1Pr=fr(實(shí)驗(yàn)次數(shù)無(wú)限增加時(shí))Pr=Kr-1P1=K=0.1(r=1)但是大多數(shù)語(yǔ)言等級(jí)序號(hào)為1的詞,其出現(xiàn)的頻率一般小于0.1,故K為參數(shù)而非常數(shù)。
0<K<0.1C值在0.03—0.11之間
4574字,991個(gè)字頻等級(jí),172/4574(3.76%)31159單詞,755個(gè)詞頻等級(jí),336/31159(1.08%)1、文字描述
如果將一篇較長(zhǎng)的文章中的每個(gè)詞按其出現(xiàn)頻次遞減排列,并用自然數(shù)給這些詞編上等級(jí)序號(hào),出現(xiàn)頻次最高的詞為1級(jí),其次為2….這樣一直到D級(jí),如果用f表示詞在文章中出現(xiàn)的頻次,用r表示詞的等級(jí)序號(hào),則有f.r=c三、齊夫定律的基本內(nèi)容rfcrfc140040066639622004007584163133399850400410040094439658040010404002、圖像描述:rflnrlnf3、數(shù)學(xué)描述:f*r=c
齊夫原始狀態(tài),也稱單參數(shù)詞頻分布規(guī)律
(f*rβ=c而β=1)
β
為直線斜率,C為參數(shù)4、通用的齊夫定律:
f=cr-β
f:詞在文章中出現(xiàn)的頻次
r:詞的等級(jí)序號(hào)
β和C:參數(shù)雙參數(shù)詞頻分布規(guī)律朱斯修正等級(jí)序號(hào)r頻次fr*f199.02-3,2.5717.54-5,4.562765307-8,7.54309-11,1033012-32,2224433-75,54154適于描述中頻詞分布規(guī)律5、編秩方法平均編秩法隨機(jī)編秩法最大秩序法平均編秩法對(duì)于詞頻相同的詞,采用序號(hào)平均數(shù)來(lái)定義它們共同秩序的方法。詞A2411詞B2411詞C2411r=(10+11+12)/3=11隨機(jī)編秩法具有相同詞頻的不同單詞將被定義不同的秩序詞A2411詞B2412詞C2413字母順序漢語(yǔ)拼音筆劃順序Pb最大秩序法對(duì)于詞頻相同的詞,按秩序最大詞的秩給予其他同類詞相同的秩序。詞A2412詞B2412詞C24126、三參數(shù)詞頻分布規(guī)律50s,法國(guó)數(shù)學(xué)家孟戴爾布羅(r+m)B*f=c
f:詞頻
r:等級(jí)序號(hào)
B:與高頻詞的數(shù)量多少有關(guān)
C:與出現(xiàn)概率最多的詞的概率大小有關(guān)
m:與文集的詞匯總數(shù)N有關(guān)m=0fr*rB=c朱斯公式
B=1fr*r=c齊普夫定律7、布茨定律:齊夫第二定律1967年
In/I1=2/(n(n+1)(n=1,2,3,…)
In:出現(xiàn)n次的詞的數(shù)量
I1:出現(xiàn)1次的詞的數(shù)量
n:出現(xiàn)次數(shù),詞頻出現(xiàn)n次的詞的數(shù)量與出現(xiàn)1次的詞的數(shù)量之比與文集的大小及C值無(wú)關(guān),而只與頻次有關(guān)I2/I1I3/I1I4/I1I5/I1I6/I1I7/I1I8/I10I9/I1I10/I1理論值0.330.170.100.0710.0480.0360.0280.0220.018實(shí)測(cè)值0.360.170.100.070.0510.035.0280.0290.015適于描述低頻詞四、齊夫定律的主要應(yīng)用鍵盤設(shè)計(jì)碼長(zhǎng)設(shè)計(jì)編制詞表自動(dòng)標(biāo)引分析學(xué)科或?qū)n}研究動(dòng)向和,主,產(chǎn),不,為,這行,讓,間,澡,煙,軍意,渦,肱,體,宏,寵編制詞表思路一根據(jù)齊夫定律的頻次分布方法,通過(guò)具體的標(biāo)引試驗(yàn),找出被標(biāo)引文獻(xiàn)中敘詞使用頻率的分布特征,最后決定合乎使用頻率的詞,編入敘詞表
文獻(xiàn)
集合標(biāo)引敘詞詞頻等級(jí)表確定詞頻入詞表編制詞表思路二完全根據(jù)對(duì)有關(guān)原始文獻(xiàn)中出現(xiàn)的術(shù)語(yǔ)進(jìn)行詞頻統(tǒng)計(jì)的結(jié)果,初步選詞入表,再在實(shí)際標(biāo)引過(guò)程中不斷修改完善文獻(xiàn)集合詞頻統(tǒng)計(jì)確定頻率初步生成詞表標(biāo)引詞表修訂自動(dòng)標(biāo)引:1958年,美國(guó)情報(bào)學(xué)家盧恩1、概念
概念1:利用計(jì)算機(jī)對(duì)文章進(jìn)行自動(dòng)標(biāo)引,自動(dòng)加上標(biāo)識(shí)符的過(guò)程。
2、基本形式詞標(biāo)引:用計(jì)算機(jī)根據(jù)文獻(xiàn)中術(shù)語(yǔ)或詞的有關(guān)頻率分布規(guī)律進(jìn)行自動(dòng)標(biāo)引3、基本思路
**詞的分辨能力:識(shí)別文章主題的能力
(與詞的出現(xiàn)頻次有很大的關(guān)系,出現(xiàn)頻次過(guò)高,語(yǔ)法作用的詞,出現(xiàn)頻次過(guò)低,分辨能力往往很低)**有效詞:分辨能力較高,頻次適中,可被用于自動(dòng)標(biāo)引的詞**詞頻分布與分辨能力之間的關(guān)系nf橫軸:?jiǎn)卧~按詞頻遞減排列的等級(jí)序號(hào)縱軸:文集中單詞出現(xiàn)的頻次雙曲線:詞頻分布曲線鐘形曲線:詞的分辨力曲線**臨界值的確定帕歐(M.L.Pao):n±an=(√1+8I1-1)/2
例:I1=780n=3838±a臨界值范圍38±aa:與標(biāo)引深度或標(biāo)引要求有關(guān)關(guān)鍵詞1關(guān)鍵詞2關(guān)鍵詞3文獻(xiàn)1關(guān)鍵詞1關(guān)鍵詞2文獻(xiàn)2關(guān)鍵詞1關(guān)鍵詞2關(guān)鍵詞3關(guān)鍵詞4文獻(xiàn)3平均3個(gè)關(guān)鍵詞38±a設(shè)標(biāo)引深度為9?對(duì)于每篇文章,N,a可以自動(dòng)測(cè)算對(duì)于大量文獻(xiàn),a值可通過(guò)選擇一定的樣本測(cè)算能代表總體水平的外延范圍a值**標(biāo)引詞的確定
全部有效詞都被選作標(biāo)引詞用類名作為標(biāo)引詞人工配合**生成文摘句思路:根據(jù)有效詞或標(biāo)引詞在句子中的相對(duì)位置進(jìn)行選擇要點(diǎn):1、計(jì)算每個(gè)句子中標(biāo)引詞所占的比例ri
ri=Pi2/qi
Pi:句子中選出的標(biāo)引詞的數(shù)量
qi:句子中的總字?jǐn)?shù)
2、ri值最高的句子可視為該文章的代表句
3、ri值為一定值之上的句子,可選入文摘之中
概念2:利用計(jì)算機(jī)對(duì)給定的文獻(xiàn),根據(jù)其內(nèi)容特征,經(jīng)過(guò)內(nèi)容分析
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度白酒線上線下聯(lián)合推廣代理合同3篇
- 二零二五版物流項(xiàng)目投資合作協(xié)議-風(fēng)險(xiǎn)控制3篇
- 人才培養(yǎng)模式與核心建設(shè)方案
- 設(shè)備監(jiān)理合同-設(shè)備監(jiān)理合同管理模擬試卷3
- 安徽省肥東縣高級(jí)中學(xué)高三上學(xué)期8月調(diào)研考試語(yǔ)文試卷(含答案)
- 第二十七章腹股溝斜疝的臨床表現(xiàn)61課件講解
- 2025年健身比賽裁判合同
- 2025年嬰童用品代理合作協(xié)議
- 2025年農(nóng)業(yè)種植特許經(jīng)營(yíng)合同
- 2025年在線寵物服務(wù)平臺(tái)用戶注冊(cè)協(xié)議
- 銷售與銷售目標(biāo)管理制度
- 人教版(2025新版)七年級(jí)下冊(cè)英語(yǔ):寒假課內(nèi)預(yù)習(xí)重點(diǎn)知識(shí)默寫練習(xí)
- 2024年食品行業(yè)員工勞動(dòng)合同標(biāo)準(zhǔn)文本
- 2024-2030年中國(guó)減肥行業(yè)市場(chǎng)發(fā)展分析及發(fā)展趨勢(shì)與投資研究報(bào)告
- 運(yùn)動(dòng)技能學(xué)習(xí)
- 2024年中考英語(yǔ)專項(xiàng)復(fù)習(xí):傳統(tǒng)文化的魅力(閱讀理解+完型填空+書面表達(dá))(含答案)
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設(shè)計(jì)規(guī)范
- 2024年公安部直屬事業(yè)單位招聘筆試參考題庫(kù)附帶答案詳解
- 臨沂正祥建材有限公司牛心官莊鐵礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 六年級(jí)上冊(cè)數(shù)學(xué)應(yīng)用題練習(xí)100題及答案
- 死亡報(bào)告年終分析報(bào)告
評(píng)論
0/150
提交評(píng)論