



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
自然語言處理?統(tǒng)計(jì)自然語言處理〇か司"最大長度分詞?雙向最大長度分詞?細(xì)粒度分詞搜索引擎分詞輸出一句話中所有的詞"嵌套分詞'有詞典的jieba詞典?hanlp?輸入法的詞典〇數(shù)據(jù)結(jié)構(gòu)"字符匹配樹?trie,ac自動機(jī)〇特征?字"詞?短語,ngram兩個連續(xù)的信息n個連續(xù)的信息算法〇tfidfotextrank〇垂直領(lǐng)域詞典〇通用領(lǐng)域詞典〇卡方算法,skipgramwordpiece〇統(tǒng)計(jì)翻譯模型nmt〇詞性識別,pos數(shù)據(jù)集?人民日報(bào)數(shù)據(jù)集〇命名實(shí)體識別?模型hmmerf〇crf+?標(biāo)注模式BIOBIOSBIOES任務(wù)形式?單粒度命名實(shí)體識Sリ?嵌套實(shí)體識別nestner〇關(guān)鍵詞抽取tfidftextrank〇文本摘要textrank〇文本分類樸素貝葉斯文本分類支持向量機(jī)文本分類?深度學(xué)習(xí)自然語言處理〇深度學(xué)習(xí)模型,cnn?textcnn文本分類?cnnerfattention輕量級文本深度學(xué)習(xí)命名實(shí)體識別模型?Istm?字詞混合編碼語言模型elm。seq2seq常用encode方案命名實(shí)體識別bilstmerf文本匹配模型dssm,gru?更新門和重置門〇深度學(xué)習(xí)中文本編碼?tfidftf〇詞頻idf〇逆文檔詞頻,bow詞袋模型,nnlmNerualNetworkLanguageModel通過一個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對n元條件概率進(jìn)行評估onehot缺點(diǎn)矩陣特別的大■fasttext"word2vec?2013年?模式〇skipgram-衍生任務(wù)?graphembedding〇deepwalk〇node2vec〇cbow?變種〇glove-共現(xiàn)概率矩陣■elmo?字詞混合Istm編碼〇深度學(xué)習(xí)中自然語言處理イ王務(wù)-文本分類?類別〇多分類〇多標(biāo)簽分類〇層次分類?命名實(shí)體識別?任務(wù)類型〇單粒度非重疊命名實(shí)體識別〇多粒度重疊命名實(shí)體識別?模型ocnnerfobilstmerf〇bigruerf〇在一段話中找到我們所需要的實(shí)體?標(biāo)注過程〇BIO〇BIOS"單獨(dú)ー個字是ー個實(shí)體的場景比較多的情況下我們會采用此方法作為標(biāo)注手段■關(guān)系抽取?〇找到一段文本中存在的實(shí)體與實(shí)體之間的關(guān)系?數(shù)據(jù)集〇duie-dataset?模型〇指針半指針模型-事理圖譜任務(wù)〇尋找事件與事件之間的關(guān)系處理模式〇事理圖譜的上下為推理數(shù)據(jù)效果〇事理圖譜?閱讀理解?是否類型閱讀理解〇數(shù)據(jù)集,squad"dureader?答案在原文連續(xù)序列形閱讀理解〇抽取式閱讀理解■webqa,sougouqa〇多文檔閱讀理解?數(shù)據(jù)集dureadersquad?答案在原文多段式閱讀理解〇基于滑動窗口預(yù)測ー對多問答關(guān)系能力?生成式閱讀理解〇司法考試?閱讀理解的應(yīng)用〇文檔問答〇命名實(shí)體識5リ〇關(guān)系抽取,文本翻譯?有監(jiān)督文本翻譯?無監(jiān)督文本翻譯?小語種翻譯〇地區(qū)語言遷移學(xué)習(xí)?文本糾錯seq2seqskipgram〇錯誤信息的概率■文本轉(zhuǎn)編程語言missionotext2cypherotext2sql?實(shí)現(xiàn)方案〇寬表〇預(yù)測文本那一列?model〇IGSQL〇RAT-SQL?問答對話狀態(tài)跟蹤〇dm〇基于關(guān)鍵詞的對話跟蹤模型〇基于任務(wù)的對話跟蹤模型生成式問答能力?詞槽式問答能力〇ner〇特征skipgram知識圖譜問答〇文本分類〇nl2cypher?預(yù)訓(xùn)練語言模型自然語言處理〇transformEncoder-Decoder的結(jié)構(gòu)〇attentionMultiHeadselfAttention?ScaledDotProductAttention〇公式MultiHeadAttention〇MultiHeadAttention是使用多組Attention得到相應(yīng)的結(jié)果并拼接〇head■PositionalHead?這個Head在90%的情況下都會把最大的權(quán)值分配給左邊或者右邊的ー個詞。?計(jì)算的權(quán)值通常指向臨近的詞■SyntacticHead將詞語之間的關(guān)系聯(lián)系起來case〇名詞和動詞的指向關(guān)系,RareHead大的權(quán)值分配給稀有詞ConvolutionAttentionCrossAttentionQuery和SupportSet里面的每一張圖像都經(jīng)過ー個網(wǎng)絡(luò)提取特征,得到相應(yīng)的的特征,然后互相Attend得到重組的特征,再計(jì)算相似度進(jìn)行MetaTrainCrossAttention示意圖■Globalvs.LocalAttentionGlobalAttention〇全局的Attention〇globalattention模型示意圖LocalAttention〇介于Soft和HardAttention的一種機(jī)制〇localattention示意圖■CompositionalAttentionPairwiseAffinityoPairwiseAffinity公式DistanceDissimilarity〇DistanceDissimilarity公式最終attention計(jì)算oCompositionalAttention合并E和N的權(quán)重-總結(jié)?Attention的本質(zhì)就是加權(quán),權(quán)值可以反應(yīng)模型關(guān)注的點(diǎn)〇bert■pretrainmissionmlm(MaskedLanguageModeling)〇inputsequence中的每個token有15%的概率masked,并且用最后ー層hiddenstates映射到詞表上逬行預(yù)測。由于fine-tune階段并沒有mask符號,在預(yù)訓(xùn)練階段,被masked的token只有80%的情況被替換為[mask]符號,10%的情況下唄替換為詞表中其他任意符號,10%的情況下不做替換。wwm〇連續(xù)tokennsp(NextSentencePrediction)〇句子級別二分類任務(wù)〇補(bǔ)充建模句子之間的關(guān)系。inputsequence包括兩個句子,50%的概率兩個句子有前后順序關(guān)系,50%的概率是隨機(jī)挑選的兩個句子。用句首對應(yīng)的hiddenstates映射到而分類任務(wù)上進(jìn)行預(yù)測。〇訓(xùn)練的前幾輪表現(xiàn)就會非常的好"輸入embeddingbpetokenembedding〇分詞〇特征轉(zhuǎn)到idpositionembeddingsegmentembedding■pretaketokenBPE〇前綴分詞〇后綴分詞subword〇詞元詞根-構(gòu)造[CLS]Sentence.A[SEP]Sentence.B[SEP]的形式,然后截?cái)嗟?12token長度,使用BPE分詞,每個token有15%的概率進(jìn)行mask操作?!鯢ine-tunemissionsentencepaircissinglesentencecisquestionanswertasksinglesentencetaggingtaskobert家族■bertwwm?實(shí)體maskxlnetalbert?2019electrarobertawordbert?wordbertosubword-詞元詞根?t5ngramberternie?ernietiny〇gpt■gpt?用Transformer的Decoder來做單向語言模型的預(yù)訓(xùn)練。?fine-tune〇task"specificinputadaptations,gpt2?預(yù)訓(xùn)練階段〇BPE:直接在byte序列上逬行bpe,減小basevocab。為了避免陷入局部最優(yōu)解,除空格之外,禁止將不同類別的字節(jié)逬行合并。〇LayerNormalization:將!ayernormalization放至リ每個subblock之前,并在最后一個Self-attention后再增加一個layernormalization.?gpt3■GenerativePre-Training?對比學(xué)習(xí)〇基礎(chǔ)概念?對比學(xué)習(xí)在做特征表示相似性計(jì)算時,要先對表示向量做L2正則,之后再做點(diǎn)積計(jì)算,或者直接采用Cosine相似性〇計(jì)算機(jī)視覺?基于負(fù)例的對比學(xué)習(xí)MocoVI?SimCLR〇子主題?自然語言處理的應(yīng)用。法律-法律文書解析?實(shí)體〇文字類型實(shí)體"法律法規(guī)法條〇數(shù)字類型實(shí)體,處罰金額涉案金額關(guān)系。線索鏈接事件〇圍繞論元展開關(guān)系。時間為事件重要因素相似度〇文本相似度〇事件相似度-時序圖表示學(xué)習(xí)相イ以度〇醫(yī)療"電子病歷解析?合理用藥推理。用藥潛在風(fēng)險(xiǎn)推理?藥品說明書解析?藥物知識圖譜?公網(wǎng)醫(yī)療信息解析醫(yī)療文章信息醫(yī)療問答信息〇導(dǎo)診〇在線〇TA藥品癥狀熱詞〇地區(qū)流行病預(yù)測藥物熱詞〇藥物市場預(yù)估〇藥物銷量周期性預(yù)測〇教育?文科?改寫〇分級閱讀?糾錯?作文生成式推薦〇金融輿情量化風(fēng)控?輕量化預(yù)訓(xùn)練語言模型〇方法模型蒸儲?常見方案teacher-student模型模型剪枝模型量化〇模型〇更淺(12層->3層transformerblock)〇更短(字粒度。subword粒度縮短輸入長度)〇加大寬度(768->1024hiddensize)?優(yōu)勢〇4倍提速的同時模型效果只有少量下降,alberttiny?特征〇sop句子順序預(yù)測〇減少參數(shù)矩陣分解參數(shù)共享■Electratiny?特征〇生成式?jīng)Q策架構(gòu)?實(shí)驗(yàn)細(xì)節(jié)〇參數(shù)共享〇更小的生成器〇訓(xùn)練策略"摒棄掉了dropout■autotinybert?結(jié)合了自動參數(shù)學(xué)習(xí)的預(yù)訓(xùn)練語言模型?openvin?;赾pu部署輕量化語言模型及下游任務(wù)〇自然語言處理在邊緣計(jì)算中的應(yīng)用〇例如12層的bert算カ要求很高,但是我們用三層的就可以在邊緣部
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度租房轉(zhuǎn)租合同變更及續(xù)約補(bǔ)充協(xié)議
- 2025年度家庭子女入學(xué)租房保障合同
- 2025年農(nóng)村房屋贈與及附屬設(shè)施拆除重建合同
- 中國一次性防護(hù)手套市場供需現(xiàn)狀及投資戰(zhàn)略研究報(bào)告
- 2025年中國彩色石英管液位計(jì)市場全面調(diào)研及行業(yè)投資潛力預(yù)測報(bào)告
- 2025年度教育培訓(xùn)機(jī)構(gòu)兼職教師協(xié)議模板
- 二零二五年度城市綜合體經(jīng)營授權(quán)協(xié)議
- 2025年度兩人合租房屋租賃合同(含戶外探險(xiǎn)俱樂部)
- 二零二五年度電車租賃與智能調(diào)度系統(tǒng)建設(shè)合同
- 二零二五年度股權(quán)與合伙人協(xié)議書綜合實(shí)施手冊
- JB-T 14509-2023 反滲透海水淡化設(shè)備技術(shù)規(guī)范
- GB/T 14799-2024土工合成材料有效孔徑的測定干篩法
- 2024年03月遼寧朝陽市事業(yè)單位定向招考聘用退役士兵100人筆試歷年(2016-2023年)真題薈萃帶答案解析
- 茶葉運(yùn)營方案
- 改變學(xué)習(xí)方式促進(jìn)學(xué)生發(fā)展結(jié)題報(bào)告
- 軟件監(jiān)理報(bào)告
- 中國常見食物營養(yǎng)成分表
- 09J202-1 坡屋面建筑構(gòu)造(一)-2
- 光伏電站土建工程施工技術(shù)方案
- 2024年上海英語高考卷及答案完整版
- 物業(yè)公司客戶服務(wù)課件
評論
0/150
提交評論