版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
value模塊串背具體的價(jià)值體系介紹:pvEC的一個(gè)子功能模塊,其上游CS,下游DC。pv的計(jì)算結(jié)果通DC持久化到bailing和wdn中。模塊結(jié)pv模塊整體流程:提取頁面各維度的特征分別進(jìn)行相應(yīng)維度的打分,并通過擬合各個(gè)模塊中的策略分為2種:特征提取(feature)策略和價(jià)值計(jì)算(value)策略 策略的功能:從網(wǎng)頁中提取和計(jì)算基本特基礎(chǔ)維度基礎(chǔ)維度特質(zhì)量、質(zhì)量、最終…………網(wǎng)頁網(wǎng)頁P(yáng)ack包、FeatureSet數(shù)策略介ErrorscoreCR特征提取策略(以st結(jié)尾)和得分計(jì)算策略(以cr結(jié)尾。價(jià)值特征計(jì)算processPage函數(shù)實(shí)現(xiàn)網(wǎng)頁的檢索價(jià)值判定。函數(shù)的輸入?yún)?shù)為一個(gè)事先構(gòu)造FeatureprocessPageFeature特征,同時(shí)新特征也Value策略的value函數(shù)進(jìn)calWdmfeatureonline函數(shù)將部分產(chǎn)出(rubbish.is_rubbish一個(gè)特征存入pv.wdmfeatureonline字段供下游使用;將(wise.wise_type、wise.is_errorpage以下為PageValueMachine的執(zhí)行流程圖EmptyCrSenseCrEmptyStSenseStFeature策基礎(chǔ)特征策略心正文)FeatureSet中可以直接獲?。划?dāng)缺失時(shí),basicst自己提取。如vtree為空時(shí),basicst則依據(jù)pack包中的源碼建樹。頁面正頁面內(nèi)t正文個(gè)時(shí)間因子(時(shí)間豐富度特征基本功能:抽取豐富度相關(guān)特征,如頁面是否有、是否有回答(問答頁、是否得riget_page_richnes問答頁是否有答案,(extract_pagefeature函數(shù)獲取,下同rich.rich.pr_基本功能:通過不同函數(shù)識別相應(yīng)的豁免頁面類型,最后各頁面類型輸出garbage.innocent_type字段中。相應(yīng)的特征,對應(yīng)設(shè)置5個(gè)不同的狀態(tài)標(biāo)記。當(dāng)標(biāo)記總和>=3時(shí),設(shè)置頁;真值為1,3之間,再通過rubbish-mine策略匹配,提高。gen_inno_is_picture_page:url、link、content、ptnumber找強(qiáng)特征,特征命進(jìn)行。gen_inno_is_question_page:通過title匹配。gen_inno_is_yellow_page:通過title、url、content匹配。gen_inno_is_houserent_page:通過title、content匹配。gen_inno_is_embed_resource_page:先通過ptnumber判定是否為頁;再通過樹遍歷,根據(jù)返回的 結(jié)構(gòu)判斷頁面是否為嵌入資源頁OutinfoSt(過期頁特征策略頁),進(jìn)一步從content中檢測是否有報(bào)錯句,該方法針對已賣完的商情頁;另法具體函數(shù)檢查對應(yīng)報(bào)錯詞在可見的html里是否出現(xiàn),沒有則返回。命中,設(shè)置對應(yīng)標(biāo)志位:時(shí)間進(jìn)行比較,判定是否為過期頁。如果過期則設(shè)置garbage.garbage_type中的對應(yīng)位。頁類型的判定,依賴于PageinnoST策略的輸出。具體函數(shù)gi_is_short_garbage_index:判斷是否為短索引頁。如果內(nèi)容長度比較長則返回,否則統(tǒng)計(jì)content的內(nèi)容,判斷是否符合索引頁的條件,長度、比例、最大文本比例等。最后檢查豁免情況(白或豁免頁面類型),如果無豁免則判定為短索引頁面。garbage.garbage_typeBG_GARBAGE_INDEX_SHORT位。gp_is_short_page:contentlenptnumber進(jìn)行適當(dāng)豁免。最后根據(jù)返回值is_short_page數(shù)值進(jìn)行特殊條件豁免??煞譃椴煌闆r:BG_GARBAGE_SP_JUDGEgarbage類型;BG_GARBAGE_DEDUP_PRI優(yōu)先去重garbage。contral進(jìn)行分詞。具體函數(shù)match_title_cotent:統(tǒng)計(jì)title中的有效詞(忽略單個(gè)漢字和兩個(gè)以內(nèi)的字符)在content中出如果是使用realtitle則對每個(gè)頻率執(zhí)行減1操作。計(jì)算有效詞數(shù)get_page_level:利用頁面類型進(jìn)行豐富度打分,結(jié)果為0-5的整數(shù)。根據(jù)知道/百KvKvriis_valuable:頁面價(jià)值判斷模塊(有價(jià)值的角度)。對根據(jù)塊內(nèi)字?jǐn)?shù)對塊進(jìn)行價(jià)值判度記錄在garbage.maxtextarealen中。返回值為時(shí),把garbage_type標(biāo)記為BG_GARBAGE_VALUABLE_(有價(jià)值的如果是無回 如果是有價(jià)值頁面的話,設(shè)置BG_GARBAGE_VALUABLE_位如果是翻頁,設(shè)置BG_GARBAGE_BSSTURNPAGE位gp_is_index_pagedown:索引翻頁識別,分3中情如果是翻頁索引頁,設(shè)置garbage_type的BG_GARBAGE_PAGEDOWN位gp_is_form_page:form表單頁識別。成功則設(shè)置BG_GARBAGE_FORM位。gp_is_user_profile:用戶信息頁的識別,分2種情況:差的用戶信息頁設(shè)置BG_GARBAGE_BAD_PROFILE;1)和水貼的識別依據(jù)主貼長度和回帖數(shù)量判斷設(shè) 為BG_TAK_GARBAGE_JUST_AT_SHUITIE告判斷是否為設(shè)置garbage.tsk_type為 等級、ptnumber、contenlen及豁免類型等信息。設(shè)置garbage.tsk_type為1garbage.tsk_type為BG_TSK_GARBAGE_JUST_AT_PIC。blog/1文3個(gè)維度計(jì)算特征,最終擬合為整潔度tide.tide_score。blog.blogid,并通過加載度詞典m_blogid_filter、m_uid_pattern、m_pds_blogid、site_level_inf,并依據(jù)提取出來的blogid來獲取相關(guān)的度值。單站點(diǎn)級別。詞級別的度較小,需要后續(xù)策略的進(jìn)一步判別。具體函數(shù)err_type9,key_word_id9,err_word_id9,rule_match120,is_rubbish4。該策略只針對中文。match_site_plugin:通過url的進(jìn)行插件站點(diǎn)的匹配若匹配,設(shè)置_score0,視為低質(zhì)。match_site_downauthorize:通過url的進(jìn)行權(quán)限站點(diǎn)的匹配,若匹配,設(shè)置_score為0,視為低質(zhì)。url的特征詞來判別。若匹配,設(shè)置err_type8,rule_match150,is_rubbish4。另外,key_word_id和err_word_id也分別保存匹配的狀態(tài)信息。ep_match_blacklist_esurl的是否位于詞典,若存content進(jìn)行報(bào)err_type4rule_match100,另外,key_word_id和err_word_id也分別保存匹配的狀態(tài)信息。err_type5,rule_match120,is_rubbish4key_word_id和err_word_id也分別保存匹配的狀態(tài)信息。該策略與語言相關(guān),繁體、泰語、語用content進(jìn)行詞典匹配;英語、中文用正文central進(jìn)行匹配。match_site_whiist:報(bào)錯站點(diǎn)白進(jìn)行豁免。也是通過詞典的查找,若匹配,設(shè)err_type0(正常),rule_match120ep_match_word、ep_match_central:為標(biāo)題和正文的報(bào)錯詞檢測,err_type設(shè)置1-3。pagedown_rubbish:針對中文還進(jìn)行翻頁的識別若識別成功設(shè) 12(不同的翻頁類型)豁免策略:策略的最后會依據(jù)正文是否存在一些高價(jià)值的詞語和 的得分進(jìn)行url得分,由get_url_score函數(shù)計(jì)rubbish.rubbish.依據(jù)is_rubbish的值設(shè)置,報(bào)錯句匹配的都設(shè)置為依據(jù)is_rubbish的值和反鏈數(shù)目基本功能:wise中各種低質(zhì)頁面進(jìn)行識別。wise_type記錄各種wise低質(zhì)的集合ep_match_besom_blacklist:通過besom報(bào)錯詞典進(jìn)行判match_searchoutsite:通過url和content進(jìn)行搜索結(jié)果頁的識別。識別,則設(shè)wise.is_searchoutsiteredir_deadlink_check:重定向內(nèi)容死鏈檢測,通過設(shè)置wise_typeWISE_TYPE_REDIRmatch_transcode_stratagy:wise轉(zhuǎn)碼也的識別,通過設(shè)置wise_typeWISE_TYPE_TRANSCODEpack包pack.Pagetypepack.Pagetype==3Wise翻頁類型,依據(jù)ptnumber的類型進(jìn)行不同WiseWise搜索結(jié)果_exemption_pw9:豁免滿足條件機(jī)首頁,成功設(shè)置weight.pw9為1。pv_weight_with_type:通過linkdepth、頁面類型綜合打分,設(shè)置weight.weight?;竟δ埽鹤R別淘客頁,主要通 title、正文、匹配相關(guān)的進(jìn)行判別基本功能對rubbish特征進(jìn)行針對url和site的白做調(diào)整中則設(shè)置0采用gbdt模型進(jìn)行擬合?;竟δ埽喉撁骖愋偷淖R別,用于離線刷庫基本功能:頁面的計(jì)算,用于離線刷庫Feature策rubbish.is_rubbish和basic.content_len0如果是spam、 況,則pagetype為0;如果具有翻頁特征的頁面、且不是有價(jià)值的,則pagetype=2;當(dāng)BG_GARBAGE_OUTSUPPLY_LONG|BG_GARBAGE_OUTSUPPLY_SHORToutinfoscore0翻頁與search頁,sensescore減權(quán);sense.match_rate越大,sensescore越高。key-valuekey-value的個(gè)數(shù)為準(zhǔn)則。表格形式的內(nèi)容頁,設(shè)置textscore為2.5basic.invlink_num使用score.outinfoscorescore.errorscorescore.emptyscorescore.sensescorescore.textscore、score.indexscore、score.pagetypescore、site.s
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年外匯交易居間服務(wù)合同
- 2025年季度活動的混合贈與協(xié)議
- 基于2025年度業(yè)績預(yù)期的租賃合同標(biāo)的修訂2篇
- 二零二五版存貨擔(dān)保協(xié)議書范本3篇
- 二零二五版貨運(yùn)物流車輛掛靠及新能源推廣合同3篇
- 二零二五賓館客房使用權(quán)及股權(quán)收益權(quán)轉(zhuǎn)讓合同3篇
- 2025年雙磨頭側(cè)角刃磨床行業(yè)深度研究分析報(bào)告
- 2025殘疾人無障礙信息服務(wù)平臺建設(shè)與運(yùn)營合同3篇
- 2025年風(fēng)力發(fā)電施工作業(yè)擔(dān)保人信用保證協(xié)議3篇
- 二零二五年度二手房出售協(xié)議書模板含房產(chǎn)交易稅費(fèi)計(jì)算器3篇
- GB/T 16895.3-2024低壓電氣裝置第5-54部分:電氣設(shè)備的選擇和安裝接地配置和保護(hù)導(dǎo)體
- GJB9001C質(zhì)量管理體系要求-培訓(xùn)專題培訓(xùn)課件
- 二手車車主寄售協(xié)議書范文范本
- 窗簾采購?fù)稑?biāo)方案(技術(shù)方案)
- 基于學(xué)習(xí)任務(wù)群的小學(xué)語文單元整體教學(xué)設(shè)計(jì)策略的探究
- 人教版高中物理必修一同步課時(shí)作業(yè)(全冊)
- 食堂油鍋起火演練方案及流程
- 《呼吸衰竭的治療》
- 2024年度醫(yī)患溝通課件
- 2024年中考政治總復(fù)習(xí)初中道德與法治知識點(diǎn)總結(jié)(重點(diǎn)標(biāo)記版)
- 2024年手術(shù)室的應(yīng)急預(yù)案
評論
0/150
提交評論