2019年公需科目考試信息檢索+數(shù)據(jù)挖掘答案

上傳人：o*** IP屬地：貴州上傳時間：2022-03-05 格式：DOC 頁數(shù)：10 大?。?82KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上信息檢索所有檢索策略都包含三個要素，以下選項中不屬于三要素的一項是（） A、匹配函數(shù) B、排序函數(shù) C、文檔表示 D、查詢表示答案：B在向量模型中，不可以通過（）來衡量文檔和查詢之間的相似度。 A、向量間距離 B、向量內積 C、向量間夾角大小 D、向量間正切值答案：DT1、T2、T3表示特征項，D1、D2、D3、D4為文檔向量，Q為查詢向量，其中，D1=4T1+2T2+3T3，D2=T1+4T2+2T3，D3=5T1+2T3，D4= T2+3T3，Q=T1+0T2+2T3 。以上文檔中和Q

2、最大可能相關的是（） A、D1 B、D2 C、D3 D、D4答案：A以下選項中屬于概率模型的優(yōu)點的是（） A、模型具有內在的相關反饋機制，將文檔根據(jù)相關概率按遞減順序排列 B、模型最初將文檔分成相關的集合和不相關的集合 C、模型中所有的權值都是二值的 D、模型假設標引詞相互獨立答案：A信息檢索模型中，神經網(wǎng)絡模型屬于（） A、布爾模型 B、向量模型 C、概率模型 D、結構化模型答案：B以下關于網(wǎng)絡爬蟲的描述中，錯誤的一項是（） A、在爬蟲開始的時候，需要給爬蟲輸送一

3、個URL列表，作為爬蟲的起始位置 B、根據(jù)某種抓取策略爬行新發(fā)現(xiàn)的URL，如此重復下去 C、爬蟲程序會抓取所有網(wǎng)頁，以保證搜索正確性 D、對于商業(yè)搜索引擎來說，分布式爬蟲是必須采用的技術答案：C在實際的搜索引擎系統(tǒng)中，通過存儲（）來存儲文檔信息 A、文檔地址 B、文檔簡化序號 C、文檔編號 D、文檔編號差值答案：D下面方法中，不是建立索引的方法的是（） A、兩邊文檔遍歷法 B、排序法 C、歸并法 D、HITS答案：D關于PageRank標準算法與簡化算法正確的是（） A、Pa

4、geRank簡化算法對G中的每一個節(jié)點n，設定其初始值均為1/n B、PageRank簡化算法可以保證迭代過程中的PageRank值之和為1 C、PageRank標準算法不考慮沒有超鏈接網(wǎng)頁的情況D、在實際運算過程中，由于節(jié)點數(shù)n的值巨大，因此通常采用適用于稀疏矩陣運算的PageRank標準算法來對運算過程進行改善答案：A關于HITS算法描述正確的是（C） A、算法最后輸出的是按照內容權威度排序的結果列表 B、如果在原有的擴展網(wǎng)頁集合內添加刪除個別網(wǎng)頁或者改變少數(shù)鏈接關系，HITS算法的排名結果不會有非常大的改變C、HITS算法核心思想是對網(wǎng)頁兩個方面的

5、權威程度進行評價，一個是內容權威度，另一個是鏈接權威度，兩者具有相互增強的關系 D、HITS是與查詢相關的算法，計算效率較高答案：C網(wǎng)頁重定向屬于下列哪種作弊方式（C） A、內容作弊 B、鏈接作弊 C、隱藏作弊 D、Web2.0作弊答案：C對網(wǎng)頁進行兩次抓取，第一次是正常的搜索引擎爬蟲抓取，第二次以模擬人工訪問頁面的方式抓取，如果兩次抓取到的內容差異較大，則認為是作弊頁面，這屬于（） A、識別網(wǎng)頁重定向 B、識別頁面隱藏 C、反內容作弊 D、鏈接反作弊答案：B以下不是搜索引擎的主要功能模塊的一項是（）&#

6、160;A、網(wǎng)絡爬蟲 B、搜索引擎索引 C、PageRank D、搜索排序答案：C以下選項中描述不正確的是（） A、爬蟲的作用是為搜索引擎抓取大量的數(shù)據(jù)，抓取的對象是整個互聯(lián)網(wǎng)上的網(wǎng)頁 B、根據(jù)具體應用的不同，可以將爬蟲分為兩種類型，即增量型爬蟲和垂直型爬蟲 C、暗網(wǎng)是一些垂直領域網(wǎng)站，它們通常是網(wǎng)站提供組合查詢界面，用戶按照需求輸入查詢之后，才能獲取相關數(shù)據(jù) D、倒排列表是指記載出現(xiàn)過某個單詞的所有文檔的文檔列表、以及單詞在該文檔中出現(xiàn)的位置信息答案：B以下選項中描述正確的是（） A、動態(tài)索引包含2個關鍵的索引結

7、構：倒排索引、臨時索引 B、查準率是衡量系統(tǒng)在實施某一作業(yè)時檢出相關文獻能力的一種測度指標，是對檢索遺漏程度的度量。 C、中文分詞技術采用了基于符號的方法來識別D、機器學習的四個步驟中，文檔特征抽取是指利用抽取算法抽取查詢詞TF/IDF信息、文檔長度、網(wǎng)頁PageRank值、網(wǎng)頁入鏈/出鏈數(shù)量等答案：D以下關于推薦系統(tǒng)和搜索引擎的說法中，錯誤的是（） A、推薦系統(tǒng)和搜索引擎都是為了解決信息過載的問題 B、搜索引擎需要用戶提供明確的需求 C、推薦系統(tǒng)是由用戶主導的 D、搜索引擎注重結果之間的排序答案：C下列關于推薦系統(tǒng)評測中在線實驗的說

8、法，錯誤的是（） A、可以公平獲得不同算法實際在線時的性能指標 B、成本較低，容易部署 C、可以獲得商業(yè)上關注的指標，如轉化率、點擊率等 D、周期較長，需要進行長期的實驗才能得到可靠的結果答案：B為了覆蓋用戶的不同興趣領域，我們需要提高推薦結果的（） A、驚喜度 B、滿意度 C、多樣性 D、準確率答案：C下列各項中為工業(yè)界更關注的評測指標的是（） A、點擊率 B、驚喜度 C、新穎性 D、準確率答案：A從商家角度看，推薦系統(tǒng)受歡迎的原因有（） A、拓寬了用戶獲取知識的

9、方式 B、可以增加用戶信任度和粘性，增加營收 C、可以幫助用戶發(fā)現(xiàn)喜歡的新事物 D、可以增強用戶體驗答案：B下列選項中是顯性反饋數(shù)據(jù)的是（） A、用戶觀看了某個視頻 B、用戶對某個視頻的評分 C、用戶觀看視頻的日志 D、用戶在某個視頻的停留時長答案：B下列關于基于用戶的協(xié)同過濾算法的說法中，錯誤的是（） A、隨著網(wǎng)站的用戶數(shù)目越來越大，計算用戶興趣相似度矩陣將越來越困難 B、基于用戶的協(xié)同過濾算法相對于基于物品的協(xié)同過濾算法來說更個性化，反映了用戶自己的興趣傳承 C、基于用戶的協(xié)同過濾算法可以使

10、用余弦相似度來評測兩個用戶之間的聯(lián)系 D、新用戶剛加入系統(tǒng)時，基于用戶的協(xié)同過濾算法沒有辦法馬上對該用戶進行個性化推薦答案：B下列關于推薦算法的說法中，錯誤的是（） A、隱語義模型很難實現(xiàn)實時推薦 B、基于物品的協(xié)同過濾算法著重于維護用戶的歷史興趣 C、使用基于內容的推薦算法進行個性化推薦時，由于非結構化特征難以利用，我們通常直接將其舍棄 D、基于用戶的協(xié)同過濾算法更社會化，著重于反映和用戶興趣相似的小群體的熱點答案：C針對用戶冷啟動問題，下列選項中做法錯誤的是（） A、利用用戶的人口統(tǒng)計學信息 B、推薦熱門商品

11、C、引導用戶勾選感興趣的標簽 D、利用用戶手機中其它應用的日志文件分析用戶的興趣點答案：D下列選項中不是冷啟動問題解決方案的是（） A、推薦熱門商品給新用戶 B、請專家對商品進行標注 C、推薦冷門物品給用戶 D、雇傭少量用戶試用新商品并給出評分答案：C數(shù)據(jù)挖掘以下哪項不屬于知識發(fā)現(xiàn)的過程？( ) A、數(shù)據(jù)清理 B、數(shù)據(jù)挖掘 C、知識可視化表達 D、數(shù)據(jù)測試答案：D以下哪些不屬于數(shù)據(jù)挖掘的內容？（） A、分類 B、聚類 C、離群點檢測 D、遞歸分析答案：D以下哪個不

12、是常見的屬性類型？（） A、A標稱屬性 B、數(shù)值屬性 C、高維屬性 D、序數(shù)屬性答案：C以下哪個度量屬于數(shù)據(jù)散度的描述？（） A、均值 B、中位數(shù) C、標準差 D、眾數(shù)答案：C以下哪個度量不屬于數(shù)據(jù)中心趨勢度描述？（ D ） A、A均值 B、中位數(shù) C、眾數(shù) D、四分位數(shù)答案：D對數(shù)據(jù)進行數(shù)據(jù)清理、集成、變換、規(guī)約是數(shù)據(jù)挖掘哪個步驟的任務？( ) A、頻繁模式挖掘 B、分類和預測 C、數(shù)據(jù)預處理 D、噪聲檢測答案：C聚類分析是數(shù)

13、據(jù)挖掘的一種重要技術，以下哪個算法不屬于聚類算法？( ) A、K-Means B、DBSCAN C、SVM D、EM答案：C建立一個模型，通過這個模型根據(jù)已知的變量值來預測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務？( ) A、根據(jù)內容檢索 B、建模描述 C、預測建模 D、尋找模式和規(guī)則答案：C當不知道數(shù)據(jù)所帶標簽時. 可以使用哪種技術促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離？( ) A、分類 B、聚類 C、關聯(lián)分析 D、隱馬爾可夫鏈答案：B在構造決策樹時，以下哪種不是選擇屬

14、性的度量的方法？ ( ) A、信息增益 B、信息增益率 C、基尼指數(shù) D、距離答案：D知識發(fā)現(xiàn)流程最核心的步驟是什么？ ( ) A、數(shù)據(jù)挖掘 B、數(shù)據(jù)預處理 C、模式評估 D、知識表示答案：A將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務？( ) A、頻繁模式挖掘 B、分類和預測 C、數(shù)據(jù)預處理 D、數(shù)據(jù)流挖掘答案：C以下哪個度量屬于數(shù)據(jù)中心性的描述？（） A、均值 B、極差 C、眾數(shù) D、標準差答案：A類分析是

15、數(shù)據(jù)挖掘的一種重要技術，以下哪個算法不屬于聚類算法？( ) A、K-Means B、DBSCAN C、KNN D、EM答案：C某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn)，買啤酒的人很大概率也會購買尿布，這種屬于數(shù)據(jù)挖掘的哪類問題？ ( ) A、關聯(lián)規(guī)則發(fā)現(xiàn) B、聚類 C、分類 D、自然語言處理答案：A以下哪些算法是分類算法？( ) A、DBSCAN B、C4.5 C、K-Mean D、EM答案：BK-means算法的缺點不包括？( ) A、K必須是事先給定的 B、選擇初

16、始聚類中心 C、對于“噪聲”和孤立點數(shù)據(jù)是敏感的 D、可伸縮、高效答案：D機器學習中，下面哪些方法不可以避免分類中的過擬合問題？（） A、增加樣本數(shù)量 B、增加模型復雜度 C、去除噪聲 D、正則化答案：B下面那個不屬于知識發(fā)現(xiàn)過程。（） A、數(shù)據(jù)清理與集成 B、數(shù)據(jù)統(tǒng)計 C、數(shù)據(jù)挖掘 D、模式評估和知識表示答案：B在構造決策樹時，以下那個不屬于選擇屬性的度量？ ( ) A、信息增益 B、信息增益率 C、基尼指數(shù) D、信息熵答案：D關于頻繁模式，下面哪一個陳述是正確的？ ( ) A、K項集頻繁則K-1項則必定不頻繁 B、K項集頻繁則K-1項則必定頻繁 C、K項集不頻繁則K-1項則必定頻繁 D、以上都不正確答案：BDBSCAN算法最大的挑戰(zhàn)是？ ( ) A、確定聚類個數(shù) B、確定聚類形狀 C、確定半徑及MINPTS

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2019年公需科目考試信息檢索+數(shù)據(jù)挖掘答案

文檔簡介

溫馨提示

最新文檔

評論

2019年公需科目考試信息檢索+數(shù)據(jù)挖掘答案

文檔簡介

溫馨提示

最新文檔

評論

相關文檔