模擬考試題課件_第1頁
模擬考試題課件_第2頁
模擬考試題課件_第3頁
模擬考試題課件_第4頁
模擬考試題課件_第5頁
已閱讀5頁,還剩192頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、擬介紹的問題網(wǎng)絡信息資源定義 網(wǎng)絡信息資源的類型網(wǎng)絡信息資源的特點網(wǎng)絡信息資源的結構網(wǎng)絡信息資源利用的內涵網(wǎng)絡信息資源利用的方式網(wǎng)絡信息資源利用的策略網(wǎng)絡信息資源其他稱謂網(wǎng)絡信息資源尚沒有統(tǒng)一的定義類似的名稱很多,如:“因特網(wǎng)信息資源”“電子信息資源”“聯(lián)機信息”“萬維網(wǎng)資源”“數(shù)字信息資源”網(wǎng)絡信息資源定義網(wǎng)絡信息資源可以理解為通過計算機網(wǎng)絡可以利用的各種信息資源的總和。網(wǎng)絡信息資源是從計算機技術、通信技術、多媒體技術相互融合而形成的網(wǎng)絡上可查找的資源。網(wǎng)絡信息資源類型從內容上網(wǎng)絡信息資源幾乎涵蓋了人類所有的重要活動對網(wǎng)絡信息資源進行了類型化和體系化研究,產生了不同的分類方案目的是便于更好地

2、認識、組織、檢索、管理和利用。 網(wǎng)絡信息資源的劃分 按應用工具方式分 電子郵件用戶組遠程登錄文件傳輸GopherWAIS 網(wǎng)絡應用的新形式 Web2.0博客(BLOG)播客 (PODCASTING) 書簽(Tag)真正簡易聚合(RSS)即時通訊(Instant Messenger,簡稱IM),典型代表為MSN和QQ。社會性網(wǎng)絡軟件(Social Network Software,簡稱SNS)WIKI(維基)網(wǎng)絡信息資源的劃分 按信息交流的方式非正式出版信息。如電子郵件、專題討論小組和論壇電子會議、電子布告板新聞等。半非正式出版物。從各種單位的網(wǎng)址或主頁上, 可以查詢正式出版物系統(tǒng)所無法得到的“

3、灰色”信息。正式出版物。各種數(shù)據(jù)庫聯(lián)機雜志和電子雜志、電子版工具書、報紙、專利信息等。因特網(wǎng)將多類型和多層次的信息是融為一體。網(wǎng)絡信息資源的劃分 按網(wǎng)絡信息資源的層次分指示信息即一個信息單元的地址。 信息單元可以指示信息表達的最小信息單元。信息集合指相互關聯(lián)的信息集合。是由若干相關信息及其中特定的信息單元和指示信息所組成的。信息系統(tǒng)指一組相關的、經過標引和建立了交互參見的信息資源的集合。網(wǎng)絡信息資源的劃分 按信息資源的來源政府研究機構事業(yè)單位公司企業(yè)社會團體個人網(wǎng)絡信息資源的劃分 按信息資源的內容主題政治性文件學術研究報告經濟活動的信息 (廣告、企業(yè)情況 )歷史文獻資料教育公共性(社區(qū)信息)娛

4、樂性 網(wǎng)絡信息資源的劃分從網(wǎng)絡信息載體分文本圖像圖形動畫聲音視頻組合媒體虛擬現(xiàn)實技術虛擬現(xiàn)實VR(Virtual Reality )技術是利用計算機生成一種模擬環(huán)境通過多種專用設備使用戶“投入”到該環(huán)境中實現(xiàn)用戶與該環(huán)境直接進行自然交互的一門嶄新的綜合性信息技術。虛擬現(xiàn)實技術的特點多感知性(Multi-Sensory)臨場感(Immersion)交互性(Interactivity)構想性(Imagination)一些虛擬現(xiàn)實的設備 頭戴式顯示器 數(shù)據(jù)手套 軌跡球 VRML(Virtual Reality Modeling language即虛擬現(xiàn)實建模語言)在上建立3虛擬空間的工具它使的頁面不

5、再局限于二維空間,使網(wǎng)上的三維世界動了起來。VRML瀏覽器可以瀏覽Web上的三維實境。VRML 的應用教學培訓廣告科研軍事娛樂其他國家圖書館虛擬現(xiàn)實網(wǎng)絡信息資源的特點數(shù)量巨大類型多樣變化頻繁結構復雜傳播快捷共享性好質量不一數(shù)量巨大網(wǎng)絡信息量大,內容豐富。網(wǎng)絡信息增長較快。隨著計算機硬件、軟件技術的不斷發(fā)展,特別是海量存儲等技術為大容量、高速度的網(wǎng)絡服務器提供了條件;計算機的信息處理能力不斷增強,許多形式的信息都可以在網(wǎng)絡中存儲和傳遞??梢钥隙ňW(wǎng)絡信息資源將進一步激增HOW MUCH INFORMATION in Internet in 2003? The size of the Interne

6、t in terabytes. Medium 2002 Terabytes Surface Web 167Deep Web 91,850Email (originals) 440,606Instant messaging 274TOTAL 532,897 Source: How much information 20032009年中國互聯(lián)網(wǎng)絡信息資源數(shù)量調查從2008 年底到2009 年6 月,中國的IPv4 地址數(shù)量半年增長2,375 萬個截至2009 年6 月,中國域名的總數(shù)為1,626 萬個,其中CN 域名1,296 萬個。中國網(wǎng)站數(shù)量為306.1 萬個,其中CN 下網(wǎng)站數(shù)占78.7%。

7、中國國際出口帶寬為747,541.4Mbps,半年增長16.8%。 資料來源: 中國互聯(lián)網(wǎng)絡信息中心第24次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告上網(wǎng)計算機總數(shù)變化中國大陸網(wǎng)站規(guī)模變化 歷年網(wǎng)頁字節(jié)數(shù)及發(fā)展情況類型多樣 內容包羅萬象,覆蓋了不同學科、不同領域、不同地域、不同語言的信息資源。不僅有題錄、摘要,而且還有不少全文。載體包括文本、圖像、聲音等。多媒體、多語種、多類型信息的混合體。形式上既有公開出版、又有非公開發(fā)行的包括會議文獻、學位論文、內部資料最貴網(wǎng)頁 變化頻繁網(wǎng)絡信息資源是一個動態(tài)系統(tǒng)。網(wǎng)絡信息更新迅速,網(wǎng)頁增加、刪除、更換地址經常發(fā)生。網(wǎng)絡信息的資源時效性強。網(wǎng)頁更新周期縮短,有關的內容處

8、于一種動態(tài)的變化之中。在網(wǎng)上能得到最新的資料以及某個學科或某項科研的最新動態(tài),能檢索到最近出版的文獻。 結構復雜網(wǎng)絡信息分別存儲在不同國家、不同地區(qū)的服務器上。對信息資源的組織管理沒有統(tǒng)一標準,百花齊放不同的服務器采用不同的操作系統(tǒng)及數(shù)據(jù)結構從整體上來看,基本處在無序的狀態(tài)。不少的服務器還用中間件與其他數(shù)據(jù)庫連接起來在管理和利用方面比較復雜。 結構化數(shù)據(jù) 半結構化數(shù)據(jù) 非結構化數(shù)據(jù)質量參差網(wǎng)上信息發(fā)布具有很大的自由度和隨意性缺乏必要的過濾、質量控制和管理機制。網(wǎng)絡信息具有不同的層次與效用既有科學前沿研究報告,也有大眾通俗讀物;既有已經加工整理的信息,也有無序的原始信息;既有較大參考價值的信息,

9、也可能混有毫無用處的“信息垃圾”,甚至還有不少有害的信息。良莠不齊有的可以帶來極大的效益,有的可能會造成不良后果,利用的價值差異較大假冒的中國銀行網(wǎng)站網(wǎng)絡信息污染 信息污染是指信息資源中混入了一些干擾性、欺騙性、有害信息的現(xiàn)象影響了人們對有用信息的利用, 甚至造成對人類的危害。網(wǎng)絡環(huán)境下信息污染主要是指網(wǎng)絡信息對用戶造成不良的后果,或對正常的信息利用帶來負面的影響。 網(wǎng)絡信息污染的形式 冗余信息失效信息污穢信息網(wǎng)絡病毒虛假信息 信息文化侵蝕荊州市商務局的網(wǎng)站被黑 用戶差異大 網(wǎng)絡用戶類別多樣;用戶群體也表現(xiàn)出多樣性的特點;各種用戶之間的需求類型差異很大;用戶信息需求變化頻率加快;用戶需求日趨向

10、個性化、特殊化部分用戶需求更加趨向專門性。 中國網(wǎng)民規(guī)模截至2009年6月30日,中國網(wǎng)民規(guī)模達到3.38億人,普及率達到25.5%。寬帶網(wǎng)民規(guī)模達到3.2億人,占網(wǎng)民總體的94.3%。中國手機網(wǎng)民規(guī)模為1.55億人,占整體網(wǎng)民的45.9%我國網(wǎng)民規(guī)模、寬帶網(wǎng)民數(shù)、國家頂級域名注冊量三項指標仍然穩(wěn)居世界第一中國互聯(lián)網(wǎng)絡信息中心(CNNIC)第24次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告中國網(wǎng)民人數(shù)增長情況 網(wǎng)民年齡結構 網(wǎng)民學歷結構網(wǎng)民職業(yè)結構網(wǎng)民收入結構網(wǎng)民通常使用互聯(lián)網(wǎng)的時間歷次調查網(wǎng)民平均每周上網(wǎng)時數(shù)網(wǎng)民上網(wǎng)經常使用的網(wǎng)絡服務傳播快捷 互聯(lián)網(wǎng)對社會熱點事件的反應速度之快是前所未有的網(wǎng)絡越來越多地主

11、導了輿論的方向。網(wǎng)民們也樂于在互聯(lián)網(wǎng)上發(fā)表自己對當前社會熱點事件的見解。幾乎每一個社會熱點出現(xiàn),就會導致一個網(wǎng)絡流行語的產生。為什么“做俯臥撐”很快火了起來“三個俯臥撐”之所以成為熱點,貴州省省公安廳對“甕安6.28嚴重打砸搶燒突發(fā)性事件新聞發(fā)布會”上的說明。其中在說明“關于李樹芬溺水死亡事件的事實”時,有這樣的描述:“劉見李樹芬心情平靜下來,便開始在橋上做俯臥撐。當劉做到第三個俯臥撐的時候,聽到李樹芬大聲說我走了,便跳下河中”很快,描述的這一細節(jié)中的三個俯臥撐就成為互聯(lián)網(wǎng)上網(wǎng)民關注的熱點,在網(wǎng)民惡搞之下,“三個俯臥撐”很快火了起來。滿網(wǎng)盡是俯臥撐 1. 給我做三下俯臥撐,我也能推動地球。阿基

12、米得 2.如果我曾經看得遠一點,是因為我比別人多做了三下俯臥撐。牛頓 3. 做俯臥撐時運動速度大小,取決于你選取的參照物。愛因斯坦4. 天才就是百分之九十九的汗水加上三個俯臥撐。愛迪生 5俯臥撐即合理。黑格爾 6做俯臥撐還是立臥撐,這是個問題。哈姆雷特 7俯臥撐尚未完成,同志們仍需努力。孫中山 8我撐故我在。笛卡爾 9俯臥撐已經做三下了,勝利還會遠嗎?雪萊 10世界上本來是沒有路的,做俯臥撐的人多了,也就成了路。魯迅 11做自己的俯臥撐,讓別人說去吧!但丁 網(wǎng)絡信息資源的結構網(wǎng)絡信息資源 來源廣泛、結構多元、分布復雜網(wǎng)絡信息資源的結構可以分為:內容結構、表述結構、組織結構、分布結構和傳播結構。

13、網(wǎng)絡信息資源的分布地域分布時間分布行業(yè)分布內容分布我國網(wǎng)絡資源的地域分布 全國域名數(shù)約為 259.2萬個,廣東(16.8%)、北京(13.8%)、福建(9.5%)位列全國前三名。全國CN域名數(shù)約為 109.7萬個,北京(17.8%)、廣東(15.6%)、福建(9.7%)位列全國前三名。 全國網(wǎng)站數(shù)約為69.4萬個, 北京(18.6%)、廣東(16.6%)和浙江(9.7%)位列全國前三位。 全國網(wǎng)頁總數(shù)約為24億個,北京、上海、廣東和浙江是擁有網(wǎng)頁數(shù)量和網(wǎng)頁總字節(jié)數(shù)最多的四個省市。 我國網(wǎng)絡資源的地域分布(域名)我國網(wǎng)絡資源的地域分布(網(wǎng)站)我國網(wǎng)絡資源的行業(yè)分布企業(yè)網(wǎng)站數(shù)的比例最大,占網(wǎng)站總體

14、的60.4%,其次為個人網(wǎng)站,占21.9%,第三是教育科研類網(wǎng)站,占5.1%,隨后依次為政府網(wǎng)站占4.4%,其他公益性網(wǎng)站占3.8%,商業(yè)網(wǎng)站占3.5%,其它網(wǎng)站占0.9%。 我國網(wǎng)絡資源的行業(yè)分布我國網(wǎng)絡資源的內容分布 政府網(wǎng)站提供較多的信息服務為“友情鏈接(91.3%)”、“法律法規(guī)/政策/文件(85.9%)”、“部門介紹(84.8%)”等; 政府網(wǎng)站提供最多的服務為“留言板(65.2%)”和“政府信箱(64.1%)”;通過網(wǎng)站發(fā)布信息比例超過60%的網(wǎng)站占全部政府網(wǎng)站的44.5%; 政府日常辦公事務與網(wǎng)站相關服務結合比較緊密和非常緊密的政府網(wǎng)站比例為65.2%。 我國網(wǎng)絡資源的內容分布絕

15、大部分企業(yè)網(wǎng)站提供“企業(yè)介紹(97.0%)”和“產品/服務介紹(92.9%)”;68.5%的企業(yè)網(wǎng)站提供“產品查詢”;45.6%的企業(yè)網(wǎng)站提供 “在線咨詢/投訴”; 超過60%的信息通過網(wǎng)站進行了發(fā)布的企業(yè)網(wǎng)站比例為28.5%;企業(yè)業(yè)務與網(wǎng)站結合比較緊密和非常緊密的企業(yè)網(wǎng)站比例為48.7%。 我國網(wǎng)絡資源的內容分布商業(yè)網(wǎng)站中提供“網(wǎng)站/網(wǎng)頁瀏覽”的比例最高,占到了70.4%,其次是“網(wǎng)上購物(B2C/ C2C)”(46.5%)和“BBS論壇/網(wǎng)上社區(qū)/討論組等”(45.1%);在各種信息服務的商業(yè)網(wǎng)站中,提供“產品信息”的網(wǎng)站比例最高,為85.9%;其次是提供“企業(yè)信息”的網(wǎng)站,為66.2%。

16、網(wǎng)絡信息資源的時間分布(1)網(wǎng)站成立時間根據(jù)2005年中國互聯(lián)網(wǎng)絡信息資源數(shù)量調查報告,2005年成立的網(wǎng)站占網(wǎng)站總數(shù)的47%,2000年及以前成立的網(wǎng)站占網(wǎng)站總數(shù)的7%,截至2005年,國內大部分網(wǎng)站是在2004年和2005年成立的。網(wǎng)絡信息資源的時間分布(2)網(wǎng)頁更新周期從網(wǎng)頁更新周期情況看,2001年到2005年更新周期在一月以上的網(wǎng)頁數(shù)量在當年更新網(wǎng)頁總數(shù)中的百分比分別為:881%、9369%、 915%、628%、6414%;更新周期在一周以內的網(wǎng)頁數(shù)量所占比率分別為:689%、181%、28%、104%、1762%。2001年至2005年更新周期在一月以上的網(wǎng)頁數(shù)量遠遠超過更新周期

17、在一周以內的網(wǎng)頁數(shù)量。反映了國內網(wǎng)頁的更新周期普遍較長,更新頻率低。網(wǎng)絡信息資源的時間分布(3)在線數(shù)據(jù)庫更新比例大部分數(shù)據(jù)庫的更新比例在1%-5%和1%以下,更新比例在20%以上的數(shù)據(jù)庫比率只占10%-20%。從在線數(shù)據(jù)庫更新比例來看,記錄的更新比例仍比較低。大部分網(wǎng)站是在2004年和2005年成立的說明隨著我國信息化進程的加快,信息資源數(shù)量在迅猛增長;網(wǎng)絡信息資源的時間分布國內網(wǎng)站的更新周期普遍在一個月以上說明信息更新不夠及時,信息資源的時效性差;在數(shù)據(jù)庫更新比例上,國內在線數(shù)據(jù)庫的更新比例普遍在1%-5%,這同樣說明了國內信息資源的時效性不高。過時、陳舊的信息內容使信息資源質量下降網(wǎng)絡信

18、息資源的分布規(guī)律網(wǎng)絡信息資源的集中與分散規(guī)律布拉得福定律齊夫定律洛特卡定律普賴斯定律網(wǎng)絡信息資源的時間分布規(guī)律指數(shù)增長率老化規(guī)律網(wǎng)絡信息資源的空間分布規(guī)律擴散的多向性傳遞的密度遞減法則網(wǎng)絡信息資源利用網(wǎng)絡信息檢索網(wǎng)絡信息過濾網(wǎng)絡信息評價網(wǎng)絡信息挖掘網(wǎng)絡信息檢索Network Information Retrieval搜索引擎的概念搜索引擎是一類網(wǎng)站主要任務是主動搜索其他Web 站點中的信息并對其自動索引其索引內容存儲在可供查詢的大型數(shù)據(jù)庫中當用戶利用關鍵字查詢時,該網(wǎng)站會告訴用戶包括該關鍵字信息的所有網(wǎng)址提供通向該網(wǎng)站的鏈接。當前搜索引擎存在的主要問題搜索引擎的覆蓋率在整體上呈下降搜索引擎缺乏

19、統(tǒng)一的技術標準搜索引擎之間的檢索體系存在一定的差異性,難于相互兼容搜索引擎檢索效率比較差搜索引擎檢準確比較差漢語語義的復雜性尚難解決語句中隱含的貶義更是搜索引擎難以判斷的多義性的句子搜索引擎也難以判別使用某一關鍵詞進行檢索而沒使用同義詞檢索,漏檢率高隱性WEB搜索模式“不可見”或“深層”網(wǎng)正在超過表層網(wǎng)人們熟悉的交互式數(shù)據(jù)庫信息資源就是其中最重要的一部分。隱性WEB類搜索引擎有很多種,有的以導航服務為主, 有的以信息搜索服務為主用戶行為分析的模式跟蹤用戶對檢索結果行為用以前的用戶檢索行為來對以后的相似檢索進行優(yōu)化,幫助用戶盡快發(fā)現(xiàn)自己需要的信息。對用戶的行為進行跟蹤和統(tǒng)計, 發(fā)現(xiàn)這個用戶的喜好

20、和對檢索結果的期待,從而產生專門針對該用戶的檢索結果。通過日志的統(tǒng)計分析得到用戶檢索的分布,用戶檢索的規(guī)律,熱點站點的分布等數(shù)據(jù)。趨勢搜索趨勢搜索是利用數(shù)據(jù)利用情況進行分析用戶使用行為掌握當前熱點預測將來變化趨勢搜索是知識檢索的一種GOOGLE趨勢的原理Google 趨勢會分析一部分 字詞被搜索的次數(shù),并將其隨時間推移的搜索總量相比較??梢杂枚禾柛糸_同時比較最多5個關鍵詞的統(tǒng)計數(shù)據(jù)。用圖表顯示結果,按線性比例繪制的搜索量圖表。用“Google趨勢”預測美國大選百度指數(shù)百度指數(shù)是以百度網(wǎng)頁搜索和百度新聞搜索為基礎的免費海量數(shù)據(jù)分析服務用以反映不同關鍵詞在過去一段時間里的“用戶關注度”和“媒體關注

21、度”??梢园l(fā)現(xiàn)、共享和挖掘互聯(lián)網(wǎng)上最有價值的信息和資訊,直接、客觀地反映社會熱點、網(wǎng)民的興趣和需求。 CNKI學術趨勢檢索CNKI學術趨勢是依托于cnki中國知識資源總庫中的用戶的使用情況提供的學術趨勢分析服務。通過關鍵詞在過去一段時間的“學術關注指數(shù)”可以知道所在的研究領域隨著時間的變化被學術界所關注的情況;可以知道在相關領域不同時間段內哪些重要文獻被最多的同行所研讀。 向本土化搜索方向發(fā)展許多搜索引擎都以英語為基礎各國的文化傳統(tǒng)、思維方式和生活習慣不同,在對網(wǎng)站內容的搜索要求上也就存在差異。完全按他們的思維方式和觀點檢索資料,這對于不同國家的用戶顯然是不適合的。搜索結果要符合當?shù)赜脩舻囊?/p>

22、,搜索引擎就必須本土化雅虎本地搜索多語言搜索引擎隨著因特網(wǎng)的國際化,網(wǎng)上各種語言的信息都逐漸豐富隨著信息交流的國際化,用戶有時往往同時處理幾種語言的信息。許多搜索引擎為了占領國際市場,都開始支持多種語言的搜索多語言搜索引擎目前網(wǎng)絡上有160種語言的信息,而搜索引擎可以支持的語言有40種。如果用戶同時在幾種語言之間切換提問詞,必定加大用戶搜索的困難??缯Z言綜合搜索引擎 可以不同語言提問之間的翻譯和不同搜索引擎檢索結果的集成。 向可視化方向發(fā)展可視化是將數(shù)據(jù)庫中不可見的語義關系用圖像形式顯示,并表達用戶檢索過程。可視化信息檢索好處:對文獻或檢索式內部語義關系的理解有助于用戶判斷檢索中的相關文獻;透

23、明的檢索過程使檢索更容易、更有效;可視化的環(huán)境為用戶展示更豐富、更直觀的信息; 在可視化檢索中則指檢索結果之間的相關度;減少了理解檢索結果的時間; 可以對相關信息進行聚類分析。可視化檢索技術致力于實現(xiàn)的目標可以方便地構造一個有效的檢索式。 檢索過程透明化。 檢索結果的多維顯示。 更為有效的結果集排序機制。提供有效的用戶反饋機制,增強用戶與系統(tǒng)間的交互作用??梢暬谛畔z索中的應用在檢索前的應用檢索需求的可視化。 在檢索界面適當設置一些可視化元素或圖標提供更豐富的對話內容與手段,使用戶與檢索系統(tǒng)的交互更加方便、快捷 。在檢索過程中的應用將檢索過程(黑箱)進行透明化處理,便于用戶的跟蹤與控制。 在

24、檢索結果中的應用將檢索結果進行可視化處理而不是采用單純的線性排列。Vis WebVis Web是 WWW環(huán)境下對 Web頁面及其鏈接的可視化檢索系統(tǒng)。它通過抽取頁面的重要屬性,如 URL、網(wǎng)頁摘要、超鏈接等利用形狀、顏色、線條等視覺屬性來實現(xiàn)頁面的圖形化描述,用戶可以就顯示的形狀進行動態(tài)調整。實現(xiàn)了對搜索引擎檢索命中結果及與命中結果有鏈接關系的頁面的可視化顯示.清華大學網(wǎng)站可視圖清華北京科技大北京郵電大學Hyperbolic Tree 向語義檢索方向發(fā)展目前基于關鍵詞層面檢索從概念意義層次上來認識和處理檢索用戶的請求。模糊語義查詢技術,當用戶提交一個關鍵詞后,系統(tǒng)還可以使用這個關鍵詞的同義詞、

25、近義詞等查詢,從而使查詢更加準確。這種引擎充分利用等技術使信息結構化,同時使查詢結構化,從而使搜索的準確度大大提高概念檢索概念是關于具有共同屬性的一組對象、事件或符號的知識。同一個概念可以有多個抽象元素來表達,這些描述元素在此概念的約束下構成了同義關系,它們在此意義上可以等同起來。概念檢索就是在檢索時對于這些描述元素自動歸并為同一概念不僅僅能檢索出包含這個具體詞匯的結果,還能檢索出包含那些與該詞同屬一類概念的詞匯的結果。自然語言查詢允許用戶采用自然語言進行信息的檢索,為用戶提供更方便、更確切的搜索服務。自然語言查詢的優(yōu)勢體現(xiàn)在:由于自然語言查詢具有智能分詞功能, 使得查詢變得更為簡單、易于操作

26、。采用概念檢索技術,明確和縮小了搜索范圍,減少了對無用信息的搜索。自然語言答詢可以輸入簡單的疑問句,比如“how can kill virus of computer?”自然語言的優(yōu)勢一是使網(wǎng)絡交流更加人性化二是使查詢變得更加方便、直接、有效。如果用關鍵詞查詢,多半人會用“virus”這個詞來檢索,結果中必然會包括各類病毒的介紹、病毒是怎樣產生的等等許多無效信息自然語言搜索引擎會將怎樣殺病毒的信息提供給用戶,提高了檢索效率。 自然語言搜索引擎的特點更高的易用性查準率更高搜索范圍定位合適搜索過程交互智能搜索結果綜合性強問答檢索系統(tǒng)麻省理工(MIT) 開發(fā)的一個問答系統(tǒng)Start可以回答一些有關地

27、理、歷史、文化、科技、娛樂等方面的簡單問題。AnswerBus 是個多語種的自動問答系統(tǒng)。BAQS。在銀行個人業(yè)務應用領域內,成功地解決了自然語言理解的語言歧義問題。新浪愛問2004年7月正式推出愛問的定位是使之成為一項真正能幫助廣大網(wǎng)民解決問題的服務用戶可以在這個平臺上無所不問,而愛問的最終訴求則是能做到有問必答?;訂柎鹌脚_彌補了傳統(tǒng)技術在搜索界面上智慧性和互動性的不足。通過調動網(wǎng)民參與提問與回答,能匯集千萬網(wǎng)民的智慧,讓用戶彼此分享知識與經驗。新浪愛問 百度知道2005年6月誕生,作為一個互動問答式搜索產品直接有效的答案的提問式搜索,象“廣州有哪些有特色的地方吃飯?”“為什么廣州話里說看

28、中了某個人叫生滋貓入眼?這種問題就可能在提問式搜索中由網(wǎng)友提供答案。通過用戶和搜索引擎的相互作用,將其所累積的知識數(shù)據(jù)可以直觀反映到搜索結果中,并最終實現(xiàn)搜索引擎的社區(qū)化。向集成化發(fā)展-元搜索引擎元搜索引擎即是在搜索引擎之上的搜索引擎用戶只需提交一次檢索請求, 并以統(tǒng)一格式提供給用戶.這樣的搜索結果比較全面和比較可靠,比分別只使用一個搜索引擎更為有效。元搜索引擎可以一次讓多個搜索引擎并發(fā)查詢,因此它往往能夠獲得較高的查全率。 元搜索引擎不需要維護龐大的網(wǎng)頁標引數(shù)據(jù)庫,大大降低了工程的復雜度。 元搜索引擎根據(jù)用戶要求對搜索信息進行過濾,提高查詢的精度。向智能化搜索方向發(fā)展智能型搜索引擎可以充分理

29、解搜索者的意圖搜索結果更具有準確性、相關性和實用性搜索引擎具有學習功能可跟蹤分析提過的所有問題使以后同類問題得到更好的回答。 智能化搜索例子用戶給出“中秋節(jié)”一詞 ,智能型搜索引擎就能自動輸出月餅資訊網(wǎng)和月餅公司等相關信息。用戶給出孫中山一詞,搜索引擎除了提供“孫中山先生”的文獻外,還會提供“宋慶齡”的有關信息。專題搜索引擎專題搜索引擎是以某一學科、某一行業(yè)或某一種載體為對象的檢索工具。專題搜索引擎可以使用與特定專業(yè)相適應的檢索語言和標引方法,檢索比較深入。專業(yè)搜索引擎符合人們的認知規(guī)律和檢索習慣專業(yè)引擎是特色的引擎,起到一般引擎起不到的作用。向序列化方向發(fā)展針對同一術語在不同學科有不同意義,

30、如果設計出不同的學科版,對可能產生的誤解術語細化,不僅便于查找到準確的結果,節(jié)約檢索時間,而且能夠推動各學科術語的規(guī)范化。為適應不同層次用戶需求,還可以推出同一專業(yè)不同版本的檢索工具 ,如普通版、專業(yè)版、圖像版等搜索工具兒童、成年版等供不同水平用戶使用。垂直搜索引擎的優(yōu)勢垂直搜索引擎的搜索器只搜索特定的主題信息,按預先已定義好的專題有選擇地收集相關的網(wǎng)頁。由于所收學科領域小,信息量相對較少,可采用“專門分類標引”的方法對搜集到的信息進行組織整理進一步提高信息的質量,建立起一個高質量的專業(yè)信息收集全的索引數(shù)據(jù)庫。向個性化信息服務發(fā)展將搜索建立在個性化的搜索環(huán)境之下通過對用戶的不斷了解、分析,使得

31、個性化搜索更符合用戶的需求。個性化信息服務是一種面向用戶深層需求的信息服務。具有智能化更新個人數(shù)字信息資源特色庫的能力。提供多層次的個性化信息服務模板。向多媒體方向發(fā)展多媒體檢索系統(tǒng)有著廣泛的應用前景電子會議、遠程教學、遠程醫(yī)療、數(shù)字圖書館、電子商務、地理信息系統(tǒng)、文化娛樂等方面。多媒體信息檢索能對以文本信息為代表的離散媒體和以圖象、聲音等為代表的連續(xù)媒體的內容進行檢索。 基于內容的信息檢索 基于內容的信息檢索 (content-based retrieval)是對文本、圖像、音頻、視頻等媒體對象進行內容語義的分析和特征的提取 基于這些特征進行相似性匹配的信息檢索技術.基于內容檢索的原理 基于

32、內容的檢索主要是利用媒體對象的語義、媒體的視覺和聽覺特征來進行檢索圖像中的顏色、紋理、形狀視頻中的鏡頭、場景、鏡頭的運動聲音中的音調、響度、音色等。ShapeAverageColorColorMixtureTexturePositionImage QueryShow me more like this 圖象內容查詢基于內容檢索的特點 從媒體內容中提取信息線索。直接對圖像、視頻、音頻內容進行分析,抽取特征和語義利用這些內容特征建立索引,并進行檢索?;趦热莸臋z索是一種近似匹配。逐步求精,以獲得查詢結果,是一個迭代過程。采用以示例查詢 外部圖例 內部圖例 草圖大型數(shù)據(jù)庫的快速檢索 能滿足多層次的檢

33、索要求 從媒體內容中提取信息線索CBIR: Content-Based Image RetrievalColorShapeTextureTemplate網(wǎng)絡信息過濾Network Information Filtering網(wǎng)絡信息過濾概念網(wǎng)絡信息過濾就是根據(jù)一定的標準運用一定的工具從動態(tài)的網(wǎng)絡信息流中選取用戶需要的信息或剔除用戶不需要的信息的方法和過程。它的內涵包括:信息過濾的目的是要滿足特定用戶的信息需求;信息過濾的依據(jù)是信息與特定用戶信息需求相關性;信息過濾的對象是動態(tài)的網(wǎng)絡信息流;信息過濾不僅從信息流中選取需要的信息,也從中剔除不需要的信息。 動態(tài)信息集揭示信息用戶信息需求用戶需求模板匹

34、配算法過濾結果反饋機制信息過濾系統(tǒng)原理圖用戶需求模板Profile過濾模板動態(tài)信息集揭示信息用戶信息需求用戶需求模板匹配算法過濾結果反饋機制結構基于內容的過濾協(xié)作過濾用戶需求模板上游過濾下游過濾作用推薦系統(tǒng)阻擋系統(tǒng)通過設置條件剔除用戶不需要的信息,而其它的信息用戶可以獲取網(wǎng)絡信息過濾的分類網(wǎng)絡信息過濾的分類根據(jù)過濾的不同應用分類專門過濾軟件網(wǎng)絡應用程序其他過濾工具 如防火墻、代理服務器動態(tài)信息集揭示信息用戶信息需求用戶需求模板匹配算法過濾結果反饋機制信息過濾與信息檢索共同點目的相同 原理基本相同 檢索的技術方法廣泛應用于過濾系統(tǒng)中效率的評價趨同 過濾正確率 = 被正確過濾的信息 / 應該過濾的

35、信息 * 100%過濾錯誤率 = 被錯誤過濾的信息 / 不應該過濾的信息 * 100%濾準率 = 過濾得到的用戶需要的信息 / 過濾得到的信息 * 100%濾全率 = 過濾得到的用戶需要的信息 / 用戶需要的所有信息 * 100%信息過濾的應用改善網(wǎng)絡查詢技術提供個性化信息服務實現(xiàn)有害信息的過濾信息中介開展網(wǎng)絡增值服務信息過濾的意義與局限性信息過濾的意義減輕認知壓力的減壓閥 開展個性化信息服務的推動者 保持網(wǎng)絡暢順的把關人 清除不良信息的凈化器信息過濾的局限性涉及個人隱私限制認知 影響網(wǎng)速 網(wǎng)絡信息的集成Network Information Integration網(wǎng)絡信息集成的含義集成是指將

36、分散的部分形成一個有機整體。集合將不同分布地的信息資源通過現(xiàn)代技術鏈接在一起,運用信息技術和應用軟件,形成信息集成服務的環(huán)境。組成將所集合的各種信息資源, 通過各種信息技術和手段,進行規(guī)范科學地組織 ,以方便快捷地利用。網(wǎng)絡信息資源整合A類資源Ax1A類資源Ax2B類資源Bx1A類資源Ay1B類資源By1B類資源By2資源整合A類資源Ax1A類資源Ax2A類資源Ay1B類資源Bx1B類資源By1B類資源By2各站點原始資源排列整合后主服務站點上的資源排列 網(wǎng)絡信息集成的產生背景網(wǎng)絡環(huán)境下信息資源必然是分布的傳統(tǒng)的信息服務模式多為集中式或分散式這兩種服務模式已不能滿足用戶的信息需求。用戶希望可以

37、通過“一站到位”的計算機界面,獲得動態(tài)的、在時間和空間上一致的面向主題的信息服務。知識信息資源共享需要。網(wǎng)絡化信息集成的必要性網(wǎng)絡數(shù)字化資源的多元性網(wǎng)絡數(shù)字化資源的分散性信息系統(tǒng)的異構用戶需求的變化 信息服務的變化網(wǎng)絡信息增值的需要 網(wǎng)絡信息的集成方法虛擬法實體法虛擬法 在虛擬情況下,集成系統(tǒng)充當用戶和信息源之間的接口。數(shù)據(jù)仍然保存在網(wǎng)絡的信息源。系統(tǒng)能夠自動將集成模式的查詢請求轉換成對Web信息源的查詢。不需要重復儲存大量的數(shù)據(jù)并且能夠查到新的數(shù)據(jù),比較適合于高度自治的、集成數(shù)量多、更新變化快的信息源集成。在查詢時,由于需要訪問數(shù)據(jù)源,所以響應查詢一般比較費時。虛擬法 實體法實體法是建立一個

38、存儲倉庫,將參加集成的各信息源的數(shù)據(jù)裝入存儲倉庫,然后對這個存儲倉庫提供查詢機制。當信息源發(fā)生變化時,存儲倉庫中的數(shù)據(jù)要作相應的修改。這種方式查詢不再需要訪問源數(shù)據(jù),所以響應查詢一般比較快捷缺點是數(shù)據(jù)更新不及時,數(shù)據(jù)重復儲存。具體的操作和維護工作的代價也高。實體法網(wǎng)絡信息的集成方式基于虛擬數(shù)據(jù)庫的網(wǎng)絡信息集成基于XML的網(wǎng)絡信息集成基于Web數(shù)據(jù)倉庫的網(wǎng)絡信息集成基于智能代理的網(wǎng)絡信息的集成基于本體的網(wǎng)絡信息的集成基于網(wǎng)格的網(wǎng)絡信息的集成實例:強大的在線詞典-OneLookOneLook具有龐大的在線詞典數(shù)據(jù)庫,收錄955部詞典和詞匯表,單詞6百多萬個。分為普通語言詞典、藝術詞典、商業(yè)詞典、計

39、算機詞典、醫(yī)學詞典、綜合性詞典、宗教詞典、科學詞典、俚語詞典、體育詞典、工程技術詞典等11大類各類詞典可列表瀏覽,在每部詞典名稱下均有諸如收詞量、版本、主頁網(wǎng)址、類型、特點、收錄日期等簡要介紹。 網(wǎng)絡信息資源評價Evaluation of Network Information resources網(wǎng)絡信息資源評價的必要性網(wǎng)絡信息資源數(shù)量巨大網(wǎng)絡信息資源質量不一網(wǎng)絡信息資源整序的需要網(wǎng)絡信息服務的基本要求網(wǎng)絡信息與用戶利用的矛盾評價網(wǎng)絡信息資源的目的了解網(wǎng)上信息的分布及質量水平等情況為有關信息的取舍提供判斷依據(jù)掌握各領域中的優(yōu)秀網(wǎng)站,形成各領域優(yōu)秀網(wǎng)站、 網(wǎng)頁群 指導人們方便、快捷而且有效地選擇

40、和獲得有價值的信息資源節(jié)約大量寶貴的時間提高網(wǎng)絡信息傳播能力網(wǎng)絡信息資源的內容評價 內容是評價與選擇的核心,從中可以反映網(wǎng)絡信息資源的本質。完備性針對性可靠性權威性原創(chuàng)性新穎性網(wǎng)絡信息資源的形式評價美觀性條理性查檢性 快捷性 穩(wěn)定性低耗性易用性網(wǎng)站評價要求體現(xiàn)內容質量第一要有科學性注意客觀評價與主觀評價相結合各指標之間互相補充具有動態(tài)變化特征網(wǎng)絡信息的評價模式排行榜模式動態(tài)監(jiān)測市場調查專家評估定性與定量相結合實例:WWWalexacomWWWalexacom創(chuàng)建于1996年4月,現(xiàn)在已經成長為最著名的網(wǎng)站評價Web站點Alexa通過數(shù)百萬Alexa工具欄用戶分析網(wǎng)站的使用度來計算流量等級這些信

41、息經過匿名提交、詳細審查、計算、儲存最后提供在Alexa的服務中。 網(wǎng)絡信息挖掘 Web mining網(wǎng)絡信息挖掘的含義網(wǎng)絡信息挖掘就是利用數(shù)據(jù)挖掘技術自動地從網(wǎng)絡文檔以及服務信息中發(fā)現(xiàn)和抽取知識的過程。從概念及相關因素的延伸比較上找出用戶需要的深層次的信息網(wǎng)絡信息挖掘的類型網(wǎng)絡內容挖掘(Web content mining)網(wǎng)絡結構挖掘(Web structure mining)網(wǎng)絡用法挖掘(Web usage mining)Web挖掘的分類Web 挖掘Web結構挖掘Web內容挖掘Web使用記錄挖掘Web頁內容挖掘搜索結果挖掘一般模式追蹤個人使用模式追蹤網(wǎng)絡結構挖掘從網(wǎng)頁等的結構和鏈接關系中

42、發(fā)現(xiàn)知識。由于網(wǎng)頁文檔之間的互連,Web能夠提供除文檔內容之外的鏈接信息可對頁面進行排序,發(fā)現(xiàn)重要的頁面。可用于網(wǎng)頁歸類,并且由此獲得有關不同網(wǎng)頁間相似度及關聯(lián)度的信息。網(wǎng)頁鏈接挖掘分析的意義鏈接是Web網(wǎng)頁的普遍現(xiàn)象只有通過與其他的網(wǎng)頁及其本身內容的鏈接,網(wǎng)頁才能相互交換信息,擴大使用價值。網(wǎng)頁的不同鏈接體現(xiàn)了不同的信息功能,具有不同的特征和規(guī)律。網(wǎng)頁鏈接挖掘分析的意義 分析和評價網(wǎng)頁的質量 指導網(wǎng)絡資源的組織建設 應用于網(wǎng)絡資源檢索和利用 有利于分析和掌握學科發(fā)展狀況 有利于開發(fā)和應用智能超文本鏈接 Web鏈接機制分析的局限性Web鏈接分析范圍更廣鏈接載體類型多,包括文本、聲音、圖像、動畫

43、等;鏈接的動態(tài)性強,網(wǎng)頁變化大、常常處于不斷的變化當中。Web有些鏈接是為其它目的而創(chuàng)建的網(wǎng)絡信息的結構挖掘的應用指導網(wǎng)頁采集幫助結果排序檢索結果聚類查找相關網(wǎng)頁消除重復網(wǎng)頁識別社區(qū)幫助資源自動分類確定Web影響因子基于鏈接挖掘的超文本優(yōu)化 網(wǎng)站內鏈接的結構優(yōu)化 網(wǎng)站外鏈接的結構優(yōu)化 超文本鏈接的動態(tài)優(yōu)化 超文本鏈接的數(shù)量優(yōu)化核心網(wǎng)站核心網(wǎng)站是指某一網(wǎng)站所發(fā)表的有關專業(yè)信息量在其所發(fā)布的所有信息中占有極大的比例,而且有較高的學術及實用價值從中可以反映該學科、專業(yè)主題領域的最高研究水平、最新研究成果和發(fā)展動態(tài),而且具有較高的相對穩(wěn)定性和專業(yè)人士訪問率。 確定核心網(wǎng)站將所有鏈接到樣本網(wǎng)站的網(wǎng)址匯總

44、統(tǒng)計,將這一組數(shù)據(jù)作為測定核心網(wǎng)站的依據(jù)。將樣本網(wǎng)站之間相互鏈接的次數(shù)作為網(wǎng)站被鏈接的次數(shù)。將其他網(wǎng)站指向樣本網(wǎng)站的數(shù)量作為網(wǎng)站被鏈接的頻次。計算網(wǎng)站的WebIF根據(jù)所獲得數(shù)據(jù)從高到低進行排序,將出現(xiàn)頻次最高的一組網(wǎng)站確定為核心網(wǎng)站。網(wǎng)絡信息的內容挖掘 從網(wǎng)上信息的數(shù)據(jù)內容或與之相連的信息數(shù)據(jù)庫的內容中發(fā)現(xiàn)有關的知識可以分為對文本文檔挖掘和對多媒體文檔的挖掘。網(wǎng)絡信息信息的多樣性決定了內容挖掘任務的多樣性,根據(jù)處理對象的不同而異。Web內容的挖掘是對Web中包含的文本、圖像、視頻等數(shù)據(jù)元素進行挖掘。文本挖掘目前網(wǎng)上大多數(shù)的信息表現(xiàn)形式為文本文本挖掘是從非結構化的文本中發(fā)現(xiàn)潛在的知識。處理的對象主要是大量的、無結構的文本數(shù)據(jù)。目的是從不同格式文本中發(fā)現(xiàn)有用知識。 文本挖掘的方法文本的特征表示 文本特征抽取法文本總結文本分類文本聚類關聯(lián)分析法多媒體挖掘把數(shù)據(jù)挖掘的基本理論和方法與對多媒體特性的分析結合起來利用多媒體的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論