www.黄片视频在线播放,欧美精品日韩精品一级黄,成年男女免费视频网站,99久久久国产精品免费牛牛四川,99久久精品国产9999高清,乱人妻中文字幕视频4399,亚洲男人在线视频观看

散文精選 蒲公英文摘 > 散文精選 >

【元搜索引擎研究綜述評】地圖搜索引擎研究綜述

發(fā)布時(shí)間:2020-03-07 來源: 散文精選點(diǎn)擊：

　　[摘要]介紹元搜索引擎的起源與發(fā)展、基本原理和分類，重點(diǎn)從元搜索引擎關(guān)鍵技術(shù)的實(shí)現(xiàn)上闡述元搜索引擎研究的主要內(nèi)容與進(jìn)展，最后分析現(xiàn)有元搜索引擎存在的各種局限性，歸納出未來值得研究和探討的若干方向。
　　[關(guān)鍵詞]元搜索引擎　個(gè)性化　信息檢索
　　[分類號]G353
　　
　　1　元搜索引擎的起源與發(fā)展
　　
　　Internet自誕生以來不斷成長，信息容量呈爆炸性趨勢增長。這一方面方便了人們獲取信息；但另一方面也給人們查詢信息帶來了麻煩，常常使用戶陷入“信息過載”和“資源迷向”的困境。搜索引擎的出現(xiàn)大大增強(qiáng)了人們收集信息的能力，但隨著Web內(nèi)容的飛速發(fā)展，信息膨脹速度遠(yuǎn)遠(yuǎn)超過了搜索引擎檢索范圍，一個(gè)搜索引擎通常不能找到用戶所需的全部信息，用戶在進(jìn)行檢索時(shí)需要在多個(gè)搜索引擎間進(jìn)行切換，找到自己真正需要的信息仍如同大海撈針般困難。在這種情況下，一個(gè)能集合多個(gè)搜索引擎檢索結(jié)果并能對此做出整合處理的檢索工具――元搜索引擎出現(xiàn)了，它有效解決了獨(dú)立搜索引擎信息覆蓋率不足和查準(zhǔn)率不高的問題。
　　自1995年第一個(gè)元搜索引擎MetaCrawler推出以來，國外元搜索引擎技術(shù)迅速發(fā)展，目前網(wǎng)絡(luò)中已經(jīng)有上百個(gè)元搜索引擎，其中不乏優(yōu)秀的元搜索引擎，如Mamma、MetaCrawler、SavvySearch等。國內(nèi)的中文元搜索引擎發(fā)展較為緩慢且數(shù)目不多，如萬緯、MetaFisher、北斗星等，其檢索效果也不理想，未來發(fā)展空間很大。
　　
　　2　元搜索引擎的研究現(xiàn)狀
　　
　　2.1　元搜索引擎的原理及其分類
　　元搜索引擎(meta-search engine)是一種基于搜索引擎的搜索引擎，亦稱“搜索引擎之母”。用戶只需提交一次搜索請求，由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎，并將各獨(dú)立搜索引擎返回的所有查詢結(jié)果集中處理后再返回給用戶。因此，元搜索引擎可根據(jù)檢索的目標(biāo)搜索引擎、檢索提問處理方式以及如何編譯與顯示結(jié)果等的不同而劃分為：集中羅列式元搜索引擎(又稱“集成搜素引擎”或“all-in-one式搜索引擎”)和統(tǒng)一入口式元搜索引擎(又稱“多線索式搜索引擎”)；桌面型元搜索引擎和基于Web的元搜索引擎(也可稱為“在線元搜索引擎”)；并行處理式元搜索引擎和串行處理式元搜索引擎。
　　
　　2.2　元搜索引擎研究的主要內(nèi)容與進(jìn)展
　　目前，元搜索引擎研究活動主要集中在以下幾個(gè)關(guān)鍵技術(shù)的實(shí)現(xiàn)上：
　　2.2.1 成員引擎的調(diào)度策略提出了若干成員引擎的調(diào)度算法，典型的有：①普通法，即不考慮各個(gè)成員搜索引擎的特性，只是將元搜索引擎的查詢請求簡單地發(fā)送給自己的每個(gè)成員搜索引擎，用戶可自由選擇其成員引擎，如萬緯搜索引擎；②定性法，如ALIWEB方法、NetSerf方法、D-WISE方法、gGLoss方法。它跟據(jù)一定的評分函數(shù)預(yù)測每個(gè)成員搜索引擎的質(zhì)量；③定量法，根據(jù)一些比定性方法使用的衡量標(biāo)準(zhǔn)更易理解的標(biāo)準(zhǔn)來衡量成員搜索引擎的有用性，如估計(jì)有用文件的數(shù)量或估計(jì)最相似文件的相似度；④基于學(xué)習(xí)的方法，根據(jù)以往檢索成員搜索引擎的經(jīng)驗(yàn)預(yù)測各引擎對新查詢的有用性。檢索經(jīng)驗(yàn)可能來自多方面，如靜態(tài)學(xué)習(xí)方法MRDD方法、動態(tài)學(xué)習(xí)方法SavvySarch和混合學(xué)習(xí)方法ProFusion方法。在成員引擎的調(diào)度策略方面，國內(nèi)的一些學(xué)者也提出了幾種比較有特色的調(diào)度算法，如張衛(wèi)豐等提出了一種基于遺傳算法的調(diào)度算法來實(shí)現(xiàn)成員引擎的調(diào)度。
　　通過詳細(xì)分析多種調(diào)度策略的優(yōu)點(diǎn)與不足，我們認(rèn)為普通法比較簡單，但查準(zhǔn)率不高。定性法可提供一些有關(guān)成員搜索引擎數(shù)據(jù)庫內(nèi)容的信息，能提高查準(zhǔn)率，但不能有效和精確地估計(jì)成員引擎數(shù)據(jù)庫的有效性，因而也容易遺漏或忽略一些潛在有用的成員搜索引擎數(shù)據(jù)庫，比如一篇有用的文檔在某個(gè)成員搜索引擎數(shù)據(jù)庫中出現(xiàn)頻度非常低，利用定性法就可能忽略掉該成員搜索引擎數(shù)據(jù)庫。定量法根據(jù)給定的查詢請求計(jì)算數(shù)據(jù)的有用性，如，它試圖估計(jì)成員搜索引擎數(shù)據(jù)庫有用文件的數(shù)量，并以這個(gè)標(biāo)準(zhǔn)來選擇數(shù)據(jù)庫或者估算比較每個(gè)庫中最有用文件的相關(guān)度高低，以此選出最能滿足查詢請求的數(shù)據(jù)庫，則其衡量標(biāo)準(zhǔn)更易理解�；趯W(xué)習(xí)的方法中，靜態(tài)學(xué)習(xí)方法可實(shí)現(xiàn)元搜索引擎在實(shí)際查詢中利用訓(xùn)練收集的分布向量選擇合適的成員數(shù)據(jù)庫和需要抽取的結(jié)果數(shù)目，實(shí)現(xiàn)查詢精度最大化，但其訓(xùn)練收集的分布向量很難適應(yīng)未來查詢的變化；動態(tài)學(xué)習(xí)方法可始終更新訓(xùn)練結(jié)果集合以適應(yīng)多變的查詢?nèi)蝿?wù)，但搜索引擎用戶有檢查排在最前面文件的傾向，其結(jié)果很有可能出現(xiàn)成員數(shù)據(jù)庫的關(guān)鍵詞權(quán)值不能充分反映成員數(shù)據(jù)庫對于該查詢關(guān)鍵詞的真實(shí)響應(yīng)，所以綜合靜態(tài)學(xué)習(xí)與動態(tài)學(xué)習(xí)的混合學(xué)習(xí)方法在實(shí)際中用得較多。
　　2.2.2　搜索結(jié)果的合成　元搜索引擎在結(jié)果顯示過程中，需要將與用戶查詢相關(guān)度高的結(jié)果放在前面，但是由于不同搜索引擎所采用的技術(shù)不盡相同，所以很難按照一個(gè)統(tǒng)一的標(biāo)準(zhǔn)去排列這些結(jié)果。通常，每個(gè)成員搜索引擎返回的文檔根據(jù)局部相似度或全局相似度來對文檔進(jìn)行降序排列，代表性的結(jié)果合成算法主要方法如下：①J.P.Callana針對搜索引擎返回結(jié)果的排序、相關(guān)性分值的不同，給出了三種典型的合成算法――間隔排列合成法、分值合成法、加權(quán)分值法；②Krisch提出通過修改下層搜索引擎以獲得更多信息，進(jìn)行合成處理；③元搜索引擎系統(tǒng)MetaCrawler引入概念可信度來決定文檔與檢索請求的相關(guān)程度；④Profusion集成規(guī)范相關(guān)度合成法和加權(quán)分值法；⑤Inquirus認(rèn)為單憑這些信息不足以客觀評價(jià)搜索結(jié)果與用戶檢索請求的相關(guān)性，因而采用先下載搜索結(jié)果中的文檔后重新計(jì)算相關(guān)性的客戶端重新計(jì)算相關(guān)性的排序策略來對文檔排序；⑥M，Elena等將聚類方法用于查詢結(jié)果的合成”；⑦國內(nèi)張衛(wèi)豐將摘要作為相關(guān)度分析的依據(jù)納入搜索結(jié)果的合成。
　　總結(jié)現(xiàn)有搜索結(jié)果合成算法，我們發(fā)現(xiàn)主要有兩類：局部相似度調(diào)整算法和全局相似度調(diào)整算法。局部相似度調(diào)整算法，如MetaCrawler和Profusion中采用的，它根據(jù)成員搜索引擎所具有的特點(diǎn)來調(diào)整文檔的局部相似度，使來自不同成員搜索引擎的文檔的相似度歸一化到一個(gè)較為統(tǒng)一的值域，再進(jìn)行比較和排序，評估值高的成員引擎中的文檔將獲得較高的全局評估值，評估值的獲取也較簡單。全局相似度估算算法，如Inquires方法，需要計(jì)算或估計(jì)各個(gè)返回文檔的全局相似度，其實(shí)現(xiàn)通常需要借助搜索引擎返回文檔的URL或一些額外的附加信息(如一段綜述或文檔開頭的幾句話或整個(gè)文檔)，計(jì)算出關(guān)鍵詞在文檔中的頻率，并需要從網(wǎng)上下載該文檔。這一方面可在文檔下載時(shí)確定文檔的URL是否有效(無效的可從結(jié)果集合中刪去)，同時(shí)還可以通過分析下載文檔，可以利用其內(nèi)容對文檔重新排序，因?yàn)橛锌赡芪臋n的局部相似度是根據(jù)文檔的早期版本計(jì)算的；但另一方面搜索引擎必須花大量時(shí)間來下載文檔，因此該方法要以帶寬、計(jì)算時(shí)間為代價(jià)，很難獲得實(shí)際應(yīng)用。
　　2.2.3 個(gè)性化搜索　個(gè)性化搜索是一種個(gè)性化信息服務(wù)，旨在幫助用戶更快、更準(zhǔn)確地找到所需信息。它主要通過收集和分析用戶信息來學(xué)習(xí)用戶興趣和搜索行為，從中識別用戶的需求偏好，并且能夠根據(jù)用戶對搜索結(jié)果的評價(jià)，自覺調(diào)整搜索策略，對于同一檢索請求，不同用戶能夠得到各自所需的信息。在國內(nèi)外搜索引擎巨頭，如Google、雅虎、AOL等紛紛推出個(gè)性化搜索服務(wù)的形勢下，元搜索引擎的個(gè)性化搜索也備受關(guān)注。元搜索引擎?zhèn)€性化搜索服務(wù)實(shí)現(xiàn)的核心在于用戶興趣模型的建立和獲取。用戶模型不僅僅是用戶的興趣描述信息，而且是一種面向算法的、具有特定數(shù)據(jù)結(jié)構(gòu)的、形式化的用戶描述。相應(yīng)地，用戶建模是指從有關(guān)用戶興趣和行為的信息(如瀏覽內(nèi)容、瀏覽行為、背景知識等)中歸納出可計(jì)算的用戶模型的過程。近年來，有關(guān)用戶建模技術(shù)的研究開始被作為個(gè)性化信息服務(wù)的基礎(chǔ)技術(shù)來進(jìn)行研究，國外的代表性研究主要有：①Syskill&Webert是加州大學(xué)的Pazzani等人開發(fā)的一個(gè)輔助用戶瀏覽的導(dǎo)航工具，它可以搜集用戶對當(dāng)前瀏覽頁面的評價(jià)，逐漸學(xué)習(xí)用戶的興趣模型；②Morin E.等在文獻(xiàn)中提出一種基于特征詞表示法的用戶興趣模型，在模型中還存放特征詞之間的語義關(guān)聯(lián)關(guān)系，但這種模型只是簡單的特征詞集合，沒有對特征詞按語義進(jìn)行層次分類；③Navigli R.等在文獻(xiàn)中提出基于本體論的用戶興趣模型，概念按本體論的知識分類體系進(jìn)行表示，通過學(xué)習(xí)擴(kuò)展概念之間的語義聯(lián)系。國內(nèi)對用戶建模也展開了研究：①文獻(xiàn)根據(jù)用戶提供的各種示例文檔，通過考察特征和類別的表達(dá)能力來構(gòu)建用戶模型；②文獻(xiàn)將個(gè)體用戶的興趣分為長期模型和短期模型，并引入時(shí)間因素來模擬用戶興趣隨時(shí)間的變化，通過對用戶Web緩沖區(qū)的頁面進(jìn)行Web挖掘特征詞來更新用戶的興趣模型；③文獻(xiàn)按本體論建立用戶興趣模型，通過Web挖掘來得到概念之間的語義聯(lián)系；④文獻(xiàn)提出一種加權(quán)特征詞的用戶興趣模型，通過強(qiáng)化學(xué)習(xí)更新用戶模型。
　　總的來說，用戶建模技術(shù)的研究還處于起步階段，還沒形成成熟的技術(shù)體系，存在以下幾個(gè)方面的問題：①只以單個(gè)用戶為基點(diǎn)建立用戶個(gè)體模型，而忽略了用戶群體模型；②注重用戶查詢興趣模型，而忽略用戶對成員搜索引擎偏好、用戶收藏和用戶好友等與社會化搜索相關(guān)的用戶興趣信息；③為了力求準(zhǔn)確表達(dá)用戶特性，所建的用戶模型過于復(fù)雜，導(dǎo)致搜索效率降低。因此各種用戶模型離實(shí)用還有距離，還有許多關(guān)鍵技術(shù)尚待解決。
　　
　　3　總結(jié)與展望
　　
　　3.1 目前研究的局限
　　通過上述分析可以發(fā)現(xiàn)元搜索引擎的功能受成員搜索引擎和元搜索技術(shù)的雙重制約：一方面，成員搜索引擎各具特色的強(qiáng)大功能在元搜索引擎中受到限制而不能充分體現(xiàn)；另一方面，任何一種元搜索技術(shù)都不能發(fā)掘和利用成員搜索引擎的全部功能，它的局限性主要包括以下幾個(gè)方面：
　　3.1.1　調(diào)用搜索引擎上的局限性一般的元搜索引擎只是調(diào)用如Google，AltaVisa等幾個(gè)主要的搜索引擎，即使某些元搜索引擎提供了讓用戶選擇搜索引擎的選項(xiàng)，但也只能在其提供的為數(shù)不多的幾個(gè)搜索引擎中進(jìn)行選擇。
　　3.1.2　查詢請求上的局限性　元搜索引擎在查詢語法轉(zhuǎn)換方面的局限性限制了許多高級的查詢語法。因?yàn)樵阉饕娴牟樵冋Z法要考慮到它所調(diào)用的所有搜索引擎的查詢語法，這種復(fù)雜性使得大多數(shù)元搜索引擎只能提供一些簡單的查詢語法。
　　3.1.3 查詢結(jié)果數(shù)量上的局限性由于網(wǎng)絡(luò)資源的急速膨脹，單個(gè)獨(dú)立搜索引擎搜集就往往會返回成千上萬的搜索結(jié)果。元搜索引擎需要對多個(gè)獨(dú)立搜索引擎的結(jié)果進(jìn)行處理，考慮到系統(tǒng)運(yùn)行的效率與響應(yīng)時(shí)間，大多數(shù)元搜索引擎只取每個(gè)搜索引擎返回的前幾條搜索結(jié)果，這樣必定影響了信息的覆蓋面。
　　3.1.4 查詢結(jié)果排序上的局限性由于不同的搜索引擎之間存在搜索信息的數(shù)量、搜集信息的范圍、采用的索引方法、使用的相似度評價(jià)等方面的巨大差異，再加上元搜索引擎的設(shè)計(jì)者不能獲取這些搜索引擎的很多技術(shù)細(xì)節(jié)，對不同搜索引擎返回的大額結(jié)果不能很好地進(jìn)行排序。
　　3.1.5 搜索結(jié)果個(gè)性化上的局限性現(xiàn)有元搜索引擎基本上都采用“一個(gè)搜索適用于所有用戶”的搜索模型(不同的用戶提交相同的關(guān)鍵字查詢請求時(shí)，搜索引擎返回相同的搜索結(jié)果)，然而，搜索本身是一項(xiàng)個(gè)性化的活動，不同的用戶對所需要的信息要求不同，因此，現(xiàn)有的元搜索引擎無法滿足用戶的個(gè)性化需求。
　　
　　3.2　未來發(fā)展方向
　　各種局限性使得元搜索引擎在具體應(yīng)用方面搜索效果始終不理想，所以沒有哪個(gè)元搜索引擎有過強(qiáng)勢地位，它還有很多值得研究和探討的領(lǐng)域，歸納起來主要有以下幾個(gè)方向：
　　3.2.1 智能化一個(gè)智能檢索系統(tǒng)應(yīng)該能充分利用分詞詞典、同義詞典、同音詞典改善檢索效果，甚至進(jìn)一步還可在知識層面或概念層面上輔助查詢，可通過主題詞典、上下位詞典、相關(guān)同級詞典檢索處理形成一個(gè)知識體系或概念網(wǎng)絡(luò)，給予用戶智能知識提示，最終可幫助用戶獲得最佳的檢索效果。
　　3.2.2　個(gè)性化　在輸入方面，使用自然語言輸入，更加方便用戶使用，更易于用戶與搜索引擎的交互，更能貼近地表達(dá)用戶查詢需求，從而有利于提高查詢的精度。在返回結(jié)果方面，應(yīng)該充分發(fā)揮預(yù)處理和搜索結(jié)果集成方面的能力，考慮人的性別、年齡、地域等方面的差別而給出個(gè)性化的搜索結(jié)果。同時(shí)，按照語言的不同將用戶的查詢請求發(fā)送到對應(yīng)的獨(dú)立搜索引擎，以提供多語言的搜索功能。
　　3.2.3　專業(yè)化　專業(yè)元搜索引擎是個(gè)很好的概念，不但網(wǎng)絡(luò)資源可以比普通元搜索引擎挖得更深更多，搜索負(fù)擔(dān)還小得多，應(yīng)該是很符合網(wǎng)絡(luò)發(fā)展方向的。
　　3.2.4　中文元搜索引擎　漢語分詞是其實(shí)現(xiàn)的關(guān)鍵，中文元搜索引擎研究目前還處于起步階段，發(fā)展余地非常大。

相關(guān)熱詞搜索：綜述搜索引擎研究元搜索引擎研究綜述評搜索引擎評價(jià)研究綜述元搜索引擎研究綜述

熱點(diǎn)文章閱讀

版權(quán)所有 蒲公英文摘 www.91mayou.com