[基于知識(shí)圖譜的國(guó)際網(wǎng)絡(luò)搜索引擎研究現(xiàn)狀與前沿分析]知識(shí)圖譜 搜索引擎
發(fā)布時(shí)間:2020-03-10 來(lái)源: 短文摘抄 點(diǎn)擊:
[摘要]運(yùn)用知識(shí)圖譜方法對(duì)國(guó)際網(wǎng)絡(luò)搜索引擎領(lǐng)域1999~2010年的相關(guān)文獻(xiàn)進(jìn)行多角度的定量定性分析,描繪該領(lǐng)域近年來(lái)的研究現(xiàn)狀及熱點(diǎn)。結(jié)果表明:目前該領(lǐng)域的文獻(xiàn)量穩(wěn)步增長(zhǎng),高校是核心的研究力量。同時(shí)識(shí)別核心作者群,并發(fā)現(xiàn)目前的研究主要集中于搜索引擎的基本理論研究、檢索效率研究、用戶行為研究、語(yǔ)義網(wǎng)研究、醫(yī)學(xué)引擎研究等。
[關(guān)鍵詞]網(wǎng)絡(luò)搜索引擎 知識(shí)圖譜 研究現(xiàn)狀研究 前沿
[分類號(hào)]G350
1 引言
因特網(wǎng)信息爆炸性增長(zhǎng)在給使用者帶來(lái)便利的同時(shí),也帶來(lái)了麻煩。在浩如煙海的信息海洋中快速準(zhǔn)確地尋找所需信息猶如大海撈針般困難,網(wǎng)絡(luò)搜索引擎的出現(xiàn)緩解了這一矛盾。搜索引擎是一種用于幫助因特網(wǎng)用戶在互聯(lián)網(wǎng)上查詢信息的搜索工具,它以一定的策略在因特網(wǎng)中發(fā)現(xiàn)、搜集信息,并對(duì)搜集的信息進(jìn)行加工整理和組織存貯,為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的作用。1994年創(chuàng)建的Lycos被認(rèn)為是第一個(gè)現(xiàn)代意義上的搜索引擎。網(wǎng)絡(luò)搜索引擎發(fā)展至今雖只有十余年的歷史,卻在商界、學(xué)術(shù)界掀起了巨大波瀾。著名因特網(wǎng)網(wǎng)站排名公司Alexa提供的數(shù)據(jù)顯示,搜索引擎公司谷歌于2009年1月5日首次在Alexa日流量排名中占據(jù)第一,成為世界頭號(hào)網(wǎng)站。comScore在2009年9月發(fā)布的全球10大因特網(wǎng)資產(chǎn)也顯示谷歌排名第二,排在第九、第十位的也均是搜索引擎公司,分別為百度和Lycos。學(xué)術(shù)界對(duì)于網(wǎng)絡(luò)搜索引擎的基礎(chǔ)理論研究、比較研究、技術(shù)研究、質(zhì)量性能研究等均有大量報(bào)道,但鮮有涉足現(xiàn)狀及前沿分析,即使涉足一般也以定性研究為主。為了解該領(lǐng)域近年來(lái)的研究現(xiàn)狀及熱點(diǎn),筆者擬用知識(shí)圖譜方法對(duì)國(guó)際網(wǎng)絡(luò)搜索引擎領(lǐng)域的相關(guān)文獻(xiàn)進(jìn)行以定量分析為主、定性分析為輔的研究,希冀得出一些有益的結(jié)論,為該領(lǐng)域的研究提供借鑒。
2 數(shù)據(jù)來(lái)源、理論基礎(chǔ)和研究思路
2.1 數(shù)據(jù)來(lái)源
本文使用的數(shù)據(jù)均來(lái)源于美國(guó)科學(xué)信息研究所的WoS數(shù)據(jù)庫(kù)平臺(tái)中的SCI-Expanded數(shù)據(jù)庫(kù)。以“WebSearch Engine”或“Web Search Engines”為主題詞進(jìn)行檢索,在相關(guān)題錄信息下載過(guò)程中,文獻(xiàn)類型選為“Artide”,語(yǔ)種為“English”,入庫(kù)年份為“1999-2010”,下載日期為2010年04月30日,共檢索到1268篇文獻(xiàn)和36 804條引文題錄數(shù)據(jù)。
2.2 理論基礎(chǔ)
科學(xué)知識(shí)圖譜是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一種圖形,是近年來(lái)國(guó)際上興起的一種科學(xué)計(jì)量學(xué)研究方法。知識(shí)圖譜以引文分析、共現(xiàn)分析、詞頻分析等文獻(xiàn)計(jì)量方法為基礎(chǔ),綜合了計(jì)算機(jī)科學(xué)、圖形學(xué)、信息可視化、數(shù)據(jù)挖掘、數(shù)學(xué)等學(xué)科理論和方法,可以以圖像圖形的形式形象地展現(xiàn)科學(xué)領(lǐng)域的發(fā)展歷程、研究現(xiàn)狀及熱點(diǎn)前沿,并揭示科學(xué)知識(shí)之間的聯(lián)系與知識(shí)的發(fā)展規(guī)律,為科學(xué)研究提供有價(jià)值的參考。德雷賽爾大學(xué)陳超美博士開(kāi)發(fā)的CitespaeelI可視化軟件為研究提供了極大便利,是知識(shí)圖譜方面一款非常優(yōu)秀的軟件。對(duì)于一個(gè)研究領(lǐng)域的表示,陳超美認(rèn)為,可以用“研究前沿”和“知識(shí)基礎(chǔ)”兩者之間的時(shí)變映射來(lái)表示。研究前沿代表了一個(gè)領(lǐng)域的思想狀況,研究前沿的引文和共被引軌跡則構(gòu)成了相應(yīng)的知識(shí)基礎(chǔ),Citespaeell使用的光譜聚類算法可以對(duì)共現(xiàn)和共被引網(wǎng)絡(luò)進(jìn)行自動(dòng)聚類及標(biāo)引,采用的Kleinberg突變檢測(cè)算法可以用于檢測(cè)一個(gè)學(xué)科內(nèi)研究興趣的突然增長(zhǎng)。本文擬用“關(guān)鍵詞聚類”和“突變?cè)~檢測(cè)”算法來(lái)確定某研究領(lǐng)域的研究熱點(diǎn)和研究前沿。
2.3 研究思路
本文首先采用文獻(xiàn)計(jì)量方法對(duì)相關(guān)文獻(xiàn)的數(shù)量、著者、主要研究機(jī)構(gòu)進(jìn)行分析以揭示研究現(xiàn)狀,然后繪制這1268篇文獻(xiàn)的高頻關(guān)鍵詞的共現(xiàn)聚類圖譜、高被引文獻(xiàn)的共被引網(wǎng)絡(luò)知識(shí)圖譜,從而描繪出該領(lǐng)域的研究熱點(diǎn)及知識(shí)基礎(chǔ)。使用到的軟件主要有書(shū)目共現(xiàn)分析系統(tǒng)、Excel、CitespaeeII可視化軟件等。
3 研究現(xiàn)狀描述
3.1 文獻(xiàn)信息量統(tǒng)計(jì)
發(fā)表文獻(xiàn)的數(shù)量在一定程度上代表了某個(gè)領(lǐng)域的研究水平與發(fā)展趨勢(shì)。圖1所示的是1999~2010年12年間的文獻(xiàn)量,其中2010年的數(shù)據(jù)只統(tǒng)計(jì)到4月份。從圖中可以看出,文獻(xiàn)量除2003、2005年略有下降外,其他年份均呈穩(wěn)步增長(zhǎng)之勢(shì)。
3.2 論文著者統(tǒng)計(jì)分析
3.2.1 作者總體狀況統(tǒng)計(jì)表明這1268篇文獻(xiàn)來(lái)自于1045位著者,具體數(shù)據(jù)如表1所示:
這與經(jīng)典的描述科學(xué)生產(chǎn)率的洛特卡定律并不符合。洛特卡定律描述的是寫(xiě)一篇文章的作者大約占作者總數(shù)的60%,而寫(xiě)n篇作者的人數(shù)約為寫(xiě)一篇作者人數(shù)的1/n2。但從表中發(fā)現(xiàn),寫(xiě)一篇文獻(xiàn)的作者人數(shù)所占的比例高達(dá)89.5%,遠(yuǎn)高于60%。
3.2.2 核心作者狀況 對(duì)于作者發(fā)文量和被引頻次的統(tǒng)計(jì)分析可以識(shí)別某研究領(lǐng)域的高產(chǎn)作者及學(xué)術(shù)影響力。本文選取發(fā)文量5篇以上的作者作為高產(chǎn)作者,被引頻次超過(guò)125次的作者作為高被引作者,分別如表2、表3所示:
Thelwall、Jansen、Spink、Chau、Bar-Ilan的發(fā)文量都在10篇以上,是該領(lǐng)域的高產(chǎn)作者。來(lái)自英國(guó)胡佛漢頓大學(xué)的著名計(jì)算機(jī)學(xué)家、情報(bào)學(xué)家、網(wǎng)絡(luò)計(jì)量學(xué)家Thelwall教授的總被引頻次排在第三,他對(duì)鏈接分析等搜索引擎的核心技術(shù)有著比較深入的研究,具有廣泛學(xué)術(shù)影響力。與Thelwall一樣具有廣泛學(xué)術(shù)影響力的高產(chǎn)作者還有來(lái)自馬里蘭大學(xué)的Jansen和匹茲堡大學(xué)的Spink,這兩位教授曾在賓州州立大學(xué)共事過(guò),撰寫(xiě)過(guò)很多經(jīng)典文獻(xiàn)。他們?cè)?jīng)為擁有Dogpile、Metaeraw[,er、Webcrawle等知名元搜索引擎公司lnfoSpaee和Vivisimo做過(guò)研究,主要從事理論及應(yīng)用研究、用戶行為研究。以色列巴伊蘭大學(xué)的情報(bào)學(xué)家Bar-llan也是該領(lǐng)域的核心作者,她的研究領(lǐng)域主要涉及信息計(jì)量學(xué)、信息檢索、用戶行為等。Chau來(lái)自香港大學(xué),主要致力于知識(shí)管理、信息檢索數(shù)字圖書(shū)館、文本挖掘well挖掘等,是該領(lǐng)域的高產(chǎn)作者。供職于谷歌的Lawrence發(fā)表過(guò)幾篇相當(dāng)經(jīng)典的文獻(xiàn),因此具有極高的被引頻次,是該領(lǐng)域極為知名的專家,他的主要研究興趣包括信息檢索、數(shù)字圖書(shū)館、機(jī)器學(xué)習(xí)。被譽(yù)為現(xiàn)代搜索技術(shù)之父Salton雖已過(guò)世,但他的很多經(jīng)典文獻(xiàn)仍在被大量引用,總被引頻次排到了第五,他提出的向量空間模型、逆文檔頻率、術(shù)語(yǔ)頻率、術(shù)語(yǔ)偏離值等概念和相關(guān)反饋機(jī)制,極大地促進(jìn)了信息檢索領(lǐng)域的發(fā)展。限于篇幅,對(duì)其他核心作者不具體介紹。
3.3 機(jī)構(gòu)狀況
3.3.1 高產(chǎn)機(jī)構(gòu)分析統(tǒng)計(jì)表明,這1268篇文獻(xiàn)來(lái)自893個(gè)不同的研究機(jī)構(gòu),發(fā)表論文在9篇以上的高產(chǎn)機(jī)構(gòu)如表4所示:
從論文數(shù)量上看,賓州州立大學(xué)以37篇的數(shù)量排 在第一位,前面提到的Jansen和Spink兩位作者就曾在此校做過(guò)研究。排在第二的是胡佛漢頓大學(xué),其中Thelwall教授一人就發(fā)文26篇,占了該機(jī)構(gòu)三分之二以上的發(fā)文量,是該機(jī)構(gòu)的絕對(duì)核心研究人員。其他排名比較靠前的還有威斯康星大學(xué)、匹茲堡大學(xué)、西安大略大學(xué)等。
從地區(qū)上看,美國(guó)(10所)占了一半以上的席位,顯示出美國(guó)在該領(lǐng)域的強(qiáng)大學(xué)術(shù)影響力。香港、英國(guó)、加拿大、土耳其、新加坡、以色列、澳大利亞也均存在高產(chǎn)機(jī)構(gòu),說(shuō)明該領(lǐng)域的高產(chǎn)機(jī)構(gòu)主要分布在發(fā)達(dá)國(guó)家和地區(qū)。同時(shí)也可以看到這些機(jī)構(gòu)主要是高校,一些商業(yè)機(jī)構(gòu)諸如IBM、微軟、谷歌的排名都比較靠后,這對(duì)技術(shù)的商業(yè)化運(yùn)作并非很有利。
3.3.2 機(jī)構(gòu)研究領(lǐng)域
利用CitespacelI對(duì)這些機(jī)構(gòu)進(jìn)行聚類分析,可以發(fā)現(xiàn)其研究興趣分布在22個(gè)領(lǐng)域。按聚類成員的多寡,排在第一的是語(yǔ)義網(wǎng)(#16)。語(yǔ)義網(wǎng)是通過(guò)改變現(xiàn)有互聯(lián)網(wǎng)依靠文字信息來(lái)共享資源的模式,通過(guò)本體來(lái)描述語(yǔ)義信息,達(dá)到語(yǔ)義級(jí)的共現(xiàn),提高網(wǎng)絡(luò)服務(wù)的智能化自動(dòng)化;谡Z(yǔ)義網(wǎng)技術(shù)的搜索引擎能大大改善查全率和查準(zhǔn)率,是智能搜索引擎的前進(jìn)方向,有多達(dá)87個(gè)研究機(jī)構(gòu)對(duì)此進(jìn)行研究,包括胡佛漢頓大學(xué)、南洋理工大學(xué)、西安大略大學(xué)等。賓州州立大學(xué)在探索性研究(#12)方面具有建樹(shù),這個(gè)研究方向還吸引了斯坦福大學(xué)和昆士蘭理工大學(xué)這樣的技術(shù)強(qiáng)校。相關(guān)內(nèi)容分析方法(#0)這個(gè)聚類也聚集了不少機(jī)構(gòu),值得注意的是這里面的機(jī)構(gòu)都大多來(lái)自中國(guó),包括上海交通大學(xué)、香港理工大學(xué)和微軟亞洲研究院。其他排名靠前的聚類還有交互式網(wǎng)絡(luò)搜索(#2)、蛋白質(zhì)信息資源(#7)、測(cè)量網(wǎng)絡(luò)搜索引擎質(zhì)量(#8)、瀏覽技術(shù)(#9)、內(nèi)容分析(#21)等,具體情況如圖2所示:
4 知識(shí)基礎(chǔ)和研究前沿
4.1 研究熱點(diǎn)和前沿
關(guān)鍵詞所占篇幅雖小,卻是文章的核心和精髓,是作者對(duì)文章主題的精煉,具有很強(qiáng)的代表性,因此高頻的關(guān)鍵詞往往被用來(lái)考查一個(gè)領(lǐng)域的研究熱點(diǎn)。將相關(guān)題錄數(shù)據(jù)導(dǎo)人CitespaceII中,網(wǎng)絡(luò)節(jié)點(diǎn)的類型選為關(guān)鍵詞(keyword),時(shí)區(qū)分割(time slicing)選擇為1,即將12年的數(shù)據(jù)以年為單位切為12片,閾值選為出現(xiàn)頻次最高的50個(gè)字(top50),運(yùn)行軟件得到如圖3所示的關(guān)鍵詞共現(xiàn)圖譜,共有278個(gè)不同的關(guān)鍵詞節(jié)點(diǎn)和1271條連線:
節(jié)點(diǎn)向外延伸的不同顏色的環(huán)代表了不同年份的出現(xiàn),環(huán)的厚度與出現(xiàn)頻次正相關(guān),表5列出的是出現(xiàn)頻次排在前十的關(guān)鍵詞及中心度
通過(guò)計(jì)算節(jié)點(diǎn)中心度的大小可以挖掘出在整個(gè)知識(shí)圖譜中具有戰(zhàn)略地位的關(guān)鍵點(diǎn)。中心度反映了一個(gè)節(jié)點(diǎn)(如關(guān)鍵詞或引文)在整個(gè)網(wǎng)絡(luò)中作為“媒介”的能力,也就足占據(jù)其他兩個(gè)節(jié)點(diǎn)之間最短路徑的能力,具有較高中介中心度的節(jié)點(diǎn)意味著更多的節(jié)點(diǎn)之間的聯(lián)絡(luò)需要通過(guò)它來(lái)充當(dāng)媒介。圖3中具有較高中介中心度(大于0.1)的點(diǎn)用紫色的圈圈出來(lái),這樣的關(guān)鍵詞包括萬(wàn)維網(wǎng)、因特網(wǎng)、搜索引擎、信息檢索、信息、檢索,都是與主題很相關(guān)的詞,是很多其他研究的基礎(chǔ)。
節(jié)點(diǎn)的大小揭示該領(lǐng)域的研究熱點(diǎn)。萬(wàn)維網(wǎng)和因特網(wǎng)是圖中最大、最突出的兩個(gè)節(jié)點(diǎn)。萬(wàn)維網(wǎng)是無(wú)數(shù)個(gè)網(wǎng)絡(luò)站點(diǎn)和網(wǎng)頁(yè)的集合,它們?cè)谝黄饦?gòu)成了因特網(wǎng)最主要的部分,是依靠著因特網(wǎng)運(yùn)行的一項(xiàng)服務(wù),在很多場(chǎng)合不明顯區(qū)分這兩個(gè)詞。搜索引擎處理的是因特網(wǎng)上的信息,因特網(wǎng)的迅速發(fā)展與普及也帶動(dòng)了搜索引擎的發(fā)展。因特網(wǎng)上的信息具有的龐大性、動(dòng)態(tài)性、異構(gòu)性和半結(jié)構(gòu)化等特點(diǎn)對(duì)搜索引擎來(lái)說(shuō)是個(gè)挑戰(zhàn),這勢(shì)必引起很多專家學(xué)者來(lái)對(duì)此進(jìn)行研究。因此,這是該領(lǐng)域的熱點(diǎn)之一。
排在第三的關(guān)鍵詞是搜索引擎,同樣具有極高的中介中心度,這是本文的檢索詞,自然處于圖的中心位置,也是本研究的基礎(chǔ)所在。
排名四、五、六的是信息檢索、信息、檢索、網(wǎng)絡(luò)檢索這幾個(gè)相關(guān)的莢鍵詞,這些都是與搜索引擎運(yùn)行相關(guān)的。搜索引擎的基本思想是:使用Robot來(lái)遍歷Web,將Web上分布的信息下載到本地文檔庫(kù),然后對(duì)文檔內(nèi)容進(jìn)行自動(dòng)分析并建立索引,對(duì)于用戶提出的檢索請(qǐng)求,搜索引擎通過(guò)檢查索引找出匹配的文檔返回給用戶,信息檢索技術(shù)是搜索引擎發(fā)展的基礎(chǔ),該領(lǐng)域的發(fā)展離不開(kāi)基礎(chǔ)研究,因此也是目前的熱點(diǎn)。
排名第七的是質(zhì)量一詞,在谷歌學(xué)術(shù)中檢索研究搜索引擎質(zhì)量的文獻(xiàn),檢索結(jié)果高達(dá)30000萬(wàn)條以上,研究者從不同的角度來(lái)提高搜索引擎的檢索質(zhì)量。如對(duì)網(wǎng)頁(yè)的重要性、用戶的反饋信息、大規(guī)模日志、用戶的點(diǎn)擊行、頁(yè)面排序算法等進(jìn)行研究。這些措施都大大增加了搜索引擎檢索結(jié)果的準(zhǔn)確性。搜索引擎返回結(jié)果的質(zhì)量直接導(dǎo)致用戶體驗(yàn)效果的不同,因此是目前該領(lǐng)域研究非;钴S的方向。
排在第八的是健康資訊。隨著物質(zhì)生活水平的提高,人們?cè)絹?lái)越重視與健康相關(guān)的信息,因特網(wǎng)的迅猛發(fā)展提供了這種便利。如今世界各地的人們?cè)絹?lái)越多的使用搜索引擎來(lái)尋找相關(guān)病癥,藥物,治療信息,但對(duì)這些過(guò)載信息的不恰當(dāng)使用往往會(huì)適得其反。同時(shí)對(duì)于一些醫(yī)療信息,包括學(xué)術(shù)醫(yī)療信息的呈現(xiàn)問(wèn)題等也是關(guān)注的焦點(diǎn)。因此如何使搜索引擎成為溝通這些寶貴的醫(yī)療資源與用戶的橋梁是面臨的一大難題。下文列出的前九的經(jīng)典文獻(xiàn)中有兩篇是跟這方面相關(guān)的,說(shuō)明對(duì)健康資訊、醫(yī)學(xué)搜索引擎領(lǐng)域的研究是一個(gè)熱點(diǎn)。排名比較靠前的還有設(shè)計(jì)、用戶研究。
為了確定該領(lǐng)域目前的研究前沿,選用突變檢測(cè)算法來(lái)檢測(cè)該領(lǐng)域的突變專業(yè)術(shù)語(yǔ)(環(huán)內(nèi)呈紅色的點(diǎn)),同時(shí)選擇時(shí)間線索(timeline)聚類視圖,生成圖4所示的聚類知識(shí)圖譜:
這樣的詞頻變化較高的、代表研究前沿的突變專業(yè)術(shù)語(yǔ)有語(yǔ)義網(wǎng)、數(shù)據(jù)庫(kù)、日志、網(wǎng)絡(luò)搜索等。
4.2 知識(shí)基礎(chǔ)
對(duì)知識(shí)基礎(chǔ)的共被引分析,有利于進(jìn)一步明確研究熱點(diǎn)的本質(zhì)。利用Citespacell提供的共被引分析功能,對(duì)該領(lǐng)域的文獻(xiàn)繪制了共被引知識(shí)圖譜。除去節(jié)點(diǎn)類型選為參考文獻(xiàn)(cited conference),閩值選為top40外,其他參數(shù)與關(guān)鍵詞的一致。運(yùn)行生成圖5所示的知識(shí)圖譜,共生成了246個(gè)不同的文獻(xiàn)節(jié)點(diǎn)及1545條連線。
表6列出的是被引頻次50次以上的高被引文獻(xiàn),括號(hào)中給出的是相應(yīng)文獻(xiàn)在谷歌學(xué)術(shù)中檢索到的被引頻次(截至2010年5月4日),這些高被引的經(jīng)典文獻(xiàn)構(gòu)成了搜索引擎領(lǐng)域的知識(shí)基礎(chǔ),具有極高的學(xué)術(shù)價(jià)值。中心度的大小則顯示出了相關(guān)文獻(xiàn)對(duì)于搜索引擎研究的轉(zhuǎn)折意義跟樞紐作用。
按被引頻次排序,Lawrence的《因特網(wǎng)上信息的可獲取性》一文具有最高的被引頻次。該文通過(guò)對(duì)當(dāng)時(shí)主流搜索引擎進(jìn)行比較分析,提出這些搜索引擎的不足,比如對(duì)網(wǎng)頁(yè)的標(biāo)引。當(dāng)時(shí)的搜索引擎依據(jù)網(wǎng)頁(yè)的受歡迎程度以及網(wǎng)頁(yè)之間的鏈接進(jìn)行標(biāo)引,但這會(huì)導(dǎo)致對(duì)許多包含重要信息的新網(wǎng)頁(yè)的標(biāo)引、檢索產(chǎn)生時(shí)滯。同時(shí),針對(duì)當(dāng)時(shí)搜索引擎覆蓋率不足的問(wèn)題,作者 也提出許多見(jiàn)解。這些問(wèn)題的提出,為以后搜索引擎的發(fā)展指明了方向。時(shí)至今日,這些問(wèn)題得到了很大程度的改善,雖然網(wǎng)頁(yè)數(shù)量呈指數(shù)上升,但搜索引擎的覆蓋率還是有了長(zhǎng)足的進(jìn)步。而對(duì)于一些重要網(wǎng)頁(yè)比如新聞網(wǎng)頁(yè)的標(biāo)引檢索也找到了一些對(duì)策。因此,該文是該領(lǐng)域最近十余年來(lái)具有里程碑意義的經(jīng)典文獻(xiàn)。
Jansen的《真實(shí)的生活真實(shí)的用戶真實(shí)的需求:網(wǎng)上用戶需求研究和分析》一文排在第二。該文基于搜索引擎后臺(tái)的數(shù)據(jù)庫(kù)事物日志對(duì)搜索引擎用戶的使用習(xí)慣進(jìn)行了分析,得出了一些有意義的結(jié)論。諸如:在檢索的時(shí)候用戶使用的關(guān)鍵詞很少,一半的用戶只有一個(gè)檢索詞;大約只有5%的人使用到了搜索引擎提供的相關(guān)反饋;而對(duì)于一些諸如布爾檢索等高級(jí)檢索技巧,使用者也是微乎其微等。Jansen的研究為搜索引擎的研究從純技術(shù)角度之外開(kāi)辟了新的途徑。所以,現(xiàn)在很多搜索引擎廠商都非常注重后臺(tái)用戶數(shù)據(jù)庫(kù)的建設(shè)與使用,通過(guò)對(duì)這些數(shù)據(jù)挖掘得出一些富有成效的結(jié)論,同時(shí)與用戶保持互動(dòng),通過(guò)用戶的反饋來(lái)提高檢索的性能,增加用戶的體驗(yàn)感。
排在第三位的同樣是Lawrence的《搜索萬(wàn)維網(wǎng)》,這篇發(fā)表在Science上的文章寫(xiě)于1998年,《因特網(wǎng)上信息的可獲取性》一文是該文的后續(xù)研究。該文對(duì)萬(wàn)維網(wǎng)搜索引擎的覆蓋率問(wèn)題進(jìn)行了研究。對(duì)于當(dāng)時(shí)的搜索引擎覆蓋率過(guò)低問(wèn)題,作者通過(guò)一系列的實(shí)驗(yàn)證明使用元搜索引擎是一種比較好的解決途徑。對(duì)于科學(xué)家尋找學(xué)術(shù)信息困難的問(wèn)題,也提出了一些方案,是一篇具有開(kāi)拓意義的經(jīng)典文獻(xiàn)。
《大型超文本網(wǎng)絡(luò)搜索引擎的剖析》是谷歌創(chuàng)始人布林與佩奇寫(xiě)的文章。該文首次對(duì)大型網(wǎng)絡(luò)搜索引擎進(jìn)行了深層次的介紹,同時(shí)還對(duì)利用超文本中的附加信息改善搜索結(jié)果進(jìn)行了研究,是谷歌創(chuàng)立的基礎(chǔ)及原型。多次被Search Engine Watch評(píng)為“最杰出的搜索引擎”的谷歌的成功吸引了很多相關(guān)研究者對(duì)此文的關(guān)注,該文在谷歌學(xué)術(shù)中被引頻次達(dá)到了驚人的6477次,當(dāng)仁不讓地成為了該領(lǐng)域的經(jīng)典文獻(xiàn)。
康奈爾大學(xué)Kleinberg的《超鏈接環(huán)境中的權(quán)威資源》在谷歌學(xué)術(shù)上的被引頻次也高達(dá)4896。該文提出的中心問(wèn)題是:對(duì)于某個(gè)檢索主題,會(huì)有很多的相關(guān)信息,那么如何從這么多的信息中準(zhǔn)確定位對(duì)于用戶有用的信息呢?作者提出了一種基于互聯(lián)網(wǎng)的鏈接結(jié)構(gòu)的“權(quán)威度”概念來(lái)大大縮小檢索范圍,同時(shí)提出一套行之有效的算法工具來(lái)鑒定這樣的資源。
另外,這9篇經(jīng)典文獻(xiàn)中有2篇是發(fā)表在《美國(guó)醫(yī)學(xué)協(xié)會(huì)學(xué)報(bào)》這本醫(yī)學(xué)權(quán)威期刊上,主要探討了如何有效準(zhǔn)確利用因特網(wǎng)上的醫(yī)學(xué)醫(yī)療信息,是相關(guān)醫(yī)學(xué)醫(yī)療搜索引擎研究的經(jīng)典文獻(xiàn)。
5 結(jié)語(yǔ)
本文對(duì)國(guó)際網(wǎng)絡(luò)搜索引擎領(lǐng)域十多年來(lái)的相關(guān)文獻(xiàn)從不同的角度作了比較細(xì)致的考察,生成了若干張圖表,明晰了目前的研究現(xiàn)狀,辨別出了該領(lǐng)域的核心作者與核心研究機(jī)構(gòu)。同時(shí),通過(guò)對(duì)關(guān)鍵詞的分析,也把握了該領(lǐng)域的研究熱點(diǎn),目前的研究主要集中于搜索引擎的基本理論、檢索效率質(zhì)量、用戶使用習(xí)慣、語(yǔ)義網(wǎng)技術(shù)、醫(yī)學(xué)搜索引擎等;并進(jìn)一步對(duì)該領(lǐng)域的經(jīng)典文獻(xiàn)進(jìn)行了分析以明晰研究熱點(diǎn),這些文獻(xiàn)跟目前的研究熱點(diǎn)有很大的相關(guān)性并且是研究的基礎(chǔ),很多文獻(xiàn)作出了開(kāi)創(chuàng)性的貢獻(xiàn),具有研究的風(fēng)向標(biāo)作用。但限于水平與篇幅,很多定性分析都未能深入,這是以后研究需要改進(jìn)的地方。
相關(guān)熱詞搜索:圖譜 現(xiàn)狀 搜索引擎 基于知識(shí)圖譜的國(guó)際網(wǎng)絡(luò)搜索引擎研究現(xiàn)狀與前沿分析 知識(shí)圖譜研究現(xiàn)狀和趨勢(shì) 國(guó)內(nèi)外知識(shí)圖譜
熱點(diǎn)文章閱讀