最早的網(wǎng)絡搜索引擎是( ) 網(wǎng)絡信息計量學與搜索引擎研究
發(fā)布時間:2020-03-07 來源: 歷史回眸 點擊:
摘要 認為搜索引擎是網(wǎng)絡信息計量研究中重要的數(shù)據(jù)收集工具,但也存在著覆蓋率低等不足之處,開發(fā)專業(yè)搜索引擎將是未來的發(fā)展重點;另一方面,搜索引擎還是網(wǎng)絡信息計量學的重要研究對象,其研究內容包括評價研究、應用研究和改進研究三個方面,所取得的研究成果可以有力地促進搜索引擎的發(fā)展。
關鍵詞 網(wǎng)絡信息計量學 搜索引擎 數(shù)據(jù)收集
分類號 G350
隨著互聯(lián)網(wǎng)(Internet)的不斷擴展和功能的不斷增強,搜索引擎(Search Engine)在網(wǎng)絡社會中的地位日益重要。對于科學工作者來說,搜索引擎研究已成為諸多科學領域所關注的焦點。但是,在情報學領域,人們對“搜索引擎”的認識始終停留在“工具”的層面。即使有所嘗試,也因為缺乏合適的切入點,而難以真正介入到這一熱門的研究領域中。本文的討論正是在這一背景下提出來的。我們認為,搜索引擎既是網(wǎng)絡信息計量學的重要研究工具,也是重要的研究內容,兩者之間存在著十分密切的聯(lián)系,對兩者進行綜合研究具有十分重要的科學意義和廣闊的發(fā)展前景。
1 搜索引擎在網(wǎng)絡信息計量研究中的應用
1.1 搜索引擎的重要作用
對于任何計量科學研究來說,系統(tǒng)、全面地收集所需要的原始數(shù)據(jù)都是開展研究的基本前提。因此,數(shù)據(jù)收集方法始終是網(wǎng)絡信息計量學重點研究的問題。
目前用于網(wǎng)絡信息計量研究的原始數(shù)據(jù)主要有兩種來源:結構化或半結構化的數(shù)據(jù)資源,主要是連接到互聯(lián)網(wǎng)上的各種專用數(shù)據(jù)庫,包括各種聯(lián)機信息系統(tǒng)、引文索引、全文數(shù)據(jù)庫、專題網(wǎng)站等。這類數(shù)據(jù)資源屬于高度組織化的信息資源,并配備有專用的信息檢索工具,使用方便,數(shù)據(jù)可靠,但數(shù)量有限,成本較高,而且其數(shù)據(jù)一般都不能直接用于網(wǎng)絡信息計量研究,需要進一步挖掘;非結構化數(shù)據(jù):網(wǎng)上擁有大量的自然語言文本、圖像、聲音等數(shù)據(jù),無法用統(tǒng)一的結構表示,被稱為“非結構化數(shù)據(jù)”。這類數(shù)據(jù)中隱含著許多非常有價值的信息,如能加以開發(fā)利用,將產(chǎn)生巨大的效益。但是,由于具有內容豐富、類型多樣、數(shù)量巨大、結構復雜、變化頻繁、質量不一等特點,對其進行開發(fā)利用的難度很大。就目前來看,人們主要依靠各種商業(yè)“搜索引擎”來搜集這類“非結構化數(shù)據(jù)”。
網(wǎng)絡信息計量學作為一門以“網(wǎng)絡信息”為研究對象的計量學科,自其誕生之日起,就與搜索引擎結下了不解之緣。從最早的T.C.Almind和Peter Ingwersen所做的研究開始,一直到今天,相當多的網(wǎng)絡信息計量學研究者都依靠搜索引擎來收集數(shù)據(jù)。所用到的搜索引擎也是種類繁多,特點各異,包括AltaVista、AUTheWeb、Northernlight、Google、Excite、Lvcos、HotBot、Infoseek等在內的眾多知名搜索引擎都曾被應用于數(shù)據(jù)搜集工作中?梢哉f,沒有搜索引擎,網(wǎng)絡信息計量學就失去了有效的研究手段,不可能得到如此迅速的發(fā)展,搜索引擎無疑是當前網(wǎng)絡信息計量研究中最重要的數(shù)據(jù)收集工具之一。
應用搜索引擎的首要問題就是選擇合適的搜索引擎。互聯(lián)網(wǎng)上的搜索引擎數(shù)量眾多,且處于不斷增長之中,但并非每個搜索引擎都適合于網(wǎng)絡信息計量研究。這就需要我們時刻關注搜索引擎的最新進展情況,充分掌握各種搜索引擎的功能特點,在實踐中根據(jù)具體的研究目標和研究對象,選擇最合適的搜索引擎。就目前而言,AltaVista(www.省略)由于其檢索功能強,檢索途徑多,能滿足多種計量的需要等優(yōu)點,成為迄今為止在網(wǎng)絡信息計量研究中應用最多的搜集引擎。除了選擇合適的搜索引擎之外,恰當?shù)厥褂盟瑯邮怯绊憯?shù)據(jù)收集效果的關鍵。其中最重要的環(huán)節(jié)就是檢索語句的編制。這要求我們要充分掌握搜索引擎的語法格式、指令功能及其正確的使用方法,最終確定高效率、高質量的檢索語句來達到研究目的。例如,Ray R.Larson在其研究中就靈活使用了AltaVista的高級檢索式:“l(fā)ink:pubweb.parc.省略/map AND link:xtreme.gsfc.nasa.gov”,來獲取同時指向兩個網(wǎng)址的網(wǎng)頁。近年來,隨著搜索引擎技術的迅速發(fā)展,越來越多的搜索引擎也提供了強大的檢索功能,使研究者們有了更多的選擇。一般來講,搜索引擎的基本使用方法可查閱有關的參考書或者搜索引擎網(wǎng)站上的幫助文件。但是,更復雜的使用方法和對使用效果的評價則需要研究者的反復實驗和系統(tǒng)總結。
1.2 搜索引擎的不足之處
盡管搜索引擎在網(wǎng)絡信息計量研究中具有如此重要的地位,已成為不可或缺的數(shù)據(jù)收集工具。但與此同時,搜索引擎在實踐中也表現(xiàn)出了種種局限性,使其檢索效果一直深受質疑,并直接影響到了整個網(wǎng)絡信息計量研究的可靠性和合理性。
簡單地說,搜索引擎的設計目標可以用“全”、“準”、“快”來概括,與之對應的是評價搜索引擎性能的三個主要指標:查全率(Recall Ratio)、查準率(Precision Ratio)和響應速度。對于一般的網(wǎng)絡用戶來說,“查準率”是上述指標中最為重要的,這也使得近年來搜索引擎的進步主要表現(xiàn)在“查準率”的提高上。但是,對于以數(shù)理統(tǒng)計為基礎的計量學科來說,數(shù)據(jù)的“查全率”無疑具有更加重要的意義。因此,我們在網(wǎng)絡信息計量研究當中所使用的搜索引擎,應該覆蓋盡量大的網(wǎng)絡,這樣才能得到較為全面的研究數(shù)據(jù)。那么,搜索引擎到底覆蓋了多少網(wǎng)絡呢?
上世紀末,NEC美國研究所(NEC Research Institute.NE-CI)的Steve Lawrence和C,Lee Giles對AhaVista、Coogle、Hot-Bot、InfoSeek、Lycos、Northern Light、Snap、Yahoo!等主要商業(yè)搜索引擎的網(wǎng)絡空間覆蓋范圍進行了全面而深入的研究,結果于1998年和1999年連續(xù)發(fā)表在Science和Nature上。他們的研究表明:盡管處于信息技術飛速發(fā)展的時代,單一搜索引擎的最大覆蓋率在兩年內卻由34%降低到16%。這是因為,盡管隨著網(wǎng)絡信息檢索技術不斷提高,搜索引擎所能檢索的信息量在絕對數(shù)量上不斷擴展,但其增長速度依然落后于網(wǎng)絡的增長速度,這就導致搜索引擎原本就不高的覆蓋率繼續(xù)縮小。而事實上,情況還要糟糕得多。Lawrence等人在研究中引入了“可索引的萬維網(wǎng)”(Indexable Web)的概念,將其測量范圍限定在“能被搜索引擎編入索引的萬維網(wǎng)”。那么,“不可索引”的部分呢?2001年,以Michael K.省略)的研究者將網(wǎng)絡明確劃分為表層網(wǎng)絡(Surface Web)和深層網(wǎng)絡(Deep Web)。前者相當于Lawrence和Giles所測量的“可索引的萬維網(wǎng)”,后者就相當于剩余的“不可索引的萬維網(wǎng)”。 他們采用交達分析(Overlap Analysis)估算出“深層網(wǎng)絡”的信息量是“表層網(wǎng)絡”的500倍,且前者的信息增長速度大于后者。美國“How much information?”研究小組的報告進一步表明:前者是后者的550倍,證實了BrightPlanet公司的結論。綜合以上研究成果,我們可以估算出一個令人沮喪的結論:最大覆蓋率的搜索引擎在1999年的時候僅僅覆蓋了0.03%(=0.16/550)的網(wǎng)絡信息資源(包括“表層網(wǎng)絡”與“深層網(wǎng)絡”)。而且,按照Lawrence等人的研究結果來推論,這一比例還在繼續(xù)縮小當中。
搜索引擎的覆蓋率如此之低,其適用范圍自然大打折扣。正如龐景安所言:“由于通常搜索引擎對Web的覆蓋率有限,所以對這類統(tǒng)計結果應謹慎處理,避免產(chǎn)生荒謬的結論”。除此之外,搜索引擎還存在使用不便、效率低下、功能不足、穩(wěn)定性差、精度不高、缺乏客觀性等其他不足,同樣限制了其在網(wǎng)絡信息計量研究中的應用。尤其是商業(yè)利益的驅動,使得“商業(yè)搜索引擎的數(shù)據(jù)收集和排列,往往受到收費的影響和支配,而導致數(shù)據(jù)的不可信”。Herbert Snyder等人更是一針見血地指出:“搜索引擎種種局限性的根源既不在于Web的固有屬性,也不在于網(wǎng)絡信息檢索的技術問題,而在于商業(yè)搜索引擎的‘市場驅動(market-driven)’本質”。
1.3 困境與展望
一方面,搜索引擎是網(wǎng)絡信息計量研究不可或缺的工具;另一方面,搜索引擎所具有的種種局限性,又使得網(wǎng)絡數(shù)據(jù)的搜集仍然缺乏普遍有效的方法,嚴重制約著網(wǎng)絡信息計量學的發(fā)展。多年來,研究者們?yōu)榱送黄七@一困境,一直進行著不懈的努力。從目前來看,主要有以下幾個發(fā)展方向:
?開發(fā)專用工具。為了提高數(shù)據(jù)收集效果,一些學者針對特定的研究對象和研究目的,開發(fā)了專用的數(shù)據(jù)搜集工具,以實現(xiàn)數(shù)據(jù)的自動收集和篩選工作。例如。Alastair G Smith和Mike Thewall在研究中就使用了自己設計的“爬行器”!皩S霉ぞ摺彪m然具有“量身定做”的優(yōu)勢,但開發(fā)周期過長、投入過多、技術門檻過高使得這種方案難以推廣。
?利用網(wǎng)絡信息查詢平臺。近年來,網(wǎng)絡上出現(xiàn)了一些專門的信息統(tǒng)計網(wǎng)站,它們提供的統(tǒng)計數(shù)據(jù)類似于傳統(tǒng)文獻計量學中的“二次文獻”,可以作為開展網(wǎng)絡信息計量研究的數(shù)據(jù)來源。例如,“Alexa”(www.省略)就提供了關于網(wǎng)站統(tǒng)計(site Stats)、聯(lián)系方式(Contact Info)、流量細節(jié)(Traf-fic Details)、相關鏈接(Related Links)等方面的信息。再如,BrightPlanet公司開發(fā)的DQM(Deep Query Manager)平臺就是一個集信息發(fā)現(xiàn)、收割(harrest)、管理和分析于一體的深層網(wǎng)絡信息查詢平臺,不僅可以對位于“深層網(wǎng)絡”數(shù)據(jù)庫進行信息查詢,還可同時對網(wǎng)絡上成百上千個搜索引擎、目錄索引和聯(lián)網(wǎng)數(shù)據(jù)庫中的信息進行自動收割。但是,這些平臺有的還處于起步階段,技術水平較低,涵蓋范圍有限,難以推廣應用;有的需要收費,成本較高,利用困難。
?專業(yè)搜索引擎。搜索引擎作為IT行業(yè)中炙手可熱的投資領域和研究熱點,許多國家都投入巨大了資源進行研究,由此產(chǎn)生的技術成果自然十分豐富。如果能夠擺脫“商業(yè)搜索引擎”這種通用工具的種種局限性,同時又能夠充分利用搜索引擎的技術優(yōu)勢,無疑是最理想的選擇。以此為出發(fā)點,人們開始將注意力投入到“專業(yè)搜索引擎”的開發(fā)中。這種搜索引擎將檢索范圍限定在一定的專業(yè)領域內,提高了檢索結果的有效性。有些還依托特定的數(shù)據(jù)庫,使得“查全率”得到大幅度提高,對于某一領域的特定研究工作是很有效的工具。從總體上來看,開發(fā)“專業(yè)搜索引擎”是最被看好的發(fā)展方向,受到許多搜索引擎廠商的重視。
2 網(wǎng)絡信息計量學中的搜索引擎研究
以上,我們探討了搜索引擎在網(wǎng)絡信息計量研究中的應用,它作為數(shù)據(jù)收集工具,其重要性是顯而易見的。但在另一方面,卻很少有人意識到,搜索引擎同時是該領域重要的研究對象。事實上,針對搜索引擎的研究始終都滲透在各種網(wǎng)絡信息計量研究中,并取得了相當多的有益成果。我們可以按照研究目的和內容的不同,將這些成果大致分為評價研究、應用研究和改進研究等三個方面。
2.1 搜索引擎評價研究
如前所述,選擇合適的搜索引擎是應用搜索引擎收集數(shù)據(jù)的首要問題。搜索引擎評價研究的目的正是通過對搜索引擎的各個性能指標進行比較分析,探討各種搜索引擎的功能特點和適用范圍,為研究人員選擇適合的搜索引擎提供依據(jù)。
對搜索引擎進行時序跟蹤研究是研究者們最常采用的研究方法。這種方法按照一定間隔,在某些特定時間點上收錄搜索引擎檢索結果的數(shù)量、相關性及其結構特征,以便觀察是否有大量的變化、不一致性或不規(guī)則的現(xiàn)象,探討搜索引擎的穩(wěn)定性問題和成長狀況。例如,Rousseau 于1999年對Altavista和NorthernLight進行了21周的連續(xù)跟蹤研究。結果顯示,隨著網(wǎng)頁的成長NorthernLight檢索的數(shù)據(jù)亦呈穩(wěn)步增長,這與網(wǎng)絡發(fā)展的步調是一致的。而Altavista的結果在某一特定日期前始終處于很大的變化之中,檢索結果不穩(wěn)定,直到后來系統(tǒng)重建才進入到一個相對穩(wěn)定階段。他建議利用中值篩選(Median Filtering)來降低這種不穩(wěn)定性對檢出結果的影響。再如,Judit Bar-Ilan 分別在1998年和1999年對當時6個主要的搜索引擎進行了連續(xù)幾個月的跟蹤研究,專門研究搜索引擎檢索結果的變化及其原因。MikeThelwaU 則通過對多個搜索引擎為期7個月的跟蹤研究,得出了Coogle實時勝最強,而AltaVista最穩(wěn)定的結論。2001年,夏旭等人對性能較好的10種醫(yī)學搜索引擎進行檢索和比較分析,結果發(fā)現(xiàn)醫(yī)學搜索引擎的覆蓋范圍有限,而且檢索結果的相關性不如通用引擎。此外,還有的研究者致力于搜索引擎評價的方法研究上,探討如何對各種搜索引擎的性能進行綜合評價。例如,1997年,Clarke和Willet 就提出了現(xiàn)實可行的搜索引擎評價方法,并對AltaVista、Excite以及Lycos三個搜尋引擎作了比較,結果發(fā)現(xiàn)AltaVista的性能明顯優(yōu)于Excite和Lycos。
2.2 搜索引擎應用研究
盡管目前的搜索引擎存在著種種局限性,但在相當長的時間內,它們仍將是網(wǎng)絡信息計量研究者們主要依靠的數(shù)據(jù)收集工具。那么,如何在現(xiàn)有條件下利用搜索引擎獲得盡量“優(yōu)質”的研究數(shù)據(jù)就成為一項有意義的研究工作。為此,網(wǎng)絡信息計量學的研究者們也做了很多有益的嘗試。例如,Steve Lawrence和C.Lee Gilest就曾指出,為了克服單一 引擎的局限性,可將幾個主要引擎結合起來使用,也可通過利用一些具有自動抓取功能的研究型搜索引擎來獲得信息。他們的研究結果表明,多個搜索引擎的覆蓋范圍組合之和是估計總頁數(shù)的42%,遠高于單一搜索引擎最大16%的覆蓋率。2001年,Alastair G Smith和Mike Thewall自己設計的爬行器和A1taVista進行了比較,結果表明:A1taVista更便于做探索性研究,專門的爬行器在驗證性的研究上要好一些。2005年,呂俊生等人對用于網(wǎng)絡鏈接關系檢索的搜索引擎進行了系統(tǒng)的調研分析,提出了用于鏈接分析的搜索引擎的選擇方案。2006年,楊木容對國內鏈接分析中使用的主要搜索引擎進行了比較分析,明確指出需要進一步開發(fā)針對網(wǎng)絡鏈接分析研究的專門搜索引擎。
還有的學者提出通過對檢索結果的二次加工來提高檢索結果的有效性。例如,2003年,肖建華等人提出的二次搜索系統(tǒng),就借助鏈接分析技術,對搜索引擎搜索結果進行再次處理,為用戶提供一個高質量的搜索結果。
2.3 搜索引擎改進研究
隨著搜索引擎的地位日益提高,如何利用信息科學技術的新成果、新方法、新工具改進搜索引擎的搜索效果,提高搜索引擎的性能已成為互聯(lián)網(wǎng)行業(yè)乃至整個IT領域的關注焦點。一直以來,搜索引擎的開發(fā)和改進,似乎都是計算機、網(wǎng)絡、通訊、軟件工程等信息技術專業(yè)的專利。但事實上,網(wǎng)絡信息計量學作為研究網(wǎng)絡信息的數(shù)量特征和內在規(guī)律的科學學科,它的許多研究成果同樣可用于搜索引擎的改進當中。下面,我們試舉一例。
一個搜索引擎系統(tǒng)的核心是其所采用的“信息檢索模型”,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制等諸要素。正如前文所述,“查詢結果的排序’’在很大程度上決定了搜索引擎的性能。在過去,搜索引擎主要采用人工判斷、競價排名、檢索詞頻率、登錄時間、索引順序等方式來確定排序標準。但由于主觀性強、效率低下、商業(yè)因素的干擾等原因,這些排序方法的效果都不太理想。
近年來,許多研究者發(fā)現(xiàn),網(wǎng)絡上的鏈接結構是個非常豐富和重要的資源,通過對鏈接結構進行分析來確定網(wǎng)頁的重要性,作為檢索結果排序的依據(jù),可以極大地提高檢索結果的質量。其中最成功的例子莫過于“Google”。Google作為目前最好的搜索引擎之一,其體系結構類似于傳統(tǒng)的搜索引擎,但最大的不同處在于對網(wǎng)頁進行了基于權威值的排序處理,使“最重要的”網(wǎng)頁出現(xiàn)在結果的最前面。這種重要的網(wǎng)頁被稱為“權威(Authoritive)網(wǎng)頁”,其判斷依據(jù)是SergeyBrin和Lawrence Page創(chuàng)立的Pagerank算法。他們使用該算法計算出網(wǎng)頁的“Pagerank值”,其含義是:“假定用戶一開始隨機訪問網(wǎng)頁集合中的一個網(wǎng)頁,以后跟隨網(wǎng)頁的向外鏈接向前瀏覽網(wǎng)頁,不回退瀏覽,瀏覽下一個網(wǎng)頁的概率就是被瀏覽網(wǎng)頁的PageRank值”。簡單而言,Pagerank算法的基本前提是:一個網(wǎng)頁被多次引用,則它可能是很重要的;一個網(wǎng)頁雖然沒有被多次引用,但是被重要的網(wǎng)頁引用,則它也可能是很重要的;一個網(wǎng)頁的重要性被平均的傳遞到它所引用的網(wǎng)頁。顯然,這一基本前提與傳統(tǒng)文獻計量學中的引文分析法的基本思想如出一轍,可以說是網(wǎng)絡信息計量學特征方法的典型應用。
3 結語
綜上所述,網(wǎng)絡信息計量學與搜索引擎之間存在著十分密切的聯(lián)系,兩個領域的研究工作是相輔相成、互相促進的關系。一方面,過去和現(xiàn)階段的網(wǎng)絡信息計量研究主要依賴搜索引擎來獲取原始數(shù)據(jù),搜索引擎的進步將為網(wǎng)絡信息計量學提供更加有效的數(shù)據(jù)收集手段;另一方面,搜索引擎一直以來都是網(wǎng)絡信息計量學的重要研究對象,所取得的研究成果可以有力地促進搜索引擎的發(fā)展。因此,我們有理由相信,把網(wǎng)絡信息計量學研究與搜索引擎研究結合起來,在這一交叉領域開展綜合性、系統(tǒng)性的研究,將是一項十分有意義的研究工作。本文就這一問題進行了初步探討,權作引玉之磚,希望能為研究者們提供可咨借鑒的參考。
相關熱詞搜索:計量學 搜索引擎 研究 網(wǎng)絡信息計量學與搜索引擎研究 搜索引擎研究 搜索引擎廣告要研究
熱點文章閱讀