語義Web環(huán)境下的搜索引擎功能分析|語義搜索引擎研究
發(fā)布時間:2020-03-10 來源: 感恩親情 點擊:
[摘要]探討當前搜索引擎存在的問題以及搜索引擎的語義功能需求,然后基于Web搜索引擎和語義Web,提出語義Web環(huán)境下的搜索引擎功能流圖,并針對crawler、本體與知識庫、語義注釋、篩選與推理、語義索引、語義檢索等對搜索引擎的功能進行分析。語義Web環(huán)境下的搜索引擎將促進信息、知識需求得到更好、更精確的語義表述和滿足,推動高效的信息和知識管理。
[關鍵詞]語義Web 搜索引擎 功能 語義檢索
[分類號]G203
1 引言
搜索引擎如Google和百度極大地改變了人們存取信息的方式。在用戶眼里,搜索引擎為他們提供了一個友好的檢索入口,用戶只需提供檢索式(關鍵詞列表)便能搜尋到包含或者不包含這些關鍵詞的相關網頁。但是,當前Web內容的含義不是機器可處理的,雖然一些工具可以檢索文本、分割文本、檢查拼寫、計算詞頻,但在解釋句子和抽取有用的信息方面,當前的軟件能力還是非常有限的,如搜索引擎只返回排序的檢索結果列表,提供極少甚至不提供文檔間的語義關系,檢索結果在語義上難以滿足用戶的需求。
Web上分布著大量重要而有價值的信息和知識。但是,Web內容是按照供人類理解的形式設計的。面對Web上的信息,知識工作者不得不花費大量的時間進行瀏覽、檢索、比較和分析,以便找出文檔間是如何相互關聯(lián)。只有當知識工作者開始在不同的信息間找出相似與不同時,他們才有可能構建關系以創(chuàng)造新的知識。隨著Web上信息內容的劇增,這種基于人力理解的Web信息處理和開發(fā)利用已難以適應高效率的網絡信息和知識管理的需要,人們對Web信息索引、檢索、知識共享和處理等提出了更多更高的功能需求。
在技術上如何提高Web信息和知識管理效率方面,目前存在兩種方案:一種方案是繼續(xù)基于目前Web內容的表示形式,不斷地開發(fā)出基于人工智能和計算語言的處理這種表示形式的更加復雜的技術;另一種方案是增加一種更容易讓機器處理的Web內容的形式化表示,并讓智能技術充分利用這種形式化表示。后一種方案已具體體現在語義Web的產生和發(fā)展之中。語義Web是當前Web的擴展,它按照某種語義方式進行結構化設計,以便Web內容不僅被人類所理解,同時也為計算機所理解。語義Web將促使機器能夠像人一樣具有智能,能夠從信息間找出相似與不同,并且構建關系以創(chuàng)造新的知識。語義Web為搜索引擎的語義功能實現提供了一個全新的渠道和嶄新的平臺。
2 語義Web及相關標準
語義Web的內容是按照某種語義方式進行結構化設計,以便該內容不僅被人類所理解,同時也為計算機所理解。語義Web不是一個獨立的Web,而是當前Web的擴展。在當前Web基礎上增加一個語義(知識)層,便形成語義Web。語義Web方法應當開發(fā)出以機器可處理(machine processable)的形式表示信息的語言。在語義Web中,信息被賦予描述良好的含義,這有利于促進計算機和人類的相互合作。
從某種意義上說,將本體(Ontology)應用到Web促進了語義Web的發(fā)展。領域本體對本領域描述和表達的對象、對象間關系及對象屬性進行了規(guī)定,具體的描述和表達構成了知識庫。本體和知識庫能夠促進信息間相互關系的更有效發(fā)現。所選信息間相互關系的發(fā)現能夠將分隔而孤立的信息變成有意義的上下文,所揭示出的隱含結構將幫助用戶更有效地利用和管理信息。這種從語義上鏈接不同數據源(文本、圖像、人、概念等)的思想非常重要。有了這個,人們能夠從當前具有簡單鏈接的Web轉向更具語義表示的豐富的Web,在這個Web中,人們能夠逐漸增加含義,并在資源間表達一個全新的關系集,使得當前Web中隱含的特殊上下文關系變得更加清晰。
將語義Web融入當前Web結構之中的步伐已經邁出,語義Web構件的相應標準在W3C(World WideWeb)、學術界和產業(yè)界的共同努力下已在全世界范圍內得到認可和一定范圍的應用。XML為語義Web的發(fā)展帶來了希望。在語義Web中,XML Schema作為基礎構件,與XML一起,盡管缺少語義約束,但對具有語義約束力的RDF(Resouree Description Framework)、RDF Schema和OWL(Ontology Web Language)起到很好的語法、結構與數據類型上的支撐作用。RDF是一種對Web資源進行信息表達的語言,其目的在于表達Web資源的元數據,如標題、作者、Web頁面更改日期、Web文檔的版權和注冊信息、語言、格式、內容條目等。RDF Schema并不直接提供特定應用類以及屬性的詞匯,而是提供描述這些類和屬性的工具,并顯示哪些類和屬性在一起使用。OWL被設計成用于那些處理信息的內容而不是僅向人類呈現信息的應用,OWL通過提供更多具有形式化語義的詞匯,以便在Web內容的機器可理解性方面強于XML Schema、RDF Schema等所能達到的程度。XML Schema、RDF Schema和OWL可看成是表示功能遞增的本體語言,它們逐漸具有更多的語義表示能力,并分別和不斷滿足了不同層次和不同時期信息和知識處理的需求。
3 搜索引擎的語義功能需求
3.1 當前搜索引擎存在的問題
Web上當前的信息檢索關注的是用戶需求和信息庫,而極少關注信息間的語義關系。Web上的信息不是機器可利用的形式,仍然需要人來區(qū)分信息的含義及其與需求間的關系。下面對當前Web環(huán)境下的推理和檢索中存在的問題進行分析:①當前的Web搜索引擎不直接適合于語義標記的索引和檢索。大多數的搜索引擎利用關鍵詞作為索引詞語。當一個利用RDF書寫的文檔被索引時,標記會被許多搜索引擎簡單地忽略;而語義Web的基礎是標記語言且完全表達成標記,因而對搜索引擎來說是不可見的,即使搜索引擎能夠探測和索引文檔內含的標記,但也并不以某種方式來處理這些標記,而只是或者允許在檢索中使用標記,或者能夠區(qū)分標記和其他文本。②當前的Web搜索技術不能利用語義標記來改善文本檢索。Web搜索引擎基本依賴于簡單的詞語統(tǒng)計來識別與檢索最相關的文檔。利用相關技術如辭典擴展可以在檢索中集成一定的推理,但與利用語義標記的情形相比,這樣的推理是簡單的。在語義環(huán)境下,語義標記可能出現在檢索式或索引文檔中。③文本在推理中沒有得到利用。如果有可能自動地將文本轉換為語義表示,則所形成的語義表示可在推理中加以利用。
3.2語義功能需求
語義Web的目標之一是提升人和軟件代理在Web上發(fā)現和處理文檔、信息和知識的能力。語義Web環(huán)境下的搜索引擎建立在Web搜索引擎、信息檢索技術和語義Web基礎之上。在本體和知識庫的基礎上,應當研究語義標記的產生與處理問題。語義Web環(huán)境下的搜索引擎應當將標記看成是結構化信 息,并能在RDF和OWL語義之后執(zhí)行推理。搜索引擎的語義功能需求具體表現如下:①本體與知識庫的支持。通過本體和知識庫,改善Web搜索的精確度,對網頁上的信息與相關知識結構和推理規(guī)則進行關聯(lián);②同時支持檢索驅動和推理驅動過程;③能夠利用單詞或語義標記或同時利用單詞和語義標記作為索引詞語;④索引和檢索應當與推理緊密關聯(lián),推理的改善應當導致索引和檢索的改善。
4 語義Web環(huán)境下搜索引擎的功能
基于當前的Web搜索引擎和語義Web,本文提出語義Web環(huán)境下的搜索引擎功能流圖,如圖1所示:
語義Web包含兩種類型文檔,一類是通常的Web文本文檔(text documents)(暫不考慮多媒體資源和Web服務資源);另一類是與這些Web文本文檔平行的語義Web文檔。一方面,Web文本文檔通過語義Web文檔的注釋得到豐富,這些注釋提供元數據和機器解釋的捕獲Web文本文檔內容含義的陳述;另一方面,語義Web文檔用來對Web文本文檔進行語義描述,以便機器能夠理解與處理Web文本文檔中的知識。
語義Web環(huán)境下的搜索引擎應當能夠運行一些推理引擎以識別所需要的事實和規(guī)則,從而達到所期望的結論,如能夠在語義Web上篩選所需的事實和規(guī)則,并將篩選結果合并到推理過程之中。圖1中的功能針對語義Web環(huán)境,顯示了搜索引擎的語義推理、語義索引和語義檢索等功能。另外,語義Web環(huán)境下的搜索引擎還具有傳統(tǒng)搜索引擎功能,即基于關鍵詞的索引與檢索,這已具備了成熟的理論與實踐。下面結合圖1,對語義Web環(huán)境下的搜索引擎功能展開分析。
4.1 Crawler
URLs集和crawl模塊一起組成為基本crawler,控制并執(zhí)行所有的爬行過程。crawl模塊先從一個種子URLs集出發(fā)開始爬行,對爬回的靜態(tài)網頁,crawl模塊進行以下兩個方面的處理:從網頁中抽取所有的由鏈接指向的URLs,并將這些URLs存入到URLs集中;將爬回的網頁保存在文本文檔數據集中(如果存在),或者保存在緩存中足夠長的時間,旨在完成索引。URLs集為crawl提供將要爬行的靜態(tài)網頁地址,crawl從URLs集中選擇下一個將要爬行的URL地址重復前面的過程。crawl模塊爬行的網頁總數由存儲資源決定或事先由人為決定。
語義Web環(huán)境下的搜索引擎與傳統(tǒng)搜索引擎一樣,也是基于crawler。因此,當前搜索引擎所面臨的爬行問題也同樣是語義Web環(huán)境下的搜索引擎必須面對與研究的,如動態(tài)網頁爬行與并行爬行。
4.2本體與知識庫
語義Web包含Web文檔和與這些Web文檔平行并對它們進行描述的語義Web文檔(Semantic Web Documents,SWDs)。語義Web文檔中擁有大量的本體與知識庫。本體與知識庫以及下面的語義注釋,構成了語義Web的核心,為搜索引擎的語義功能實現提供了基礎。
本體構建語言在W3C的努力下已得到標準化,相應的工具也得到很好的開發(fā)和應用,如Prot6g6平臺是一個集成的軟件工具,其最新版本是2010年3月8日發(fā)布的Prot6ge 3.4.4。Prot6g6平臺為越來越多的用戶提供一套利用本體構建領域模型和基于知識庫應用的工具,可供系統(tǒng)開發(fā)者和領域專家開發(fā)基于知識的系統(tǒng),以便構建基于知識的工具和應用,從而解決特定領域中的問題。但是,本體的構建和標準化以及知識庫的構建還有一個漫長的路要走,它依賴于許多組織的關注和努力。與多媒體資源和Web服務資源相比,文本資源本體涉及人類知識體系的各個學科和領域。在語義Web文本本體構建中,一方面,不論在哪個領域,本體構建都需要可以使用的概念以及概念之間的關系表達,強烈地依賴于特定領域的知識體系結構,因此,需要領域專家的參加和介入;另一方面,本體構建需要充分考慮標準本體語言如OWL的知識表示能力,以便利用標準本體語言來恰當而合理地表示特定領域的知識體系。本體的構建是其標準化的前提,圍繞特定領域本體的構建已有一些研究,如客戶抱怨本體的構建,合同本體的構建,等等。
4.3語義注釋
語義注釋能夠在文本文檔中注釋和鏈接命名實體,將到語義描述的鏈接分配給文本中的實體,產生有關文本中實體、實體屬性和實體間關系的語義元數據標記。應當說,手工獲得清晰的語義并不是一個可行的方法,從手工到自動的轉變應當首先研究和開發(fā)完全自動的語義注釋方法。因此,應當面對和解決必要的設計和建模問題,提供必需的資源和基礎設施。
語義元數據必須以一種允許進行有效管理的格式加以存儲,相關研究認為,最有效的方法是對文本文檔、元數據(注釋)和形式化知識(本體和知識庫)進行分開的表示和管理。
4.4篩選與推理
并非所有的語義標記都是有價值的,因為一些標記可能來自于不適當的或不可信的機構,一些標記是多余的,一些標記是不相關的。因此,抽取的語義標記必須按照一定的規(guī)則進行篩選和推理,所得的結果將是可信任的事實和規(guī)則集,新增加的事實和規(guī)則集添加到本體與知識庫中。不斷擴展的本體與知識庫將進一步促進推理運行。推理引擎利用在文本抽取中獲得的元數據信息可推理更多的語義關系,為搜索引擎系統(tǒng)的索引做好準備,這些語義關系將直接決定檢索的范圍并提供更相關的響應。
對于何時對語義Web標記進行推理可以進行選擇,如在對文檔即將索引之前對標記進行推理,這將導致產生更多的三元組語義標記,擴大該文檔的語義檢索點;對包含RDF三元組的檢索在處理和提交到檢索系統(tǒng)之前進行推理,以提高檢索效率;為了完成檢驗任務進行推理。另外,在語義Web上發(fā)現的知識在信任度上將存在很大變化,正如當前Web上發(fā)現的信息一樣。為了產生一致的知識庫,需要對語義Web上的信任模型環(huán)境進行研究。在對語義Web上發(fā)現的事實和知識進行抽取和推理時,應當能夠從語義模型中去掉重復的事實,能夠掌握信任模型并對每個事實的信任度做出更好的決策。
4.5語義索引
索引文檔包含RDF三元組和RDF三元組通配符,這為用戶提供了表達具有RDF三元組通配符檢索式的靈活性。語義標記能夠捕獲詞語之間的語義關系,因而提供檢索式與相關詞語間更好的匹配。在一個索引文檔的表示中包含語義標記能夠提高信息檢索效率,如果在索引前對文檔語義標記運行推理,將會獲得更好的效果。
4.6語義檢索
當前的檢索技術是基于關鍵詞的,而許多用戶可能傾向于根據高層語義概念構建檢索,這些概念是更標準的術語和隱含知識。開發(fā)在詞語之間抽出語義關系的檢索技術將促進智能信息服務、個性化Web站點和語義強大的搜索引擎。
圖1中,語義Web環(huán)境下的搜索引擎應當能夠通過定制的檢索界面進行檢索,并接受自由文本以及結構化的檢索。假設系統(tǒng)的輸入是某些類型的語義Web檢索式,如果用戶的目標是檢索,則該檢索式可能是對正在檢索的概念進行編碼的語義標記;如果用戶的目標是推理,則該檢索式可能是一個系統(tǒng)將要證實的陳述。在任何一種情況下,檢索式被提交給推理引擎。對于檢索,推理引擎可以利用用戶模塊、本體與知識庫產生新的語義標記;對于檢驗,推理引擎將盡可能地利用本體與知識庫,產生部分檢驗樹。
基于圖1功能流圖的語義Web環(huán)境下的搜索引擎應具有更好的檢索效果:首先,Web搜索引擎應很好地處理同義詞問題,如可以將“HK”和“H.K.”索引為特定的實體“Hong Kong”,就好像存在一個惟一的ID標識符一樣,體現了對命名實體引用的清晰處理。相反,當前的索引系統(tǒng)因為不包含實體識別,所以只能對“HK”、“H”和“K”分別進行索引,這正是基于關鍵詞的搜索引擎存在的問題。其次,在對搜索引擎進行檢索時,可通過指定實體類型限制、名稱和其他屬性限制以及實體之間的關系限制檢索實體。例如,通過語義索引,能夠更有效地檢索到某個人,即使只知道該人在某機構中擔任某職位、具有某些屬性如性別等。最后,搜索引擎能提供強大的推理功能。例如,“檢索包含在中國從事信息服務行業(yè)的企業(yè)的文檔”,則返回的文檔可能包含“清華同方股份有限公司”、“萬方數據股份有限公司”,或“維普資訊公司”,而不是簡單地包含“中國”、“信息服務”或“企業(yè)”等文字。
5 結語
語義Web是一個全球分布的知識庫,這一點由Tim Bemers-Lee在Web開發(fā)中提出。Tim Bemers-Lee試圖最終創(chuàng)建出網絡化的知識庫,他將語義Web描述成:能夠從經驗中學習,創(chuàng)建不同應用環(huán)境下知識獲取、表示和利用的基礎設施;谡Z義Web的搜索引擎能夠為每個文本中的實體引用同時提供到本體中特定類的鏈接和到知識庫中特定實例的鏈接;能夠基于實體對文本文檔進行索引和檢索;允許用戶指定感興趣的命名實體,并通過命名實體的屬性和關系進行限制。語義Web環(huán)境下的搜索引擎將促進信息、知識需求得到更好、更精確的語義表述和滿足,推動高效的信息資源開發(fā)利用以及高效的信息和知識管理。
相關熱詞搜索:語義 搜索引擎 功能 語義Web環(huán)境下的搜索引擎功能分析 語義分析的基本功能 簡要說明語義分析的基本功能
熱點文章閱讀