本體知識庫 [基于本體的專題知識庫智能檢索系統(tǒng)研究]
發(fā)布時間:2020-03-07 來源: 日記大全 點擊:
[摘要]以基于本體的張謇研究知識庫智能檢索系統(tǒng)開發(fā)為例,探討基于本體的專題領(lǐng)域知識庫智能檢索系統(tǒng)的框架結(jié)構(gòu)、工作流程以及功能實現(xiàn)。系統(tǒng)采用語義Web技術(shù)和智能Agent技術(shù),使用RDF模型對知識庫的Web頁面元數(shù)據(jù)進行描述,然后利用本體建模語言對張謇研究領(lǐng)域知識進行建模,根據(jù)所得到的本體對元數(shù)據(jù)進行基于語義的查詢,為用戶提供智能檢索服務(wù)。
[關(guān)鍵詞]本體知識檢索智能檢索知識庫
[分類號]G250.6
1 引 言
從本體論的基本概念出發(fā),哲學上把本體論定義為“對世界上客觀事物所進行的系統(tǒng)描述”。將本體論引入信息科學,本體論是對概念化對象的一種表示和描述,在計算機領(lǐng)域是指定義元數(shù)據(jù)及其相關(guān)關(guān)系的“規(guī)范”。由于本體具有良好的概念層次結(jié)構(gòu)和邏輯推理的支持,因而在信息檢索,特別是在基于知識的檢索中得到了廣泛的應用。知識檢索也稱語義檢索,是把信息檢索與人工智能技術(shù)、自然語言技術(shù)相結(jié)合的檢索,它從語義理解的角度分析信息對象與檢索者的檢索請求,是一種基于概念及其相關(guān)關(guān)系的檢索匹配機制。知識庫是事實、規(guī)則和概念的集合,從存儲知識的角度來看,以描述型方法來存儲和管理知識的機構(gòu)叫做知識庫。張謇是中國近代著名實業(yè)家、教育家,他是清末最后一位狀元,曾任民國政府實業(yè)總長,是一位探索強國之路的開路先鋒。他倡導實業(yè)救國的思想,在經(jīng)濟、教育、文化、城市建設(shè)、社會保障、地方自治等諸多領(lǐng)域創(chuàng)造了十多項全國第一,他創(chuàng)建了中國近代第一城――南通(中國人自主規(guī)劃建設(shè)的第一座近代城市),研究張謇對于今天的城市經(jīng)濟、教育、文化協(xié)調(diào)發(fā)展,實現(xiàn)科學可持續(xù)發(fā)展具有重要意義。張謇研究知識庫對張謇研究知識沉淀(包括南通大學檔案館、圖書館和博物館的張謇研究原始資料)進行數(shù)字化語義處理并在張謇研究領(lǐng)域?qū)<业闹笇逻M行概念分類標注,組織到知識庫中,形成張謇研究領(lǐng)域概念集,組織存儲并實現(xiàn)Web服務(wù)功能。
2 基于本體論的張謇研究領(lǐng)域知識庫智能檢索系統(tǒng)功能需求
?實現(xiàn)對世界各地張謇研究領(lǐng)域用戶的查詢請求分析本地表達化,使得要查詢的概念不存在模糊不清的地方,具體表現(xiàn)在用戶向系統(tǒng)提出查詢請求后,系統(tǒng)能將查詢請求中的本體取出來,然后進行基于本體的語義搜索。
?系統(tǒng)應能對用戶如何更好地利用已建成的張謇研究本體知識庫中的知識給予搜索提示,幫助用戶更好地使用本體進行查詢。
?系統(tǒng)應能找出查詢本體中隱含的語義,實現(xiàn)智能檢索,即系統(tǒng)能根據(jù)用戶的檢索條件,進行智能語義推理,可檢索出與檢索條件具有相同語義信息的知識。
3 基于本體論的領(lǐng)域知識庫智能檢索系統(tǒng)結(jié)構(gòu)和工作流程
3.1 基于本體論的領(lǐng)域知識庫智能檢索系統(tǒng)結(jié)構(gòu)
基于知識庫的語義Web環(huán)境下,知識庫的信息資源已進行了語義標注。在此環(huán)境下,本系統(tǒng)應完成的任務(wù)是:自動抽取關(guān)于領(lǐng)域知識內(nèi)容描述的元數(shù)據(jù),并將這些元數(shù)據(jù)進行存儲;對用戶提交的關(guān)鍵詞進行語義匹配和語義相關(guān)性擴展,形成符合特定Ontology語言的查詢語句,通過對數(shù)據(jù)庫中存儲的領(lǐng)域知識庫元數(shù)據(jù)信息的查詢,得到高效的基于語義的領(lǐng)域知識檢索結(jié)果。上述任務(wù)可劃分為元數(shù)據(jù)收集、數(shù)據(jù)預處理、元數(shù)據(jù)存儲、基于Ontology的知識推理和用戶查詢、控制調(diào)度等6個主要功能。本文將整個系統(tǒng)框架劃分為6個部分,每個部分的功能由一類Agent實現(xiàn),這6類Agent通過協(xié)同工作,共同完成整個檢索任務(wù)。本系統(tǒng)的總體結(jié)構(gòu)如圖l所示:
系統(tǒng)中除了多個Agent以外,還設(shè)置了領(lǐng)域知識庫、領(lǐng)域本體庫、本地信息庫、遠端信息在本地索引庫以及臨時文檔庫來存儲相關(guān)信息。領(lǐng)域知識庫除了存儲張謇研究數(shù)字化語義Web資源還存儲張謇研究領(lǐng)域用戶ID、mail等個人信息、搜索案例(用戶ID)、搜索ID、屬于的領(lǐng)域、關(guān)鍵字、返回的數(shù)據(jù)等、用戶偏好等;領(lǐng)域本體庫存儲張謇研究領(lǐng)域集、張謇研究關(guān)鍵字集以及張謇研究本體的相關(guān)知識等;本地信息庫和遠端信息在本地的索引庫主要存儲遠端搜索Agent帶回的,并經(jīng)過信息處理Agent處理過的搜索信息,臨時文檔庫存儲遠端搜索Agent從遠端數(shù)據(jù)源搜索到的相關(guān)信息。
3.2 基于本體論的領(lǐng)域知識庫智能檢索系統(tǒng)工作流程
通過信息搜索Agent,對張謇研究知識庫中描述張謇研究領(lǐng)域知識內(nèi)容的元數(shù)據(jù)(包括知識庫存儲的描述內(nèi)容信息和帶描述信息的頁面WEB信息)進行信息提取和過濾,把收集到的元數(shù)據(jù)經(jīng)過預處理Agent進行處理后交由存儲Agenh存儲Agent接收語義元數(shù)據(jù),將這些元數(shù)據(jù)以合適的方式存儲到數(shù)據(jù)庫中,數(shù)據(jù)庫既可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫,也可以是專用的XML/RDF數(shù)據(jù)庫,利用描述領(lǐng)域知識的領(lǐng)域本體,由推理Agent對張謇研究用戶提交的查詢關(guān)鍵詞進行語義匹配和語義相關(guān)性擴展,將得到的基于張謇研究領(lǐng)域本體的查詢要求交由查詢Agent執(zhí)行,由查詢Agent接受推理Agent產(chǎn)生的針對Ontology的查詢要求,對存儲元數(shù)據(jù)的數(shù)據(jù)庫采用基于知識的方式進行查詢,并將滿足用戶條件的結(jié)果返回給用戶。領(lǐng)域用戶的查詢過程如下:①提交檢索請求。界面Agent接收用戶提交的檢索請求,主動細化檢索請求,并把細化后的結(jié)果交給預處理Agent。②規(guī)范化檢索信息。預處理Agent接收到檢索請求任務(wù)后,首先利用任務(wù)中關(guān)注領(lǐng)域、關(guān)鍵詞、摘要等信息,到所有用戶共有的知識庫中查找利用相同領(lǐng)域,類似關(guān)鍵詞作為搜索條件的搜索案例。若在知識庫中沒有檢索到所需案例,預處理交本體庫,借助于本體知識,從中找出出現(xiàn)該關(guān)鍵字的各個領(lǐng)域以及在該領(lǐng)域下的關(guān)鍵字的含義。③預處理Agent搜索到的或者是經(jīng)過本體規(guī)范的信息提交給查詢界面,界面與用戶交互,把用戶根據(jù)自己意圖選擇的信息再次反饋給預處理Agent,預處理Agent再把信息提交給查詢Agent。④為了保持系統(tǒng)的一致性與協(xié)調(diào)性,實現(xiàn)對知識庫的智能管理、控制和調(diào)度,控制調(diào)度Agent作為智能檢索系統(tǒng)的“司令部”,將在系統(tǒng)中起核心作用?刂普{(diào)度Agent的工作過程是:保存各Agent的名稱、通信地址、能力等狀態(tài)信息;接受檢索任務(wù),在多Agent之間進行任務(wù)分配;協(xié)調(diào)整個系統(tǒng)的通信;接收檢索結(jié)果,將其反饋給預處理Agent;定期派遣信息收集Agent到遠端信息源上收集信息,更新本地信息庫和遠端信息在本地的索引庫。
3.3 基于本體論的領(lǐng)域知識庫智能檢索系統(tǒng)功能實現(xiàn)
系統(tǒng)采用了語義Web技術(shù)和智能Agent技術(shù),使用RDF模型對知識庫的Web頁面元數(shù)據(jù)進行描述,然后利用Ontol-ogy建模語言對領(lǐng)域知識進行建模,根據(jù)所得到的Ontology對元數(shù)據(jù)進行基于語義的查詢,為用戶提供智能化的檢索服務(wù)。
3.3.1 張謇研究領(lǐng)域知識收集系統(tǒng)中的信息收集Agent的作用是從知識庫中收集與Web頁面內(nèi)容相關(guān)的元數(shù)據(jù)描述信息, 并把收集到的元數(shù)據(jù)交由存儲Agent。在目前的語義Web技術(shù)中,頁面內(nèi)容的元數(shù)據(jù)描述信息通?梢圆捎肦DF的形式進行描述。使用RDF來描述頁面內(nèi)容,最直接的方法就是把描述本W(wǎng)eb頁內(nèi)容的RDF數(shù)據(jù)段插入到頁面之中,一般是把以XML語法形式書寫的RDF數(shù)據(jù)嵌入到HTML的頭部信息中,其實現(xiàn)形式類似于Microsoft在Ⅲ中所用到的“數(shù)據(jù)島”。除此之外,對于知識庫和Web頁元數(shù)據(jù)的數(shù)據(jù)量較大的情況,RDF數(shù)據(jù)還可以用文件的形式保存,并在頁面中給出存放此文件的鏈接,以供軟件Agent或應用程序讀取。信息收集Agent按照設(shè)定的搜索策略訪問知識庫以及語義萬維網(wǎng)環(huán)境下的網(wǎng)頁,它不僅可以自動過濾知識庫網(wǎng)頁內(nèi)容,采取某種策略來提取其中的元數(shù)據(jù)描述信息,還可以從一個知識庫頁面跨越到另一個頁面,自動沿著超文本的鏈接,遵循超文本傳輸協(xié)議在知識庫頁面上進行“爬行”,確認知識庫頁面之間的鏈接是否有效,刪除已經(jīng)名存實亡的鏈接。
3.3.2 張謇研究領(lǐng)域知識存儲通過Agent之間的通信,信息收集Agent會將所得到的知識庫Web元數(shù)據(jù)傳遞給存儲Agent,而存儲Agent的任務(wù)就是對所接收的以RDF形式表示的元數(shù)據(jù)還原,然后把元數(shù)據(jù)以合適的方式進行存儲。目前,RDF數(shù)據(jù)的存儲基本上有3種方案:①XML/RDF文件形式,②RDF數(shù)據(jù)庫,③關(guān)系數(shù)據(jù)庫。對于少量的數(shù)據(jù),XML/RDF文件形式的存儲是可行的,但是對于大量的事實數(shù)據(jù),考慮到可擴展性、查詢方式、效率等諸多因素,以RDF數(shù)據(jù)庫或者關(guān)系數(shù)據(jù)庫來存儲RDF事實數(shù)據(jù)是一種比較好的選擇。關(guān)系數(shù)據(jù)庫是目前數(shù)據(jù)庫應用的主流,用關(guān)系數(shù)據(jù)庫存儲RDF數(shù)據(jù),可以有效地利用現(xiàn)有的數(shù)據(jù)庫資源。但是由于關(guān)系數(shù)據(jù)庫缺乏所必須的語義要求,所以必須首先把RDF的數(shù)據(jù)模型轉(zhuǎn)化為關(guān)系模型,這就要求能夠?qū)DF數(shù)據(jù)進行解析,根據(jù)RDF模型的特點設(shè)計專門的數(shù)據(jù)庫模式,實現(xiàn)從RDF模型到數(shù)據(jù)庫模式的映射。在RDF模型中,聲明是對一個事實的基本描述,也是RDF模型中的最小有效數(shù)據(jù)單元,所以存儲聲明的表是數(shù)據(jù)庫模式中最重要的部分,其結(jié)構(gòu)如表1所示:
由于RDF是一種以XML語法為基礎(chǔ)的建模語言,所以從某種意義上可以說RDF數(shù)據(jù)是一種特殊的XML數(shù)據(jù)。實際上,XML文檔可以分成兩大類:以數(shù)據(jù)為中心或者以文檔為中心。以數(shù)據(jù)為中心的文檔有非常規(guī)則的結(jié)構(gòu),以文檔為中心的文檔具有不規(guī)則的結(jié)構(gòu),而且數(shù)據(jù)顆粒度也比較大。根據(jù)RDF數(shù)據(jù)模型的特點,RDF數(shù)據(jù)可以看作以數(shù)據(jù)為中心的XML文檔;赗DF數(shù)據(jù)模型的特點,對于RDF數(shù)據(jù)的存儲最好由中間件(middleware)來實現(xiàn)。中間件所需完成的XML文檔與數(shù)據(jù)庫之間的轉(zhuǎn)換功能是通過文檔與數(shù)據(jù)庫之間的映射來實現(xiàn)的,實現(xiàn)過程共分為3步:編寫一個映射文件、編寫過濾器和動作文件、編寫Java代碼。
3.3.3 張謇研究領(lǐng)域知識推理 實現(xiàn)基于語義的檢索,不僅要有被檢索信息的元數(shù)據(jù)信息,也要具有對被檢索內(nèi)容的智能推理能力。系統(tǒng)中推理Agent的核心是智能推理引擎,它能夠根據(jù)已有的特定領(lǐng)域的本體對用戶所輸入的關(guān)鍵詞進行基于語義的智能推理。推理包括語義匹配和語義相關(guān)性擴展,推理引擎應能夠根據(jù)領(lǐng)域本體中對各個概念的定義而推理出這個關(guān)鍵詞在查詢中的精確語義,并推理出與此詞語義相關(guān)的詞語和概念。推理Agent通過調(diào)用Jena中的OntologyAPI,根據(jù)Ontology對用戶輸入的關(guān)鍵詞進行基于語義的推理。推理分為兩種:關(guān)鍵詞的語義匹配和相關(guān)性擴展。語義匹配的作用是對用戶所輸入的關(guān)鍵詞進行語義的分析,推理Agem根據(jù)Ontology可以判斷此關(guān)鍵詞的精確語義,從多個可能的語義選項中選擇出最符合用戶要求的那一種。針對具有一詞多義的詞條,語義匹配提高了檢索結(jié)果的精確性。傳統(tǒng)的收集引擎只是根據(jù)單純的關(guān)鍵詞匹配來檢索結(jié)果,并不能區(qū)分同一詞條的不同含義,而在本文所提出的檢索框架中,Ontology對同一個詞的幾個不同語義都進行了精確的定義,每一個語義都對應于一個獨一無二的URI,因此如果推理Agent參考了Ontology,就可以根據(jù)上下文來選擇出符合用戶要求的語義。相關(guān)性擴展的作用在于獲得與該詞相關(guān)的其他詞,因為在Ontology中定義了眾多的與此詞條相關(guān)的其它概念,所以根據(jù)Ontology中所定義的知識,還可以獲取更多的與此關(guān)鍵詞語義關(guān)聯(lián)的詞,例如,通過subclass關(guān)系,推理Agent就能夠找到該概念的一個子概念,盡管該子概念不在關(guān)鍵詞列表中,推理Agent根據(jù)Ontology也會把它找到并返回給用戶。推理Agentl后會將語義匹配和相關(guān)性擴展所得到的結(jié)果封裝起來ACLMessage對象的形式交給查詢Agent,由查詢Agent根據(jù)這些推理結(jié)果對存儲有描述知識庫Web數(shù)據(jù)內(nèi)容的RDF數(shù)據(jù)庫進行查詢。
3.3.4 張謇研究領(lǐng)域知識查詢查詢Agent的任務(wù)是通過與推理Agent的通信,接受推理Agent針對用戶的檢索要求進行語義推理的結(jié)果,然后通過對存儲網(wǎng)頁元數(shù)據(jù)的RDF數(shù)據(jù)庫的查詢,檢索出符合用戶語義要求的查詢結(jié)果,并將這些結(jié)果返回給用戶。由于RDF數(shù)據(jù)模型的特點,對數(shù)據(jù)庫中的RDF數(shù)據(jù)進行查詢,最好使用一種專門的RDF查詢語言。RDQL是Jena中的一種RDF查詢語言,此類查詢語言的特點是忽略Schema或Ontology信息(除非在RDF數(shù)據(jù)源中明確說明),把RDF數(shù)據(jù)當作三元組數(shù)據(jù)進行處理。RDF數(shù)據(jù)模型是一個節(jié)點為資源或字符串的有向圖,RDQL提供了一種通過圖模式來匹配數(shù)據(jù)的方法,查詢結(jié)果以一系列的bindings來表示,每一個bindings是一個包含變量值的“名稱-值”對。RDQL查詢表達式類似于SQL中的select子句,其視圖模式就是一個RDF Statement,通過對Statement的某些部分的限定,就可以查詢出Statement中未知的部分。RDQL查詢語句與SQL語句類似,既可以單獨使用,也可以鑲嵌于Java代碼中混合使用,本文中所設(shè)計的查詢Agent的查詢動作中使用了RDQL語言,其查詢語句被封裝為Query對象,通過對Query對象的方法調(diào)用,可以查詢出以ResultBinding變量的形式返回的結(jié)果,這些變量可以通過名字(在查詢語句中定義)很方便地存取。在存儲網(wǎng)頁元數(shù)據(jù)的RDF數(shù)據(jù)庫中,每一個模型就是一個Web單元,查詢出此模型之后,可以很容易地得到它的URL和Title,查詢Agent把這些信息返回給用戶,完成整個查詢過程。
4 結(jié)語
基于本體的智能檢索信息系統(tǒng)由于能提供查詢和資源描述所必需的元語,并通過領(lǐng)域語義模型為信息源提供語義標注信息,從而使系統(tǒng)內(nèi)的所有Agent對領(lǐng)域內(nèi)的概念、概念之間的聯(lián)系及領(lǐng)域內(nèi)的基本公理知識有一個統(tǒng)一的認識,進一步提高了系統(tǒng)的聯(lián)想能力和精確性,可以為用戶提供有價值的信息和全面的共同視圖。極的要努力弘揚,對消極影響也可以采用一些相應措施來進行克服、消除或淡化。總的來說,我國內(nèi)地圖書館學個人博客已經(jīng)成為圖書館學進行學術(shù)交流、促進學科發(fā)展的一個有利平臺,如果我們發(fā)揮好它的作用,將為圖書館學發(fā)展帶來新的生機與活力,成為我國圖書館學發(fā)展的又一次良機。
相關(guān)熱詞搜索:本體 知識庫 檢索系統(tǒng) 基于本體的專題知識庫智能檢索系統(tǒng)研究 基于內(nèi)容的圖像檢索 簡述信息檢索策略
熱點文章閱讀