【2009年以來(lái)本體映射系統(tǒng)模型研究綜述】本體映射

發(fā)布時(shí)間:2020-03-10 來(lái)源: 短文摘抄點(diǎn)擊：

　　[摘要]本體映射系統(tǒng)分為通用映射系統(tǒng)和領(lǐng)域映射系統(tǒng)兩大類(lèi)型，從模型和流程視角綜述2009年RiMOM、As―MOV、DSSim、OntoMap、OntSE五種本體映射系統(tǒng)模型，認(rèn)為本體映射研究在關(guān)聯(lián)數(shù)據(jù)等新興前沿領(lǐng)域的應(yīng)用有待進(jìn)一步深化。
　　[關(guān)鍵詞]本體映射系統(tǒng)　映射模型　OAEI關(guān)聯(lián)數(shù)據(jù)
　　[分類(lèi)號(hào)]G350
　　
　　1　引言
　　
　　本體映射是實(shí)現(xiàn)本體互操作的關(guān)鍵。本體映射系統(tǒng)是建立在本體映射方法基礎(chǔ)上的，發(fā)現(xiàn)本體映射的方法一般分為四種：①術(shù)語(yǔ)方法：借助自然語(yǔ)言處理技術(shù)，比較映射對(duì)象之間的相似度，以發(fā)現(xiàn)異構(gòu)本體間的聯(lián)系；②結(jié)構(gòu)方法：分析異構(gòu)本體之間結(jié)構(gòu)上的相似，尋找可能的映射規(guī)則；③實(shí)例方法：借助本體中的實(shí)例，利用機(jī)器學(xué)習(xí)等技術(shù)來(lái)尋找本體間的映射；④綜合方法：在一個(gè)映射系統(tǒng)中同時(shí)采用多種尋找本體映射的方法，彌補(bǔ)不同方法的不足。
　　現(xiàn)有的本體映射系統(tǒng)可分為兩種類(lèi)型：①通用系統(tǒng)(Generic Systems)。這類(lèi)系統(tǒng)一般采用通用方法，如不確定性推理、機(jī)器學(xué)習(xí)、相似度聚合等構(gòu)建系統(tǒng)平臺(tái)，一般可滿(mǎn)足多個(gè)不同領(lǐng)域的映射需求，在語(yǔ)義網(wǎng)環(huán)境下潛在支持各種應(yīng)用。②領(lǐng)域系統(tǒng)(Domain SpecificSystems)。這類(lèi)系統(tǒng)針對(duì)特定領(lǐng)域問(wèn)題(例如醫(yī)療、農(nóng)業(yè)等)的本體映射需求，使用具體的領(lǐng)域規(guī)則，啟發(fā)訓(xùn)練或背景知識(shí)，在映射方案中具有較強(qiáng)的針對(duì)性。本文主要綜述這兩類(lèi)系統(tǒng)模型近年來(lái)的代表成果。
　　
　　2　通用系統(tǒng)模型
　　
　　早期學(xué)者們開(kāi)發(fā)了多種本體映射系統(tǒng)，如GLUE，QOM，PROMPT等。近年來(lái)在國(guó)際語(yǔ)義網(wǎng)會(huì)議的推動(dòng)下，特別是舉辦OAEI(the Ontology"Alignment Evalua―tion Initiative)競(jìng)賽以來(lái)，多種通用本體映射系統(tǒng)亮相OAEI，有效促進(jìn)了本體映射的發(fā)展。例如，F(xiàn)alcon―AOt、PRIOR+、DSSim ESl等近20種本體映射系統(tǒng)先后參加比賽。本文選取全程參與最近三屆(2007―2009)OAEI競(jìng)賽的通用系統(tǒng)，這些系統(tǒng)由于連年參賽，在測(cè)試中不斷改進(jìn)與完善，基本代表了本體映射系統(tǒng)最新的發(fā)展水平。
　　
　　2.1　RiMOM
　　RiMOM是多策略動(dòng)態(tài)本體映射系統(tǒng)，其采用貝葉斯理論，結(jié)合自然語(yǔ)言處理技術(shù)整合多種本體映射策略。RiMOM框架見(jiàn)圖1。
　　
　　結(jié)合圖1，可將RiMOM匹配過(guò)程概括為以下5個(gè)步驟：
　　2.1.1　本體預(yù)處理與特征因素評(píng)估將待匹配本體裝入存儲(chǔ)器建立本體圖表，去除非相關(guān)信息，計(jì)算待匹配本體的標(biāo)簽相似因子、結(jié)構(gòu)相似因子和標(biāo)簽意義相似因子，以此評(píng)估策略選擇。
　　2.1.2策略選擇執(zhí)行策略選擇算法，即如果兩個(gè)本體具有某些相同的特征，那么基于這些特征信息的策略將被選擇并進(jìn)行加權(quán)；如果本體特征信息較低，那么將不采取基于上述特征信息的策略。
　　2.1.3單個(gè)策略執(zhí)行得到所選策略后，發(fā)現(xiàn)個(gè)體匹配，每一個(gè)策略輸出一個(gè)匹配結(jié)果。
　　2.1.4　策略結(jié)果整合通過(guò)線性插值方法合并匹配結(jié)果。
　　2.1.5相似度優(yōu)化與精煉如果兩個(gè)本體有較高的結(jié)構(gòu)相似因子，使用相似度優(yōu)化過(guò)程進(jìn)一步精煉發(fā)現(xiàn)的映射，依照結(jié)構(gòu)化信息發(fā)現(xiàn)新的匹配。RiMOM基于相似度傳播理論(similarity Propagation Theory)提供了3種相似度聚合策略，分別是概念一概念、概念一屬性、屬性一屬性聚合方法。在此基礎(chǔ)上，系統(tǒng)通過(guò)多個(gè)啟發(fā)式規(guī)則剔除不可靠的映射，精煉匹配結(jié)果。
　　RiMOM是以貝葉斯決策理論為基礎(chǔ)開(kāi)發(fā)的本體映射系統(tǒng)，它在OAEI 2009中參與了標(biāo)準(zhǔn)測(cè)試、解剖測(cè)試、目標(biāo)匹配和實(shí)例匹配4種類(lèi)型的競(jìng)賽。作為2009年新推出的實(shí)例匹配測(cè)試項(xiàng)目，其由于具有更多實(shí)例的語(yǔ)義信息及屬性，測(cè)試要求更高。為此，RiMOM在優(yōu)化OAEl2008版本中8種策略的同時(shí)，針對(duì)實(shí)例特征推出了若干新方法。與此同時(shí)，亦有若干問(wèn)題有待進(jìn)一步提升。例如，面對(duì)比原有模式文檔多得多的大規(guī)模實(shí)例文檔，RiMOM在測(cè)試的效率及穩(wěn)定性方面如何保證；此外，如何深層次挖掘?qū)嵗恼Z(yǔ)義信息等也是研究面臨的重要挑戰(zhàn)。
　　
　　2.2　ASMOV
　　ASMOV是由美國(guó)Jean-Mary等人開(kāi)發(fā)的自動(dòng)化本體映射工具，其目標(biāo)是促進(jìn)異構(gòu)本體的整合，ASMOV運(yùn)用迭代計(jì)算分析3種特征計(jì)算實(shí)體本體對(duì)的相似度，產(chǎn)生基于概念間的映射、屬性間的映射和個(gè)體間的
　　2.2.1　預(yù)處理ASMOV使用Jena的ARP解析器和建模組件加載解析本體，采用UMLS元詞表或Word，Net計(jì)算概念、屬性和個(gè)體間的詞表相似度，運(yùn)用文本匹配算法計(jì)算詞表距離。
　　2.2.2　相似度計(jì)算與預(yù)匹配　ASMOV通過(guò)外部匹配、內(nèi)部匹配和個(gè)體匹配算法計(jì)算實(shí)體對(duì)的關(guān)系結(jié)構(gòu)相似、內(nèi)部結(jié)構(gòu)相似和擴(kuò)展程度相似，得到基于相似策略的概念矩陣、屬性矩陣和個(gè)體矩陣等3個(gè)二維矩陣。隨后抽取具有最高相似計(jì)算的本體與其他本體形成聯(lián)系實(shí)體，完成預(yù)匹配。
　　2.2.3　語(yǔ)義確認(rèn)與匹配結(jié)果　查找并除去預(yù)匹配中語(yǔ)義不一致的映射，并將其保存在日志文檔中，避免后續(xù)迭代重復(fù)，直至找到可匹配的所有結(jié)果。
　　從整體上來(lái)看，ASMOV在召回率和F度量方面較2008年已取得不俗成績(jī)的基礎(chǔ)上再次有了提升。與此同時(shí)，在IIMB(ISLab Instance Matching Bench―mark)測(cè)試方面結(jié)果高度準(zhǔn)確；在實(shí)例匹配中的徹底重新設(shè)計(jì)，有效改善了性能。針對(duì)其測(cè)試的范圍及卓越性能，ASMOV可用于書(shū)目、生物醫(yī)學(xué)等多種領(lǐng)域本體方面。值得關(guān)注的是，基于大規(guī)模實(shí)例文檔的實(shí)例匹配，ASMOV仍需進(jìn)一步優(yōu)化。
　　
　　2.3　DSSim
　　DSSim是由英國(guó)開(kāi)放大學(xué)Nagy等人共同研制，適合大規(guī)模本體映射的通用系統(tǒng)。它是基于多智能代理體系結(jié)構(gòu)的本體映射系統(tǒng)，每一個(gè)智能代理通過(guò)特定映射假設(shè)的修正建立一個(gè)可信函數(shù)(belief)，大量可信函數(shù)整合得到更為合理的匹配策略，從而提供最佳映射(主要流程見(jiàn)圖3)。
　　
　　
　　基于特定參數(shù)將大規(guī)模本體分割成n*m片段，解析本體片段并將其裝入匹配任務(wù)隊(duì)列。
　　執(zhí)行匹配安排，向空閑處理器核分配任務(wù)：①?gòu)谋倔w1中選擇用戶(hù)使用的概念或?qū)傩圆⒖紤]其作為查詢(xún)片段；在算法上參考WordNet，通過(guò)WordNet的上位詞擴(kuò)大查詢(xún)概念或?qū)傩�。②從本體2考慮在語(yǔ)句構(gòu)成上相似的概念或?qū)傩詷?gòu)建查詢(xún)圖，建立局部本體圖查詢(xún)，其中包含概念和屬性以及上述環(huán)境的局部本體查詢(xún)片段。③通過(guò)語(yǔ)義相似度算法評(píng)估查詢(xún)結(jié)點(diǎn)與本體片段兩者的相似值。④可信質(zhì)量函數(shù)由登普斯特整合規(guī)則(Dempstm’s rule of combination)構(gòu)成，并受相似性矩陣的制約。處理器選用計(jì)算值最高的可信質(zhì)量函數(shù)進(jìn)行映射，對(duì)于不符合條件的進(jìn)行迭代計(jì)算。
　　將所選的映射加入匹配集合中，獲得匹配結(jié) 果。DSSim針對(duì)本體映射中表示和推理的不確定性在問(wèn)答情景中采取登普斯特一謝弗理論，這與同為解決不確定性的RiMOM運(yùn)用貝葉斯理論不同。DSSim參與了OAEl2009中的標(biāo)準(zhǔn)測(cè)試、解剖測(cè)試、目錄測(cè)試、實(shí)例匹配等4類(lèi)共7個(gè)項(xiàng)目的競(jìng)賽，它與ASMOV是該年度參加項(xiàng)目最多的兩位，但在召回率和F度量測(cè)評(píng)方面DSSim均與ASMOV存在差距。
　　
　　2.4　小結(jié)
　　除上述三種本體映射系統(tǒng)外，還有另外兩種本體映射系統(tǒng)Lily和TaxoMap亦參與了OAEI近3年的比賽。其中，Lily是基于語(yǔ)義子圖的通用本體映射系統(tǒng)，TaxoMap是以發(fā)現(xiàn)概念間的豐富聯(lián)系為目標(biāo)的本體匹配工具。限于篇幅，這里不再贅述。
　　
　　3　領(lǐng)域系統(tǒng)模型
　　
　　領(lǐng)域系統(tǒng)是建立在某一特定領(lǐng)域或解決某一特定問(wèn)題的本體映射系統(tǒng)。較通用系統(tǒng)而言，領(lǐng)域系統(tǒng)在解決特定領(lǐng)域本體互操作方面有其優(yōu)勢(shì)。
　　
　　3.1　OntoMap
　　來(lái)自巴西圣保羅大學(xué)科學(xué)計(jì)算與數(shù)學(xué)研究所的Linhalis等學(xué)者，針對(duì)自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信除英語(yǔ)外尚不能夠支持多種語(yǔ)言交流的特點(diǎn)，提出采用國(guó)際語(yǔ)(通用網(wǎng)絡(luò)語(yǔ)言中的一種)作為自然語(yǔ)言和計(jì)算機(jī)之間的中介，通過(guò)軟件構(gòu)件執(zhí)行檢索的思路。其目標(biāo)是促進(jìn)多種自然語(yǔ)言在計(jì)算機(jī)中進(jìn)行處理，為此，他們提出了OntoMap結(jié)構(gòu)模型，結(jié)構(gòu)如圖4所示：
　　
　　OntoMap模型主要是通過(guò)通用網(wǎng)絡(luò)語(yǔ)言(UniversalNetworking Language，UNL)和軟件構(gòu)件來(lái)執(zhí)行自然語(yǔ)言的請(qǐng)求，OntoMap通過(guò)訪問(wèn)UNL表示推斷構(gòu)件的語(yǔ)義信息，然后使用該語(yǔ)義信息查找一個(gè)乃至多個(gè)合適的構(gòu)件執(zhí)行請(qǐng)求。為了完成這一目標(biāo)，OntoMap通過(guò)語(yǔ)義映射模塊將UNL和構(gòu)件聯(lián)系起來(lái)。如圖4所示，OntoMap模型分為UNL轉(zhuǎn)換、語(yǔ)義映射、構(gòu)件搜尋與檢索三部分。其中，語(yǔ)義映射模塊的工作流程如圖5所示：
　　
　　InterComp本體(國(guó)際語(yǔ)構(gòu)件本體)在語(yǔ)義映射模塊中扮演重要作用，它與規(guī)則一起定義國(guó)際語(yǔ)與軟件構(gòu)件之間的關(guān)系，同時(shí)InterComp本體還用來(lái)搜尋和檢索軟件構(gòu)件，最終達(dá)到執(zhí)行自然語(yǔ)言請(qǐng)求的目的。In―terComp本體將UNL和構(gòu)件的語(yǔ)義信息聯(lián)系起來(lái)，UNL令牌分類(lèi)器在InterComp本體中對(duì)UNL語(yǔ)句分類(lèi)，通過(guò)具體的規(guī)則推斷構(gòu)件的語(yǔ)義信息，隨后通過(guò)語(yǔ)義信息搜尋語(yǔ)義信息構(gòu)件，完成語(yǔ)義映射。
　　OntoMap模型與其他研究的不同在于將自然語(yǔ)言請(qǐng)求轉(zhuǎn)換成國(guó)際語(yǔ)，使得多科咱然語(yǔ)言，特別是使用較少的自然語(yǔ)言(限制語(yǔ))能夠在計(jì)算機(jī)中處理。但是，其方案仍需借助大量實(shí)驗(yàn)抽取更多國(guó)際語(yǔ)的語(yǔ)義信息。此外，UNL項(xiàng)目的成熟對(duì)OntoMap的發(fā)展具有關(guān)鍵影響。
　　
　　3.2　OntSE
　　為了克服企業(yè)信息系統(tǒng)用戶(hù)在找尋用戶(hù)所需要的語(yǔ)義層面的相似信息方面存在的局限，韓國(guó)科學(xué)技術(shù)院Jung M等人運(yùn)用多維相似與貝葉斯網(wǎng)絡(luò)方法提出了OntSE模型，如圖6所示：
　　
　　OntSE模型主要由4個(gè)本體庫(kù)和3個(gè)模塊組件組成：即用戶(hù)本體庫(kù)(UOL)、內(nèi)部形式本體庫(kù)(IOL)、分類(lèi)本體庫(kù)(TOL)和匹配本體庫(kù)(MOL)，分別用來(lái)存取用戶(hù)本體(UO)、內(nèi)部形式本體(IOL)、分類(lèi)本體(TO)和匹配本體(NO)。三個(gè)模塊分別是本體構(gòu)建模塊、本體映射模塊和本體更新模塊，其功能分別是：
　　?本體構(gòu)建：構(gòu)建用戶(hù)的關(guān)鍵詞本體。
　　?本體映射：本體庫(kù)中用戶(hù)關(guān)鍵詞與存儲(chǔ)的術(shù)語(yǔ)(概念)之間的本體映射。
　　?本體更新：其目標(biāo)是通過(guò)多維相似與貝葉斯網(wǎng)絡(luò)算法找到基于用戶(hù)關(guān)鍵詞的相同語(yǔ)義的術(shù)語(yǔ)。
　　OntSE系統(tǒng)主要用于搜索不同企業(yè)信息系統(tǒng)的文檔語(yǔ)義信息，用戶(hù)可通過(guò)關(guān)鍵詞在上述方法的支持下找尋相關(guān)概念的語(yǔ)義，在用戶(hù)協(xié)作的基礎(chǔ)上檢索到相關(guān)文檔。OntSE模型具有3個(gè)典型特征：①通過(guò)本體映射找到用戶(hù)要查找的在語(yǔ)義上相似的概念；②利用用戶(hù)的關(guān)鍵詞描述更新本體庫(kù)；③用戶(hù)的歷史匹配決策被用來(lái)幫助隨后的用戶(hù)搜索。該系統(tǒng)的不足是對(duì)于具體領(lǐng)域的參數(shù)或加權(quán)因子需要大量實(shí)驗(yàn)，在此基礎(chǔ)上調(diào)整賦于合適的參數(shù)值滿(mǎn)足具體領(lǐng)域信息的需求。
　　
　　4　本體映射系統(tǒng)評(píng)價(jià)
　　
　　無(wú)論是通用系統(tǒng)還是領(lǐng)域系統(tǒng)，本體映射系統(tǒng)的優(yōu)劣均需要檢驗(yàn)和比較。以通用系統(tǒng)為例，其評(píng)價(jià)一般采用OAEI競(jìng)賽所提供的公共數(shù)據(jù)集進(jìn)行測(cè)驗(yàn)。國(guó)際語(yǔ)義網(wǎng)會(huì)議自2004年開(kāi)始每年舉辦一次OAEI競(jìng)賽，截至2009年已舉辦6次。該年測(cè)評(píng)體系包括5個(gè)大類(lèi)共11種數(shù)據(jù)集。其中標(biāo)準(zhǔn)測(cè)試是競(jìng)賽的基礎(chǔ)，其目標(biāo)是考查本體映射系統(tǒng)在算法方面的強(qiáng)弱；而實(shí)例匹配則成為近年來(lái)關(guān)注的熱點(diǎn)。上述各類(lèi)評(píng)價(jià)指標(biāo)包括查準(zhǔn)率、召回率和F度量，計(jì)算公式如下：
　　查準(zhǔn)率：P=發(fā)現(xiàn)正確的映射／發(fā)現(xiàn)所有的映射
　　召回率：R=發(fā)現(xiàn)正確的映射／所有可能的映射
　　F度量：F-m=2*P*R／(P+R)
　　對(duì)于大規(guī)模本體的數(shù)據(jù)集來(lái)說(shuō)，查準(zhǔn)率和召回率兩者相互制約，F(xiàn)度量是上述兩種指標(biāo)的一種平衡。5展望
　　上述五種研究模型是本體映射研究最新發(fā)展的一個(gè)側(cè)面。盡管本體映射已成為相對(duì)成熟的研究領(lǐng)域，但仍存在很多問(wèn)題尚待進(jìn)一步研究，特別是在與相關(guān)前沿研究領(lǐng)域的結(jié)合方面，本體映射模型及其若干方法的應(yīng)用亟待關(guān)注。例如，發(fā)展近5年的關(guān)聯(lián)數(shù)據(jù)(1inked data)近年來(lái)成為圖書(shū)情報(bào)界關(guān)注的熱點(diǎn)。瑞典、德國(guó)、英國(guó)等國(guó)國(guó)家圖書(shū)館率先將聯(lián)合目錄、詞表或書(shū)目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)，與其他多種資源建立了關(guān)聯(lián)。但是如何將這些關(guān)聯(lián)起來(lái)的數(shù)據(jù)實(shí)現(xiàn)進(jìn)一步整合，以推動(dòng)關(guān)聯(lián)數(shù)據(jù)的深層應(yīng)用成為發(fā)展的瓶頸。一些研究人員提出可嘗試將本體映射的若干研究成果引入到關(guān)聯(lián)數(shù)據(jù)中，在解決關(guān)聯(lián)數(shù)據(jù)的實(shí)例異構(gòu)和值的轉(zhuǎn)換等方面發(fā)揮作用，這方面的研究有待深入。

熱點(diǎn)文章閱讀

[中國(guó)式懲戒：打板子] 懲戒男 2020-03-06
災(zāi)后北川殘酷一面_北川老縣城 2020-02-18
越南要求中國(guó)歸還兩廣【胡志明 2020-03-14
[矛盾的張衛(wèi)星]小說(shuō)花落伴官途 2020-03-31
【三年級(jí)數(shù)學(xué)應(yīng)用題練習(xí)題】 2018-10-09
父子肉短文 2017-01-29
父與女全本閱讀曉雯【《父與女 2019-04-07
人民有信仰三句話順序_凝聚億 2020-02-21
一個(gè)母親不堪回首的陪讀路高 2020-03-01
【文學(xué)常識(shí)】必會(huì)的3000個(gè)文學(xué) 2019-01-28

www.黄片视频在线播放,欧美精品日韩精品一级黄,成年男女免费视频网站,99久久久国产精品免费牛牛四川,99久久精品国产9999高清,乱人妻中文字幕视频4399,亚洲男人在线视频观看

【2009年以來(lái)本體映射系統(tǒng)模型研究綜述】 本體映射

熱點(diǎn)文章閱讀

【2009年以來(lái)本體映射系統(tǒng)模型研究綜述】本體映射