領(lǐng)域本體【基于形式概念分析的領(lǐng)域本體構(gòu)建方法優(yōu)化研究】
發(fā)布時(shí)間:2020-03-07 來源: 歷史回眸 點(diǎn)擊:
[摘要]針對(duì)基于形式概念分析(FCA)的領(lǐng)域本體構(gòu)建方法的優(yōu)化問題進(jìn)行論述,解決優(yōu)化的四個(gè)難點(diǎn),應(yīng)用并行開發(fā)的工程思想,采用“分而治之、映射集成”的具體手段,提出一種新的基于FCA的領(lǐng)域本體構(gòu)建方法并建立“增量模型”。該方法將整個(gè)領(lǐng)域本體構(gòu)建過程分解成核心本體和若干個(gè)并行開發(fā)的增量本體的構(gòu)建過程,而后將核心本體和增量本體通過本體映射和本體集成的手段進(jìn)行按需組合,最終得到用戶所需領(lǐng)域本體。
[關(guān)鍵詞]形式概念分析 領(lǐng)域本體構(gòu)建方法 增量模型
[分類號(hào)]G353
領(lǐng)域本體作為一種有效的形式語義模型和知識(shí)表示形式,在圖書情報(bào)領(lǐng)域的應(yīng)用越來越廣泛和深入,這在客觀上促進(jìn)了領(lǐng)域本體構(gòu)建方法的不斷涌現(xiàn)和更新。基于形式概念分析(FCA)的領(lǐng)域本體構(gòu)建理論在此背景下應(yīng)運(yùn)而生。FCA強(qiáng)調(diào)用數(shù)學(xué)手段來表達(dá)客觀知識(shí),可以削弱開發(fā)者對(duì)領(lǐng)域本體構(gòu)建過程的主觀影響,并能挖掘出領(lǐng)域中隱含的概念以及概念之間的層次關(guān)系。FCA通過用數(shù)學(xué)符號(hào)從內(nèi)涵和外延兩方面表示所有概念,達(dá)到了形式化概念模型的效果,因此基于FCA的領(lǐng)域本體構(gòu)建方法越來越倍受國(guó)內(nèi)外相關(guān)學(xué)者關(guān)注和青睞。國(guó)內(nèi)外對(duì)基于FCA的領(lǐng)域本體構(gòu)建方法的研究目前仍然處于探索階段,雖然有些方法有著一定的可取之處,但仍存在著諸多不足,還需不斷地深入研究。
1 國(guó)內(nèi)外基于FCA的領(lǐng)域本體構(gòu)建方法的簡(jiǎn)要分析
目前國(guó)外提出的具有代表性的基于FCA的領(lǐng)域本體構(gòu)建方法主要有:Cimiano方法、GuTao方法、Haav方法、Marek Obitko方法。
Cimiano方法提出了從領(lǐng)域文本出發(fā)自動(dòng)解析“概念一屬性”關(guān)系的基本思路,具有借鑒意義。但該方法使用語言解析器解析出的只有動(dòng)賓關(guān)系,從概念格向領(lǐng)域本體轉(zhuǎn)換時(shí),以概念節(jié)點(diǎn)的內(nèi)涵對(duì)節(jié)點(diǎn)命名,將概念節(jié)點(diǎn)的外延添加為概念節(jié)點(diǎn)的子節(jié)點(diǎn),存在不合理性。
GuTao方法提出了領(lǐng)域本體構(gòu)建中循環(huán)反饋的開發(fā)思想,其開發(fā)的fcatab插件可自動(dòng)從領(lǐng)域概念和關(guān)系得到形式背景,但Fcatab只支持單值形式背景,且必須依托protege本體建模工具。
Haav方法在一定程度上實(shí)現(xiàn)了本體的邏輯表述,提出了領(lǐng)域本體的擴(kuò)充機(jī)制,考慮了領(lǐng)域本體的推理。但初始本體到一階謂詞邏輯表示集合的轉(zhuǎn)換過程需要通過FCA和規(guī)則語言映射,這種映射復(fù)雜、費(fèi)力且不易實(shí)現(xiàn)。
Marek Obitko方法提出了一整套對(duì)形式背景和概念格的編輯修改機(jī)制,值得借鑒;但該方法每次構(gòu)建都從空的對(duì)象和屬性開始,因此對(duì)對(duì)象和屬性的添加是一項(xiàng)及其復(fù)雜的過程,工作量大,只適合小領(lǐng)域本體的構(gòu)建。
上述方法一是缺少工程化、規(guī)范化、標(biāo)準(zhǔn)化、細(xì)節(jié)化的指導(dǎo)思想,僅將著眼點(diǎn)放在領(lǐng)域本體的需求分析、設(shè)計(jì)與實(shí)現(xiàn)三個(gè)環(huán)節(jié),忽略了領(lǐng)域本體構(gòu)建的其他階段;二是未明確二者間的結(jié)合機(jī)理,以致對(duì)兩者之間在哪些方面進(jìn)行結(jié)合以及以何種形式結(jié)合的問題理解得不夠深入,從而造成形式背景的構(gòu)建、概念格到領(lǐng)域本體的映射方式、領(lǐng)域本體的概念關(guān)系處理等諸多方面的不合理性。
國(guó)內(nèi)研究人員對(duì)該課題的研究起步較晚,大多數(shù)研究都停留在對(duì)國(guó)外方法的綜述或引入上。綜述性文獻(xiàn)中有代表性的是文獻(xiàn)[7]和文獻(xiàn)[8]。引入性文獻(xiàn)中有代表性的是文獻(xiàn)[9],另外文獻(xiàn)[10]嘗試糅合了Cimiano方法與Marek 0bitko方法,但這種糅合缺少深層次的研究討論。
2 基于FICA的領(lǐng)域本體構(gòu)建方法優(yōu)化的核心問題
2.1 基于FCA的領(lǐng)域本體構(gòu)建方法優(yōu)化的動(dòng)因
通過對(duì)國(guó)內(nèi)外基于FCA的領(lǐng)域本體構(gòu)建方法的簡(jiǎn)要分析,本文總結(jié)了當(dāng)前各種典型方法的局限性,基于FCA的領(lǐng)域本體構(gòu)建方法要向前發(fā)展,就必須沖破這些局限性的束縛,打破這些阻礙。本文將基于FCA的領(lǐng)域本體構(gòu)建方法優(yōu)化的動(dòng)因總結(jié)為以下5個(gè)方面:①線性開發(fā)過程一并行開發(fā)過程;②一次性全部提交領(lǐng)域本體一分批次提交領(lǐng)域本體;③簡(jiǎn)單領(lǐng)域背景一復(fù)雜領(lǐng)域背景;④封閉結(jié)構(gòu)一開放結(jié)構(gòu);⑤弱復(fù)用一強(qiáng)復(fù)用。
2.2 基于FCA的領(lǐng)域本體構(gòu)建方法優(yōu)化的思路
本文對(duì)基于FCA的領(lǐng)域本體構(gòu)建方法的優(yōu)化思路是采用并行開發(fā)的工程思想,應(yīng)用“分而治之,映射集成”的具體思路,將領(lǐng)域本體劃分為核心本體和一系列的增量本體兩部分:核心本體的目的在于構(gòu)建滿足領(lǐng)域本體的基本需求的本體,其規(guī)模適中;而增量本體的目的在于實(shí)現(xiàn)領(lǐng)域本體的增量需求。這樣,領(lǐng)域本體就可以表達(dá)為以下的代數(shù)形式:
。海={Oc,Oi,Rci,Rii}
其中Oall表示領(lǐng)域本體,Oc表示核心本體,Oi表示增量本體,Rci表示核心本體和增量本體之間的映射集成關(guān)系,Rii表示增量本體之間的映射集成關(guān)系。
用戶就可以根據(jù)實(shí)際的需求,按需提取核心本體和增量本體,并按照映射集成機(jī)制將所需的本體集成起來,得到所需要的領(lǐng)域本體。這種思路,可以保證領(lǐng)域本體開發(fā)的并行過程,能分批次向用戶提交領(lǐng)域本體,可以將復(fù)雜領(lǐng)域背景分解為一系列簡(jiǎn)單領(lǐng)域背景,打破封閉式的開發(fā)結(jié)構(gòu)。
2.3 基于FCA的領(lǐng)域本體構(gòu)建方法優(yōu)化的具體內(nèi)容
基于FCA的領(lǐng)域本體構(gòu)建方法的優(yōu)化的具體內(nèi)容主要包括兩個(gè)方面:一是在宏觀上對(duì)領(lǐng)域本體構(gòu)建的過程進(jìn)行優(yōu)化,改變傳統(tǒng)領(lǐng)域本體構(gòu)建過程的線性開發(fā)模式,采用并行工程的思想,將領(lǐng)域本體構(gòu)建過程優(yōu)化為“增量模型”模式;另一方面是在微觀層面上對(duì)領(lǐng)域本體設(shè)計(jì)、領(lǐng)域本體實(shí)現(xiàn)過程的優(yōu)化,在“增量模型”的指導(dǎo)下重新調(diào)整基于FCA的領(lǐng)域本體設(shè)計(jì)過程和領(lǐng)域本體實(shí)現(xiàn)過程。
3 一種新的基于FCA的領(lǐng)域本體構(gòu)建方法
3.1 新方法的基本原理
本文提出的基于FCA的領(lǐng)域本體構(gòu)建方法的基本原理是:應(yīng)用并行開發(fā)的工程思想,采用“分而治之、映射集成”的具體手段,將整個(gè)領(lǐng)域本體構(gòu)建過程分解成核心本體和若干個(gè)并行開發(fā)的增量本體的構(gòu)建過程。換言之,就是領(lǐng)域形式背景根據(jù)相關(guān)理論分解成若干個(gè)兼容子背景,進(jìn)而分別根據(jù)子背景構(gòu)建概念格,得到概念層次模型和本體原型,進(jìn)而通過領(lǐng)域本體的擴(kuò)充和形式化描述,得出相應(yīng)的核心本體和增量本體,最終將核心本體和增量本體通過本體映射和本體集成的手段進(jìn)行按需組合,得到知識(shí)用戶所需的領(lǐng)域本體。
3.2 新方法的模型構(gòu)建
基于FCA的領(lǐng)域本體構(gòu)建方法涉及到方方面面的復(fù)雜問題,要把握住該方法的本質(zhì),只有通過建模的手段,對(duì)基于FCA的領(lǐng)域本體構(gòu)建方法進(jìn)行不同側(cè)面或不同層次的抽象。本文擬對(duì)所提出的新的基于FCA的領(lǐng)域本體構(gòu)建方法從兩個(gè)層面上進(jìn)行建模:一是對(duì)該方法宏觀上的描述,即建立該方法的總體模型(根據(jù)其特征稱為增量模型);二是對(duì)該方法微觀上的把握,即對(duì)如何利用FCA完成領(lǐng)域本體的設(shè)計(jì)、編碼、映射、集成和測(cè)試等微觀操作進(jìn)行建模,建立該方法的微觀模型。
本文提出的基于FCA的領(lǐng)域本體構(gòu)建方法的增量模型如圖1所示:
具體來講,各個(gè)模塊主要完成的任務(wù)或功能如下:①制定計(jì)劃模塊:明確領(lǐng)域本體開發(fā)項(xiàng)目的進(jìn)度安排,調(diào)度項(xiàng)目所需要的各類資源,對(duì)領(lǐng)域進(jìn)行初步調(diào)查,并充分考慮建立領(lǐng)域本體所受到的種種約束,研究構(gòu)建該領(lǐng)域本體的必要性和可行性,做出可行性研究報(bào)告?尚行匝芯繄(bào)告評(píng)審?fù)ㄟ^之后,編寫成領(lǐng)域本體開發(fā)計(jì)劃書。②領(lǐng)域本體分析模塊:對(duì)領(lǐng)域本體進(jìn)行以下方面的詳細(xì)分析:領(lǐng)域范圍、構(gòu)建的原因、建好后的用途、形式化程度、用戶范圍等。最重要的是對(duì)領(lǐng)域本體的需求分析。通過對(duì)領(lǐng)域本體進(jìn)行上述分析,編制領(lǐng)域本體分析說明書。③領(lǐng)域本體概要設(shè)計(jì)模塊:應(yīng)用形式概念分析理論,從領(lǐng)域基礎(chǔ)數(shù)據(jù)出發(fā),通過預(yù)處理,將領(lǐng)域本體從概要上劃分成表達(dá)領(lǐng)域本體基本需求的核心本體和一系列表達(dá)領(lǐng)域本體增量需求的增量本體兩個(gè)部分。形成領(lǐng)域初始形式背景并將之劃分成核心背景和一系列增量兼容子背景,編寫領(lǐng)域本體概要設(shè)計(jì)說明書。④基于FCA的領(lǐng)域本體詳細(xì)設(shè)計(jì)、實(shí)現(xiàn)、映射、集成和測(cè)試模塊:從核心子背景或各兼容子背景出發(fā),通過概念格轉(zhuǎn)換,概念層次模型生成的過程,把得出的概念層次模型轉(zhuǎn)換成相應(yīng)的本體原型,并對(duì)原型進(jìn)行合理擴(kuò)充,通過選擇合適的本體描述語言,進(jìn)行本體的形式化描述,最后在本體映射機(jī)制的指導(dǎo)下,將各個(gè)增量本體根據(jù)需求集成到核心本體當(dāng)中,經(jīng)過領(lǐng)域本體測(cè)試,排除錯(cuò)誤。形成領(lǐng)域本體詳細(xì)設(shè)計(jì)說明書、編碼清單和測(cè)試報(bào)告。⑤領(lǐng)域本體維護(hù)模塊:領(lǐng)域本體試航,追尋潛在的錯(cuò)誤。維護(hù)的具體內(nèi)容包括改正性維護(hù)、適應(yīng)性維護(hù)、完善性維護(hù)和預(yù)防性維護(hù),最終形成維護(hù)報(bào)告。
對(duì)宏觀模型的領(lǐng)域本體設(shè)計(jì)實(shí)現(xiàn)映射集成環(huán)節(jié)進(jìn)行深入地分析和研究,就可以得出如圖2所示的基于FCA的領(lǐng)域本體構(gòu)建方法的微觀模型:
其中,各模塊的主要任務(wù)是:①形式背景(核心或兼容子背景)處理模塊:從核心子背景或增量兼容子背景出發(fā),判斷各個(gè)子背景是否為多值背景,若是,則通過相關(guān)轉(zhuǎn)換技術(shù)將多值背景單值化,最終形成單值形式子背景。②概念格處理模塊:將上步形成的單值子背景通過概念格構(gòu)造算法轉(zhuǎn)化為概念格,并由hasse圖的形式顯化出來,在可視化的基礎(chǔ)上對(duì)概念格是否合理進(jìn)行判斷,對(duì)不合理的概念格按照一定的規(guī)則進(jìn)行對(duì)象編輯或?qū)傩跃庉,循環(huán)之,直至出現(xiàn)較為滿意的概念格。③概念層次生成模塊:將概念格轉(zhuǎn)換為概念層次模型,主要包括底端節(jié)點(diǎn)處理(直接刪除)、節(jié)點(diǎn)關(guān)系處理(轉(zhuǎn)化為概念層次關(guān)系)及頂端節(jié)點(diǎn)處理(轉(zhuǎn)化為根概念)三個(gè)方面。模塊的輸出結(jié)果是領(lǐng)域本體概念層次模型。④領(lǐng)域本體原型及其擴(kuò)充模塊:根據(jù)領(lǐng)域本體概念層次模型,將每個(gè)概念節(jié)點(diǎn)標(biāo)示為一個(gè)領(lǐng)域本體概念,概念層次關(guān)系映射為領(lǐng)域本體概念分類關(guān)系,從而實(shí)現(xiàn)領(lǐng)域本體層次模型向領(lǐng)域本體原型的轉(zhuǎn)換。而后在領(lǐng)域?qū)<业膮⑴c下,對(duì)領(lǐng)域本體原型進(jìn)行屬性擴(kuò)充、實(shí)例擴(kuò)充、公理擴(kuò)充,最終形成擴(kuò)充后的領(lǐng)域本體原型。⑤領(lǐng)域本體形式化描述模塊:選擇合適的本體描述語言(如owl語言),對(duì)擴(kuò)充后的領(lǐng)域本體原型進(jìn)行形式化描述,最終得到領(lǐng)域核心本體或增量本體。⑥領(lǐng)域本體映射集成模塊:通過本體映射判斷核心本體和增量本體以及增量本體和增量本體之間的關(guān)系,可以此為基礎(chǔ)進(jìn)行本體集成操作,即根據(jù)用戶需求將增量本體集成到核心本體中。
本文所提出的增量模型和微觀模型的每一個(gè)模塊實(shí)質(zhì)上對(duì)應(yīng)的是基于FCA的領(lǐng)域本體構(gòu)建方法的一個(gè)步驟,因此,本文提出的基于FCA的領(lǐng)域本體構(gòu)建方法的步驟就可以通過對(duì)模型的細(xì)化得出,在此不做贅述。
3.3 新方法的優(yōu)點(diǎn)
與當(dāng)前主流的四種基于FCA的領(lǐng)域本體構(gòu)建方法相比,本文提出的基于FCA的領(lǐng)域本體構(gòu)建方法更具有優(yōu)勢(shì)。本文通過表1分別從18個(gè)方面對(duì)優(yōu)化后的新方法與優(yōu)化前的方法進(jìn)行了定性的對(duì)比分析來闡明新方法的優(yōu)勢(shì):
4 結(jié)語
基于FCA進(jìn)行領(lǐng)域本體構(gòu)建的諸多優(yōu)勢(shì)隨著對(duì)該方法的不斷深入認(rèn)識(shí)和討論而越來越被國(guó)內(nèi)外學(xué)者關(guān)注和接受。然而相應(yīng)的基于FCA的領(lǐng)域本體構(gòu)建方法理論尚沒有形成統(tǒng)一的觀點(diǎn)。本文借鑒軟件工程中并行開發(fā)思想,采用“分而治之,映射集成”的思路提出了一種新的基于FCA的領(lǐng)域本體構(gòu)建方法,解決了當(dāng)前方法所不能解決的一些問題。盡管如此,本文所提出的方法受領(lǐng)域本體映射技術(shù)和集成技術(shù)的影響仍有局限性,還有待于進(jìn)一步深入研究,因此,基于FCA的領(lǐng)域本體映射技術(shù)和集成技術(shù)將成為本文后續(xù)的研究方向。
相關(guān)熱詞搜索:本體 構(gòu)建 形式 基于形式概念分析的領(lǐng)域本體構(gòu)建方法優(yōu)化研究 計(jì)算思維是運(yùn)用計(jì)算機(jī)科學(xué)的基礎(chǔ)概念進(jìn)行 目標(biāo)管理的概念和特點(diǎn)
熱點(diǎn)文章閱讀