信息檢索與信息抽取差異性探析|信息檢索
發(fā)布時間:2020-03-07 來源: 人生感悟 點擊:
[摘要] 通過發(fā)表論文、會議組織、出入口、關(guān)鍵技術(shù)、發(fā)展趨勢等方面對信息檢索與信息抽取進行比較分析,發(fā)現(xiàn)信息抽取與信息檢索有著質(zhì)的不同。信息抽取不是信息檢索的發(fā)展方向,但信息抽取技術(shù)可以很好地應(yīng)用于信息檢索系統(tǒng)。分析兩者之間的差異有利于研究的深入,理清它們的關(guān)系有利于共同促進。
[關(guān)鍵詞] 信息檢索 信息抽取 命名實體識別 模式匹配 規(guī)則抽取
[分類號] G35 TP391
李保利等人從功能、處理技術(shù)與適用領(lǐng)域等三個方面介紹了信息檢索與信息抽取的不同。李芳等人在閱讀大量相關(guān)文獻的基礎(chǔ)上,簡要介紹了信息抽取、信息檢索與自動文摘的區(qū)別,認為信息抽取是“更高級的信息檢索”。文獻[3]分析了信息檢索與信息抽取的特點和不足,認為信息檢索技術(shù)的研究主要側(cè)重于語料庫的方法,信息抽取技術(shù)的研究更側(cè)重于自然語言的理解,基于符號的處理方法,并最終提出了一個結(jié)合兩者優(yōu)勢的信息獲取模型。
然而筆者認為,信息抽取不是信息檢索的高級階段,它并不能代表信息檢索的發(fā)展方向。信息抽取可以應(yīng)用于信息檢索,提高檢索質(zhì)量與精度,反之,信息檢索的應(yīng)用也會對信息抽取提出更新的挑戰(zhàn)。
1、信息檢索與信息抽取的學(xué)術(shù)關(guān)注度差異
在中國知網(wǎng)上檢索相關(guān)文獻(題名或關(guān)鍵詞精確匹配),關(guān)于信息抽取的第一篇文章為1997年刊登在《情報學(xué)報》上的《基于信息抽取和文本生成的自動文摘系統(tǒng)設(shè)計》;關(guān)于信息檢索的第一篇文章為1980年刊登在《情報科學(xué)》上的《全息情報檢索QQJ系統(tǒng)簡介》;關(guān)于文獻檢索的第一篇文章為1976年刊登在《武漢大學(xué)學(xué)報(理學(xué)版)》的《怎樣查找科技文獻資料》。從1997至2006十年間關(guān)于信息抽取的文章共393篇,年均39篇,關(guān)于信息檢索的文章達到6269篇,年均627篇,是信息抽取的16倍。近10年來信息檢索與信息抽取的文章發(fā)表數(shù)量如表1所示:
從絕對數(shù)量上看,信息檢索的文章遠遠多于信息抽取,甚至高出一個數(shù)量級。信息抽取的研究起步比較晚,只有10年的時間,而信息檢索的研究比較成熟,已有幾十年的時間。關(guān)于信息抽取的文章,增長最多的時候出現(xiàn)在2004與2005年,分別增長29篇與3l篇。關(guān)于信息檢索的文章,每年的增量都在100篇左右,只有2005年出現(xiàn)了很小的負增長,而增長率最高的時候出現(xiàn)在2000年前后,從1999年到2001三年間保持著30%左右的增長。為了能在同一幅圖里顯示信息抽取與信息檢索文章的增長趨勢,把信息檢索的文章數(shù)量進行縮小,縮小到與信息抽取的文章處于同一數(shù)量級(每年文章數(shù)量除以16),如圖1所示:
從圖1中可以看出,信息檢索得到了持續(xù)的關(guān)注,從1998年開始迅猛增長,增長的原因主要是搜索引擎的崛起,帶動了整個信息檢索領(lǐng)域的新發(fā)展。而信息抽取從20世紀90年代末開始得到關(guān)注,從2003年開始得到迅速發(fā)展。目前信息抽取的增長勢頭非常迅猛,而信息檢索相對平穩(wěn)一些。如果說10年間信息抽取的研究經(jīng)歷了從無到有的過程,那么信息檢索的研究就是從弱到強的過程。
2、信息檢索與信息抽取的相關(guān)會議
關(guān)于信息檢索的國內(nèi)會議比較多,其中包括:中國科技情報學(xué)會計算機情報檢索專業(yè)委員會從1980至1986年舉辦了5屆全國機器檢索學(xué)會交流會,該系列會議后來改名為全國計算機情報檢索學(xué)術(shù)討論會,后來再次改名為全國計算機信息管理學(xué)術(shù)討論會;中國中文信息學(xué)會信息檢索與內(nèi)容安全專業(yè)委員會舉辦的全國信息檢索與內(nèi)容安全學(xué)術(shù)會議,今年將舉辦第三屆會議;隨著搜索引擎的迅速發(fā)展,關(guān)于搜索引擎的會議也顯得越來越重要,中國計算機學(xué)會互聯(lián)網(wǎng)專業(yè)委員會舉辦的全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會,2007年已舉辦了第五屆;另外,微軟亞洲研究院聯(lián)合清華大學(xué)、香港中文大學(xué)于2004年共同承辦了首屆亞洲信息檢索研討會。
關(guān)于信息檢索的最有影響力的兩個國際會議組織當屬TREC與INEX。TREC由國際標準和技術(shù)委員會及美國國防部共同資助,每屆參會的人數(shù)很多,提供豐富的評測標準與實驗數(shù)據(jù),是目前最權(quán)威的檢索評價會議;INEX由DELOS數(shù)字圖書館網(wǎng)絡(luò)組織和IEEE計算機學(xué)會資助,主要針對基于內(nèi)容的XML檢索提供統(tǒng)一評價程序。這兩大會議是國際上公認的權(quán)威評測機構(gòu),而國內(nèi)關(guān)于檢索方面的評價還很少,全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會近年來主要是針對分類進行評測。
信息檢索會議舉辦得如火如荼,但以信息抽取命名的會議在國內(nèi)還很少,比較有影響力的是微軟亞洲研究院于2005年舉辦的信息抽取技術(shù)暑期研討班。國際上比較有影響力的當屬MUC,它是20世紀80年代末由美國國防部的DARPA發(fā)起的,旨在通過一系列國際化的研究系統(tǒng)測評,來推動信息抽取的研究,提高信息抽取的能力,目前已舉辦了7屆會議。
信息檢索不僅有大量的學(xué)術(shù)論文與會議組織,還有成熟的理論模型與經(jīng)典著作,而信息抽取的理論模型尚不成熟,也尚未出現(xiàn)經(jīng)典著作。信息檢索領(lǐng)域最經(jīng)典的著作當屬RicardoBaeza-Yates,Berthier Ribeiro-Neto等人著的《現(xiàn)代信息檢索》(Modem Information Retrieval)。信息檢索的理論模型主要有概率模型、布爾模型、向量模型和邏輯模型。
3、信息抽取與信息檢索的出入口
信息檢索強調(diào)對檢索入口進行控制,并不對檢索出口進行控制,也就是說,信息檢索策略的調(diào)整只能決定檢索結(jié)果的多與少,并不能決定每條檢索結(jié)果的大與小。通過構(gòu)造檢索表達式與指定檢索范圍等策略來決定檢索結(jié)果的記錄數(shù),而不能對某條記錄的內(nèi)容進行抽取。例如,要查找中國所有自然語言處理方向的博士生導(dǎo)師,利用搜索引擎進行檢索,用戶需要遍歷每一個網(wǎng)頁,然后進行人工匯總。如果將信息抽取技術(shù)應(yīng)用于搜索引擎,在檢索之前可以指定內(nèi)容的范圍,也就是說會有兩個檢索輸入框,第一個為檢索入口,每兩個為檢索出口,檢索入口輸入“自然語言處理方向博士生導(dǎo)師”,檢索出口輸入“姓名、所在單位、專業(yè)、年齡、招生人數(shù)、考試科目”等信息,利用信息抽取技術(shù)就會直接顯示出一個二維列表,用戶只需閱讀一個網(wǎng)頁,這種搜索也稱之為列表式搜索。
信息抽取不同于信息檢索,其粒度要比信息檢索的粒度小――信息檢索以篇為單位,信息抽取以篇中的信息單元為處理單位。信息檢索一般返回整篇文獻,而信息抽取返回信息的某個單元;信息抽取存在對與錯的問題,如抽取的名詞要么是人名,要么不是人名,不存在人名的貼近度問題。而信息檢索存在好與壞的問題,是一個程度問題,我們稱之為召回率,信息檢索所查到的文獻,有完全符合需求的,有基本符合需求的,有不怎么符合需求的,所有返回文獻的準確率是線性的、連續(xù)的。
信息檢索的最終用戶是人,而信息抽取的用戶是計算機。一般來講,信息檢索由人構(gòu)造檢索式,通過系統(tǒng)進行檢索,得 到檢索結(jié)果由人來查看,整個過程中體現(xiàn)著人機交互;而信息抽取一般是系統(tǒng)根據(jù)模板和預(yù)先設(shè)定的規(guī)則,通過分析文本抽取需要的內(nèi)容,信息抽取系統(tǒng)一般不單獨使用,往往是為其它系統(tǒng)提供技術(shù)工具,例如為信息檢索、自動分類、自動問答等應(yīng)用系統(tǒng)解決某些特定的問題,信息抽取過程往往不需要人機交互。
信息抽取按抽取的數(shù)據(jù)對象結(jié)構(gòu)化程度分為三類:①以PDF文件代表的非結(jié)構(gòu)化文件,利用文件結(jié)構(gòu)、字體、換行符等方面進行分析并抽取,PDF文件只有文件結(jié)構(gòu)信息,沒有任何關(guān)于內(nèi)容的信息,而目前全文數(shù)據(jù)庫大都以PDF為存儲格式,因此非結(jié)構(gòu)化文件的信息抽取意義重大,難度也很大;②以網(wǎng)頁文件為代表的半結(jié)構(gòu)化文件,即以標記語言為格式的文件,按照標記程度分為HTML和XML;赬ML文件對象的信息抽取主要使用DTD以及DOM樹附加語義、樣本學(xué)習(xí)生成基于DOM路徑的抽取規(guī)則,利用遍歷DOM樹實現(xiàn)信息抽取。標記信息有兩種:一種是HTML標簽標記,如“(title)(title)”,一種是文本標記,如“相關(guān)鏈接”文本所指示的信息為URL鏈接信息;③以數(shù)據(jù)庫內(nèi)容為代表的結(jié)構(gòu)化信息,抽取相對簡單,關(guān)于這方面的探討還比較少。
4、信息檢索與信息抽取的關(guān)鍵技術(shù)
信息檢索通常有分析標引與響應(yīng)檢索兩大過程,信息抽取的分析過程更復(fù)雜、更有針對性。信息檢索可以做成通用的,而信息抽取往往是領(lǐng)域相關(guān)的或特征相關(guān)的。
一般的信息抽取系統(tǒng)包含以下6步過程:
用一組信息模式描述感興趣的信息。
對文本進行預(yù)處理。采用特征詞頻率統(tǒng)計和特定模式匹配過濾掉當前文本中與特定領(lǐng)域無關(guān)的信息。
對文本進行詞法分析、淺層句法分析以及簡單的語義分析,對文本中包含的特定領(lǐng)域的主要名詞短語單元進行識別,同時標注語義信息。
使用模式匹配方法實現(xiàn)事件模板的構(gòu)造,建立實體之間的聯(lián)系。采用基于知識的句子分析技術(shù),將識別的實體映射到一個結(jié)構(gòu)中,并標注它們的角色。
采用語段分析技術(shù)實現(xiàn)句子相關(guān)性分析,進行上下文關(guān)聯(lián)、共指、引用等分析和推理,對句子層獲得的結(jié)構(gòu)實現(xiàn)重載與合并,解決語段的指代和省略問題,構(gòu)造一個完整的實體事件。
格式化分析結(jié)果,把抽取的信息輸出到預(yù)定義好的模板中。
信息抽取的關(guān)鍵是命名實體識別與模板的匹配。命名實體識別有兩類特征信息,一類是實體內(nèi)含信息,如姓名抽取中,根據(jù)中國人數(shù)較多的姓(如王、張、李、劉等)以及專用于姓的漢字(如姚、閆等),加之人名所用高頻字等信息判斷姓名;另一類是前后附著信息,根據(jù)實體名的上下文來識別命名實體,如根據(jù)機構(gòu)、職稱、職務(wù)、職業(yè)、稱謂等關(guān)系確定命名實體(如北京市委書記劉淇、北京大學(xué)副教授孔慶東等),一般都是緊密相連。如果針對特定的抽取任務(wù),設(shè)計一名高頻詞、一名低頻詞、一名停用詞等亦可以提高處理的精度。
一個模板就是一條規(guī)則,每個模板都是一個約束的序列,這個約束的序列表現(xiàn)為對文本特征的描述,這些特征包括標點符號、詞典、大小寫、詞長、句法分類、句法分塊、語義特征等。而事件抽取不一定是整篇文獻的內(nèi)容,有可能只從文獻的某一部分內(nèi)容中進行抽取。例如從新聞中專門抽取事件的經(jīng)過或事件的影響。事件的描述主要有事情的背景、人物、時間、地點、緣由、開始、過程、結(jié)果、影響、評價等,這種事件的抽取涉及場景模板填充任務(wù)、命名實體識別、共指關(guān)系確定、模板元素填充等。如袁毓林在職務(wù)變動事件抽取研究中,根據(jù)職務(wù)變更動詞的有關(guān)句法、語義特點,把職務(wù)變動的動詞分成6個小類,分別描寫每一小類動詞的論元結(jié)構(gòu),建立動詞的論元角色跟事件模板元素的匹配關(guān)系,進行由動詞驅(qū)動的信息抽取。通過語句的邏輯結(jié)構(gòu)和篇章結(jié)構(gòu)約束信息模板的類型,并約束對當前句中缺失的或以代詞等形式表達的信息項目的求解。
5、信息檢索與信息抽取的發(fā)展趨勢
目前信息抽取的模型有很多,包括基于agent的信息抽取、基于隱馬爾科夫模型的信息抽取、基于決策樹的信息抽取以及基于本體的信息抽取。基于本體的信息抽取的研究比較多,因為一旦有了本體,信息抽取相對比較容易,所以基于本體的信息抽取不管是期刊論文還是學(xué)位論文都特別多,但如何獲取本體才是問題的關(guān)鍵。
現(xiàn)代信息檢索的理論模型開始更多地糅合粗糙集、模糊集、潛在語義標引、神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù),信息檢索的應(yīng)用也朝著個性化、知識化、智能化的方向發(fā)展,垂直搜索引擎也取得了長足的發(fā)展,并起著舉足輕重的作用。
未來的信息檢索與信息抽取,將更多地運用人工智能理論與自然語言處理技術(shù),需要更加豐富的語料庫與語言學(xué)知識的支撐。只要資源庫足夠豐富,無論是抽取還是檢索都會更加有效。公安系統(tǒng)有全國13億人口的資料,可以統(tǒng)計出姓和名的用字概率;政府有全國各級行政區(qū)劃的命名,鐵路系統(tǒng)有大小火車站的名錄,這些數(shù)據(jù)庫準確度和可信度都非常高,需要增加系統(tǒng)數(shù)據(jù)的開放性。如果把各行各業(yè)的數(shù)據(jù)統(tǒng)一共享起來,命名實體的識別就會容易得多。再加之各種分類系統(tǒng)、各行業(yè)主題詞條,概念等級體系也會在很大程度上得以解決。
6、結(jié)論
綜上,筆者認為,信息檢索與信息抽取有著質(zhì)的不同,信息檢索與信息抽取是完全不同的兩個概念,無論從處理目標、關(guān)鍵技術(shù)、理論模型還是應(yīng)用對象等各方面都有所不同。信息抽取不是“更高級的信息檢索”,它不是信息檢索的發(fā)展方向,也不會取代信息檢索,只能是促進信息檢索的發(fā)展。
信息抽取可以應(yīng)用于信息檢索,但信息檢索不是信息抽取的唯一應(yīng)用。信息抽取除了可用于信息檢索外,還可用于自動文摘、自動問答系統(tǒng)、技術(shù)跟蹤與監(jiān)測系統(tǒng)、結(jié)構(gòu)化數(shù)據(jù)獲取等很多方面。
在有關(guān)信息抽取的學(xué)術(shù)論文中,碩士生所發(fā)表的論文占很大比重,近幾年有關(guān)這個方面的碩士學(xué)位論文也較多,特別是基于本體的信息檢索或基于本體的信息抽取尤其明顯,這種現(xiàn)象與其它研究領(lǐng)域有很大的不同。因為信息抽取往往是面對特定領(lǐng)域,針對某一具體特征,運用某種方法解決某種特定問題的研究,相對來講比較容易取得應(yīng)用性創(chuàng)新,而且有很強的現(xiàn)實意義,不需要太大、太復(fù)雜的工程即能實現(xiàn),無需深奧的理論支撐,理解起來也較為容易,這些特點使得大家紛紛加入信息抽取的研究和探索行列。但是如果要分析更復(fù)雜的語言現(xiàn)象、設(shè)計更通用的信息抽取模式、抽取更復(fù)雜的信息單元,還有很長的路要走。 此外,網(wǎng)絡(luò)組織競爭情報還有支持網(wǎng)絡(luò)組織學(xué)習(xí)和消除網(wǎng)絡(luò)組織知識轉(zhuǎn)移障礙的作用,關(guān)于這兩方面,筆者將另撰文論述。
3網(wǎng)絡(luò)組織競爭情報流程模式與基于單一企業(yè)組織的競爭情報流程模式的比較
3.1網(wǎng)絡(luò)組織競爭情報流程模式
網(wǎng)絡(luò)組織競爭情報流程貫穿于網(wǎng)絡(luò)組織建立的整個過程和網(wǎng)絡(luò)組織運行的各項活動中,根據(jù)網(wǎng)絡(luò)組織建立的醞釀、選擇合作伙伴、正式組建、有效運行與風(fēng)險防范等環(huán)節(jié)及各環(huán)節(jié)的活動,我們可以把網(wǎng)絡(luò)組織競爭情報流程分解為6個步驟 :
●確定企業(yè)的合作和建立網(wǎng)絡(luò)組織的情報需求。其主要任務(wù)和內(nèi)容是根據(jù)企業(yè)戰(zhàn)略,定義企業(yè)的情報需求,明確情報需求的范圍和重點。
●為選擇合適的網(wǎng)絡(luò)合作伙伴而對潛在合作對象進行情報審計。
●網(wǎng)絡(luò)盟主出面協(xié)調(diào)或各成員平等協(xié)商對網(wǎng)絡(luò)組織競爭情報進行總體規(guī)劃。
●依據(jù)上述規(guī)劃展開信息搜集。其中包括對網(wǎng)絡(luò)組織的新申請加入者的資信信息搜集。
●對所搜集的信息進行整理、加工和分析,形成網(wǎng)絡(luò)組織競爭情報產(chǎn)品。其中包括對網(wǎng)絡(luò)組織的新申請加入者的資信信息進行加工、整理和分析。
●依據(jù)各網(wǎng)絡(luò)組織成員的具體需求分發(fā)情報,共享情報。
據(jù)此,簡要構(gòu)建網(wǎng)絡(luò)組織競爭情報流程模式(見圖1),并指出各步驟競爭情報的主要內(nèi)容。
3.2兩種競爭情報流程模式的簡要比較
要對兩種競爭情報流程模式進行比較,就需要確定單一企業(yè)組織的競爭情報流程模式。綜合霍忠文先生和閻旭軍的情報過程鏈模型、王琦提出的四步驟流程模型、Jan Herring的競爭情報周期模型(CI Cycle)、包昌火五環(huán)節(jié)競爭情報過程模型、中央情報局情報分析與預(yù)測程序模型、Gates.B的競爭情報三環(huán)節(jié)模型、Kahaner.L的競爭情報四步驟模型、Calof和Breakspear(1999)的六環(huán)節(jié)情報流程模型、Calof(1997)和Kahaner(1996)的“競爭情報循環(huán)”模型等等中外有代表性的專家的觀點和理論,我們綜合出一個基于單一企業(yè)組織的競爭情報流程模型(模式),如圖2所示:
可以看出,與非網(wǎng)絡(luò)組織框架下的基于單一企業(yè)組織的競爭情報流程模式相比,網(wǎng)絡(luò)組織競爭情報的流程模式發(fā)生了明顯的變化,尤其是在第二環(huán)節(jié)“網(wǎng)絡(luò)組織競爭情報審計”和最后一個環(huán)節(jié)“網(wǎng)絡(luò)組織競爭情報共享”。后者基本上對應(yīng)于過去基于單一企業(yè)組織內(nèi)部的競爭情報活動過程的“競爭情報利用”或者“競爭情報擴散”環(huán)節(jié),還說不上是網(wǎng)絡(luò)組織競爭情報的基本流程環(huán)節(jié)發(fā)生了大的變化,但是“網(wǎng)絡(luò)組織競爭情報審計”環(huán)節(jié)的出現(xiàn),并且是作為第二個環(huán)節(jié)出現(xiàn),則標志著網(wǎng)絡(luò)組織競爭情報基本流程環(huán)節(jié)發(fā)生了顯著變化,因為這是網(wǎng)絡(luò)組織競爭情報流程模式新增加的一個具有獨立意義的環(huán)節(jié),這一環(huán)節(jié)不同于非網(wǎng)絡(luò)組織框架下單一企業(yè)組織的內(nèi)部情報審計,而是外向型的針對“他人”――潛在合作對象――的情報審計,而且非網(wǎng)絡(luò)組織框架下的單一企業(yè)組織的內(nèi)部情報審計也不是發(fā)生在其競爭情報流程的第二環(huán)節(jié)中,并且學(xué)術(shù)界也沒有把它作為一個獨立環(huán)節(jié)來對待。兩個流程模式的其它幾個環(huán)節(jié)從名稱上看沒有什么差別,但是由于所立足的“組織”背景的差別,導(dǎo)致所包含的具體內(nèi)容也有一些相應(yīng)的變化,由于前面已經(jīng)有所涉及,這里就不再贅述。
參考文獻:
[1]孫國強.網(wǎng)絡(luò)組織的內(nèi)涵、特征與構(gòu)成要素.南開管理評論,2001(4):38-40.
[2]梁建英.辨證地看待戰(zhàn)略聯(lián)盟中的合作與競爭.經(jīng)濟論壇,2005(5):79-80.
[3]曾忠祿.情報制勝――如何搜集、分析和利用企業(yè)競爭情報.北京:企業(yè)管理出版社,2000:251-254.
[4]何蘇華.企業(yè)核心競爭力與網(wǎng)絡(luò)組織風(fēng)險控制.佛山科學(xué)技術(shù)學(xué)院學(xué)報(社會科學(xué)版),2005(1):56-59.
[5]何蘇華.企業(yè)網(wǎng)絡(luò)組織利益、風(fēng)險及其控制.價值工程,2003(6):126-128.
相關(guān)熱詞搜索:差異性 探析 抽取 信息檢索與信息抽取差異性探析 信息抽取中關(guān)鍵技術(shù)研究 情報研究與競爭力
熱點文章閱讀