【可視化同被引分析技術綜述】 可視化研究綜述
發(fā)布時間:2020-03-07 來源: 感恩親情 點擊:
摘要 可視化同被引分析步驟主要包括選擇數據源、確定分析的元素、計算同被引頻次、對數據進行標準化處理、對數據進行降維和圖示、對圖形進行分析解釋。這些步驟中的關鍵技術在于對獲得的高維引文關系數據進行降維和圖示,目前應用較多的主要有聚類分析、多維尺度分析、因子分析、自組織映射神經技術、尋徑網絡技術、最小生成樹法、三角測量、力矢量布局算法等。其中尋徑網絡技術以其較好的圖示效果得到較多的應用。
關鍵詞 同被引分析 可視化 技術
分類號 G354.2
隨著信息可視化技術的發(fā)展,文獻計量學中的引文分析越來越多地借鑒信息可視化的技術,以形象、直觀的圖形方式顯現分析結果,使得結論更加具有說服力。在各種引文分析方法中,利用信息可視化技術最多的應屬同被引分析。最近幾年,通過可視化同被引分析生成學科知識圖在國外得到了蓬勃的發(fā)展,并被應用于科學結構的圖示、知識領域的顯現、學科前沿預測等方面。本文將對可視化同被引分析中涉及的一些關鍵技術進行分析和介紹,希望能夠對我國可視化同被引分析的研究與應用起到拋磚引玉的作用。
1 同被引的概念
同被引(co-citation)的概念是由美國人Henry Small在1973年提出的,他最初是以文獻為單位進行分析的,即如果兩篇論文a和b被一篇后來的文獻C同時引用,則a與b之間的關系稱為同被引關系。同時引用a和b的文獻越多,則a和b之間的關系越近,內容上的相似度越大。繼HenrySmall之后,1981年美國人Howard D.White把同被引的概念擴展到著者,進行了著者同被引分析。之后,學者們把同被引分析擴展到了學科、期刊甚至類目等,形成了文獻同被引分析、著者同被引分析、學科同被引分析、期刊同被引分析、類目同被引分析等。雖然分析對象不同,但這些不同類型的同被引分析有一個共同原理,就是同時引用兩個單元的文獻越多,則這兩個單元之間的同被引強度越大,兩者的關系越緊密。
2 可視化同被引的步驟和關鍵技術分析
可視化同被引分析的步驟,包含以下幾個過程:①根據要進行的研究選擇合適的數據源,抽取數據;②選定要分析的元素對象,例如期刊、論文、著者、類目等;③計算元素對象之間的同被引頻次,構造原始同被引頻次矩陣;④確定合適的相似度算法對原始同被引頻次矩陣進行標準化處理;⑤用一定的算法把多維數據在二維或三維空間中聚合并圖示出來;⑥對圖形進行分析和解釋。
考慮到操作和應用的便利,目前的一些可視化軟件常常把上述步驟中的④和⑤集成到一起供用戶選擇使用。由于可視化同被引分析是一個比較復雜的過程,以上每個步驟涉及到的技術也有很大差異,下面對這些關鍵技術進行簡要的對比分析。
2.1 數據源的選擇
進行同被引分析首先需要計算數據元素之間的同被引次數,這一般要依托某一引文數據庫的相關統(tǒng)計數據來進行,但是元素之間的同被引次數的多寡有可能隨所選擇引文數據庫的不同而有所區(qū)別。以我國中國科學院推出的《中國科學引文數據庫》和清華同方推出的《中國引文數據庫》為例:2007年3月,以同樣的數據獲取方式計算我國水稻研究專家袁隆平和程式華的同被引次數,在《中國科學引文數據庫》中,兩者的同被引次數為2;而在《中國引文數據庫中》,兩者的同被引次數則是6。造成這一差別的原因是兩個數據庫的期刊收錄范圍大小不一樣,前者只收錄核心刊,后者收錄范圍則比較廣。因此,作為同被引分析數據源的引文數據庫的選擇十分重要,既要保證最后計算所得的同被引次數不能過低,也要兼顧數據庫所選擇期刊的標準,因為引文數據庫期刊收錄范圍如果過于龐雜,容易使論文被引用作為影響力的測度標準失去公正性,被高水平的學術期刊引用一次和被一般推廣性科普雜志引用一次顯然是不等價的。國外學者做同被引分析一般選用《美國科學引文數據庫》(簡稱SCI)作為數據源。而國內目前可用的具有引文檢索功能的數據庫較多,這就需根據將要分析的專業(yè)學科范圍以及同被引次數獲得的難易程度來選擇。國內的幾個數據庫中能夠直接檢索獲得同被引頻次的有清華同方的《中國學術期刊全文數據庫》和重慶維普公司的《中國科技期刊數據庫》,對于其他幾個引文數據庫,則必須根據下載的引文數據,利用一定的程序進行計算,才能得到同被引頻次。
2.2 分析元素對象的確立
這里的元素對象既可以是期刊,也可以是成篇的文獻,或者是著者,或者是類目,甚至是學科類別。數據元素不同,所得到的學科知識圖反映的內容和作用也有所不同。
用期刊或類目或學科類別作為分析元素時,往往能夠圖示出科學的宏觀結構,可以顯示出比較大的主要學科專業(yè)之間的相對位置和關系,但有時也被用于對某一學科內各專業(yè)分支之間關系的圖示分析。例如,Kevin W Boackv、LoetLeydesdorff、J.M.Campanario、I.Samoylenko等人就分別對期刊引用關系進行可視化分析,展示了大科學的結構;而Kevin W.Boacky在其另一篇論文中,則用期刊引用數據對有關科技管理這一學科的領域結構進行了可視化顯示。
文獻(論文、專利文獻等)是同被引分析時最常用的數據元素,以文獻為元素進行可視化同被引分析生成的學科知識圖被廣泛應用于領域分析、文獻檢索、科學管理等方面。
以著者為分析元素時,比較常見的是通過著者的同被引關系來展示某一學科范圍內由不同著者代表的學科結構或劃分科學家群體等。
2.3 元素范圍的確定和原始同被引頻次矩陣的構造
這一步就是根據分析元素的特點選擇一定數量的元素,兩兩計算它們之間的同被引頻次,構造出原始同被引頻次矩陣。利用期刊或類目、學科作為分析元素時,可以根據要分析的學科范圍選擇該學科里的所有期刊或類目、專題學科;而利用文獻或著者進行可視化同被引分析構造某一專業(yè)學科的學科知識圖時,就涉及到文獻或著者的選擇問題。目前還沒有一個統(tǒng)一的方法,較為普遍又相對客觀的方法是通過被引用頻次的高低來確定,即通過檢索引文數據庫確定某個被引用頻次為閾值,選擇在閾值之上的文獻或著者。在選擇閾值時,一方面不能過低,過低容易使無意義的數據量增加太多,徒增工作量;同時也不能過高,過高有可能過濾掉重要的文獻或著者,不能全面代表該學科的研究狀況。確定好文獻或著者后,就要通過一定的方式計算文獻或著者的同被引頻次,以便構造出同被引矩陣。
目前計算著者或文獻的同被引頻次時,主要有以下三種方法:
?通過下載相關文獻和它們的參考文獻來計算。這是目前比較通用又相對簡便的一種方法,就是根據自己要分析研究的學科專題,從所選定的數據庫中檢索下載有關這一專題的所有文獻及它們對應的參考文獻條目,用一定的計算機程序來計算選定文獻或著者之間的同被引頻次。相對于用 下面的第二種和第三種方法在整個數據庫范圍內計算而言,這樣獲得的同被引頻次由于是在專業(yè)學科范圍內計算,數值往往較低,生成的可視化圖也有所偏差。
?直接在線手工檢索。這只能用于著者同被引分析。SCI過去曾經支持直接通過在線檢索獲得兩個著者之間的同被引頻次,但現在已經不再支持。國內的清華同方出版的《中國期刊全文數據庫》和維普公司出版的《中文科技期刊數據庫》現在有這方面的功能。
?根據選定著者發(fā)表的文獻和引用它們的文獻來計算。即對于選定著者,在數據庫中查找所有引用這些著者發(fā)表的論文的文獻,把這些文獻目錄進行處理,編寫一定的程序計算著者之間的同被引頻次。這種方法同樣是基于整個數據庫的統(tǒng)計來計算的。為了簡化數據處理過程,一般只計算著者作為第一著者與其他第一著者之間的同被引頻次。
2.4 數據的標準化處理技術
對于關系矩陣中的原始數據,從目前的研究情況看,有學者對其進行了標準化處理,有學者則主張直接采用原始數據。進行標準化處理一般采用皮爾遜相關系數法或Cosine法等。但在采用皮爾遜相關系數法時,由于SPSS軟件的限制,數據量不能超過256對。隨著可視化算法和軟件的開發(fā),有學者開始采用原始數據,并獲得了良好的效果。How-ard D White在2003年采用與1998年相同的數據對情報科學著者重新作的同被引分析中就是采用了原始同被引頻次。Steven Noel等把采用原始同被引頻次和經過皮爾遜相關系數轉換而所得的圖進行比較后認為,經過轉換,那些同被引次數高的元素(文獻或著者)和同被引次數低的元素(文獻或著者)的差別減少,顯示在圖上的結果就是未經轉換時居于中心的核心元素(文獻或著者)在轉換后其核心地位不再明顯。
2.5 引文關系數據的降維和圖示技術
經過上述幾個步驟形成的引文關系矩陣反映了各元素之間的關系的遠近,這是一個多維的空間關系,有多少個元素就有多少個維數,對多維數據之間的復雜關系進行可視化生成圖表必須進行降維處理,把高維的數據轉換成低維數據,從而在低維空間上簡單地表現高維空間中的復雜對象間的關系。目前在可視化同被引分析中應用較多的主要有以下幾種技術:
2.5.1 聚類分析 聚類分析是指把分析對象根據彼此之間的相關程度分成類群,使群內盡量相似,群間盡量相異,然后進行分析研究的過程。聚類分析的一般過程是計算分析對象之間的相似系數矩陣,然后把相似系數矩陣作為輸入數據,根據一定的聚類算法把分析對象分成類群。聚類方法有多種,但目前使用最多的是非重疊的、內在的,即把分類對象的各屬性數據同等對待,每個對象都只能屬于最后劃分成的類群之一,而不能同時屬于兩個以上的類群。在對引文數據進行分析,特別是進行同被引分析時,運用最多的是等級聚類法,并用樹狀圖表示結果。目前常用的統(tǒng)計軟件如SPSS等可以用來進行聚類分析,并生成樹狀圖。
用等級聚類進行數據分析,整個分析對象集合與任何最后分組之間有著很簡化的聯系路線,聚類結果樹狀圖中可以反映這種路線和聚類過程的細節(jié)信息。但是,等級聚類樹狀圖無法直觀反映對象之間的距離與結構關系。
2.5.2 多維尺度分析 多維尺度分析(MultidimensionalSealing,簡稱MDS)是指通過某種非線性變換把高維空間的數據轉換成低維空間中的數據,以疏密不同的散點在低維空間中近似地表現原高維數據間關系的一種技術。通過MDS可以在較低維空間中直觀地看到一些高維樣本點相互關系的近似圖像,該技術己經成為當今較流行的統(tǒng)計分析軟件SPSS中的一個分析模塊。雖然多維尺度分析中點的疏密遠近可以反映一定的類群關系,但不夠明確,同時由于是用散點方式代表分析對象節(jié)點,不能表示出對象節(jié)點之間的連接。因此,同被引分析中常把多維尺度分析與聚類分析結合起來使用。做法是首先用多維尺度分析把對象表示成平面上的散列的點,然后根據聚類分析的結果把這些點用線圈成點群,最后根據點與點之間、點與點群之間、點群與點群之間的位置關系進行分析研究。國外在20世紀90年代中期以前采用這種方式進行同被引分析的研究較多,近幾年國內學者在同被引分析研究中采用的也是這種多維尺度分析與聚類分析相結合的方法。多維尺度分析的一個局限性是由于通常借助于通用統(tǒng)計軟件SPSS來進行,而SPSS能處理的數據數量有限,特別是當對數據進行標準化處理時,如果用相似系數,則數據量不能超過100對。例如Howard D.White和MacCain在1998年對情報科學進行著者同被引分析可視化,采用多維尺度分析時就不得不把著者數量限制在頭100名著者。
2.5.3 因子分析 因子分析(Factor Analysis)是最早被應用于學科結構分析和圖示的降維技術之一。在分析處理多元素間的關系時,元素間的關系往往極為密切,使觀測數據反映的信息有重疊,因此,人們希望找出較少的彼此間互不關聯的綜合元素,盡可能近似地反映原來元素之間的信息,這些不可觀測的少數幾個綜合性的元素被稱為公共因子或潛在因子。表現在學科知識結構分析上,因子分析能夠把大量的數據歸結為少數幾類,從而把某一學科劃分成多個學科分支。但因子分析一般通過表格的形式反映分析結果,其圖示功能很差,現在一般僅作為輔助分析的工具,和其他降維圖示技術如多維尺度分析等配合使用。Chaomei Chen在進行著者同被引分析時,曾把因子分析和后文將要介紹到的尋徑網絡技術配合在一起使用。
2.5.4 自組織映射神經技術 Kohonen依據大腦對信號處理的特點,提出了一種神經網絡模型一自組織映射神經模型(Self-Organizing Feature Map,簡稱SOM)。這是一種無監(jiān)督的自組織和自學習網絡,主要功能是將輸入的N維空間數據映射到一個較低的維度(通常是一維或者二維)輸出,同時保持數據原有的拓撲邏輯關系。它與其他類型神經網絡的區(qū)別在于:它不是以一個神經元或網絡的狀態(tài)矢量反映分類結果,而是以若干神經元同時(并行)反映分類結果。這種特征映射神經網絡通過對輸入模式的反復學習,使連接權矢量的空間分布能反映輸入模式的統(tǒng)計特性。
SOM已經被應用于文獻的聚合分類圖示中,特別是網絡文獻。Xia Lin是第一個把SOM應用于信息可視化的人”。他的可視化系統(tǒng)Visual SiteMap就是利用SOM對從數據庫中挖掘出的概念進行了分類集簇和可視化顯示。而Campanario則利用SOM對期刊間的引用關系進行了可視化分析,生成了相關圖。
2.5.5 尋徑網絡技術 尋徑網絡(PathFinder Network Scal-ing,簡稱PFNET)是美國心理學家Schvaneveldt等人1989年提出的用來分析數據相似性的一個模型。它根據經驗性的數據,對不同概念或實體間聯系的相似或差異程度做出評 估,然后應用圖論中的一些基本概念和原理生成一類特殊的網狀模型。該算法對一個復雜網絡中衡量數據相似性的關系進行了簡化,檢查所有數據之間的關系,在所有可能的兩點路徑中只保留最強的連接,從而建立數據間最有效連接的路徑。最終結果是將數據以及數據之間的關系表達成一個圖,圖中節(jié)點表示數據,邊表示數據之間的關系。PFNFT有兩個重要參數:r和q。q是指路徑的最大長度,r參數是閔可夫斯基度量規(guī)則(Minkawski Metric),是計算路徑長度的一個參數。對PFNET的一些基本定義,這里不再詳細敘述,但根據其定義,有以下幾條規(guī)則:①任意點到其自身的距離為O;②對于邊不具有方向性的網絡,距離矩陣是對稱的,對于邊具有方向性的網絡,距離矩陣是非對稱的;③如果將網絡中的節(jié)點作為一個獨立的概念或實體對象,將節(jié)點間的邊看作是概念間的聯系,邊的權值表示聯系的差異程度,則根據該網絡生成的PFNET剔除掉了不必要的節(jié)點聯系,保證了把節(jié)點間最為密切的聯系保留在PFNET中。
近幾年,以Chaomei Chen等為代表的一些學者把PFNET應用于著者同被引分析的可視化中,并取得了良好的效果。
目前已經有商業(yè)化的軟件把PFNET算法和圖示功能融合在一起,最著名的就是PFNET算法的創(chuàng)始人Schvaneveldt及其同事開發(fā)的KNOT軟件,最初是運行在DOS操作系統(tǒng)上,現在已經有了基于Windows的版本。Howard D.White2003年采用1998年的有關情報學研究的著者同被引數據第二次對情報學學科結構進行可視化顯示,就是采用了KNOT軟件。
2.5.6 最小生成樹法 最小生成樹算法(Minimum SpanningTree,簡稱MST)與PFNET比較相似,其基本思想是:把所有的數據元素看成分布在一個平面上的距離不等的點,如果有n個點,那么連接各點的可能線路就應該有n(n-1)/2條線路,但是本著節(jié)約成本的原則,根據各點之間的距離建立不同的連通網絡,最后選擇總的線路距離最短的那個連通網絡。
Samaylenko等對期刊之間的引用數據進行分析,就是運用了MST算法來確定各期刊之間的距離。西班牙的FeilixMoya Anegont根據類目對大科學進行領域可視化時也是采用MST來計算各科學大類之間的距離。
最小生成樹(MST)和尋逕網絡(PFNET)優(yōu)于多維尺度分析(MDS)的一點就是生成的可視化圖中可以表示出對象節(jié)點之間的連接關系。
2.5.7 三角測量 三角測量(Triangulation)是一個把n維空間中的點排列到2維圖形的技術,其思想是隨機選擇其中的一個點,將其安排到一個位置,然后選擇在原來空間中與該點距離最短的第二個點放于另一位置,第三個點的位置則要根據它與前兩個點的相對位置構成一個三角形,依次把各點根據相似度計算所得的距離進行安排,最后使所形成的圖中的任意三個點都能構成三角形,并且各三角形的最小角最大。同其他的排列技術相比,三角測量的計算量較小,且所形成的圖形較準確地反映了單個數據點之間的距離。
Henry Small在其1999年發(fā)表的那篇文獻同被引可視化分析中就采用了三角測量技術,他所做出的“科學圖”是一系列的鳥巢狀的圓形互相嵌套,并以等級形式反映各學科之間的關系。
2.5.8 力矢量布局算法 力矢量布局算法(Force DirectedPlacement,簡稱FDP)是把本來屬于多維空間的節(jié)點按照它們之間的相似關系在平面圖上進行映射的一種技術。其基本思想是:把節(jié)點看做物理實體,把表示它們之間距離的邊看成提供連接兩點的力矢量。節(jié)點的移動和布局遵從局部能量最小的原則。
傳統(tǒng)的力矢量布局算法比較容易理解和操作,但是由于在對節(jié)點進行布局時,每增加一個新的節(jié)點都要對每個節(jié)點間的力矢量進行重新計算,因此在處理大量數據時速度很慢。最近出現了一些力矢量布局算法的改進模型,可視化軟件系統(tǒng)Vxlnsight就是采用了改進的力矢量布局算法,而Kevin W.Boyack等利用期刊引用數據對科學領域進行可視化分析就是采用了Vxlnsight。
3 研究展望
除了揭示著者之間的關系外,應用各種可視化同被引分析技術對期刊之間關系、類目之間關系甚至學科之間關系進行圖示的研究近年來在國際上有逐漸增多的趨勢。但是在進行可視化分析時,雖然已經有一些可供利用的軟件,但目前還沒有一個成熟的、能夠綜合各項技術供學者們選用的軟件包,要進行可視化同被引分析依然費時費力?梢灶A見,隨著各種可視化軟件系統(tǒng)的開發(fā),可視化同被引分析的各項技術也會更加豐富而有效,其應用范圍也將更加廣泛。
相關熱詞搜索:可視化 綜述 分析 可視化同被引分析技術綜述 大數據可視化技術綜述 同引分析與可視化技術
熱點文章閱讀