www.黄片视频在线播放,欧美精品日韩精品一级黄,成年男女免费视频网站,99久久久国产精品免费牛牛四川,99久久精品国产9999高清,乱人妻中文字幕视频4399,亚洲男人在线视频观看

科技文本挖掘及可視化_國外專利文本挖掘可視化工具研究

發(fā)布時間:2020-03-07 來源: 幽默笑話 點擊:

  [摘要]首先簡要介紹專利信息分析概念、專利分析的一般流程,專利分析工具可實現(xiàn)的主要功能;其次依據(jù)專利分析工具可分析的數(shù)據(jù)源,將分析工具分為非結(jié)構(gòu)化數(shù)據(jù)分析工具、結(jié)構(gòu)化數(shù)據(jù)分析工具和混合型數(shù)據(jù)分析工具三大類,并從分析工具類型、分析數(shù)據(jù)源、主要功能、結(jié)果呈現(xiàn)、用戶群5個方面對國外常用的12種專利文本挖掘可視化分析工具進行系統(tǒng)介紹和比較;最后對專利分析工具應(yīng)用及其發(fā)展提出建議。
  [關(guān)鍵詞]文本挖掘 可視化工具 專利分析 競爭情報
  [分類號]G353.1 G306
  
  隨著知識經(jīng)濟全球化進程的加快,專利文獻作為反映科技發(fā)展,特別是技術(shù)發(fā)展態(tài)勢的重要情報源,在科技戰(zhàn)略制定中發(fā)揮著日益重要的作用,如何對其開展有效分析,輔助政府部門、科研機構(gòu)、高新企業(yè)進行專利戰(zhàn)略布局和專利技術(shù)研發(fā),成為情報機構(gòu)開展情報分析、戰(zhàn)略決策的重要方向。專利分析離不開高效分析工具的支持,專利分析方法、分析工具的合理使用是決定信息分析水平、效率以及質(zhì)量的重要因素。本文首先對專利信息分析進行簡要概述,并對國外常用專利分析工具進行系統(tǒng)調(diào)研,以期為國內(nèi)人員開展專利信息分析工作提供借鑒。
  
  1 專利信息分析概述
  
  專利信息分析是競爭情報分析的重要形式,是在對專利文獻進行篩選、鑒定、整理基礎(chǔ)上,利用文獻計量學方法,對其所含的各種信息要素進行統(tǒng)計、排序、對比、分析和研究,從而揭示專利文獻的深層動態(tài)特征,了解技術(shù)、經(jīng)濟發(fā)展的歷史及現(xiàn)狀,進行技術(shù)評價和技術(shù)預測。
  專利信息分析流程分為準備期、分析期和應(yīng)用期三個階段。準備期是保證專利信息分析達到目標的基礎(chǔ);分析期是專利信息分析工作的主體,主要包括數(shù)據(jù)采集和數(shù)據(jù)分析兩個階段;應(yīng)用期是分析工作的延伸,是專利信息分析的價值體現(xiàn),各階段具體包括的內(nèi)容見圖。
  
  
  2 專利分析工具的主要功能
  
  隨著信息技術(shù)飛速發(fā)展,文本挖掘、信息可視化技術(shù)已被應(yīng)用到專利分析領(lǐng)域,眾多專利分析工具應(yīng)運而生,盡管不同分析工具各有專長,但總的來說專利分析工具功能主要有以下兩點:
  2.1 數(shù)據(jù)清洗
  數(shù)據(jù)清洗又稱數(shù)據(jù)規(guī)范,是影響專利分析效果至關(guān)重要的一步,其作用是為專利分析提供準確的數(shù)據(jù),主要包括:①對檢索到的專利文獻進行相關(guān)性篩選,將符合條件專利文獻納入分析數(shù)據(jù)集;②同一概念不同寫法進行規(guī)范,以消除同一概念、同一事物不同寫法造成的分析誤差。
  2.2 分析方法實現(xiàn)及其結(jié)果可視化顯示
  專利分析方法通常分為定性分析、定量分析和擬定量分析,分析工具可實現(xiàn)的方法主要包括基本統(tǒng)計分析、共現(xiàn)分析、聚類分析和引證分析4類:
  ?基本統(tǒng)計分析:是指依據(jù)專利文獻標引項,對專利申請時間、申請人、申請機構(gòu)、申請國家、同族專利量等指標進行統(tǒng)計,用于把握專利文獻分布狀況及其發(fā)展態(tài)勢。分析結(jié)果通常以列表、直方圖表形式展現(xiàn)。
  ?共現(xiàn)分析:是指相同或不同類型特征項信息共同出現(xiàn)的現(xiàn)象。通過對專利分類號、專利權(quán)人、申請時間、申請國、專利技術(shù)焦點等進行組配統(tǒng)計,用于揭示專利信息的內(nèi)容關(guān)聯(lián)和特征項所隱含的知識。分析結(jié)果顯示方式主要有共現(xiàn)矩陣和曲線圖。
  ?聚類分析:是指利用聚類技術(shù)將同一數(shù)據(jù)集中的專利,按照技術(shù)類別聚成不同的子類,以揭示該特定技術(shù)領(lǐng)域內(nèi)各個子領(lǐng)域的分布情況,分析各主要競爭對手專利分布情況。目前專利聚類主要基于主題,呈現(xiàn)結(jié)果可以按競爭對手和時間順序進行瀏覽。聚類結(jié)果展現(xiàn)方式主要有聚類地圖、結(jié)構(gòu)化數(shù)據(jù)聚類和非結(jié)構(gòu)化數(shù)據(jù)聚類。
  ?引證分析:是指對專利的引用和被引用情況進行分析。通過研究專利間的引用關(guān)系及其規(guī)律,探求技術(shù)間的聯(lián)系和發(fā)展規(guī)律,跟蹤不同技術(shù)專利網(wǎng)絡(luò),反映特定技術(shù)領(lǐng)域的生命周期以及競爭對手間的技術(shù)依賴關(guān)系。分析結(jié)果呈現(xiàn)主要有引證表、引證樹和引證地圖。
  
  
  3 國外常用專利分析工具
  
  本部分重點列舉國外常用專利分析工具,并依據(jù)分析工具可分析的數(shù)據(jù)源,將其分為非結(jié)構(gòu)化數(shù)據(jù)分析工具、結(jié)構(gòu)化數(shù)據(jù)分析工具和混合型數(shù)據(jù)分析工具三大類。
  3.1 非結(jié)構(gòu)化數(shù)據(jù)分析工具
  非結(jié)構(gòu)化數(shù)據(jù)分析工具是指用于分析專利全文、期刊論文、網(wǎng)頁內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)的軟件,主要包括ClearForest、OminiViz和TEMIS。
  3.1.1 ClearForest ClearForest是美國Thomoson Reuters公司開發(fā)的具有強大功能的文本分析工具,包括先進的文本標記抽取平臺、分析平臺以及開發(fā)環(huán)境。其最具特色功能是可以將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),如從論文、網(wǎng)頁等非結(jié)構(gòu)化文本中抽取相關(guān)詞語生成結(jié)構(gòu)化數(shù)據(jù),進而對結(jié)構(gòu)化數(shù)據(jù)進行文本挖掘,如分類、聚類,生成列表、共現(xiàn)矩陣、聚類圖等。此外該工具還提供文本分析可視化功能,用于挖掘類問隱含關(guān)系和發(fā)現(xiàn)新知識。
  3.1.2 OminiViz OminiViz是英國BioWisdom公司開發(fā)的一款單機版可視化數(shù)據(jù)分析軟件。該軟件有兩大特色:①分析數(shù)據(jù)類型廣泛,可對數(shù)值數(shù)據(jù)、分類數(shù)據(jù)、基因序列、化學結(jié)構(gòu)以及專利、論文等多種數(shù)據(jù)類型進行分析;②整合復雜的統(tǒng)計算法、文本算法對大規(guī)模數(shù)據(jù)進行分析生成可視化圖譜輔助用戶對數(shù)據(jù)的理解,可視化圖譜主要有Galaxy圖、CoMet圖、ThemeMap和聚類圖等。
  3.1.3 TEMIS TEMIS是美國TEMIS公司開發(fā)的一款用于商業(yè)智能的文本挖掘工具。其特色功能是支持概念化檢索,依靠強大的數(shù)據(jù)算法、語言學算法將多語種、多種文本類型的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),對其進行數(shù)據(jù)提取、分類、聚類等。TEMIS價格昂貴限制了在國內(nèi)的應(yīng)用。
  3.2 結(jié)構(gòu)化數(shù)據(jù)分析工具
  結(jié)構(gòu)化數(shù)據(jù)分析軟件主要用于對數(shù)據(jù)庫中的專利信息、文獻題錄信息進行分析,主要包括Thomson Data Analyzer(簡稱TDA)、VantagePoint、Quosa、RefViz、STN AnaVist和Vxinsight。
  3.2.1 Thomson Data Analyzer TDA是美國Thomson Reuters與Search Technology公司聯(lián)合推出的數(shù)據(jù)挖掘和可視化分析工具,由Search Technology公司的Van―tagePoint引擎提供技術(shù)支持。TDA除支持德溫特世界專利索引(DII)、Web of Science和Pubmed等常用數(shù)據(jù)庫外,還支持Excel數(shù)據(jù)的導入。TDA軟件提供強大的數(shù)據(jù)清洗功能保證了數(shù)據(jù)分析的準確性,支持基本統(tǒng)計、共現(xiàn)分析、聚類分析,并可自動生成列表、矩陣、聚類圖、報告等。
  VantagePoint軟件與TDA軟件功能基本類似,在此不再贅述。
  3.2.2 Qaosa Quosa是美國Quosa公司開發(fā)的一款集文獻檢索、全文下載、文獻管理分析于一體的單機版 文本挖掘工具。該軟件支持Ovid、PubMed、美國專利數(shù)據(jù)庫等的直接搜索,可將PDF全文下載到本地進行組織管理,并可對文獻進行概念提取和聚類。其文獻全文自動下載、最新進展追蹤、PDF文獻信息自動識別以及全文分析功能是同類文獻管理軟件所不具備的,但其分析功能與專業(yè)類文獻分析軟件相比功能還較少。
  3.2.3 RefViz RefViz是美國Thomson Reuters公司開發(fā)的單機版文獻信息分析可視化軟件。該軟件主要特色是具備強大的語義分析功能,可利用詞庫工具對數(shù)據(jù)進行清洗,分析結(jié)果可生成Galaxy視圖和二維矩陣視圖。但是RefViz僅能分析結(jié)構(gòu)化數(shù)據(jù),如來自文獻數(shù)據(jù)庫或文獻管理軟件的文獻題名、摘要、主題詞等信息,不能分析非結(jié)構(gòu)化數(shù)據(jù)。
  3.2.4 STN AnaVist STN AnaVist是美國化學協(xié)會分支機構(gòu)化學文摘服務(wù)社(CAS)與FIZ Karlsruhe開發(fā)的一款科技文獻、專利文獻文本分析可視化軟件。該軟件可對化學文摘、DII、歐洲專利和美國專利等多個數(shù)據(jù)庫進行分析,并可利用CAS詞表對機構(gòu)、技術(shù)術(shù)語進行數(shù)據(jù)規(guī)范。其主要特色是可采用聚類技術(shù)生成研究內(nèi)容全景分析圖。
  3.2.5 Vxinsight Vxinsiht是美國能源部桑地亞(sandia)國家實驗室開發(fā)的一款免費的單機版文本分析可視化軟件。該軟件的主要特色是采用三維虛擬地圖的形式來模擬聚類信息,以揭示科技文獻、專利、蛋白、基因問的相關(guān)性。
  3.3 混合型數(shù)據(jù)分析工具
  混合型數(shù)據(jù)分析軟件是一類可分析結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的軟件,主要包括Aureka,M-CAMDoors,Wisdomain和PatAnaIyst,這些工具都整合了專利數(shù)據(jù)庫檢索功能。
  3.3.1 Aureka Aureka是美國Thomson Reuters公司開發(fā)的在線知識產(chǎn)權(quán)管理分析平臺,提供專利檢索、管理、分析(專利引證分析、專利地圖分析等)、預警等功能。在專利分析方面,ThemeScape提供聚類分析可生成專利地圖,Citation Tree提供引文分析可生成引證樹,揭示專利信息間的相互關(guān)聯(lián),為用戶技術(shù)研發(fā)與自主創(chuàng)新、專利評價與評估、專利權(quán)保護、企業(yè)聯(lián)營與合作或兼并等的生產(chǎn)經(jīng)營決策活動提供幫助。該軟件數(shù)據(jù)清洗功能較弱是其主要不足。
  3.3.2 Wisdomain Wisdomain是美國Wisdomain公司開發(fā)的一個專利分析解決方案,整合FOCUST、PatentMagnet、PatentFamilyTree、PatentLab-II 4個工具,支持美國、歐洲、中國、日本、韓國、世界PCT專利檢索以及Inpadoc法律狀態(tài)檢索,提供基本統(tǒng)計、共現(xiàn)分析和引證分析功能,分析結(jié)果可以列表、聚類圖、引文圖、二維或三維圖形顯示。
  3.3.3 Delphion專利信息平臺 Delphion是美國Thomson Reuters公司開發(fā)的專利信息服務(wù)平臺,集成Snapshot、Corporate Tree、PatentLab-II、Text Clustering、Citation Link 5個工具,分別提供在線分析、公司名稱規(guī)范、列表和直方圖等圖表生成、文檔聚類、引文分析功能。該平臺收錄范圍廣、整合分析工具多是其主要特色,但其按服務(wù)項目、專利下載數(shù)量收費的服務(wù)模式,使得一般用戶難以承受其高昂的費用。
  3.4 專利分析工具比較
  以上對國外常用的非結(jié)構(gòu)化數(shù)據(jù)分析工具、結(jié)構(gòu)化數(shù)據(jù)分析工具、混合型數(shù)據(jù)分析工具進行了簡單介紹,下面將從分析工具類型、分析數(shù)據(jù)源、主要功能、結(jié)果呈現(xiàn)、用戶群5個方面,對12個分析軟件進行比較,見表2。
  非結(jié)構(gòu)化數(shù)據(jù)分析工具,主要基于語義分析技術(shù),將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),進而利用強大的分析功能對其進行分析。這三款軟件中,ClearForest、TEMIS價格昂貴,限制了在國內(nèi)的應(yīng)用;Ominiviz為單機版軟件使用便捷,除具有文本挖掘功能外還具有強大可視化功能,其可視化功能在眾多軟件中尤為出眾。
  結(jié)構(gòu)化數(shù)據(jù)分析工具,主要用于分析結(jié)構(gòu)化數(shù)據(jù)。TDA是目前國內(nèi)科技文獻、專利文獻分析應(yīng)用較多的軟件,支持20多種文獻數(shù)據(jù)源,是目前已知文獻信息分析工具中支持數(shù)據(jù)最為廣泛的軟件,且支持Excel文件(含中文)的導入;此外該軟件具有強大的數(shù)據(jù)清洗功能、自動生成專利報告功能,這些功能是其他軟件無法比擬的;但是TDA在專利地圖制作、文獻結(jié)果可視化方面還存在不足,在專利分析中需與其他專利分析工具聯(lián)合應(yīng)用。Quosa和Refviz主要用于期刊文獻的管理和分析,支持數(shù)據(jù)源較少;STN AnaVist自帶技術(shù)術(shù)語、機構(gòu)分析詞表可用于專利文獻數(shù)據(jù)清洗,但對大規(guī)模數(shù)據(jù)庫的清洗仍是該軟件面臨的巨大挑戰(zhàn)。Vxinsight是本文介紹的分析工具中唯一一款免費的軟件,主要特色是可以生成二維、三維聚類地圖用于揭示專利、文獻間的關(guān)系,但該軟件在專利分析方面功能較弱。
  混合型數(shù)據(jù)分析工具,除提供專利分析功能外,還提供專利文獻檢索、數(shù)據(jù)下載功能,文中提到的三個分析工具分析功能完備,均具有數(shù)據(jù)清洗功能,提供基本統(tǒng)計、共現(xiàn)分析、聚類分析、引文分析(僅對美國專利進行分析),并可對分析結(jié)果進行可視化顯示。但這三個工具在專利分析方面各有其優(yōu)勢與不足,如Aureka可采用聚類分析生成主題(詞匯)地形圖,用于專利技術(shù)主題分布研究,而在專利國家、機構(gòu)分析分析方面由于缺乏數(shù)據(jù)清洗功能,分析結(jié)果準確性不足:Wisdomain僅能分析自帶數(shù)據(jù)庫檢索結(jié)果,不具有數(shù)據(jù)導入功能;Delphion主要用于專利數(shù)據(jù)檢索,在數(shù)據(jù)分析方面相比Aureka和Wisdomain功能較弱。
  
  4 結(jié)語
  
  專利分析工具是順利開展專利信息分析的重要保障,分析工具的好壞將直接影響專利分析的效率和結(jié)果的準確性,在應(yīng)用專利分析工具時,還應(yīng)注意以下幾點:
  ?融會信息分析思維,選擇恰當分析工具。國外專利分析工具眾多,在開展專利分析工作時,應(yīng)根據(jù)不同的分析目的、擬解決的問題,結(jié)合不同分析工具的主要功能,選擇恰當?shù)姆治龉ぞ。由于國?nèi)購買國外產(chǎn)品途徑不暢、價格較高等原因,目前國內(nèi)應(yīng)用較多的主要有TDA、Aureka和Ominiviz。
  ?結(jié)合人工干預,提高分析質(zhì)量。高質(zhì)量專利分析報告的完成離不開對專利文獻的文本挖掘,但是僅有文本挖掘工具或信息技術(shù)專家是不夠的,還需要具備專業(yè)知識背景專家的干預,因此在專利分析工具使用中,從數(shù)據(jù)檢索、數(shù)據(jù)規(guī)范、數(shù)據(jù)分析以及結(jié)果的解釋都離不開人工的干預以及專家的支持。
  ?分析工具尚不完善,分析功能有待進一步提升。隨著文本挖掘和信息可視化技術(shù)的應(yīng)用,專利分析工具中有了較大提升,但仍存在一些不足,如多數(shù)據(jù)源融合度低、數(shù)據(jù)清洗功能弱、知識挖掘程度淺等,相信隨著自然語言處理、人工智能創(chuàng)新技術(shù)的不斷進步,分析工具功能將不斷完善。

相關(guān)熱詞搜索:可視化 挖掘 文本 國外專利文本挖掘可視化工具研究 可視化分析工具 文獻檢索工具有哪些

版權(quán)所有 蒲公英文摘 www.91mayou.com