【文本可視化技術(shù)與競爭情報】文本可視化
發(fā)布時間:2020-03-10 來源: 人生感悟 點擊:
[摘要]競爭情報實踐離不開收集大量資料,在這些收集到的公開資料中有大量自由文本,從這類文本中正確高效地提取出情報是非常重要的。從可視化技術(shù)角度,把文本可視化分為文本內(nèi)可視化和文本間可視化技術(shù),并分別就這兩大類技術(shù)下的各類文本可視化技術(shù)的特點以及如何將它們應(yīng)用于競爭情報文本分析進行闡述,提出文本可視化是競爭情報分析的新的重要手段。
[關(guān)鍵詞]文本可視化 競爭情報 競爭情報分析
[分類號]G350
1、引言
目前對競爭情報沒有統(tǒng)一的定義,但無論中外,競爭情報都是指通過公開、合法的手段搜集各類信息,依靠對收集到的信息進行科學分析得到用于決策的情報…。當前資料的主要來源包括從各類媒體中收集公開報導,從公開的數(shù)據(jù)庫中收集學術(shù)文獻,從互聯(lián)網(wǎng)收集網(wǎng)頁、論壇、郵件等,收集的資料大部分都是半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本信息。如何高效地從中分析出有效的情報來支持決策,成為競爭情報研究的重要內(nèi)容。
競爭情報實踐借助IT輔助手段由來已久,而且計算機系統(tǒng)在競爭情報信息的收集、存儲和處理分析中已具有非常重要的地位。但一直以來從文本中分析出競爭情報所需內(nèi)容的工作卻很難借助計算機來自動完成。2000年由美國加州大學伯克利分校的Peter Ly-man和Hal Varian領(lǐng)導的團隊研究認為,當前人類每年新產(chǎn)生的數(shù)據(jù)量大約是2 EB(每EB相當于106TB),即便其中文本只占較少的比例,僅1999年當年新印刷的書也超過1 000 000本。以人類的閱讀能力,面對如此海量的數(shù)據(jù),且不要說從篩選的信息中分析到有用的情報,僅僅“篩選”就是不可能完成的任務(wù)。
如何讓人們能以最快的速度從大量以抽象數(shù)據(jù)形式存在的文本中獲得有效的情報,在競爭越來越激烈的互聯(lián)網(wǎng)時代是非常重要的。筆者認為把可視化技術(shù)應(yīng)用于文本處理是解決方案之一。
在人腦中,有70%的感知和40%大腦皮層的接受是與視覺有關(guān)的,與觸覺、聽覺等其他知覺相比,視覺的帶寬要寬得多。進一步的研究還表明,人們感知和記憶可視化圖像的帶寬是文本的2倍。可見對于圖像的認知能力使圖像成為人類最有效的交流方式,也顯示了用圖像來表達和傳遞文本信息的價值。
所謂文本可視化是指從文本中提取出一定的模式來生成圖形,用戶通過與可視化界面的交互來快速理解文本。當前文本可視化已經(jīng)形成了不少技術(shù),依據(jù)可視化的對象是著眼于文本內(nèi)還是文本之間,筆者把目前的文本可視化技術(shù)劃分成“文本內(nèi)可視化”和“文本間可視化”兩大類,它們都能在競爭情報中發(fā)揮重要的作用。
文本可視化的文本范圍包括:論文、書本、Web頁面、電子郵件、論壇中的評論、社交網(wǎng)站中的貼子和個人資料以及博客和微博中的博文等內(nèi)部沒有結(jié)構(gòu)、內(nèi)容千差萬別的“自由文本”。
2、文本內(nèi)可視化
文本內(nèi)可視化的主要目的是快速地從文本中找出重要的內(nèi)容,通過揭示內(nèi)容的結(jié)構(gòu)和內(nèi)容之間的關(guān)系幫助用戶快速獲取所需情報,通過劃分文本細節(jié)為用戶獲得情報進行導航,減少競爭情報分析人員在低附加值勞動中所花費的時間,提高分析工作時效。
文本內(nèi)可視化依據(jù)可視化呈現(xiàn)的特點可以分為詞匯索引式的文本可視化、基于詞頻的文本可視化和基于詞匯分布的文本可視化。
2.1 詞匯索引式的文本可視化
這類可視化從全文中搜索詞匯,把去掉停用詞后剩下的所有詞匯編成一個索引,通過索引來展示相應(yīng)詞匯在全文中的使用。圖1的左側(cè)圖中,左邊欄顯示的是所有的索引詞,通過鼠標點擊選中某詞,右側(cè)窗口會顯示文本中所有與該詞相關(guān)的句子。圖1的右側(cè)圖來自施樂PARC研究中心的SeeSoft,圖形每欄中的一行代表文本中的一個句子。通過選擇左側(cè)的詞,右側(cè)文本中與該詞相關(guān)的句子就會高亮地顯示出來。
詞匯索引式的文本可視化在競爭情報的分析中是非常有用的,比如,通過所形成的詞匯的統(tǒng)計數(shù)據(jù)可以讓競爭情報人員知道該文本所論述的主要內(nèi)容,并通過與之相關(guān)聯(lián)的句子快速從文本內(nèi)找到核心數(shù)據(jù)和主要內(nèi)容。如果是有目的地查找和檢索,則可以從相關(guān)詞匯在整個文本中的分布狀態(tài)快速判斷該文本的價值,從而從大量的全文閱讀中解脫出來,把更多的精力用于情報分析。
2.2 基于詞頻的文本可視化
基于詞頻的文本可視化是目前經(jīng)常被采用的一種方式。人們因某個詞在文本中反復出現(xiàn)而假定該詞是文中的重要詞匯,在把文本用可視化方式展現(xiàn)時,通過改變詞的大小、顏色、中心位置等方式把出現(xiàn)頻率高的詞顯示在重要、醒目的位置。
詞頻統(tǒng)計技術(shù)是文本挖掘的重要技術(shù),也是基于詞頻的文本可視化技術(shù)中除對于詞的“可視化映射”和“顯示技術(shù)”之外的重點技術(shù)。目前對于西文基于詞頻的可視化技術(shù)相對比較成熟:從全文抽取出所有詞匯,去掉停用詞后對所有剩余的獨特的詞建立統(tǒng)計表。建表的方式多種多樣,有些是用柱形圖,有些是放在數(shù)據(jù)庫的一個字段中。在統(tǒng)計的過程中,要運用一些如Porter Stemming等的算法對英文單詞進行原形化處理。
應(yīng)用相對詞頻計算(TFIDF,term frequency inverteddocument frequency)算法處理文檔中的詞以確定該詞的重要性。目前可以使用的TFIDF算法有很多,比較常見的計算公式為:
公式中w(t,D)為詞t在文本D中的權(quán)重,tf(t,D)為詞t在文本D中的詞頻,N為文本集中的文本總數(shù),n為向量的維數(shù),ti為向量第i個分量對應(yīng)的特征項,nti為總文本中出現(xiàn)ti的文本數(shù),nt為文本集中出現(xiàn)t的文本數(shù),分母為規(guī)范化因子。
在圖2中,左圖是目前常見的標簽云圖,它按照全文中所有詞匯出現(xiàn)的頻率來確定詞的大;右圖的中心詞匯是可以通過點擊鼠標來切換的,切換后中心詞的外圈是整個文本中曾與該詞匯搭配出現(xiàn)的詞,詞的大小是由出現(xiàn)的頻率決定的。
基于詞頻的文本可視化可以應(yīng)用于單個文本,也可用于大量文本集匯成的文本。這種技術(shù)在收集到數(shù)量大而對內(nèi)容毫無所知的資料時是非常有用的:把所有資料統(tǒng)一到大的文本集下,通過字云(見圖2左)技術(shù)快速了解最主要被使用的詞匯,從而知道文本集最主要的論述內(nèi)容,用于快速推斷文本集中所論述的主要研究領(lǐng)域、研究熱點。通過層次詞頻結(jié)構(gòu)(見圖2右)可以快速獲得競爭情報課題中感興趣的詞匯在文本或文本集中與哪些其他詞匯有共現(xiàn)關(guān)系,共現(xiàn)的緊密程度如何,幫助從大量文本中發(fā)現(xiàn)競爭對手、競爭環(huán)境中的危機和機會。如果文本集中的文本帶有時間戳,還可以快速發(fā)現(xiàn)變化趨勢。
2.3 基于詞匯分布的文本可視化
這種類型的可視化是用可視化方式呈現(xiàn)全文中與輸入的查詢條件一致的詞在文章中的分布情況,可以讓查詢者更清楚地了解返回文獻的內(nèi)容與自己需求的對應(yīng)關(guān)系,從而有針對性地選擇文獻。以來自加州大 學伯克利分校的TileBars為例:它會依據(jù)輸入的關(guān)鍵詞對于資料庫中所有資料進行全文分析,然后返回符合搜索條件的文本,而且用可視化的方式告訴你檢索詞在文獻全文中的頻率分布。
圖3中的長條代表著文獻全文,一行長條對應(yīng)一個檢索詞在文獻內(nèi)的情況,每一個矩形代表文章的一個自然段。對矩形顏色的灰度也有明確的定義:灰度越高,該檢索詞在該自然段出現(xiàn)的頻率越高;反之則頻率越低,當顏色為全白時,表明該檢索詞沒有在該自然段中出現(xiàn)。以圖3中的返回結(jié)果為例,文獻1較長,但提到“Information”的段落基本都沒提到“Visualiza-tion”,而文獻2中有3個自然段同時出現(xiàn)這兩個詞。如果分析的對象是“Information Visualization”,則文獻2的價值更高。
在當前信息充分豐富的情況下,“查全率”已不是最受關(guān)注的問題。當一次檢索返回成千上萬條查詢結(jié)果時,通過詞匯在整個文本中的分布示意使快速了解文本內(nèi)容相關(guān)度、找到最相關(guān)的資料成為可能。
3、文本間可視化
文本內(nèi)可視化研究的重點在于揭示文本內(nèi)部內(nèi)容的重點、內(nèi)部結(jié)構(gòu)之間的關(guān)系。而如果要看到多個文本之間的關(guān)系、多文本內(nèi)容的異同程度、一系列文本內(nèi)容的重點隨時間的變化情況等就要通過文本間可視化技術(shù)來展現(xiàn)。
3.1 基于時間序列的文本可視化
時間是文本的一個重要屬性,針對文本在時間上的關(guān)系進行可視化,同時在此基礎(chǔ)上進行一些特別的分析,可以發(fā)現(xiàn)多個文本背后的規(guī)律,是研究趨勢、技術(shù)發(fā)展的規(guī)律以及文章內(nèi)容的變遷等的有效工具。
圖4是通過ThemeRiver實現(xiàn)的對1990年6月至8月間超過100 000份西方國家主要報紙的報導所生成的可視化圖。圖中一種顏色代表一種主題,寬度代表頻率。從中可以看到白色和黑色在8月份突然得到高頻關(guān)注,這是因為8月2號Iraq入侵了Kuwait。該圖同時揭示了可視化圖從左到右始終持續(xù)地得到關(guān)注的主題:石油。
字云技術(shù)也是分析文本主題隨時間變遷常被用到的技術(shù)。The Daily Beast網(wǎng)站通過字云技術(shù)展現(xiàn)了美國從Woodrow Wilson到Barack Obama共計21位總統(tǒng)就職演講的字云圖,不必分別閱讀每位總統(tǒng)幾千字的演講全文,一眼就可以看到各自演講的重點;如果從時間角度對比,還可看到歷屆總統(tǒng)執(zhí)政重點的變遷過程,這是很重要的競爭環(huán)境的情報。
時間是競爭情報非常重要的分析對象,在競爭情報實踐過程中所收集的資料基本都是與時間有關(guān)的。傳統(tǒng)的分析方法很難把時間與文本分析結(jié)合起來,而借助基于時間序列的文本可視化技術(shù)可以快速揭示多個文本內(nèi)容背后的規(guī)則和模式。
3.2 基于主題地圖的文本可視化
基于文本主題的可視化技術(shù)是目前文本可視化應(yīng)用最多的方式之一。它可以讓用戶更直接地從海量文本中找出感興趣的文本集,在查準率的基礎(chǔ)上顧全查全率,還能得到通常只有通過內(nèi)容分析才能獲得的潛在關(guān)系。
文本主題的形成是在對文本進行全文抽詞的基礎(chǔ)上應(yīng)用某種TFIDF算法得到的,確定了主題詞后用該詞集通過某種向量空間模型在向量空間中表達該文本集,對于整個文本集通過多維尺度MDS、Isometric特征映射(1somap)等方式來降維處理,再通過自組織算法(SOM)和可視化映射表達為可視化的主題地圖。
以來自美國太平洋西北國家實驗室(Pacific North-west National Laboratory)的IN-SPIRE為例,其實現(xiàn)方式就是掃描源文本的全文或文摘,抽取出域和相應(yīng)的術(shù)語,再依據(jù)域到術(shù)語的索引生成“術(shù)語到域”的索引。通過FAST-INV算法生成把整個文本作為一個記錄的“術(shù)語到記錄”的索引。利用建立的索引發(fā)現(xiàn)相關(guān)聯(lián)的術(shù)語集群,形成N維的“主題”和“核心術(shù)語”,把記錄中全部M個詞分別去與這N維關(guān)聯(lián),形成關(guān)聯(lián)矩陣。對該關(guān)聯(lián)矩陣進行計算得到每個記錄(文本)中的知識標簽,這樣該文本就在一個高維的N維空間中占據(jù)了一個點。對文本集中的其他文本也采用同樣的方式進行處理,最終使每個文本都有自己在N維空間中的位置。然后通過計算這N維空間中各文本之間的標量距離進行聚類,再通過多維尺度降維算法把它投影到二維空間中形成如圖5所示的可視化圖形:
圖5中山峰和山谷表示主題與主題之間的關(guān)系。大量內(nèi)容相近的文本聚成山峰,其高度與該主題下的文本數(shù)相對應(yīng)。山峰之間的距離代表主題之間的關(guān)系,峰間距離越近則表示相應(yīng)文本的內(nèi)容相似度也高。
在競爭情報實踐中主題地圖可視化是非常高效的工具,收集到大量資料時情報分析人員首先要進行篩選找出相關(guān)資料。面對海量數(shù)據(jù)采用人工方式是不可想象的,而借助主題地圖文本可視化技術(shù)可以迅速了解這些資料的大致類別。如果只對某個主題有興趣,就只需研究組成該山峰的文本;如果是為了分析資料集中不同主題間的關(guān)系,也可以很直觀地實現(xiàn)。
3.3 基于引用關(guān)系的文本可視化
其可視化依據(jù)的是文本之間的引用關(guān)系,雖不是直接針對文本內(nèi)容,但因其可聚類內(nèi)容相似的文本,也可作為理解文本的重要手段。
通過對作者或文獻之間的互引、同引、同被引的可視化分析,應(yīng)用可視化圖譜中的引文網(wǎng)絡(luò)時序圖、共引網(wǎng)絡(luò)圖譜和時間線視圖等可揭示某個研究主題的論文或?qū)@脑搭^、最初著者及其發(fā)展脈絡(luò),可探測研究前沿隨時間變化趨勢,可以繪制各領(lǐng)域主流期刊和相關(guān)群體,揭示期刊、作者之間的相互關(guān)系和交叉關(guān)系。
知識圖譜的可視化方式目前已經(jīng)成為學科情報研究的重要手段。而把這種可視化方式應(yīng)用于對專利文獻間引用關(guān)系的分析,可以揭示競爭情報中非常重要的技術(shù)情報,用直觀的方式展示某個專利技術(shù)領(lǐng)域中核心的專利和技術(shù)及其重要的發(fā)明人,該領(lǐng)域技術(shù)的發(fā)展歷程等,對于企業(yè)創(chuàng)新技術(shù)、網(wǎng)羅人才、確定戰(zhàn)略方向等有重要的價值。
基于引用關(guān)系的文本可視化技術(shù)其可視化的重點是揭示網(wǎng)絡(luò)關(guān)系,因此,網(wǎng)絡(luò)可視化是其中最常用到的可視化技術(shù)。筆者認為在可視化研究領(lǐng)域,網(wǎng)絡(luò)可視化是與文本可視化處于平等地位的重要分支,相關(guān)的技術(shù)也非常多而復雜。鑒于其不是本文研究的重點,在此只就其在文本可視化中的應(yīng)用作簡單闡述。
在分析主題的基礎(chǔ)上對文本間的引用進行網(wǎng)絡(luò)分析,可以通過計算關(guān)聯(lián)主題數(shù)量的方法識別主題網(wǎng)絡(luò)中的核心主題和次要主題,關(guān)聯(lián)主題數(shù)量最多的為核心主題,其他為次要主題。
4、結(jié)論
網(wǎng)絡(luò)時代帶來的是競爭的全球化和對競爭響應(yīng)的高效化,讓人類擁有從來也沒有過的豐富信息資源,同時也給人們從中汲取有用情報帶來了困難。
雖然把可視化技術(shù)應(yīng)用于文本研究的時間并不長,但目前已取得一些卓有成效的成果,如已有不少國外圖書館采用可視化的檢索和搜索;主題地圖文本可視化方式已成為多個可視化專利分析軟件的重要組成部分,成為揭示技術(shù)研究熱點、空白點、技術(shù)變遷的重要分析工具;字云技術(shù)目前更是已經(jīng)成為很多需要快速揭示大量文本內(nèi)容信息的重要手段之一。
受中文自然語言處理技術(shù)的影響,文本可視化技術(shù)全面應(yīng)用于中文競爭情報文本的分析受一定局限,但通過本文的論述仍可看到文本可視化對競爭情報的價值。在快速響應(yīng)的網(wǎng)絡(luò)時代,傳統(tǒng)人工閱讀的方式已經(jīng)根本無法適應(yīng),自動摘要等文本處理技術(shù)也還存在很多不足。文本可視化在競爭情報中的應(yīng)用可以使知識發(fā)現(xiàn)的分析結(jié)果為更多、更廣泛的人群所理解,可以局部解決信息過載問題,在競爭情報研究、決策支持等相關(guān)領(lǐng)域發(fā)揮出巨大作用。相信解決中文文本處理只是時問的問題。
相關(guān)熱詞搜索:可視化 文本 競爭情報 文本可視化技術(shù)與競爭情報 技術(shù)先進的競爭情報分析 競爭情報分析的技術(shù)優(yōu)勢
熱點文章閱讀