信息可視化設計教程【專題新聞文本集信息可視化研究】
發(fā)布時間:2020-03-07 來源: 美文摘抄 點擊:
[摘要]根據(jù)新聞要素說,提取專題新聞文本中的關鍵詞并進行預處理;采用向量空間模型表示文本,運用K―means算法實現(xiàn)文本聚類并構(gòu)建關鍵詞關聯(lián)網(wǎng)絡模型以實現(xiàn)文本的可視化。實例表明:該方法能直觀地顯示專題新聞文本集的主要信息,便于快速掌握新聞中的主體與事件的關系以及新聞關注點隨時間的變化,從而加深對信息的理解,有利于信息的充分利用。
[關鍵詞]信息可視化 文本信息 關聯(lián)網(wǎng)絡模型
[分類號]G203
1 引言
面對大量的新聞信息,人們迫切需要了解信息之間的相互關系及發(fā)展趨勢,發(fā)現(xiàn)隱藏在其中的本質(zhì)特征和規(guī)律?梢暬夹g可以直觀地展示新聞文本中的大量信息及其之間的關系,便于人們理解、掌握信息。
信息可視化是指非空間數(shù)據(jù)的可視化。Card等將信息可視化定義為:“使用計算機支持、交互性的視覺表示法,對抽象數(shù)據(jù)進行表示,以增強認知”。也就是說,信息可視化是使用直觀的方式展現(xiàn)原始數(shù)據(jù)間的復雜關系、潛在信息以及發(fā)展趨勢,其目的是為了更好地利用信息資源。關于信息可視化的研究主要集中在三個方面:理論介紹、算法與模型的介紹以及實際應用。20世紀90年代是信息可視化研究的初期,主要是理論的介紹,包括信息可視化的概念、內(nèi)涵、研究內(nèi)容等。其中,文本信息可視化是信息可視化的一種,可以分為兩類:一類是對單文檔的可視化;另一類是對多文本(文本集)的可視化。而基于時間信息的可視化模型是信息可視化研究領域的熱點問題之一,如時間墻模型和主題河流模型。這兩種模型都以時間為水平軸線展示文本信息,以發(fā)現(xiàn)文本主題的發(fā)展趨勢和隱含信息。此外,信息可視化模型還包括關聯(lián)分析模型和RDV模型。文本信息可視的方法主要有圖符標識法、高維空間描述法、自組織地圖算法及群集映射法。文本信息可視化的應用研究主要集中在文獻領域。如:Young Gil Kim等實現(xiàn)了專利文獻的可視化;Josiane Mothe則通過將文本在地圖上的可視化顯示,進行信息挖掘。在國內(nèi),鄭珩等針對國內(nèi)管理科學文獻進行可視化研究,任智軍等研究了科技文獻中的可視化分析技術。
現(xiàn)已提出的文本信息可視化模型大都按時間關系建立,能直觀顯示時間上文本間的關聯(lián),而對文本間深層次信息實體間的關聯(lián)則難以體現(xiàn),導致現(xiàn)階段文本信息可視化未能挖掘出文本中深層次的信息,僅停留在統(tǒng)計分析的基礎之上。因此,本文根據(jù)專題新聞文本集的特點,借助網(wǎng)絡,針對新聞文本內(nèi)容,構(gòu)建專題新聞文本集信息可視化模型,并以新浪網(wǎng)上四川汶川地震專題中關于災后重建的新聞文本集為例進行實證研究。
2 專題新聞文本集信息可視化流程
專題新聞文本集是多個關于某個專題新聞文本的集合,其可視化流程基本分為以下5個步驟。
2.1 提取關鍵詞
新聞具有五要素即who、when、where、what和why,因此每篇新聞文本都可以從這五個方面提取關鍵詞,代表每篇新聞文本的主要信息。為了簡化研究,突出事件的發(fā)展變化,本文只針對who,when和what進行研究。新聞文本一般直接寫明描述性特征who和when,但現(xiàn)在的一些新聞中常常省去when。由于新聞具有很強的時效性,當新聞中省略when時,可以用新聞電頭標注的時間代替。而對于語義特征要素what,關鍵詞的提取則需要根據(jù)研究目的,咨詢相關領域的專家并結(jié)合領域內(nèi)熱門搜索關鍵詞確定一系列初始關鍵詞,然后參考這些初始關鍵詞,根據(jù)新聞文本內(nèi)容提取。這樣,每篇新聞文本的信息就用描述性關鍵詞結(jié)合語義關鍵詞表示。
2.2 關鍵詞的預處理
一篇文本可以用多個關鍵詞表示,當多個文本聚合在一起時,關鍵詞數(shù)量巨大且分散而無規(guī)律可循,需要減少關鍵詞。根據(jù)描述性關鍵詞和語義關鍵詞的不同特點,采用不同的方法分別對兩者進行預處理。經(jīng)過預處理的關鍵詞構(gòu)成關鍵詞庫。
在新聞文本中,who和when是具體化的,因此提取的關鍵詞也是具體的。對于when,根據(jù)研究的專題新聞文本集的時間范圍,將時間粒度確定為日、月或年。對于who則可以進行語義泛化處理。例如,國家元首是國家政府的代表,可以將其泛化為某國政府。
泛化處理后的語義關鍵詞what數(shù)量可能仍然太大,可以根據(jù)不同的主體分別對語義關鍵詞進行主成分分析,得出不同主體的主要行為及其原因,以進一步減少關鍵詞。
2.3 文本聚類
文本聚類前常用向量空間模型對文本信息進行處理,稱為文本表示,其目標就是將文本表示成為帶權重的向量。一般使用“詞一文檔”矩陣表示一系列文檔。矩陣的每一列(1,…,j,…,n)代表預處理后的一個關鍵詞,矩陣的每一行(1,…,i,…,m)代表文本集中的一個文本。參照預處理后的關鍵詞庫,當?shù)趇個文本中含有關鍵詞j,那么矩陣中元素(i,j)的值為1,否則為0。所有的文本都可以用元素為0或1的向量表示。
文本集轉(zhuǎn)化為特征矩陣后,采用K-means算法進行文本聚類,需要先確定劃分的類別數(shù)目,即K的值(K≥2)。關于K值的確定可以參考專題新聞文本集中主體who的數(shù)量,也可以嘗試不同的值以得到最滿意的聚類結(jié)果。
2.4 構(gòu)建關鍵詞關聯(lián)網(wǎng)絡模型
由于每篇文本的信息都由關鍵詞表示,關鍵詞關聯(lián)網(wǎng)絡模型實際上是文本的關聯(lián)網(wǎng)絡模型。建立關鍵詞關聯(lián)網(wǎng)絡模型的基本步驟如下:
?確定每類文本的關鍵詞集合;谖谋镜木垲惤Y(jié)果,每類文本的關鍵詞都可以組成一個關鍵詞集D:(dt,…,dp,…,dq)。文本集劃分為K類,則有K個關鍵詞集。在每個關鍵詞集中,其元素d。具有唯一性。例如,文本A具有關鍵詞a,b,c,文本B具有關鍵詞c和d,那么這個文本類的關鍵詞集D=(a,b,c,d)。
?建立關鍵同的連接。當任意兩篇文本中含有相同的關鍵詞時,兩篇文本就可以以相同的關鍵詞為節(jié)點,建立連接關系。如關鍵詞c是文本A和文本B的公共關鍵詞,以c為節(jié)點,A和B之間就可以建立聯(lián)系。
?構(gòu)建關鍵詞關聯(lián)網(wǎng)絡模型。針對每個關鍵詞,計算其在同一個文本類中出現(xiàn)的次數(shù),以關鍵詞出現(xiàn)的次數(shù)作為其節(jié)點權值,同時查找包含這個關鍵詞的所有文本的時間要素,以這些文本中最早的時間作為關鍵詞的時間。如關鍵詞c在文本A中出現(xiàn)的時間是2008-5-24,在文本B中出現(xiàn)的時間是2008―6一l,那么關鍵詞c的時間是2008-5-24,其權值為2。
文本聚類將文本集分為K個文本類,每一個文本類都可以建立一個關鍵詞關聯(lián)網(wǎng)絡模型。根據(jù)以上步驟,將每一個文本類的關鍵詞關聯(lián)網(wǎng)絡模型連接起來構(gòu)成文本集的關鍵詞關聯(lián)網(wǎng)絡模型。由于任一文本都是用一系列關鍵詞代替,關鍵詞關聯(lián)網(wǎng)絡模型實質(zhì)上 是文本集的關聯(lián)網(wǎng)絡模型。
2.5 可視化顯示
可視化顯示就是將關鍵詞關聯(lián)網(wǎng)絡模型用直觀的、易于理解的圖形顯示出來。新聞文本具有很強的時效性,專題新聞文本集可以看作是一個時間序列集。在可視化顯示過程中,以時間為序,關鍵詞按照其出現(xiàn)的時間先后在圖形中顯示。用一個實點代表一個關鍵詞節(jié)點,點的大小代表這個節(jié)點的權值大小,即關鍵詞出現(xiàn)的頻率。同時將關鍵詞的時間標注在其實點下方。用弧表示關鍵詞之間的關系,弧的長度表示關鍵詞之間的時間間隔,弧越長表示時間間隔越長,反之時間間隔短;〉拇旨毚黻P鍵詞之間聯(lián)系的緊密程度,弧越粗表示聯(lián)系越緊密,反之聯(lián)系不緊密。
3 實證分析
3.1 數(shù)據(jù)獲取
以2008年5月24日至6月12日新浪網(wǎng)上四川汶川大地震專題新聞中關于災后重建的新聞文本為原始數(shù)據(jù)進行實例研究,其目的是直觀地顯示在災后重建過程中人們的關注點及其變化,共收集到75篇新聞文本。從who,when和what三方面提取關鍵詞。本次研究關注的是事件發(fā)生的時刻,而不是事件持續(xù)的時長,所以when提取的是事件發(fā)生的時刻。對what根據(jù)語法結(jié)構(gòu)進行分解即do what,以行為和行為實施的對象兩方面表示。參考網(wǎng)絡熱門搜索關鍵詞以確定災后重建過程中人們關注的行為及其對象,并據(jù)此提取新聞文本關鍵詞,從而構(gòu)成研究的原始數(shù)據(jù)。
3.2 數(shù)據(jù)處理
數(shù)據(jù)處理就是對收集的原始數(shù)據(jù),按照文本信息可視化流程進行處理:
?關鍵詞的處理。由于實例中新聞文本的時間跨度小,所以以天為時間單位。Who經(jīng)過抽象產(chǎn)生了8類主體。根據(jù)這8類主體分別對其行為及行為對象的關鍵詞進行語義泛化處理,目的是得到各類主體的關鍵行為及行為對象。
?文本聚類。由于有8類主體,采用K-means聚類將文本集分為8類。
?根據(jù)建立關鍵詞關聯(lián)網(wǎng)絡模型的基本步驟構(gòu)建關鍵詞關聯(lián)網(wǎng)絡模型。
3.3 可視化顯示及分析
構(gòu)建的關鍵詞關聯(lián)網(wǎng)絡模型如圖1所示,對其進行分析,可以得出以下幾點:
?實點表示的主體可實施各種行為,分別是政府、醫(yī)院、交通部門、個人、其他組織。灰點表示的既是主體又是對象,即可實施一定的行為也可接受其他主體對其實施的行為,分別是企業(yè)、學校、災民。在收集的新聞文本集中,關于政府和企業(yè)的報道最多,分別有32篇和15篇,所以這兩個點最大,說明政府和企業(yè)是災后重建過程中最受關注的兩個主體。
?空心點表示的是行為實施的對象,接受主體實施的行為。圖1中,用空心點表示的分別是過渡房、就業(yè)、家鄉(xiāng)、孤兒、政策、救災物資、傷員和學生。圖中過渡房、傷員、救災物資三點較大,說明過渡房、傷員、救災物資是災后重建過程中最受關注的對象。
?弧代表主體對對象實施的行為;〉姆较蛴芍黧w指向?qū)ο。政府實施的行為包括調(diào)控企業(yè)、轉(zhuǎn)移災民、頒布政策、救助災民、發(fā)放救災物資、重建學校;醫(yī)院主要是接收救治傷員;交通部門主要發(fā)揮運輸作用,運輸傷員、學生及救災物資;個人則捐獻救災物資及收養(yǎng)孤兒;其他組織主要是捐獻救災物資;企業(yè)的行為包括生產(chǎn)過渡房及提供就業(yè);學校接收學生;災民有入住過渡房、返回家鄉(xiāng)、外出就業(yè)等不同的行為。
?弧的粗細代表行為出現(xiàn)的頻率,表示主體與對象聯(lián)系的緊密程度。圖l中說明企業(yè)的生產(chǎn)調(diào)控,過渡房生產(chǎn)、災民轉(zhuǎn)移、救災物資發(fā)放使用、傷員救治及學生接收是災后重建中比較受關注的問題。
?弧的長短代表文本集中第一次m現(xiàn)該行為的時間與災后重建開始時間的間隔。從各行為第一次實施的時間來看,在災后重建前期,主要關注的是災民的轉(zhuǎn)移、救助、過渡房的生產(chǎn)、傷員的運輸以及救災物資的捐獻。隨著時間的推移,重建工作進一步深入,人們開始關注其他的一些問題,包括:災民返鄉(xiāng);企業(yè)為災民提供就業(yè)機會;政府對基礎設施的重建;學校接收學生復課的情況。
4 結(jié)論
本文借助網(wǎng)絡思想,基于新聞文本內(nèi)容構(gòu)建了災后重建專題新聞文本集的關鍵詞關聯(lián)網(wǎng)絡模型,直觀地展示了災后重建的動態(tài)發(fā)展變化過程、各主體的主要行為及其之間的關系以及人們關注點的變化,有利于人們快速了解災后重建的動態(tài)。但由于收集的新聞文本僅限于網(wǎng)絡媒體文本,原始信息缺乏一定的嚴謹性和權威性。且本文只對2008年5月24日至6月12日的新浪網(wǎng)上的文本信息進行分析,雖然具有一定的代表性,但是文本涉及的時間較短、數(shù)據(jù)不夠全面且數(shù)量有限,未能完全展示災后重建過程中的所有主體、事件及其之間的復雜聯(lián)系。此外,只針對新聞五要素中的when、who和what進行分析、研究,尚未融入where和why要素。下一步將進一步研究如何將這兩個要素融入可視化模型,從而更全面、深入地展示文本信息。
相關熱詞搜索:可視化 文本 專題 專題新聞文本集信息可視化研究 信息公開與新聞可視化 熱點新聞事件及評論
熱點文章閱讀