中文信息處理 [基于中文信息處理的古籍整理研究評述]
發(fā)布時間:2020-03-07 來源: 美文摘抄 點(diǎn)擊:
[摘要]隨著計算機(jī)技術(shù)的飛速發(fā)展,基于中文信息處理的古籍整理已成為近年來的研究熱點(diǎn),并且取得一些可喜的成績。在搜集整理當(dāng)前研究與應(yīng)用成果的基礎(chǔ)上,從古籍的自動錄入、自動斷句、自動編纂以及自動翻譯等方面對基于中文信息處理技術(shù)的古籍整理的研究現(xiàn)狀進(jìn)行概述,同時分別探討這幾個方面仍然存在的問題,并展望其今后的研究工作。
[關(guān)鍵詞]古籍整理 中文信息處理 古籍研究
[分類號]G252.7
1 引言
在人類幾千年的歷史發(fā)展中,我們的先祖利用文言撰寫了大量的作品,例如:史書、筆記、方志、字書、詩詞、雜考等等。這些浩如煙海的古籍記載了華夏民族的歷史和輝煌,是極其珍貴的文化遺產(chǎn)。因此如何對它們進(jìn)行有效地整理和深入地研究是我們當(dāng)代科研工作者責(zé)無旁貸的任務(wù)。傳統(tǒng)古籍整理的方式一般都是人為的手工方式,這是一項(xiàng)極艱難極復(fù)雜的工作,需要大量的時間和耐心。但當(dāng)計算機(jī)出現(xiàn)以后,人們就期盼能用計算機(jī)來進(jìn)行古籍整理研究,而中文信息處理技術(shù)就是實(shí)現(xiàn)這一美好愿望的有效手段。
現(xiàn)在對中文信息處理通常的理解是:用計算機(jī)來加工處理中文的信息,屬于涉及計算機(jī)科學(xué)、認(rèn)知科學(xué)、語言學(xué)、信息學(xué)、數(shù)學(xué)、聲學(xué)等多種學(xué)科的一門綜合性交叉學(xué)科。中文信息處理包含漢字輸入、文字識別、語音識別、漢語分詞、語義分析、語言翻譯、信息檢索等多個分支。漢字輸入就是指將漢字信息輸入到計算機(jī),常見的輸入方法有鍵盤輸入和聯(lián)機(jī)手寫輸入;文字識別是指用計算機(jī)自動地識別出寫在介質(zhì)上的漢字,文字識別一般可分為印刷體識別和手寫體識別兩種;語音識別是計算機(jī)通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的信息處理技術(shù),具有代表性的方法主要有隱馬爾可夫法和神經(jīng)網(wǎng)絡(luò)法;漢語分詞就是指利用計算機(jī)自動地將一個句子中的每個詞分開,即類似于英語中用空格將每個單詞隔開,目前的分詞方法歸納起來有三種類型:機(jī)械分詞法、語義分詞法和人工智能法;語義分析指的是在分析句子的句法結(jié)構(gòu)和辨析句中每個詞詞義的基礎(chǔ)上,推導(dǎo)句義的形式化表示;語言翻譯就是用計算機(jī)來實(shí)現(xiàn)不同語言之間的翻譯,被翻譯的語言通常稱作源語言,翻譯成的結(jié)果語言稱作目標(biāo)語言;信息檢索是指計算機(jī)通過特定的算法或模型從各種信息文檔中搜索有價值的信息或知識的一種高技術(shù)。當(dāng)前越來越多的研究者將這些中文信息處理技術(shù)應(yīng)用于古籍整理研究中,尤其是在古籍的錄入、標(biāo)點(diǎn)、編纂等方面獲得了顯著的成果。
2 古籍自動錄入
傳統(tǒng)的古籍錄入方式多采用手工的形式,通過人為的鍵盤輸入或是聯(lián)機(jī)手寫輸入的方式將古籍中的文字輸入計算機(jī),這種方法要花費(fèi)大量的人力和時間,而且容易出錯。因此要實(shí)現(xiàn)古籍中的文字信息高速、自動輸入到計算機(jī),目前多采用光學(xué)字符識別(OCR)技術(shù)來進(jìn)行古籍的錄入。OCR技術(shù)可以高速地辨別紙張上的文字,并將其轉(zhuǎn)化為可編輯的文字。古籍自動錄入大致要經(jīng)過圖像掃描、預(yù)處理、版面分析、文字區(qū)域提取、文字識別、后處理等幾個步驟,具體過程如圖1所示:
古籍自動錄入技術(shù)運(yùn)用比較成功的例子是“數(shù)碼翰林”軟件,該軟件已經(jīng)制作了保持原書排版風(fēng)格的《四庫全書》及《四部叢刊》等電子圖書。古籍自動錄入技術(shù)最主要體現(xiàn)在古籍的數(shù)字化工作中,而到目前為止古籍?dāng)?shù)字化已經(jīng)取得了豐碩的成果,大量的古籍?dāng)?shù)據(jù)庫檢索系統(tǒng)不斷涌現(xiàn),例如北京大學(xué)的《全唐詩》和《全宋詩》電子檢索系統(tǒng)、陜西師范大學(xué)的《二十五史》全文檢索系統(tǒng)以及臺灣大學(xué)的中華電子佛典線上藏經(jīng)閣大正藏全文檢索系統(tǒng)等等。
盡管已經(jīng)有了成功應(yīng)用的實(shí)例,但是當(dāng)前古籍的自動錄入依然面臨著如下問題:
?古籍自動錄入的優(yōu)劣依賴于文字識別的質(zhì)量,然而文字識別本身就存在著諸如漢字類別較大、漢字結(jié)構(gòu)復(fù)雜且相似字較多等困難。
?現(xiàn)在的計算機(jī)漢字字庫中缺少古籍中經(jīng)常出現(xiàn)的冷僻字和異體字,例如漢字的賦中,作家為了炫耀自己的才能,往往羅列很多生僻字,有“字林”之譏,如《上林賦》、《子虛賦》,等等。
?經(jīng)常會由于儀器硬件設(shè)備的問題或古籍中的字跡不清晰,造成圖像掃描質(zhì)量差且存在大量噪聲,從而使得文字識別率低。
針對上述問題,今后研究工作的重心應(yīng)該放在提高文字識別的效率和完善漢字字庫上來,尤其是前者,魯棒性更強(qiáng)的文字識別技術(shù)對于古籍的自動識別是至關(guān)重要的。
3 古籍自動斷句
與現(xiàn)代人不同,古人寫文章是不用標(biāo)點(diǎn)符號的,因此要正確理解古籍中文章的詞義或句義,就需要斷句。斷句就是指把沒有標(biāo)點(diǎn)符號的文字,整理成為清晰可讀的句子。傳統(tǒng)的方式多為人工斷句,這種方式費(fèi)時費(fèi)力,因此最近很多研究者開始嘗試?yán)糜嬎銠C(jī)來實(shí)現(xiàn)古籍的自動斷句。古籍自動斷句的,大致要經(jīng)過文本預(yù)處理、文本斷句、結(jié)果反饋等幾個步驟,如圖2所示:
近年來,古籍的自動斷句開始成為研究的熱點(diǎn)。文獻(xiàn)中不僅給出了農(nóng)業(yè)古籍?dāng)嗑涞南到y(tǒng)結(jié)構(gòu)圖,而且還給出了一種基于模式匹配的斷句方法;該方法首先采用句法特征詞法、同義語標(biāo)志詞法來進(jìn)行初步斷句,然后利用反義復(fù)合詞、引書標(biāo)志、時序、數(shù)量詞、重疊詞、動名結(jié)構(gòu)及比較句法進(jìn)一步進(jìn)行斷句,最后使用農(nóng)業(yè)用語和禁用模式來提高農(nóng)業(yè)古籍?dāng)嗑涞臏?zhǔn)確性。文獻(xiàn)提出了一種基于前后N-gram模型的古漢語斷句算法;N-gram模型又稱作N元語法模型,它是一種基于統(tǒng)計的文本模型,其基本思想是將文本內(nèi)容按字節(jié)流進(jìn)行大小為N的滑動窗口操作,形成長度為N的字節(jié)片段序列,每個字節(jié)片段稱為gram,對全部gram的出現(xiàn)頻率進(jìn)行統(tǒng)計,并根據(jù)統(tǒng)計結(jié)果和預(yù)先設(shè)定的閾值對文本建立模型。文獻(xiàn)提出了一種以兩個統(tǒng)計量互信息和測試差為特征的條件隨機(jī)場模型,并將該模型應(yīng)用于古文的自動斷句;條件隨機(jī)場模型是一種對數(shù)線性判別模型,它最早由Lafferty等人提出,目的是為了解決當(dāng)時各種序列標(biāo)注模型存在的標(biāo)注偏置等問題,該模型在中文信息處理領(lǐng)域有著非常廣泛的應(yīng)用。
盡管目前古籍自動斷句的研究取得了一定的成績,但是仍然存在著如下的問題:
?當(dāng)前的一些方法獲得的古籍?dāng)嗑涞臏?zhǔn)確率很低,例如:文獻(xiàn)中的準(zhǔn)確率大概為48%,而文獻(xiàn)中的準(zhǔn)確率則為52%。
?自動斷句方法僅僅在少量的古籍中進(jìn)行驗(yàn)證,因此方法缺乏較好的泛化性,例如:文獻(xiàn)和文獻(xiàn)中的實(shí)驗(yàn)只在《論語》和《史記》進(jìn)行。
正是由于上述問題的存在,古籍自動斷句的研究才急切地呼喚著更多性能卓越的新方法的出現(xiàn),漢語分詞技術(shù)則可能是在今后會成為實(shí)現(xiàn)古籍自動斷句的重要手段,而最近的文獻(xiàn)中就已經(jīng)給出了相關(guān)的古漢語分詞方法。
4 古籍自動編纂
古籍的編纂就是指按照相關(guān)的主題來編輯古籍文獻(xiàn)。與錄入和斷句一樣,傳統(tǒng)的手工編纂,勞動量巨大,且繁瑣乏味的機(jī)械工作帶來更多的是低效率和高成本,因此利用計算機(jī)自動編纂古籍已成為大勢所趨。 古籍自動編纂需要確定編纂主題、文檔分析、文檔編纂等步驟,一般流程如圖3所示:
到目前為止與古籍自動編纂相關(guān)的文獻(xiàn)也有不少,文獻(xiàn)中介紹了一種農(nóng)業(yè)古籍自動編纂方法,該方法的主要原理是:如果兩個句子包含相同的單詞越多,那么它們的關(guān)系越密切,然后根據(jù)句子間的密切關(guān)系劃分出句群,如果發(fā)現(xiàn)某一句群包含編纂的主題,則將其摘錄出來,在實(shí)際應(yīng)用中,文獻(xiàn)通過提取子句關(guān)鍵詞、計算緊湊度和深度值等方式來最終實(shí)現(xiàn)農(nóng)業(yè)古籍的自動編纂。此外,文獻(xiàn)中以《道德經(jīng)》語詞索引自動編纂為例探討了古籍索引機(jī)編的相關(guān)問題。文獻(xiàn)中給出了一種基于N-gram模型、詞頻統(tǒng)計等算法的古籍文本抽詞方法,該方法的功能是從古籍文本中提取出大量明確表達(dá)文獻(xiàn)主題內(nèi)容的單義詞,主要的應(yīng)用場合包括各種詞表的編制以及索引的編制等等。
古籍的自動編纂是古籍整理的基礎(chǔ),高質(zhì)量的編纂對于古籍的研究具有非常重要的意義。然而目前古籍自動編纂的研究尚處于起步階段,因此這項(xiàng)工作還有更多需要解讀的技術(shù)難題,例如:文檔的分割、子句的劃分等等。盡管文獻(xiàn)中認(rèn)為古籍自動編纂與中文信息處理中的自動文摘技術(shù)既有聯(lián)系又有區(qū)別,兩者并不通用。但是筆者認(rèn)為隨著中文信息處理技術(shù)的發(fā)展以及古籍自動整理研究工作的深入,在今后自動文摘算法的思想是可以為古籍自動編纂所吸收和借鑒的,例如:基于統(tǒng)計的自動文摘技術(shù)就可以通過改進(jìn)用于古籍的自動編纂,而且有理由相信隨著未來用戶需求的變化,基于理解的自動文摘技術(shù)和基于信息抽取的自動文摘技術(shù)也將會對古籍自動編纂研究的發(fā)展起到巨大的推動作用。
5 古籍自動翻譯
由于語言習(xí)慣的逐漸發(fā)展,現(xiàn)代人如果不經(jīng)過專業(yè)訓(xùn)練,如果沒有古漢語知識的積累,那么在面對古代文獻(xiàn)時,總會感覺生澀難懂,而這些珍貴的古代文獻(xiàn)中不僅記載著中華民族的悠久歷史和燦爛的文化,而且凝聚著古代千千萬萬勞動人民的智慧與經(jīng)驗(yàn),因此要讓更多的中國人認(rèn)識和理解古籍文獻(xiàn)、學(xué)習(xí)和傳播古籍知識,古籍的翻譯是至關(guān)重要的前提。對于汗牛充棟的古籍。人工翻譯顯然是不現(xiàn)實(shí)的做法,而與計算機(jī)相結(jié)合的古籍自動翻譯則更為切實(shí)可行。簡單流程如圖4所示:
目前有關(guān)古籍自動翻譯的文獻(xiàn)非常少,僅文獻(xiàn)和文獻(xiàn)有涉及這方面的內(nèi)容。文獻(xiàn)中采用相對比較成熟的規(guī)則翻譯方法和實(shí)例庫相結(jié)合,利用中文信息處理技術(shù)的一些研究成果,初步構(gòu)造了一個古文自動翻譯系統(tǒng)。文獻(xiàn)中設(shè)計與實(shí)現(xiàn)了古今漢語自動句對齊及相似古文句子檢索算法,并且提出從大量的古今互譯實(shí)例中檢索與輸入句子最相似的源句子是基于實(shí)例的古今漢語機(jī)器翻譯必須解決的首要問題。
盡管當(dāng)前鮮有人進(jìn)行古籍自動翻譯的研究,但是并不表示這項(xiàng)工作沒有可研究之處,在今后,古籍自動翻譯的研究可以在如下方面做出初步的嘗試:
?將最新的實(shí)用機(jī)器翻譯技術(shù)用于古籍的翻譯。機(jī)器翻譯簡單地說就是用計算機(jī)將一種自然語言在沒有人參與的情況下翻譯為另一種自然語言,目前機(jī)器翻譯方法主要包括:基于規(guī)則的機(jī)器翻譯方法、基于中間語言的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯方法和統(tǒng)計機(jī)器翻譯方法。使用機(jī)器翻譯技術(shù)可以對古籍自動翻譯的研究產(chǎn)生重要的推動作用。
?設(shè)計古籍自動翻譯的評價方法。當(dāng)計算機(jī)翻譯了一段古文或一本古籍以后,翻譯的質(zhì)量如何是需要有一個衡量尺度的,因此研究古籍自動翻譯的評價方法有著非常重要的意義,當(dāng)前其評價方法可以采納或借鑒英漢機(jī)器翻譯的評價方法,例如:基于句法結(jié)構(gòu)的評價方法和基于測試集的評價方法等等。
?古文的英譯,即將文言文翻譯成英語。隨著社會的不斷發(fā)展,古文英譯可以更好地向西方展現(xiàn)輝煌的中華文明,促進(jìn)中西方文化的交流。
6 其他方面
基于中文信息處理的古籍整理除了古籍錄入、斷句、編纂和翻譯之外,還有如下方面值得今后進(jìn)一步的研究:
?古籍自動?。一個古籍可能又有多個版本,各版本之間由于傳抄、印刻中出現(xiàn)的差錯,而造成內(nèi)容差別很大,因此需要對古籍進(jìn)行校勘。古籍自動?笔侵咐糜嬎銠C(jī)自動發(fā)現(xiàn)并標(biāo)記出古籍不同版本之間的文字差異,并提供各種輔助工具幫助專家勘誤。盡管文獻(xiàn)中開發(fā)了古籍自動校勘系統(tǒng),但是其屬于實(shí)驗(yàn)系統(tǒng),缺乏實(shí)用性,并且自動?彼惴ㄒ灿写倪M(jìn)。
?古籍自動箋注。箋注工作的目的是通過注釋古籍中的一些冷僻字詞、典故出處等等來增強(qiáng)古籍的可讀性。文獻(xiàn)和中提出用計算機(jī)來完成古籍的箋注是行之有效的方法。
?輔助古典文學(xué)的研究。文獻(xiàn)中運(yùn)用了大量的篇幅來說明將中文信息處理中的信息檢索和語義分析等技術(shù)用于古典文學(xué)研究的重要性與可行性,而文獻(xiàn)則更是設(shè)計了一個對聯(lián)應(yīng)對程序。
7 結(jié)語
基于中文信息處理的古籍整理研究還處于初級階段,當(dāng)前僅僅在使用古籍自動錄入技術(shù)的古籍?dāng)?shù)字化工作上取得了豐富的實(shí)際成果,其他方面均缺少實(shí)用性和通用性強(qiáng)的成果,更多的只是在論文上見到的實(shí)驗(yàn)性結(jié)果,因此許多相關(guān)工作亟待科研工作者深入的研究和實(shí)踐。此外,現(xiàn)階段既精通信息處理技術(shù),又熟悉文言知識的人才非常缺乏,因此急需大力培養(yǎng)相關(guān)人才。盡管尚待解決的問題還很多,但是相信經(jīng)過眾多研究者的通力合作與不懈努力,新的基于中文信息處理古籍自動整理的方法將不斷涌現(xiàn),計算機(jī)代替手工來進(jìn)行古籍整理的美好愿望必將實(shí)現(xiàn)。
相關(guān)熱詞搜索:評述 古籍 中文 基于中文信息處理的古籍整理研究評述 古籍整理研究學(xué)刊目錄 古籍整理研究學(xué)刊2014
熱點(diǎn)文章閱讀