[用于引書識別的引書引用模式研究] 用于行文中直接引用的部分
發(fā)布時間:2020-03-07 來源: 日記大全 點擊:
[摘要]現(xiàn)代信息技術(shù)飛速發(fā)展,為古籍引書計算機識別提供了可能性。本研究的目的是研究古籍引書的引用模式,進而探討模式識別方法在引書識別中的應用。具體方法是以明、清及民國時期廣東地方志中有關(guān)物產(chǎn)門目資料(《廣東方志物產(chǎn)》)為語料,抽取所有引書的引用模式(引書名稱及其表達方式),分別對引書名稱模式和引用表達方式進行研究。
[關(guān)鍵詞]引書模式 引書識別 引用表達模式 模式識別
[分類號]G254.361 H08
1 古籍引書研究概況
引書的形成,經(jīng)歷了一個從修辭手法到著述體例,再到文獻體式(著述體例形式,如著述、編述、鈔纂)的過程。先秦儒家以“五經(jīng)”為代表的典籍引用了大量的民間諺謠、流行俗語、先賢言論、前代典故,作為修辭手法;漢代,為給儒家經(jīng)典作箋注,需要引經(jīng)據(jù)典、廣征博引,在箋注的過程中,引書逐漸形成為一種重要的著述體例;曹魏時以分類撰抄為特色的類書《皇覽》把引書發(fā)展成中國古代典籍的一種獨特的文獻體式。
有關(guān)古籍中引書的挖掘整理研究,當始于漢代劉向的《戰(zhàn)國策書錄》、《管子書錄》等考訂戰(zhàn)國典籍引書的文獻。此后歷代繼有研究,至清為盛。但這些有關(guān)引書的研究,主要集中于某一典籍引書的考訂,甚少有引書識別方法研究,這種引書研究的學術(shù)傾向一直延續(xù)至今。而其間也偶有引用方法研究,如明末清初顧炎武的《論引書》一文,曾談及引用方法和引用規(guī)范問題;清朝后期的陳澧撰《引書法示端溪書院諸生》,以專文形式論述引用方法和規(guī)范。
近年出版的引書研究的學術(shù)論著主要分考訂引書、從引書角度研究典籍或引書的學術(shù)價值、引書索引的編制三種類型。①考訂引書,又如伍野春在《裴松之引書辨析》一文中,提出了裴注三國志引書識別的標準,并以此標準來識別、類分其中的引書,如程金造在《史記索隱引書考實》一書中,列出了《史記索隱》中的引書,并為之撰作提要。②從引書的角度研究典籍或引書的學術(shù)價值,如熊桂芬在《從引書看的文獻學價值》一文中,從引書的角度探討了典籍《廣韻》的文獻學價值,又如李伯勛。在《裴注所引書的史傳文學價值》一文中,探討了引書的史傳文學價值。③引書索引的編制,是從目錄學角度研究引書,貢獻最大的當數(shù)1930年成立于北京的哈佛燕京學社引得編纂處編制64種引得中有14種涉及中國典籍的引書引得成果。
20世紀80年代以來,計算機迅速普及,使得現(xiàn)代信息技術(shù)環(huán)境下利用計算機識別、挖掘古籍中的引書成為可能。通過計算機挖掘引書,可以為引書識別提供一種新技術(shù)、新方法和新思路,并可以快速、齊全、準確地識別引書,從而提高引書索引的編制速度。但是如何把計算機技術(shù)和古籍整理知識結(jié)合起來,多、快、準地挖掘引書,成為十分重要的難題。筆者試圖以古籍整理為研究對象,從語言學角度出發(fā),研究古籍引書的引用模式(引書名稱及其表達方式),為計算機挖掘引書拓展思路和方法。本文將以《廣東方志物產(chǎn)》中的引書為對象,探討引書的引用模式。
2 引書名稱引用模式
在古籍中,不同作者引用文獻時,往往依據(jù)行文、個人學養(yǎng)和習慣,采用不同的引書名稱,有的用書名全稱,有的用簡稱和異稱,有的只用作者姓名,還有的則是作者姓名和書名全部引用。在《廣東方志物產(chǎn)》(1949年以前的379部廣東地方志有關(guān)物產(chǎn)門目資料)中,引書名稱的引用大致分為三種情況:文獻名稱、作者名稱、作者名稱+文獻名稱。
2.1引用文獻名稱
文獻名稱有全稱、簡稱和異名三種情況。全稱也nU全名,是文獻的正式名稱;異名是不同于全稱的另外名稱;簡稱是對正式名稱的縮簡稱呼,從字面上看也不同于正式名稱,實際上是異稱的一種,因此,筆者把異名和簡稱統(tǒng)稱為異稱。①引用全稱,這種現(xiàn)象在《廣東方志物產(chǎn)》中十分普遍,如《清?乾隆27年潮州府志》之“綽菜”條:“綽菜/南方草木狀綽菜夏生于池沼問葉類茨菰根如藕條食之令人思睡故又呼瞑菜”,引用的就是全稱。在整個《廣東方志物產(chǎn)》中,引用“南方草木狀”全稱的就有533次,其他引書引用全稱亦為通行。②引用異稱,這種情況亦如全稱一樣普遍,如《民國13年陽江縣志》之“戴勝”條:“戴勝/色灰綠大如脊鴿顱有髻高六七分南海謂其雄者丁髻郎雌者丁髻娘陽江謂之丁髻顱或謂之冠髻南越筆記”,這里的《南越筆記》是《粵東筆記》的異名;再如《清?光緒16年高州府志》之“淖樹”條:“淖樹/干葉俱似椿其葉煮汁漬果呼淖汁出高涼郡詳草木狀未知今何樹”,引用的就是《南方草木狀》的簡稱――《草木狀》。不同的志書,有的引用正式名稱,有的引用異名,但在同一部志書中不會出現(xiàn)既引用正式名稱又引用異名的現(xiàn)象,而既引用全稱又引用簡稱則很普遍。
2.2引用作者名稱
引用作者名稱也很普遍,如《清?光緒18年吳川縣志》之“赤小豆”條:“赤小豆/此豆以緊小而赤黯色人藥稍大而鮮紅淡紅者并不治病李時珍日小而色赤心之谷也其性下行通小腸入陰分治有形之病參群芳譜采訪冊”,這里引用的“李時珍”實際上指的是《本草綱目》。只是引用作者姓名的,多為名人名篇,使人一看作者姓名就知道引用的是哪篇文獻或哪部典籍。若一個名人只有一種名著的,判別起來不困難,但是多數(shù)名人不止一種名著,這種情況的識別則是十分不易,除需要深厚、淵博的學識外,常常還需把引用的內(nèi)容與該作者的著作一一核對,才能確定引自哪篇文獻!稄V東方志物產(chǎn)》中引用的“蘇東坡”、“郭璞”作者姓名,識別起來非得逐一核對原典不可,因為他們的名典與引用次數(shù)也多。當然,也有引用作者別名和字號的情況,如蘇東坡的全部名稱為:姓蘇,名軾,字子瞻,又字和仲,號東坡先生,還有稱蘇公、坡公的情況,蘇東坡只是其號。象蘇東坡這種名號齊全的作者,筆者必須清楚其全部名稱,才能準確、全面地識別其引用情況。
2.3引用作者姓名+文獻名稱
這種情況不是十分普遍,有兩種情況:①作者姓名+文獻正式名稱,如《清?道光2年廣東通志》之“吉利草”引用的是《嵇含南方草木狀》,是書名全稱;②作者姓名+文獻異稱,如《民國19年龍山鄉(xiāng)志》之“茉莉花”條引用的是《嵇含草木狀》,是書名簡稱。
以上三種引書名稱引用模式,是《廣東方志物產(chǎn)》中普遍存在的現(xiàn)象。利用計算機識別時,須建立三種對應的引書名稱數(shù)據(jù)庫,設計合理的算法,逐一匹配文獻,方能較準確全面地識別出引書,否則會出現(xiàn)重復識別或遺漏的窘?jīng)r。
計算機不是萬能的,在目前技術(shù)條件下,必須與人的專業(yè)知識結(jié)合起來,才能挖掘古籍中的引書。
3 引用的表達方式
3.1概況
筆者在整理《廣東方志物產(chǎn)》資料時,發(fā)現(xiàn)這樣一個的語言學現(xiàn)象:古人在引用文獻時,為使句子語法完整、語義協(xié)調(diào),通常在所引用的文獻后面加上“云”、“日”等言說謂語動詞,如“本草綱目云”、“五山志林 日”,等等,稱之為引用表達模式詞,或引用方式規(guī)則。此類謂語動詞之前、后或中間,就是引書名稱(文獻名稱、作者名稱、文獻名稱+作者名稱之一)。
《廣東方志物產(chǎn)》共有31670次引用,筆者從此龐大的數(shù)據(jù)中,逐一剔除引書名稱和作者名稱,最終獲得60種引書表達模式,為計算機處理需要,依模式詞(規(guī)則)位置分為前標志型、后標志型和封閉型三種,如表1所示:
表1是從《廣東方志物產(chǎn)》中提煉出來的所有引書表達模式,封閉型模式類型最多,前標型最少。但是使用次數(shù)最多的是后標型,遠遠高于其他兩個類型。這說明《廣東方志物產(chǎn)》的引書多使用封閉型引書表達模式,可能是中國古代漢語的本身特點要求所致。
3.2舉例分析
3.2.1前標志型
前標志型的模式詞置于引書之前。①“按……”、“案……”意義相同,都是“案語”之義,是編輯、注釋或引用原文的人所附加的對原文有所評論、說明或考證的話。如《民國9年赤溪縣志》之“菠棱”條:菠棱/按劉禹錫嘉話出西域頗棱國訛為菠棱云俗呼波菜;再如《民國32年豐順縣志》之“海棠”條:海棠……案李德;居浄不久U呓詮暮M鈦砣绾L闹愂且病。這是從不同的引書中考證物產(chǎn)。②“本…”、“出…”、“據(jù)…”、“根據(jù)…”、“載…”,是依據(jù)、出處、來源的意思!氨尽笔恰霸闯觥敝x,“據(jù)…”是“根據(jù)…”的縮寫,“載…”的意義是“該段引文記載在某某引書”,其實質(zhì)也是指明出處。如《清?咸豐7年瓊山縣志》之“刀魚”條:刀魚/爾雅謂之觸刀郭注云今之觜魚也狀如長薄尖刀故名刀俗改作紉非本正字通;《清?道光23年英德縣志》之“胡蔓草”條:胡蔓草/即斷腸草一名大茶葉所在皆有俗與人哄及私怨輒茹此草希圖誣以人命詐取財物死而不悔救法急取卵中未生雞兒細研和以清油灌之即蘇出嶺南衛(wèi)生方;《民國21年開平縣志》之“金瓜”條:金瓜/據(jù)香山志金瓜圓其長者名香瓜又名枕頭瓜;《清?康熙55年羅浮山志會編》之“菖蒲”條,注明的是“載藝文志”。這些都是說明該段引文的來源引書。③“參…”、“見…”、“詳…”,都是“參見”、“參考”之義,是參合他書擬就,其意是:欲知詳情,請參考某某引書。如《民國13年陽江縣志》之“菘”條:菘/俗呼白菜另一種日黃芽白本北地產(chǎn)始種于肇慶今各處俱有之然亦不及北方之甜美參阮通志采訪冊。余不舉例。但有一點須辨明:這里的“參見”意義與索引學不同,索引學是指引讀者從一個標目指向另一個標目,標目之間是平行關(guān)系,而這里的來源文獻與引書則有屬種關(guān)系。
3.2.2后標志型后標志型的模式詞置于引書之后,分兩種情況:①言說動詞式,如…稱、…稱為、…稱之為、…為、…謂、…言、…以為、…曰、…云、…載、…有云、…作、…名、…名日、…命曰,這種形式可直接看作“某某引書說”。其中的“…云”、“…曰”數(shù)量較多,是古人的行文和語言習慣所致,就如同我們今天多用“說”而少用“道”一樣。這種言說動詞模式數(shù)量較多,以下略舉二例說明,《清?雍正9年廣東通志》之“蟹”條:蟹/一名蟾廣雅云雄日娘蟻雌日博帶抱樸子稱無腸公子廣志云鋪小蟹大如貨錢又蟹奴如榆莢在璨吉腹中生死不相離山海經(jīng)載千里蟹洞冥記有云貢百足蟹長九尺四螯者今恩州又出石蟹北戶錄,這段文字使用了“…云”、“…稱”、“…載”、“…有云”四種模式;再如該志書的“石相思子”條:石相思子/……按一名長生螺周密謂置之醋中則活即此,使用了“…謂”模式。②所+言說動詞式,這里的“所”是語氣助詞,無義,只有與言說動詞連用才能表達具體意思。如《清?雍正9年揭陽縣志》之“蜀葵”條:蜀葵/郭璞日蜀葵花似木槿爾雅所謂蔭戎葵也花可食。
后標志型實質(zhì)上是語助詞(如“所”)與不同的言說動詞組合而成。如果去掉語助詞,也能表達原意,但意義不完整,也不符合原有語境,況且這“所”字結(jié)構(gòu)本來有就有其本身的意義,是固定的表達結(jié)構(gòu),不能分離。筆者原樣輯錄,不加省略的原因是保持原貌,探索引書表達模式的語法和構(gòu)詞結(jié)構(gòu);同時,用于計算機識別引書,會減少噪音。
3.2.3封閉型
封閉型基本是由“按(案)”、“即”、“據(jù)”、“如”、“依”加后標志型模式組合而成,雖可由后標志型替換,但表達意義、語氣不完整,在具體的語言環(huán)境中所表達的意義與后標志型也有區(qū)別。也如《清?雍正9年揭陽縣志》,其“車前草”條:車前草/即詩所謂苤莒爾雅日苤苜馬舄馬舄車前也其性利水。這里的“即…所謂”表達的是承前語氣,若去掉“即”字,雖能表達原意,但不能表達原來的語氣,行文有點別扭,失掉了原有撰述風格。
前標志型、后標型和封閉型,是《廣東方志物產(chǎn)》中能夠輯錄的模式,總共才使用7604次,比起引用總次數(shù)31670來,差之甚遠,而更多的引書是沒有任何引用模式的。所以,更多的引書識別則需要深厚的歷史文獻學知識和學術(shù)涵養(yǎng)。當然,那些沒有表達模式的引書,還可通過引書的名稱特征提取引書名稱模式。
總之,通過表達模式就能夠識別引書,前標志型引書的識別是輯錄出模式詞前的不同數(shù)量的文字,后標志型是輯錄出模式詞后的數(shù)量不等的文字,再加以人工判別即可。至于封閉型,模式詞之間的文字就是引書,幾乎無需人工判別。
僅靠模式識別方法并不能識別出《廣東方志物產(chǎn)》中的全部引書,但如果把引用模式與前文條析出的引書名稱相結(jié)合,建立書名庫和模式庫,無論識全率或識準率,都會大大提高,具體的作法是:①用書名匹配文本;②用模式匹配文本;③用書名+模式匹配文本。若計算機采用這種方法,引書殆盡矣。
古籍中的計算機引書識別是個復雜的問題,目前國內(nèi)外的研究甚少,本項研究只是嘗試和探索,本章總結(jié)出的引書名稱特征和引用特征,只來源于《廣東方志物產(chǎn)》,對于更為復雜的整個《方志物產(chǎn)》來說,是個特例,而對于整個古籍更是滄海一粟。但是,本文探索出的書名庫和引用模式,可以應用于整個《方志物產(chǎn)》,甚至在整個古籍上嘗試。本項研究的目的就是以《廣東方志物產(chǎn)》為實例,探索浩繁的《方志物產(chǎn)》引書識別方法,進而推廣到整個古籍的引書識別。
4 試驗設計與測試結(jié)果
4.1試驗設計
為了測試模式識別引書的效果,筆者構(gòu)建了引書挖掘系統(tǒng)(另文發(fā)表于《圖書館雜志》2008年第8期),步驟如下:①建立方志全文本數(shù)據(jù)庫;②建立引書模式庫,模式來源于方志及其他古籍;③模式匹配,運用模式在全文數(shù)據(jù)庫中進行匹配,抽取候選引書詞串;④對抽取結(jié)果進行過濾處理以及運用N-gram進行分詞和詞頻統(tǒng)計,適當去除低分詞,并合處理結(jié)果,最終得出引書集;⑤為防止遺漏,再運用這個引書集對全文庫進行掃描,最后得出全部引書。
系統(tǒng)環(huán)境是windows 2000操作系統(tǒng),開發(fā)工具選用Borland Developer Studio 2006,具體采用其Delphi for the Microsoft,NET Framework模塊作為開發(fā)環(huán)境,數(shù)據(jù)庫選用的是SQL Server。
4.2測試結(jié)果
經(jīng)過以上處理,系統(tǒng)識別出引書1081條(不含重復)。測試時,借鑒信息檢索中的測試標準,采用對應的識準率、識全率等指標來進行測評。具體公式如下:
識準率=(計算機識別出的真引書總數(shù)/計算機識別出的引書總數(shù))*100% (1)
識全率=(計算機識別出的真引書總數(shù)/人工真引書總數(shù))*100% (2)
筆者隨機抽取了12篇方志物產(chǎn)文檔,請專家審讀,通過人工識別,得到引書。同時應用本系統(tǒng)設計的方法在全部文檔中進行引書識別,并將自動識別出的引書復原至上述抽取的12篇文檔,得到該12篇測試文檔的自動引書識別結(jié)果。將兩者進行比對,根據(jù)上述指標統(tǒng)計出的測試結(jié)果如表2所示:
根據(jù)表2的數(shù)據(jù)計算出識全率為84.95%,識準率為72.88%。經(jīng)過對引書識別結(jié)果的分析,影響識別效果的因素主要有:①原始文獻在數(shù)字化過程中人為的錯誤,包括生僻字、特殊符號、空格等,導致誤識并影響正常的引書頻次;②模式本身并未涵蓋所有可能的引書,導致漏識;③n-gram本身的誤差。雖然識準率并不是十分理想,但識全率較高。作為一個輔助系統(tǒng),已經(jīng)可以基本滿足半自動化引書處理的要求。
5 結(jié)語
古籍中的引書識別,自計算機應用以來是人工識別,以學人的淵博的知識為基礎,通過人工閱讀文獻識別出引書。即使如計算機普及的今天,應用計算機識別引書的研究也是寥寥。本文以《廣東方志物產(chǎn)》為語料,輯錄并詳細研究其引書的引用模式,作為采用模式識別方法識別引書的依據(jù)。文章最后建立一個實驗系統(tǒng)對模式識別效果進行測試,達到了預期效果。這說明這種方法是可行的,是引書識別的一條捷徑。下一步工作是提高識全率和識準率,并推廣到其他古籍文獻。
相關(guān)熱詞搜索:識別 引用 用于 用于引書識別的引書引用模式研究 模式識別+書免費下載 免費書軟件下載
熱點文章閱讀