[數字資源收割工作的發(fā)展]數字資源建設與發(fā)展建議
發(fā)布時間:2020-03-07 來源: 短文摘抄 點擊:
[摘要]介紹各國數字資源收割技術的發(fā)展,如挪威、新加坡、丹麥等從法律上明確公共圖書館對數字資源進行收割和保存的職責;日本、韓國、美國等都各自開發(fā)有對網絡資源爬行和抓取的工具軟件。并著重論述新西蘭國家圖書館與英國不列顛圖書館合作開發(fā)Web CuratorTool,在收割質量保障、保存格式、授權管理等方面優(yōu)點明顯,但在圖像資源收割及大規(guī)模任務執(zhí)行等方面還存在不足。
[關鍵詞]數字資源長期保存 數字資源收割
[分類號]G253
1 數字資源收割工作的現狀
當今的數字資源將成為未來的科學史、文化史、社會史。正如我們從印刷資源中追溯文明一樣,后代將從被保存的數字資源中回顧和利用我們所創(chuàng)造的知識,讓人類可持續(xù)發(fā)展。數字資源長期保存工作的意義不言而喻。
數字資源收割是數字資源長期保存的第一步,近年來,各國的數字資源的收割工作在制度、機構和工具等各方面都有了長足的發(fā)展。
1.1 數字資源收割的相關制度
挪威于1990年生效的《保存本法》所規(guī)定的國家圖書館收割和保存范圍涵蓋了網絡電子出版物,并提供了具體實施規(guī)章。
新加坡于1995年通過了“新加坡國家圖書館管理局法案”(NLB Act),規(guī)定在法定的呈繳框架下,電子或聯機形式傳播的出版物不論是否已通過網頁內容收割和存檔,都須向管理局呈繳兩份復本。
丹麥于2000年出臺的第340號法案規(guī)定了公共圖書館收割、保存和提供包括因特網與多媒體在內的電子信息的職能。
澳大利亞聯邦于2006年修正的著作權法案(Amendments t0 the Copyright Act)第40條和41條,對圖書館的數字收割和保存活動給予了重視與支持。
英國國家圖書館正建議國家立法,不限制數字資源的自動獲取,支持以保存為目的繳送和復制,并涵蓋有可能增加的各種介質出版物。
德國的國家存檔項目Nestor正建議修改《呈繳本法》,要求法律支持數字資源副本的創(chuàng)建和修改權,取消由DRM提出的限。
1.2 數字資源收割的執(zhí)行機構
目前進行數字資源收割和保存的執(zhí)行機構主要是各國的國家圖書館,但除此之外,許多政府、文化與科研機構及聯盟也成為了重要力量。
澳大利亞的PANDORA項目以國家圖書館為核心,參與機構包括國家聲像檔案館、戰(zhàn)爭紀念館、原住民及托雷斯海峽居民研究協會、澳大利亞可持續(xù)知識倉儲伙伴計劃(APSR)中的聯盟成員等。
德國國家圖書館組建了數字資源長期保存專業(yè)技術網,參與的組織除幾所大學圖書館外還包括柏林博物館信息協會和巴伐利亞州檔案館。
互聯網檔案組織(Internet Archive,IA)由美國國會圖書館和Smithsonian組織共同構成,以為后代保存稍縱即逝的、具有歷史性重大意義的“原生”互聯網資源為目的。
澳大利亞、加拿大、丹麥、芬蘭、法國、冰島、意大利、挪威、瑞典等國的國家圖書館,英國不列顛圖書館,美國國會圖書館和IA等機構共同建立了國際網絡資源保存社團(International Internct Preservation Consorti―um,IIPC),鼓勵和支持利用通用工具、技術與標準建設國際檔案館(international archives),并資助相關研究項目。
1.3 數字資源收割的工具
2006年,在WARP項目(Web Archiving Project)中,日本國會圖書館開發(fā)了一個須版權人授權的網頁爬行機器人進行網絡資源收割。主要收割對象是網站,其次是在線期刊和城鎮(zhèn)農村信息資源。
2008年,韓國國家圖書館在OASIS計劃(Online Archiving&Searching Internet Sources)中進行網絡數字資源的收割和保存。目前的收割對象主要為兩類:網站和其他單獨網頁數字資源。
新加坡國家圖書館管理局從2006年開始啟動了收割互聯網中所有與新加坡有關的網頁內容計劃。2007年,該局建設并使用了一個自助提交系統(tǒng),出版者可以在網絡上直接提交數字出版物。
澳大利亞PANDORA項目開發(fā)了PANDAS系統(tǒng),與IA協作進行大規(guī)模地域收割活動,已完成兩次大規(guī)模的資源“爬行”,主要抓取采用.au頂級域名的網頁資源。
2006年,美國國會圖書館開通了直接隸屬于國家數字信息基礎設施和保存計劃(NDIIPP)的網頁抓取項目,使用IA專門設計的開發(fā)源代碼爬蟲軟件Heri―trix進行網頁收割。
2 新西蘭的數字資源收割工作
2.1 相關制度和機構
新西蘭于1965年出臺了136號法令――《新西蘭國家圖書館法》,并在1971―2003年間進行了多次補充和修訂,對國家圖書館進行數字資源收割與保存的職責及權利提供了法律支持。
2.省略站點下載。新西蘭國家圖書館使用WCT的硬件系統(tǒng)是Sun SPARC servers,操作系統(tǒng)是Solaris,數據庫管理系統(tǒng)是Oracle,網絡服務系統(tǒng)是Apache HTrP Server and Tomcat,用戶識別系統(tǒng)是Novell e―Directory。整個軟件系統(tǒng)被布署在兩個服務器上:一個服務器用作核心指令艙(core module);另一個用作收割器(harvest―er)。
WCT工作系統(tǒng)的主菜單上共包括9個功能模塊,如圖1所示:
In Tray:總覽模塊。Harvest Authorisations:收割授權模塊。Targets:收割對象管理模塊,負責管理收割任務時間表。Target Instances:收割對象列表模塊。Groups:收割對象分組模塊,通過比較元數據信息、對同類資源進行成批收割。Permission Request Tem―plates:收割許可請求生成模塊。Reports:報告生成模塊。Harvest Configuration:收割設置模塊,負責依據時 作界面可列出輔助評估的數據清單,包括:概述信息、起始日期、已下載數據、獲取成功的和失敗的URL,共用時間與當前狀態(tài)等。WCT還可提供多個窗口,以對比收割結果和該資源的原始版本及其他版本間的差異,使得評估更直觀、有效。2007年,新西蘭國家圖書館共進行了1249項收割任務,其中953(76%)項完成了收割并經評估被認可后保存,69(6%)項未完成收 割,224(18%)件收割結果未通過評估被拒絕保存。
2.4.2 不斷改進適宜被長期保存的數據格式新西蘭國家圖書館早在1999年就已開始進行程控Web資源收割,在2006年底以前一直使用的收割工具是:HT―Track Website Copier。長期以來,HTTrack對MARC格式的網絡資源數據庫進行資源選擇和獲取,累積性地遺留了海量的無法被長期保存的數據,目前正依靠數據遷移技術對這部分資源進行格式轉化處理。2007年,新西蘭國家圖書館開始使用WCT,其顯著的不同在于:使用ARC文檔格式輸出收割結果,ARC以“分要素層存放數據”為特征,這種格式使得長期保存工作更為方便和有效。
2.4.3 通過建立各環(huán)節(jié)間的溝通機制提高收割效率WCT的設計充分考慮了過去類似軟件在各環(huán)節(jié)工作間存在的鴻溝(gap),設計了加強整個工作流程整體性的各環(huán)節(jié)交流機制。例如,規(guī)定評估環(huán)節(jié)每周向描述環(huán)節(jié)提交報告,以提示資源描述需求、預告技術層對資源數量和大小的后續(xù)要求。
2.4.4 收割任務規(guī)模有限WCT還不能同時進行多項(大于8項)收割工作,也不能勝任對大規(guī)模網站資源的收割任務。目前已成功完成的最大的一次收割任務數據量是10G,新西蘭國家圖書館曾嘗試過一次21G的收割任務,但收割結果未通過評估。
2.4.5 圖形資源收割能力不足對于用Javascript建設的網站圖像資源,WCT在收割后難于對其圖像要素(如下拉菜單)進行導航加工,也難以收割深植(embeded)的背景圖像(background images)。WCT圖像收割能力的提高將依賴于當代圖像傳輸和處理技術的全面提升。
3 新西蘭國家圖書館數字資源收割工作的參考意義
3.1 以應用集成的方式實現機構間分工合作
新西蘭國家圖書館與新西蘭維多利亞大學(新西蘭唯一開設圖書館學與信息學專業(yè)的大學)、新西蘭電子文本中心聯合構建“收割結果評估工具”(Quality Review Tools),并以在線鏈接的方式實現輔助工具的遠程調用(見圖6),充分實現了分布式應用的集成。我國的相關機構(如國家圖書館、國家檔案館、中國科學院、教育部、科技部等)也可以組建“協作鏈”,實現技術上的合作攻關、工作環(huán)節(jié)的分布式操作、經費支持上的合理分配。
3.2 建立和依據數字資源呈繳制度
新西蘭以及新加坡、丹麥、挪威等國在數字資源呈繳制度方面成為了先行者,以法規(guī)形式規(guī)定了圖書館負責該國數字資源長期保存的職責和權利,并建立了國家層面上的數字資源呈繳框架與信息存檔體系,值得我國借鑒。
3.3 健全收割授權管理避免版權糾紛
WCT的“獲取版權許可”工作環(huán)節(jié),有效地保障了整個收割過程的版權合法性。而我國現階段的一些網絡資源收割活動,仍采用先侵權后處理的工作方式,為日后的知識產權糾紛埋下了巨大隱患。WCT通過主動請求版權許可,防患于未然,使長期保存工作可持續(xù),是可學習的模式。
4 結語
保存人類記憶,傳承社會政治、經濟、科技、文化的整體圖像,是圖書館的社會職責和歷史任務。新西蘭國家圖書館在國家法律授權前提下,應用WCT自動收割來自網絡圖書、網絡報紙、網站、網頁、博客和各種數字媒體的各類數字信息,捕獲并再現資源原有的整體性與真實性,并保證版權的合法性,這種做法值得我國數字資源長期保存工作者借鑒。
相關熱詞搜索:收割 數字 發(fā)展 數字資源收割工作的發(fā)展 數字資源整合的發(fā)展與實踐 數字化部部門工作規(guī)劃匯報
熱點文章閱讀