一、介紹
隨著計算機和計算機網(wǎng)絡(luò)技術(shù)的發(fā)展和計算機網(wǎng)絡(luò)的普及應用,檔案的利用面臨新的機遇和挑戰(zhàn)。如果能夠?qū)n案發(fā)布于網(wǎng)絡(luò)之上,在對其進行相應的權(quán)限控制,則檔案的查閱將進入一個新的歷史階段。它將大量的節(jié)省人力物力和維護檔案可用的資金投入。
為了實現(xiàn)和利用計算機網(wǎng)絡(luò)的優(yōu)勢,面對大量存儲的紙介質(zhì)檔案,首先需要做的是對檔案的數(shù)字化工作,其次才是檔案的上網(wǎng)利用。本方案將詳細闡述我國目前檔案數(shù)字化面臨的挑戰(zhàn)和解決這些問題的辦法。
二、檔案數(shù)字化現(xiàn)狀和面臨的挑戰(zhàn)
2.1歷史的狀況
檔案在中國,無論是專管檔案的檔案館還是企、事業(yè)單位的資料室,最大多數(shù)的檔案資料是以紙介質(zhì)的形式存在,自八十年代以來,很多的檔案資料被翻拍成縮微膠片的形式,節(jié)省了大量的存儲空間,同時解決了紙介質(zhì)檔案資料隨時間推移可用性不斷降低,維護成本不斷增加的問題——也就是檔案資料長期保存的問題。但是檔案資料的最終價值是需要通過人們的廣泛利用來體現(xiàn)的,紙介質(zhì)和縮微膠片都沒有很好的解決檔案利用的問題,相反為了使之可用,需要不斷的進行資金設(shè)備的投入——這些資金可能用于庫房擴建、溫控、殺菌防霉,庫房管理人員的工資等等。
目前網(wǎng)絡(luò)和計算機設(shè)備硬件價格逐漸降低,中國經(jīng)過十幾年的計算機和網(wǎng)絡(luò)設(shè)備的建設(shè),在各個檔案館、企事業(yè)單位中都有了各自的局域網(wǎng),在各個部委或是行業(yè),甚至是一些大的企業(yè)都各自有了自己的全國范圍內(nèi)的廣域?qū)S镁W(wǎng)絡(luò)。這些網(wǎng)絡(luò)目前面臨的最大問題是網(wǎng)上數(shù)據(jù)量太小,沒有太多的可用數(shù)據(jù),使得投資巨大的網(wǎng)絡(luò)顯得得不償失。如果反過來看,這些網(wǎng)絡(luò)的建成和投入使用,恰恰為檔案資料的數(shù)字化后的成功應用奠定了堅實的基礎(chǔ)。那么檔案資料的數(shù)字化是不是購置一些硬件設(shè)備——掃描儀計算機就可以完成數(shù)字化的工作呢,答案是否定的。為什么?讓我們先看看我們的檔案資料在沒有數(shù)字化之前是什么樣的。
2.2數(shù)字化面臨的挑戰(zhàn)
無論是檔案還是資料,通過上面的分析,它們之所以被保存并能被利用,是因為人們收集檔案資料進行保存時,對其進行了邏輯化的歸類存儲,同時建立了索取這些被歸類的檔案資料的目錄索引信息。當人們需要某種信息時,負責管理檔案的人員通過查閱這些索引信息,找到這些檔案資料所在的位置后,將原件取出,供借閱人使用。顯然這種方式是我們熟知的方式,它的缺點也為人們所公認的:速度慢,對原件損害程度大,不能實現(xiàn)多人對同一份檔案的同時共享。
如果能夠?qū)⑦@些紙面上的檔案資料信息數(shù)字化,那么上述公認的缺點將不復存在。數(shù)字信息在網(wǎng)絡(luò)上以光的速度進行傳輸,復制一份電子文件只需要幾秒鐘,而上百萬卷的檔案資料——要幾個庫房才能夠放下,現(xiàn)在只需要床頭柜大小的設(shè)備,就能夠存儲完畢,甚至還又可能顯得綽綽有余,對這些檔案的查詢速度,無論你是在地球的這邊還是那邊,幾秒鐘你就可以獲得您想要的檔案資料,當然前提是你有足夠的權(quán)限能夠訪問這些信息。
事實的確如此,因而檔案資料的數(shù)字化,以一種不可逆轉(zhuǎn)的潮流席卷全球,無論是政府機關(guān),工礦企業(yè),還是學校和私營公司都在進行數(shù)字化的工作,與此同時數(shù)字化的設(shè)備也層出不窮。當我們用文檔掃描儀或者膠片掃描儀對每一份檔案資料進行掃描時,我們必須像收集紙件檔案資料那樣,建立相應的索引信息,以便我們將來能夠?qū)ξ覀兯璩龅碾娮游募M行檢索利用,而掃描儀不能像人一樣對掃描出的電子影像進行組卷編目歸檔存儲,所有這一切還必須有人來完成,至少在一定的軟件幫助下建立這些索引信息。
顯然,檔案資料數(shù)字化的困難在于:
首先是由于檔案資料的數(shù)量巨大,少則上萬頁,多則上千萬頁,乃至上億頁。在掃描的過程中,都需要保證影像清晰,工整,對于檔案還要盡可能的保持檔案的原始風貌,對于資料則盡可能的清新易于利用;
第二是檔案組卷后,有卷皮,卷內(nèi)目錄,文件,和備考表,資料可能有章、節(jié)、參考書目、關(guān)鍵字,中英文摘要等等,在掃描成電子影像的同時,必須保證這些邏輯結(jié)構(gòu)。用于數(shù)據(jù)庫查詢所用的各類條目信息,都是花費了大量人力物力獲得的寶貴信息資源,如何將這些資源充分利用起來,當查閱這些信息的同時就能夠查到相應的電子影像的文件,這是數(shù)字化面臨的另一巨大挑戰(zhàn);
第三是檔案一旦數(shù)字化,檔案管理的對象不再是單純的紙質(zhì)檔案單一的載體,人們已經(jīng)習慣了打開翻看就知道內(nèi)容的紙質(zhì)檔案,如何管理看不見摸不著,只能借助于計算機設(shè)備和相應的軟件才能知道它是什么的電子檔案資料,是擺在檔案管理人員面前的另一大挑戰(zhàn),不僅于此,如何保證各種檔案資料各種介質(zhì)的統(tǒng)一或者說一致性,更是檔案管理的難題所在。
無論是數(shù)字化還是檔案資料的管理,都不是我們的目的,我們的目的是為了更好的利用檔案資料,檔案資料的數(shù)字化和數(shù)字化的管理,都是保證更好的利用的前提和手段。
總結(jié)起來,檔案資料數(shù)字化的困難分三個階段,首先是如何解決好不同紙質(zhì),不同裝訂形式,不同幅面的紙質(zhì)檔案資料,能夠被快速的掃描,并保證掃描出的電子影像是優(yōu)質(zhì)的——即沒有黑邊、不偏、不斜內(nèi)容清晰完整,適合閱讀;第二個階段如何保證掃描出的電子影像保持與紙介質(zhì)相一致的邏輯結(jié)構(gòu);第三個階段是如何保證這些電子檔案資料被方便的利用——和數(shù)據(jù)庫里的信息進行銜接,能夠被利用者方便的查閱和使用;第三個則是檔案的安全性。
三、解決方案
面對數(shù)量巨大的檔案資料,數(shù)字化能行得通的唯一辦法,是批量處理流水作業(yè)。就目前計算機技術(shù)而言,相當多的后處理工作可以交給軟件系統(tǒng)來處理,根據(jù)各自保管的檔案資料選取適合的掃描設(shè)備,通過軟件系統(tǒng)把這些設(shè)備處理出的結(jié)果進行串聯(lián)和加工后,就能夠非??斓倪M行檔案資料的數(shù)字化。
對于把紙件檔案資料直接數(shù)字化的用戶,可能面臨的問題是:
一、一卷檔案一本資料無法用一種掃描儀完成每一頁的掃描任務(wù)。特別是在工程類的檔案中,一卷檔案中有很小幅面的發(fā)票收據(jù),也含有整個樓宇的建筑結(jié)構(gòu)圖,它可能是幅面超過A0或者A1的大型圖紙;一本資料中也可能含有超過書本幅面的圖紙、示意圖等,為了保證完成檔案資料的數(shù)字化工作,可能需要不同幅面的掃描儀參與數(shù)字化的工作。
二、為了保證盡可能快的掃描速度,我們必須區(qū)分被掃描紙件的特征;對于紙質(zhì)優(yōu)良,拆解后再裝訂對原有的檔案資料無重大損害的,應當采用相對高端的商用掃描儀,這類掃描儀能快速的完成掃描任務(wù),而且包含了對影像質(zhì)量的即時處理的功能。而對于無法拆解的檔案資料,只能用平板的掃描儀進行掃描,而這類掃描儀的掃描速度往往很慢,且不包含對影像質(zhì)量的即時處理功能。
三、考慮到查閱和利用的方便性,必須保證檔案資料查閱最小單元的完整性和順序性。掃描設(shè)備在進行掃描的過程中,有些能夠保證將掃描完成的幾頁合并成一個包含多頁的影像文件,但這需要人工干預,而這種人工干預對掃描速度會有很大的損傷。此時需要軟件進行后續(xù)處理,在掃描過程當中加入適當?shù)母綦x標識。
四、 對于只能用低端掃描儀進行掃描的檔案資料生成的電子影像,能夠在后期對影像進行批量的質(zhì)量處理——糾偏,去黑邊,去麻點,調(diào)整對比度等等設(shè)備性能的補償處理。
五、需要軟件輔助對掃描的電子影像進行邏輯化的處理,并提供邏輯化處理出的結(jié)果進行質(zhì)量檢驗的手段,和對發(fā)生錯誤后進行調(diào)整的辦法。
六、提取歸檔的數(shù)字化檔案資料的檢索信息,如果用戶已經(jīng)具備了大量的條目信息,則必須實現(xiàn)電子影像位置信息和數(shù)據(jù)庫條目信息的對接。對于沒有條目信息的用戶必須提供用戶錄入條目信息的窗口和操作界面,對于信息不完整的索引信息應能進行索引信息的批量補充工作,以實現(xiàn)對數(shù)據(jù)條目及全文的查閱。
綜上所述,紙件掃描數(shù)字化,必須根據(jù)自己的數(shù)字化對象具體分析,選取適應的設(shè)備和相應的后處理軟件,并結(jié)合自己對數(shù)字化后的檔案資料的利用方式,保證數(shù)字化后的電子影像和提取的索引信息能夠被檢索系統(tǒng)所利用。