古籍是祖先留给我们的宝贵遗产。利用数字化手段传承和保护古籍,便于学者的研究与教学,使古籍成果为更多人所用,是上世纪80年代以来中外文献学界一直在做的工作。8月16—17日,在北京召开的第三届古籍数字化国际学术研讨会是近年来古籍数字化研究与发展成果的一次集中展示。会议由首都师范大学电子文献研究所主办。
古籍数字化发展迅猛
近年来,古籍数字化无论在研究领域,还是在实践领域,都取得长足进步。一些已成规模的大型古籍数据库在原有基础上不断拓展和完善。大型古籍全文检索数据库《国学宝典》除以每年1亿—2亿字的速度扩充外,近两年更在功能拓展上进行了许多有益尝试,取得了突破性进展。随着科研成果和产品不断推出、技术问题得到深入解决,古籍数字化呈现出蓬勃发展的态势和良好前景。
首都师范大学电子文献研究所所长尹小林介绍了古籍数据库的建设标准、版权、数据库模式等问题,其中古籍数据库建设的智能工具成果展示是一大亮点。西北大学副校长李浩认为,古籍数字化是国家软实力的体现,国家应当从战略工程的高度对其给予支持。
跨越瓶颈 实现长久发展
古籍数字化事业的发展虽然成果显著,成绩斐然,但在研发和使用过程中也发现不少问题。教育部全国高等院校古籍整理研究工作委员会秘书处办公室主任卢伟认为,古籍数字化现在进入了一个发展的瓶颈期,其中最重要的原因就是古籍数字化缺少国家标准。国家古籍整理出版规划小组办公室原主任许逸民指出,现在古籍数字化大都采用简体字,但由简转繁没有标准是不行的,这是古籍数字化发展的一个很大障碍。古籍的本质是文字和行款,因为版本不同,古籍的成果质量、水平也不同。总之,如何将当代先进技术与传统的学术体制有机衔接,尚有诸多需要解决的问题。
人才培养同样是一个刻不容缓的问题。古籍数字化事业需要的是兼通古典文献学与数字技术的复合型人才,但是由于现有学科模式的划分,这样的复合型人才难以招到。另外,技术支持也存在障碍。
智能辅助标点系统引争议
会议上,智能辅助标点系统引发学者热议。有学者认为,辅助标点系统虽然有助于理解古籍,但是辅助标点系统的产生,会导致文史专业学生的古汉语基本功减弱。贵州师范大学教授吴夏平指出,数字化古籍利用的最大弊端,就是过于依赖数字化成果。一切学术问题都试图通过检索来完成,会导致伪学术因素。中国社会科学院文学研究所研究员郑永晓对此持相反意见,他认为,因抄袭和拼凑而导致学术垃圾的出现并非是文献数字化和网络本身的弊病。数字化文献的广泛应用恰恰对人文学科的深入发展、对现代知识体系的形成具有积极正面的作用。
学者们一致认为,在进行学术研究过程中可以借助古籍数字化的成果,但是古典文献的研究整理工作并不能被其取代,而是应当继续加强研究。
文献数字化是世界各国面对的共同课题,我国在这方面所取得的成就,令世人瞩目。

到,由首都师范大学电子文献研究所和首都师范大学国学传播中心共同举办的第二届中国古籍数字化国际学术研讨会在北京龙泉宾馆隆重召开。来自学术界60余家学术机构的70多名专家学者齐聚一堂,其中包括全国高校古委会办公室负责人、古籍善本整理专家、古籍数据库研发人员、出版业专家、和数字文献学学科建设者等各个领域的先行者。众位专家就古籍数字化近期成果以及发展方向、电子古籍定本的标准、历史地理信息系统的平台开发、数字文献学的学科建设与人才培养方式、古籍数字化的国家控制与管理政策等议题进行了深入的探讨。本次会议秉承两年前首届中国古籍数字化国际学术研讨会的宗旨,为相关领域的专家学者搭建了一个交流和合作的平台,使同样从事古籍数字化建设的不同学科的人才可以互相了解彼此的需求,更快的加速古籍数字化的进程,提高效率。

一、古籍数字化

会议由中国诗歌研究中心主任赵敏俐教授主持并宣布开幕,首都师范大学副校长宫辉力先生致词,并由首都师范大学电子文献研究所所长尹小林先生作主题报告《古籍数字化的突破与展望》。在报告中,尹小林先生为我们展示了近两年来首师大电子文献研究所的最新成果和相关技术。首先是大型数据库《国学宝典》开发的新进展,该数据库除了以每年1亿多汉字的速度扩充知识内容外,还增加了许多人性化的功能和个性化的辅助工具。例如在检索系统上,可进行原书图像和文字识别的同屏同步显示,大大增加了古籍校勘人员的便利,超清晰的图像数据和强大的图文转换功能都令人叹为观止。随着技术发展,首师大电子文献研究所还陆续推出了《国学宝典》手机版、《国学宝典》笔记本版和国学触摸屏,从载体的多样性上满足了更多的用户需求。2009年《国学宝典》成功地进入了清华同方数据库系统,成为史上第一个查询专库。其次是专题性数据库的建设完成和投入使用。国学智能书库最新推出的《古代小说典》、《中国历代笔记》、《国学图库》都分量十足,为专题性研究提供更方便更专业的检索环境。尹小林先生指出,古籍数字化工程应该是一个国家行为,这样才可以做到统一分工,避免重复劳动,提高整理效率。他诚恳地希望通过这次会议众位学者的这个心愿可以早日得到国家有关部门的重视并得以实现。最后,尹小林先生对古籍数字化工程的发展前景作了展望,他认为甲骨文的数字化平台建设、历史地理信息系统的开发、自动标点以及语义分析人工翻译等智能功能的完善是未来古籍数字化的重点发展方向,并且,尹先生初步构想的利用近百部历史日记编成的近代史编年数据库也已经开始着手进行建设。

古籍是一个民族历史和思想的载体[1]。对它们的利用和保护,
是古籍整理工作的重心所在。如今,
用数字化手段进行古籍整理已经不新鲜。早在1988 年,
曹书杰先生对采用新技术整理古籍的新方法进行了初步分析[2]。1997
年刘炜先生则正式使用了“古籍数字化”这一术语[3]。“古籍数字化”,
是从利用和保护古籍的目的出发, 采用计算机技术,
将常见的语言文字或图形符号转化成能被计算机识别的数字符号,
从而支撑古籍文献书目数据库和古文全文数据库,
用以揭示古籍文献信息资源的一项系统性工作[4]。可以说这是古籍整理范畴的一个问题。

尹小林先生的主题报告激起了与会学者的热情,各方专家展开热烈的讨论,大会由此进入专题报告及研讨阶段。

计算机硬件和互联网技术的发展是重要的技术变革,
将此种新方法新手段应用到中文古籍的研究中,
无疑能够推动学术的进步。而数字化在现阶段已经不仅作为古籍整理的一种手段,
在一定程度上也成为古籍整理的大背景。

首先,来自各个机构的科研人员对古籍数字化的发展现状、技术水平和各自领域的研究成果作以汇报。北京大学中文系的李铎教授为大家带来《基于本体的数字化建设——古代史籍分析平台》,展示了北京大学近期基于本体的信息抽取技术对史籍进行深入分析的方法。本体,在这里指的是“概念”,即计算机智能化的基础,基于本体的计算机语义分析方法可以有效的解决纪传中时间、人物、事件的提取分析问题,本体对纪传研究领域内概念的描述可以构建纪传中时间和人物信息元,这种方法能够获得更高的覆盖率和精确度。李铎教授以《资治通鉴》为例,对其中的年代、纪年、人物、职官、地名、自然现象作以标记,从而建立起一个庞大的本体库,用户点击任何一个名词,都可以得到与其相关联的类别清晰的所有标记信息,关系网之壮阔,超乎想象。在标记的过程中,设计者遵从计算机语言的概率规则和人为干预的语义规则,使标记更加精确,更富文史价值。这个报告赢得了学者们的一致赞叹。北京书同文数字化技术有限公司总裁张轴材先生在他的《书同文公司典籍数字化的新进展》中介绍了从上一届国学会议到现在,书同文公司在古籍数字化内容方面的成果,其中包括日本《汉方医书大成》的制作结项、国家第一历史档案馆数字化第二期工程、故宫博物院陈设档等数字化工程等项目。尤为值得关注的是,书同文公司完成了《四部丛刊》09网络版的增补工作。在技术方面,书同文公司还开发了几项颇受用户欢迎的新功能,比如坚持图文对照、竖排版式,确保图象数据与XML数据的完整性,维护目录的原始性,从
C/S版过度到B/S使用户无需安装任何客户端软件就可使用各种工具,在线提供基于Web的手写识别系统,等等这些功能都体现了书同文公司走在时代前列,重视古籍保真效果,强调从C/S到B/S的必然演进等理念的贯彻。在本次会议上,还有北京时代翰堂科技有限公司总经理王宏源先生给大家带来的《龙语翰堂时代典籍数据库》的最新进展和搜索演示。王宏源先生本人在2008年和社科文献出版社合作,完成了《康熙字典》的修订版校勘工作。由他主持开发的《龙语翰堂时代典籍数据库》以精准校对的小学工具类数据、出土文献类数据为基础,陆续纳入包括儒、释、道的各类传世文献,涵盖文史哲等专业的教学和研究工作中所应用到的专业古籍文献数据,并采用unicode扩展技术,彻底解决生僻汉字在计算机平台上无法显示、录入、编辑的瓶颈,使计算机可处理的汉字种类的总量达到9万多。该数据库是目前国内唯一可在微软平台上支持超大字符集、可进行自然语言全文检索的、实现编辑功能的典籍类数据库,目前,国内有包括清华大学、浙江大学、香港城市大学、华东师范大学、国家图书馆、浙江图书馆等160多所国内外院校、图书馆、科研单位在使用和试用这个数据库,并且对其在线典籍的完整性、权威性给与了热切的肯定。首都师范大学中国传统文化数字化研究中心副主任周文业先生介绍了近年来他个人开发的中国历史地理数字化应用平台。该平台的基础数据来自谭其骧的《中国历史地图集》,各学科的学者可以在这个平台上开发出文学、历史、考古、经济、军事等学科的各种专题历史地图和专题历史地理信息系统。周文业先生利用计算机创造一个以时间、地点、人物为三轴的立体资料库,根据资料库可以自动按照时间、人物、地点和事件,生成各种历史地图,使历史事件和人物生平可视化,更为直观,有利于促进历史和文学的研究。目前平台的单机版已经实现,网络版正在开发中。与此同时,三江学院的许盘清教授也利用计算机辅助制作了《史记地图集》,展现了电信时代文学、历史、地理的更好融合。此外,在会上还有很多科研单位的专家学者对自己的研究成果作以简介,例如浙江师范大学人文学院黄灵庚教授的《金华文献集成与电子数据建设》、鲁东大学文学院王东海教授的《古籍资料库与历时、历史词典编纂的结合》、安阳师范学院甲骨学与殷商文化研究中心李雪山、刘永革教授的《甲骨文数字化平台建设》、中国社会科学院经济所李根蟠研究员的《中华大典农业典的制作与应用》、首师大电子文献研究所的孙健先生的《古籍电子定本工程中的避讳字研究》、首师大电子文献研究所的詹君先生的《国学字箪与汉字大字库》等文章,都展现了当今古籍数字化学界重要项目的可喜成果。

二、古籍数据库建设

大会的另一主要议题是关于电子古籍定本标准的讨论,在这个主题中,最引人注目的论文来自南开大学文学院的杨琳教授,这篇题为《理想电子古籍的标准》的文章从五个方面总结了理想电子古籍的标准,分别是文本可靠,要求文字要同纸质古籍保持一致并尽可能的保存底本文字的原样;僻字能正常显示;每一种书都有版本信息检索程序功能完善,具体要求是检索速度快、满足多种条件的检索需求、关联准确、检索出的资料标有详细的出处并能便捷地复制、检索结果可统计并能方便的打开查看和复制兼容常用字处理软件。杨琳教授通过比较现在学术界几种常用的数据库的品质和检索的便利性,不但从一个使用者的角度提出了数据库功能上的改进意见,让与会的开发人员直接了解到这些信息,真正的做到供需平衡,更从一个古籍整理专家的角度提出了翔实且条理清晰的理想古籍标准,为电子古籍定本工程的进一步完成做出很大贡献。另外黑龙江大学古籍所的李先耕先生也就《电子版古籍的“善本”》问题提出自己的见解。来自中国人民大学的王立清女士从另外一个角度来关注古籍数字化的标准制定。她带来的论文《我国古籍数字化建设国家控制与管理政策探讨》从制定政策的主体、现有的政策以及政策作用的领域和形式等方面对我国古籍数字化建设国家控制和管理政策之现状作了阐述和分析,并提出建议,她认为未来应当加强政策研究,制定古籍数字化的发展战略;规范古籍数字化国家控制的程序;加强政策中的标准化建设,统一建库标准和规范;加强古籍数字化建设政策中的协调和管理。

(一) 职能化

会上还有集中讨论未来古籍数字化发展方向问题的论文。来自台湾元智大学的罗凤珠老师《以文字及视觉引导情境感知之信息及知识表达设计》一文给会议现场带来了宝岛的新资讯。她以自己主持研发的唐宋词多媒体网站为例,讲解了在开发设计过程中以能够引发情境感知的文字、影音、图像、动画等多媒体作为媒介来引导阅听者欣赏文本内涵的设计方向,重点探讨了如何引用“情境感知”的概念,利用信息科技可以兼容多种讯息媒介的特性,建置这样一个能引发阅听者感受唐宋词情境的网站,她的成果为文学传播建立了新的载体与形式。中国社会科学院文学所的郑永晓研究员将传统目录学的概念与价值引入古籍文献数据库的开发建设中,他反对现代图书分类的生搬硬套之法。主张对于大型传统古籍数据库的建设仍以中国传统目录学中经、史、子、集四部分类法为主。郑永晓研究员强调,这一结论是由学科特点和数据库建设的基本要求两方面考虑所得出的,其优越性表现在:一、作为数据库底层数据分类的依据,有效避免因分类混乱产生的讹误。二、可以作为确定数据属性的依据,每一条数据都属于每个部类下的某个子类,按照目录学知识对每条数据进行定性后会使整个数据库具备更加明晰的符合学科要求的检索功能。另外,上海世纪出版集团的李伟国教授首次提出了古籍资源的金字塔知识结构数据组织,令人耳目一新。

楼宇烈先生从使用者的身份出发将中文古籍数据库分为版本库,
专题库和普及库三种, 分别对应着为了保护古籍,
为专业研究者提供古籍数据和为一般读者提供最基本额古籍读本这三种职能[5]。这三种数据库并不是平行的概念,
而是涵盖了不同年代不同质量, 不同主题不同载体,
不同用途不同目标人群的多个层次。为此,
有必要按照这三个大类的方向进行具体的细致的建设, 做好职能的区分,
塑造多层次的立体化中文古籍数据库网络。

本次与会学者讨论最热烈的另一个焦点就是关于古籍数字化学科建设的问题。2008年首都师范大学成功申报了数字文献学专业。该学科以中国古典文献为基础,以现代信息技术为支撑,以历史、文学、艺术、地理、计算机等不同门类的学科建设为平台,是一门文理结合、综合应用的交叉学科,它的申报成功标志着古籍数字化的学科建设取得了重大进展。学科建设是使未来古籍数字化人才得以源源不断的重要举措,来自金陵科技学院人文学院的葛怀东副教授和甘肃简牍保护中心的张存良研究员都分别针对这一问题发表自己的独到见解。辽宁大学历史学院的耿元骊副教授撰写的1979年到2009年三十年间的中国古籍数字化研究综述,附带了三十年间的相关学术论文,为数字文献学的学科建设提供了理论依据和学术史的基本材料。

  1. 版本库

在会议的最后,由赵敏俐教授作闭幕发言,他充分肯定了本次大会的学术价值和学术史意义,对在会议上发表的重要论文作了提纲挈领的总结,赵敏俐教授希望以后的中国古籍数字化国际学术研讨会可以得到官方的关注和重视,尽早成立国家级的电子古籍整理委员会,制定相应的电子古籍整理标准、统一字库、规范浏览器等工具的使用,彻底结束“群雄割据”的时代,在技术和分工上真正做到有据可考,有法可依,以期真正提高我国古籍数字化的进程。

“版本”, 亦作“板本”, 从宋代至今, 已经扩大为以印刷本为主,
包括写本、批校本、手稿本和电子版等在内的一个概念[6]。中文古籍版本库主要起到保护和呈现古籍的作用,
面向专业研究人员,
所以需要具备为以下两个特征:一是数据全。即尽可能多的罗列多个版本,
不能只求善本, 只有数据全面,
才能更好地体现其作为版本库的建设价值;二是高保真。即尽可能全面的呈现其原貌,
所以清晰的图像是首要的, 在条件有限无力建设图文版的情况下优先建设图像版,
呈现不同版本的真实情况, 减少人为干预。

三天的会议时间对于发展势头蓬勃兴旺的古籍数字化事业似乎太短了,但这次会议成功使业内有识之士们明确了发展方向,交流了经验教训,坚定了信心,也使古籍数字化工程的国家使命感、历史使命感更加深入人心。

  1. 专题库

主要是为了向研究者提供研究资料,
这也是我们建设数据库的重要意义所在。除了按照主题分类
(如中医古籍、农业古籍、宗教经籍) 和体裁分类 (如地方志、家谱) 等进行建设,
笔者认为有两个专题尤需重视:一是出土文献数据库。出土文献相对于传世文献,
“更为真实地保留着当时的面貌, 具有极强的文献真实性 (authenticity) ”[7],
具有重大的文化价值。此外, 它们更含有巨大的文物价值, 所以,
建立专门的出土文献数据库, 不但有利于传承文化信息, 开放研究资料,
更有利于它们的保护。而且, 出土文献的时间跨度极大, 载体多样, 从商代甲骨,
到周代青铜器, 到战国秦汉简帛, 到历代碑刻,
无疑值得细加分化和详加考究。仅以简帛数据库而言,
就将是一个巨大而艰难的工程, 已有学者进行过相关讨论,
如张显成的设想之一便是建设以图版和释文为主要组成部分的电子文字数据库[7];二是少数民族古文献数据库。中国是一个多民族国家,
虽然汉族占主体地位,
但中华文化的辉煌离不开不同民族的碰撞与交融。而我们对汉族经典文献的重视虽然必要,
但也绝不可忽视少数民族古籍文献,
尤其在如今汉族趋于西化、少数民族趋于汉化的情况下,
少数民族文化和文献的保护更是尤为紧迫。以云南纳西族为例,
纳西东巴文作为世界上唯一还活着的象形字, 其研究意义不言而喻,
但纳西族东巴文的载体——各种经书, 有相当一部分尚未得到彻底的整理,
在现今的整理过程中, 我们应紧跟潮流, 及时进行数字化, 建立纳西东巴文
(经书)
数据库。最早对纳西东巴文字进行计算器处理的当属云南啄木鸟计算机工作室杨晓辉开发的“东巴象形文字计算器处理系统”软件。虽说纳西东巴文的数字化已有一定进展,
但继续大胆设想、踏实建设仍是我们要不懈努力的。

  1. 普及库

主要是面向普通读者, 以普及古典知识, 传承中华文化。所以,
我们需要注意以下几个方面:一是降低阅读障碍。版本库和专题库在整理未覆盖到位的情况下可以暂缓断句标点和文字的通俗化
(古体字变今体, 异体字变通行字等) 等工作,
毕竟它们的使用者多为具有一定古文阅读修养的研究人员,
但普及库却一定要进行,
甚至对文言文内容进行今译。二是形式更加多样。在电子计算器普及、移动终端泛滥的当代,
开发相应阅读软件, 让古籍数据以第三方应用软件 (Application)
等形式面向手机、平板计算机开放, 将极其有利于传统文化的普及。除此,
还可扩展古籍文献的有声化工作, 如锺华先生,
长期致力于“中国古典文学全文朗读”,
已经完成了《汉书》《三国志》《封神演义》《儒林外史》等多部古典文献的朗读工作,
并开放在网络上无偿提供下载, 目前可下载的有1 000
多小时[8]。三是数据分析。中文古籍本身是一个巨大的数据信息库, 同时,
利用各种电子设备浏览古籍数据的阅读者们,
利用古籍书目数据库和全文数据库进行检索的用户们,
他们在操作过程中留下的数据信息也十分庞大, 在一定权限内,
收集这些动态数据, 并用云计算 (Cloud Computing) 对这些数据进行分析,
以向潜在读者推荐相关的文献资料, 既有利于达到普及的初衷,
又可减少读者的时间成本提高其学习效率[9];四是从学术到公益和从公益到商业。中文古籍的数字化,
首先受益的是学术研究, 在此基础上强化普及库的建设, 进行文化的宣传,
则很大程度上是一项公益性事业, 有赖于国家的支持和志愿者的奉献。此外,
我们还要致力于挖掘中文古籍数据库的经济价值, 推进商业性运作,
树立市场意识、销售意识、品牌意识。这也是促进中文古籍数据化整理可持续发展的途径之一。

(二) 智能化

人工智能 (Artificial intelligence) 是计算机应用的一个重要分支,
通过使计算机具有智能化的功能,
来达到模拟人类的某些智能行为的目的[9]。人工智能使计算器模拟人类思维,
延伸人脑功能,
在多种学科领域都有广阔的发展前景。具体到中文古籍数字整理的智能化,
也可以大大节省人力资源,
提高工作的效率和准确性。它可以分为自动化处理和自动化分析两大方面。

  1. 文献的自动化处理

一是字体转换。包括繁简转换、古今字转换、异体字转换、不同书体的转换等,
它的实现前提之一是字库的健全, 这也是一个庞大的工作,
需要文字学理论和字形收集整理工作的支撑, 而且,
鉴于中文字形、词义的复杂性, 自动化处理的错误非常难免,
所以一定的检查工作也是需要的。二是自动标点 (断句)
。现有相关研究多集中在中医古籍和农业古籍等专业特征明显的主题上。标点涉及到我们对中文语言结构的认知,
需要对古籍文献的语法特征、关联词、同义语标识、反义复合词等进行梳理,
先做到断句。且标点一定意义上反映的是古籍文本内容的逻辑,
有时专家尚且不能轻易判断,
所以这也必定成为自动化处理的一大难点。三是自动校勘。在20 世纪90 年代初,
国内便有研究人员开始探索使用计算器进行中文自动校对[10],
由于自动分词问题是个难点,
所以现在的处理还十分简单。期盼今后可以在简单上下文匹配的基础上,
进一步延伸到词切上下文匹配、自然语言理解上下文匹配。四是自动编纂。主要包括自动分词、自动文摘、篇章分割和段落检索等几个方面[11],
我国古书命名的方式十分多样, 而隐括内容为名者较少,
且古代学者的作品多为文集, 其内容包罗万象而少有内部编目,
即便有编纲目也几无统一标准, 十分随意,
急需整理。而这是一个非常庞大的工作, 若能采用自动编纂技术,
将减轻很多负担。除以上四个方面外, 文献的自动化处理还有很多方面可以探讨,
如自动翻译、主动注释、自动纠错等等, 足以专门做一番论述,
在此就不再一一说明了。

  1. 文献的自动化分析

现在计算器只能进行字符简的简单比较,
尚不能完全模仿人的逻辑。人具有主观能动性, 可以对客体进行分析作出判断,
虽然我们在努力编写算法, 设计应用程序, 赋予计算器一定的逻辑分析能力,
以解放人力, 帮助中文古籍整理, 初衷虽好, 前途虽亮,
但却需要具体的庞大的基础准备工作, 并要仰赖技术的进步。现阶段下,
我们可以初步藉助计算器对中文古籍进行字频、用韵的统计, 并探索用典、语句
(语言结构) 等方面的自动化分析。而主要难点是如何设计合理的算法,
即程序编辑问题。程序编辑问题除了涉及电子语言的转化和软件的建设外,
其基础为语言的梳理。在现阶段, 我们还是要着力进行准备工作, 完善语料,
充实数据, 为程序的编写提供素材。

四、中文古籍数字化整理面对的挑战和要求

(一) 变化的挑战

  1. 跟进信息

信息时代的特点除了信息量上的庞大外, 还表现在信息更迭速率的迅速上。所以,
面对不断在更新的信息,
中文古籍数据库也要及时进行更新。不过鉴于中文古籍资源总体上是稳定的,
所以需要跟进的主要为出土文献的新发现新材料。

  1. 跟进技术

中文古籍的数字化整理的产生无疑是源于计算器和电子信息技术的发展。在短短几十年里,
计算器脱去了神秘高科技面纱, 飞入寻常百姓家,
信息技术更是变更了我们的生活状态, 不敢想象以后还会发生什么, 不论如何,
中文古籍的数字化整理都要、也会紧跟技术的革新, 不断完善。

  1. 跟进政策

我国政策的发展总体宏观上具有连贯性,
但微观政策的变化也会对我们产生一些影响。例如, 《文学遗产》2014 年第6
期发表的郑永晓先生《加快“数字化”向“数据化”转变》一文尙可检索维基百科,
并引用其对“大数据”一词的解释[12], 但2015
年国内网络环境下已经无法在线使用维基百科。

(二) 资源整合的挑战

几十年来, 中文古籍数字化整理工作是参差发展的,
首先是开发主体的不同:大学研究机构, 馆藏机构, 私营企业,
乃至私人个体;还有地域的不同, 不同开发主体, 在不同的地域不同的时间,
采取不尽相同的标准和技术, 导致了中文古籍数字化整理质量的参差不齐,
也给研究者和使用者带来了很大不便。所以, 这要求我们进行资源的整合。

在国内范围中, 我们有必要强化古籍数字化控制主体的地位[13],
以促进中文古籍数字化整理工作有序、高效的进行;在国际范围内,
我们有必要增进不同地区不同国家的交流合作, 协商统一的标准,
以方便研究者和使用者的检索和查阅。

(三) 版权与壁垒的挑战

随着数字化的发展, 不少著作被整本扫描、公布在网上,
虽然在一定程度上便利了大家获取数据,
但这种版权意识的淡漠长远来看是不利于学术发展,
也不利于中文古籍数字化整理的市场化的, 所以, 保护版权十分重要。首先,
我们观念上就应该重视版权问题;其次,
保护智力成果的法律法规也需要完善;另外, 还可以从技术层面,
在电子书和数据库的制作中加入保护程序。

但另一层面上, 保护版权不能成为独占材料、垄断资源的借口。直面这一挑战,
努力在保护和开放中寻找平衡, 既尊重智力劳动成果, 又避免学术壁垒的产生,
才能更长远的维护学者权益, 促进学术发展。

(四) 人的挑战

首先, 显而易见, 是建设者的挑战。面对浩浩荡荡的数字化浪潮,
如果更好地融入并促进中文古籍文献的整理工作, 是一大挑战。其次,
是使用者的挑战。数据库的建立和数字化检索的完善,
对研究和阅读中文古籍的用户们而言, 大家都平等地使用数据库,
而在同一起跑上如何更深一步, 进行有价值的研究, 将是随之而来的挑战。所以,
未来的用户需要在组织和架构信息, 拣选和分析信息等方面,
更努力地发挥自己的能动性。

参考文献

[1]朱成林, 袁曦临.中国古籍的数字化导读研究[J].图书馆建设, 2014 (11)
:50-55.

[2]曹书杰.古籍整理与电子计算机应用研究的思考[J].古籍整理研究学刊,
1988 (1) :44-49.

[3]刘炜.上海图书馆古籍数字化的初步尝试[J].图书馆杂志, 1997 (4)
:33-34.

[4]毛建军.古籍数字化理论与实践[M].北京:航空工业出版社, 2009:6.

[5]
楼宇烈.汉文化数据库不同层次的实用需求[J].北京:古籍整理出版情况简报,
2003 (8) :2-6.

[6]杜泽逊.文献学概要[M].北京:中华书局, 2008:104-105.

[7]张显成.简帛文献学通论[M].北京:中华书局, 2004:3.

[9]林闯, 苏文博, 等.云计算安全:构架, 机制与模型评价[J].计算器学报,
2013 (9) :1765-1766.

[10]杜瑞芝.数学史辞典[M].山东:山东教育出版社, 2000:538-541.

[11]常娥.古籍自动校勘和编纂研究[M].合肥:安徽师范大学出版社,
2012:41-56.

[12]郑永晓.加快“数字化”向“数据化”转变[J].文学遗产, 2014, (6)
:141-148.

[13]王立清.中文古籍数字化研究[M].北京:国家图书馆出版社, 2011:106.