三百古籍经典首度数字化 经历10多年才出炉
近日,包括国家图书馆、首都图书馆、北京大学图书馆、清华大学图书馆在内的全国三十余家图书馆,已陆续在电脑系统中安装了中华书局的数字化产品《中华经典古籍库》,并向公众开放。这一数据库目前包含300种首度实现数字化的古籍经典,如果印刷为纸质书,这些古籍完全可以称得上汗牛充栋,可是如今人们却能够在电脑上任意检索,轻松地调阅其中的内容。
“好东西都拿出来了”
“中华书局半个多世纪以来积累下来的好东西都拿出来了,这里面凝聚了无数学者的心血。”中华书局副总编辑顾青这样评价《中华经典古籍库》的价值。
作为中华书局版点校本古籍首度数字化的成果,《中华经典古籍库》收录了包括“二十四史”及《清史稿》《资治通鉴》“新编诸子集成”“清人十三经注疏”“史料笔记丛刊”“学术笔记丛刊”等权威整理本,一期收录经典古籍300种,共计2亿余字。今后,该数据库还会以每年推出一辑的速度,不断增添文献数据。
中华书局数字出版中心主任李晨光介绍,该数据库不仅提供了保留全部整理成果的数字文本,更实现了文本与原书图像的一一对照,并能自动生成引用格式,除支持全文检索外,还添加了独具特色的人名异称关联检索。
在古籍数据库领域,人名异称关联检索是首次出现。顾青举例说:“比如人名曹操,还有很多称谓:孟德、吉利、阿瞒、武平侯、魏王、魏武帝、魏太祖等,仅仅《三国志》一书中就另有25个,更不要说历代文献的各种称谓了。”他认为,即便是最熟悉曹操的专家检索“曹操”,大概也不会把几十个不同称谓都输入一次。“但该数据库因为有主题词表,输入一次‘曹操’,所有不同称谓所在的文献都能检索出来。”
“造”出6000多冷僻字
《中华经典古籍库》经历了10多年漫长的过程,才最终出炉。
中华书局数字出版中心古籍资源部主任洪涛回忆说,该项目于2003年由原国家新闻出版总署启动,并交由中华书局具体实施。有三家外包公司参与了该项目的合作,其中一家负责数据采集,一家进行软件开发,一家负责造字,而中华书局负责设计、组织、测试、验收。
让中华书局方面没有料到的是,该数据库仅造字一项任务就造出了6000多个冷僻字。
北大方正电子有限公司字库业务部总经理张建国说,北大方正开发的超大字库有70000多个汉字,专门用于古籍出版项目服务,但由于古籍经典中包含大量冷僻字,即使是这个超大字库也无法满足《中华经典古籍库》的使用需要。这些冷僻字包括异体字、通假字、避讳字,还包括简繁字,甚至日文、韩文中的汉字。
对于这些字库里没有的冷僻字,“造字设计师会根据中华书局提供的样稿,在电脑里先画出来,再打印出来看效果、看细节,不是偏旁部首一拼就行了。”张建国说,一般设计师每天能造字二三十个就不错了,为了保证工作进度,方正方面投入多人组成小组,加班加点,才完成了这6000多个冷僻字的造字工作。
最担心纸质书受冲击
《中华经典古籍库》项目成本巨大,其中来自国家的投入高达2000万元,中华书局也向该项目投入了1000多万元。沉重的成本负担给中华书局带来了不小压力。顾青实话实说,他怕巨额投入收不回来,纸书销售也受到冲击。当然,他还怕辛辛苦苦出的成果被盗版。
中华书局这套数据库分成两类, 售价30万元的为无限并发数,也就是说同时在线使用的用户数没有限制。售价15万元的为3人并发数,也就是说三个用户可同时在线使用。
截至目前,中华书局还没有收回一分钱。“虽说有多家图书馆陆续预装这套数据库,但需要试用三个月以后,这些图书馆才会决定是否买。”即便如此,顾青坦言,“我们一直担心几十年的好东西都拿出来了,数据库没收回钱,最后纸书也卖不动了,大家全用数据库了。”他直言不讳地说,这种担心,即便在数据库开发之初也同样存在。
对于盗版,顾青也心存担心。为了防止盗版,数据库销售目前仅提供给图书馆等机构,并没有向个人开放。但顾青承认,尽管数据库有先进的防盗系统,但小贼能防,大贼防不了,“就像家里安了三道防盗门,你是能防小贼,但大贼开个推土机把你家给平了,你也没办法。”他衷心希望“江洋大盗”别光顾这家“小店”,“因为古籍数据库毕竟是个小行当,我们无比珍视。”
古籍库有望改变论文引用惯例
学界声音
在学术界,《中华经典古籍库》的启用被视为标志性事件,作为该数据库首批试用者的一些学者,在体验了数据库的方便、快捷的同时也感受到,专业古籍数据库的出现,有可能改变现有的学术论文引用惯例。
清华大学中文系教授刘石说,从上个世纪80年代古籍数据库出现以来,专业学者一直遵循不成文的原则,那就是数据库不能直接引用,一定要查找原书进行核对才行,“因此,如果我的学生在论文中引用了数据库的东西,我就不能算他通过。”
刘石解释说,此前,有很多数据库做得不够精心,校对存在很多错误,版本也不够科学,“尤为重要的是,学术论文引用典籍都要有出处,但这些数据库因为版权不明确,或者根本就是盗版,都无法标明出处。”
“中华版”数据库的到来,有可能改变这一惯例。
中国社会科学院历史研究所副研究员陈爽认为,对于学者而言,这个数据库尽管收入的都是常见古籍,并不是什么稀见古籍,其2亿字的数量在业界也并非顶尖,关键在于,该数据库都有版权,而且古籍出处准确,这在过去显然是鲜见的。对此,刘石也表示赞同,“今后,如果我的学生引用这个数据库,就没有任何问题了。”