辞书数字出版:花开自有时
孙述学
当下,数字出版如火如荼,汹涌澎湃。而辞书则因为它的一些特性,成为数字出版的急先锋。2012年3月,已走过240多年历史的《大英百科全书》宣布将停止发行印刷版,当2010版全部售出后,将不再印刷任何纸质《大英百科全书》。同年,全世界最权威的英语词典——《牛津英语大词典》编委会宣布,《牛津英语大词典》从第四版起将停止推出纸质版,全部改为网上付费查询。英语学习词典的五大品牌牛津(Oxford)、朗文(Longman)、麦克米伦(Macmillan)、剑桥(Cambridge)、柯林斯(Collins)也纷纷推出光盘版、网络版、APP应用程序。一时间,辞书的数字出版已形成一股股浩浩荡荡的大潮。
作为中国现代出版业的著名品牌社,商务印书馆以出版高品质的辞书和学术著作而享有盛名。与过去每一个历史变革的关口一样,当下的商务印书馆选择了顺应时势,积极创新,将辞书的各种资源盘活,开发适销对路的数字产品,为用户提供优质的知识服务,成为商务印书馆数字出版的重要方向。本文结合商务印书馆近年来开展数字出版的实际工作,谈谈辞书数字化的相关体会。
一、做好顶层设计
顶层设计包括五个层面:资源层面、产品层面、方法层面、营销层面、人才层面。
资源层面,首先要考虑自己有哪些可把控的资源。细说来,就是指哪些辞书拥有网络信息传播权,哪些辞书结构化数据已完成,哪些辞书资源是市场迫切需要的。其次还要考虑资源的垄断性和可持续性。数字出版时代,品牌、无形资产的重要性相对于纸质出版时代有过之而无不及。最后要考虑的是连横还是合纵:一个出版社不管有多少资源,总会存在数据方面的不足,如何去“连横”,与拥有同类资源的出版社合作,就成为一个不得不考虑的重要问题;深度挖掘既有的存量资源,实现 “合纵”,将本社的资源进行充分的整合,是出版社当前数字出版的重要途径。商务印书馆辞书资源主要是语言习得类的工具书,种类较多,汉语的、外语的、汉外外汉的都有,字典、词典、语典都有,古代的、近代的、现代的都有,小学生、中学生、大学生使用的都有,多数都有自主知识产权,并且已完成数百本辞书的结构化。品牌自不必待言,国内出版社无人出其右。但“连横”方面,可考虑的空间还很多,比如上海辞书出版社的《辞海》,比如中国大百科全书出版社的《中国大百科全书》等。
产品层面,要考虑的问题也不少,如:产品是数据库还是APP,APP是Web APP 还是Native APP?产品形态是提供在线服务还是镜像安装?多媒体内容如何置入,置入的比例有多大?检索的方式如何在纸质词典的基础上实现大的突破?辞书资源的使用场景有哪些,是独立应用还是依附于特定的教育、学习类产品应用?产品的服务对象是什么,是服务于少数民族汉语习得还是外国人学汉语,面向基础教育还是语言文字工作者?
方法层面,则要考虑是全新编纂,还是对已有结构化内容动态重组,如何提供增值功能。以《商务印书馆百种精品工具书数据库》为例,它将商务印书有价值的100多种辞书结构化、碎片化,在此基础上,动态重组,资源整合,加入多种数字产品功能,形成富有增值服务的新型数字辞书数据库。
营销层面,则要考虑营销的模式是B2B还是B2C?市场范围是在国内还是在海外?辞书内容如何黏着用户?收费与还是免费?以及定价的合理性,不同消费对象的不同营销策略和产品知识产权的保护等。
人才层面,则要考虑如何建立一支既懂数字出版,又懂得辞书编辑的队伍。这支队伍,要负责与外包技术开发商沟通与把控,处理XML结构化的各种问题,辞书数字化标准的制定,编辑编纂系统的技术支持等。
二、以数据资源的整理为基础和出发点
数据资源的整理,对于数字出版的重要性是无论怎样强调都不为过的,这一点已是共识。辞书的数字资源整理,有它自己的特点:一是条目化。纸质辞书的数据资源整理不同于一般图书,它是完全条目化的,一本辞书要以词条为单位,少则两三万条,多则上百万条,每条记录下要分出好多字段,对这些字段还要进行规范化的标引,整理起来相当费时费力。二是强调标准化与规范化。辞书数据资源的整理,必须在DTD/Schema(DTD、Schema均为XML的验证机制)的约束下进行,否则,庞大的辞书资源就不可能进行有效的整合。由于不同辞书体例的不同,实践中标准和规范的制定相当复杂,如果用一个统一的DTD去约束所有的辞书,则缺乏灵活性,一些个性化的属性很难得以充分描述。而一书一DTD,统一起来则会有很多冲突,对数据的整合不利。这就需要我们处理时有相当的技巧。
商务印书馆投入大量人力物力财力,详细分析了近70本辞书的结构,提取形成DTD,在确立辞书加工标引规范的基础上,对汉语词典54种、英汉词典20种、外汉词典36种,合计110种,21个语种,3.5亿文字,360万词条进行了数据化。总计形成3.5亿余字,360余万条目(字、词、语)的高度结构化数据。结构化后标引的数据、DTD的制定,为商务印书馆辞书的数字出版纵横捭阖提供了现实的可能。目前,这些结构化的数据,一方面为开发多种数字产品提供了坚实的基础,另一方面也将逐步应用到传统纸质辞书的编纂中,为其提供有价值的帮助。
三、呼唤变革编纂编辑方式
目前的数字出版都是“倒着走”,都是在已有的纸书基础上开发,而不是从编辑起始,即数字出版与纸质出版结伴而行。图书如此,辞书亦然。
辞书编辑编纂流程的再造,要考虑的因素很多,上面的条目化当然是基准点,除此之外,还要考虑内容与流程管理,编纂与修订兼顾,修改痕迹的保留、版本对比、造字与集外字(中文字符集Unicode编码以外的字)的处理、协同编纂、质量控制与专项检查、编辑过程的搜集等。它的关键技术有DTD、XML、CSS等(DTD——辞书元素结构规则的汇总,俗称模板;XML——遵循构架规则、颗粒化拆分后的辞书内容,俗称标注内容;CSS——XML内容在编纂平台中交互编辑、在线打印或发布展示的形式定义,俗称版式)。
商务印书馆从2002年就开始语料库方面的基础建设,近年来,逐渐形成 “三库两台”的框架思路,即辞书语料库、辞书资源库、辞书数据库、编辑编纂系统平台和排版平台。“三库两台”中,“三库”是上游,将为辞书的数字出版提供源源不断的来源;“两台”是中游,建设完成后,将是生产方式的变革,会极大提高辞书的出版效率,同时为传统出版和数字出版提供高效服务。这些珍贵的资源和先进的生产方式,是商务印书馆辞书出版的核心竞争力,是商务印书馆处于领先地位的重要保障。生产方式的数字化,是商务辞书数字出版的重要特色,也是需要继续加以高度重视的环节。
四、推进产品向服务跨越
辞书数字出版,大体上要经过四个阶段:第一个阶段是纸质书的翻版;第二个阶段是在前面阶段的基础上加入多媒体内容和强化检索方式;第三个阶段是动态重组,提供增值服务;第四个阶段是针对用户需要,提供个性化知识服务。
商务印书馆辞书的数字出版,目前正处在第三个阶段,正积极向第四个阶段迈进。
以《商务印书馆百种精品工具书》为例,它涵盖商务印书馆100种精品中外文辞书全部数据,总字数3亿余,条目(字目、词目、语目)约360万条,内容权威,品种齐全,规模巨大;融入音频、视频等多媒体技术;具有强大、科学的专项检索和高级检索功能。在该数据库中查检一个字词,将会返回与这个字词相关的词语、成语、俗语、谚语、歇后语、惯用语、名言及专科词语等,融汇读音、释义、用法、文化百科等知识,实现了知识的动态重组和资源深度整合,方便的内部跳转,强大灵活的检索甚至可以据意查词。
另一个拳头产品《牛津高阶英汉双解词典》第7版APP,则着重针对国内用户学英语,提供诸多增值功能,如所有词目均真人发音,并配有英式、美式两种读音;可在英汉双解、英文词典、英汉词典之间自由切换;完整模式与简洁模式可自定义例证、音标、习语等元素的显示与隐藏;其中的图片可以根据需要放大或缩小;特别按照研究生入学考试、四六级英语考试词汇列表,针对性地组合形成考试词语词典,考试词语可以灵活分级和添加相关词语;对查询词语可以分类加入书签,利用iCloud实现不同设备间的同步;词典查询支持通配符等模糊查询,支持在短语、例证中查询,输入查询时,提示书写相似词目,具有点词即时跳转查询功能。
值得一提的还有《商务馆学汉语字典》(The Commercial Press Dictionary of Contemporary Chinese)APP,它是供外国人习得汉语的,除提供汉字真人语音(包括字头和词条)和汉字笔顺动画外,它的精彩之处还在于检索方式的全面革新上:摄像头扫描识别法查询汉字;麦克风语音识别法查询汉字;文本直接输入法查询汉字;利用设备本身手写输入功能,输入汉字;输入简单的英文,亦可查到汉字或词语。另外,还可以HSK分级索引、英汉索引、拼音索引查询字词;示例中的字、词,可以点击跳转查询字或词;字头末尾提供相关词列表,可以点击查询相关词。此外,还提供生词本与学习计划。这些都为外国人学汉语提供了极大的方便,以数字技术解决了外国人学汉语时输入查检词的困难。从理论上讲,就是提供了诸多贴心的增值服务。
五、变革思维
在辞书的数字出版中,思维的变革的确很实在、很重要,很多时候还是决定性的。
比如拿什么辞书资源做数字出版,决策时需要魄力。辞书的数字出版需要勇气和决心,要敢于投入。有时候,囿于传统思维,出版企业不敢或者不愿意把核心产品拿出来做数字化,而总是以一些边角碎料做尝试。这带来的结果就是产品没特色、缺乏竞争力,耗费人力、资金,最终却没有市场。很难想象一本平时滞销的辞书,经过数字化改造就能“立马咸鱼翻身”。商务印书馆在Kindle内置时就选择了《现代汉语词典》和《新华词典》,在做百种精品工具书数据库时,就包括《新华字典》《现代汉语学习词典》等,在做APP时,拿出了《牛津高阶英汉双解词典》。这些工具书都是商务印书馆的顶级品牌,都是压箱底的资源,商务印书馆把它们拿出来做数字出版,才能取得不俗的业绩。
辞书的数字出版,要高度重视技术。“内容为王”没有错,但在辞书的数字出版方面,我们实在不能忽视技术的巨大作用。有观点认为技术不是数字出版的问题,反正市面上都有,只要有思路和想法,数字辞书就能很好地实现。虽然言之有理,但从另一个角度来考虑,如果技术获取的时间成本和经济成本都比较高的话,出版社就不能算拥有技术,一些好的想法就只能漂浮着,不能落地和实现。还有,就是技术可能反过来,深度影响内容。辞书数字出版必须对此有清醒认识,比如语料库的建设会让选词立目更科学,释义更精确,例证更优秀。上面讨论过的一些技术,对辞书的查检方式,可以说是颠覆性的。技术对内容的影响既深且广,它推动着数字辞书以一种新颖的面目惊艳示人,也昭示数字辞书的美好未来。
(作者单位:商务印书馆数字出版中心)