标题 | 多馆协作开发的机构知识库建设 |
范文 | 韦成府+聂华+崔海媛![]() ![]() ![]() 摘要 首先简要介绍机构知识库的三大系统平台(EPrints、Fedora、DSpace)和国内外机构知识库建设项目的情况,然后阐述CALIS三期机构知识库建设及推广项目首创和建立的“示范馆+参建馆(1+4)”建设机制、建设思路、建设成果,最后分析在建设过程中碰到的困难及其解决办法。 关键词 机构知识库 CALIS CHAIR 多馆协作 示范馆 参建馆 1 背景 1.1 国内外建设情况与面临问题 2002年起,世界各国大学已开始陆续建设机构知识库,不同的研究机构、组织针对信息用户的一站式获取信息服务的需求,通过自开发或合作的方式,提出了相应的解决方案并开发出不同的应用系统,其中比较流行的三大机构知识库系统平台分别为EPrints、Fedora、DSpace。 EPrints是由英国南安普顿大学开发的一个通用免费软件,用于建立基于网络的档案系统。它是GNU(一个类似于UNIX的操作系统)的一部分,采用Perl语言开发,可运行在GNU/LINUX或UNIX系统上,但不能在Windows系统上运行,其缺省配置是构建机构知识库,具有高度的可定制性。 美国康奈尔大学早在1997年就开始了一项主要由图书馆员使用的软件工具开发计划,这一开发计划被命名为“灵活可扩展的数字对象库架构”(Flexible Extensible Digital Object Repository Ar-chitecture,Fedora)。之后康奈尔大学与弗吉尼亚大学合作,在美国梅隆基金会的支持下以Fedora模式率先建立起一个综合性数字图书馆技术平台,并在2003年5月发布了1.0版本。 DSpace系统由美国麻省理工学院图书馆和美国惠普公司实验室合作开发,经过两年多的努力于2002年10月开始投入使用,是以内容管理发布为设计目标,遵循BSD协议的开放源代码数字存储系统。 国外利用以上三大平台建设起来的机构知识库已有上千家,其中有不少是通过机构知识库项目来维持的,如DSpace Federation;澳大利亚的ARROW;英国的eBank UK项目,荷兰的DARE项目,加拿大的CARL机构知识库试验项目,日本的JAIRO计划等等。 机构知识库在中国的发展相对比较晚。香港地区起步最早,香港科技大学于2003年初首先建设国内第一个机构典藏项目。但香港地区机构典藏的建设缺乏整体规划,主要以机构单独建设为主。2006年6月,台湾地区“教育部”委托台湾大学图书馆执行“建置机构学术成果典藏计划”,以台湾大学为机构典藏的营运范例,采用DSpace 1.4 Betal作基础开发机构典藏软件NTUR,作为全台湾地区各大学院校建置机构典藏的参考。大陆地区,中国国家科学院于2007年度启动机构知识库项目,由国家科学图书馆兰州分馆负责基于DSpace开发研究所机构知识库建设平台CAS-IR,并在这一年度完成了力学研究所IMECH IR和国科图LAS IR的试点建设工作,后续逐步在中科院研究所进行建设推广。 1.2 CALIS机构知识库建设及推广项目 截至目前,我国大陆共有3000多所高校,每年都生产海量的学术成果,包括期刊论文、会议论文、图书专著、研究报告、手稿等等数字化的资料。为了加强对它们的管理,提高这些学术资源的利用率,CALIS三期确立了建立面向高校等学术机构的机构知识库管理与服务系统的任务。2011年8月,CALLS三期机构知识库建设及推广项目由项目承建馆北京大学图书馆牵头启动,期望以此促进机构知识库在我国高校范围内的建设、发展和应用,利用项目建成的机构知识库系统管理、保存和展示我国高校的学术资源和学术成果。项目预期就中国高校机构知识库(China Academic Institutional Reposi-tory,CHAIR)的建设进行全方位的尝试和实践,通过项目建设初步探索形成一套符合我国高校现状和发展趋势的机构知识库建设及服务机制,最终建立“分散部署、集中揭示”的中国高校机构知识库。而在机构知识库系统平台方面,项目需要至少建设一套完整的、开源的机构知识库本地系统,以帮助高校发布、共享和保护既已形成的知识、科学和文化遗产的数字化资源。 2 建设思路与实施 2.1 总体思路 基于前文的介绍,笔者发现国外的机构知识库项目基本是侧重于已建成机构知识库的维护和增强;而我国港台地区、中科院则是以机构知识库的推广建设为主,并在平台建设方面享有很多共性,比如都采取由一个机构(图书馆)作为示范和主导,推动和带领整个地区的机构知识库建设,且大部分均使用DSpace作为基础软件平台并进行大幅度的本地化改造,使之适应地区的使用特点和使用习惯等。先进机构的示范作用能够带来很好的推广效果,但对于CALLS三期机构知识库建设及推广项目来说,由于成员馆的数量众多,而且单个机构缺乏足够的技术和人力资源,所以仅由一个机构作为示范和主导进行推广实施,缺乏实际的可行性。同时,由于项目经费的限制,也无法考虑委托公司或者成立小组进行集中开发。此外,考虑到CALLS三期机构知识库项目未来的发展,尤其是将在全国高校范围内广泛推广,需要借助多方力量。最终,项目确定了由多家图书馆联合建设的思路,目标是:需求统一,适当兼顾个性化,开发分散,成果集中。基于此,CALLS三期机构知识库建设及推广项目首创和建立了“示范馆+参建馆(1+4)”机制,并由五个示范馆协作开发机构知识库平台和推广中国高校范围内的机构知识库建设。根据建设目标以及参建馆的建设需求和基础条件,项目将以示范馆组织参建馆共同参与建设的模式进行建设。项目的总体思路如图1所示。 2.2 具体实施 2011年7月,项目选择在机构知识库建设方面有意向、有投入、有经验也有成果的数家高校图书馆,进行意向征求和需求研讨。项目承建馆和项目管理组确定5家有基础、有能力、有意愿承担组织建设责任,并在机构知识库平台开发方面卓有成效和成果的图书馆作为示范馆,由它们共同承担通用机构知识库平台系统的开发任务。这5家示范馆为北京大学图书馆(项目承建馆)、北京理工大学图书馆、重庆大学图书馆、清华大学图书馆和厦门大学图书馆,它们以区域或者学校类型为参照召集4到5个参建馆形成一个建设小组,如表1所示。其中重庆大学入选示范馆,是由于该校机构知识库系统是一个自开发的系统平台,给出了一个除DSpace系统之外的选择,这对于项目建设推广是一个很好的特例,可以在平台的多样化上有所贡献。 在此基础上,项目于2011年8月正式启动,并成立了技术实施组。技术实施组确定项目的技术方案、任务分工、管理协调制度,开始项目的建设实施。 首先,为了让各示范馆和项目组成员能够很好地进行交流沟通和资源共享,技术实施组搭建了项目管理系统、ftp,并建立了项目组成员QQ群。 其次,项目技术路线的一个重要内容是确定构建IR软件平台的方案。方案选择包括两个递进的层次:第一层次是考虑选择商业软件还是开源软件。开源软件较之商业软件,在协同开发、修改扩展的灵活性等方面具有显著的优势。第二层次是在DSpace,Fedora和EPrint等几个全球范围内应用最为广泛的IR开源软件平台之间的斟酌。项目组经过考察调研并结合实际情况,最终选用Dspace1.8作为软件二次开发平台。因为软件平台开发设计的步骤一般包括:设计软件的功能和实现的算法、软件的总体结构设计和模块设计、编程和调试、程序联调测试以及提交程序。而采用DSpacel.8版本进行二次开发和改造,技术实施组不仅在CALLS机构知识库平台建设上可以省略一些步骤,如设计软件的功能、总体机构等;而且以后的兼容和版本升级也更容易,当然需要做到尽量不对DSpace核心代码做修改。 再次,为了适应中国人的使用习惯,增加一些实用性和个性化的功能,技术实施组以及其他参建馆的专家经过数次会议(包括视频会议)研讨,并根据DSpace最新版本的功能特点广泛地征集需求,列出了CALLS机构知识库通用平台需要开发的任务方案,以尽可能地覆盖更多图书馆的需求。开发需求明确后,再分配各示范馆的任务,分工原则为:1)根据任务难易程度,平均分配开发任务量;2)功能相同或相近的开发模块分配给同一示范馆;3)根据各馆之前的开发基础与经验,发挥各自优势,将相关功能模块分配给已有开发基础与经验的示范馆。分工确定后(如表2所示),各示范馆需要提交一份详细的功能设计,即整理功能设计与实现的思路,这既可以作为开发人员的编码指南,还可据此进行任务分配的再次协调或提出建议。 最后,在示范馆完成各自任务(包括功能的实现、测试和开发文档编写)后,所有功能的整合和调试就变得相当关键。因为各示范馆都是直接在办公设备上进行开发,而且DSpace本身是由多个网络应用组成的系统,配置文件繁多,编码环境可能也不一致,所以给功能整合带来了诸多困难。在功能整合测试方面,项目组要求每个示范馆测试其他示范馆的功能模块,并撰写测试报告,以保证整个CALIS机构知识库通用系统平台的良好运作。根据项目“示范馆+参建馆(1+4)”的建设机制,每一个示范馆在建设完成本校机构知识库系统平台的部署和建设之后,还要负责为本建设小组的各参建馆提供系统平台搭建的技术支持和其它方面的咨询,帮助参建馆完成本机构的机构知识库构建,以期在短时间内尽可能地推广项目成果、扩大项目影响,促进高校机构知识库的发展。同时,各示范馆后期也大力帮助和支持有建设意愿的非参建馆构建机构知识库,包括需求调研、系统平台选择、内容建设、服务推广等等。 3 建设成果 经过不到一年的时间,由项目示范馆北京大学图书馆、北京理工大学图书馆、清华大学图书馆和厦门大学图书馆联合开发的CALIS机构知识库本地系统(CHAIR Local版本)和由项目示范馆重庆大学图书馆开发的CALLS机构知识库本地系统(CHAIR Rise版本)已经在28个示范馆和参建馆完成了安装部署,并开始提供服务。项目组提供完整的本地系统平台和安装使用手册,供CALIS成员馆免费使用,并由项目承建馆(北大馆)与示范馆(北理工,清华,厦大和重大馆)向参建馆提供技术支持与服务。在CALLS三期机构知识库建设及推广项目完成验收后,项目管理组陆续收到多家图书馆参与项目建设的反馈。截至2014年3月11日,已有超过30家中国高校图书馆有意向加入CHAIR项目,并在该项目的支持和协助下,陆续开始机构知识库的平台建设和内容建设。 在CHAIR Local版本中,项目技术实施组对DSpace的多项功能进行了优化,简化了提交流程,提高了用户体验效果。而自主开发的CHAIR Rise版本则更多地融入了Web2.0理念,增强了多媒体管理和Web2.0元素,提供了个人中心、标签、评论、RSS等功能,旨在有效提升用户体验,吸引读者使用机构知识库。值得一提的是,CHAIR Local系统实现了与CALLS联合认证的对接,基于开源软件Solr和IK实现了分面检索和中文分词功能,以及基于免费开源的辅助软件实现了全文检索与在线浏览的功能。 4 困难与解决办法 在项目(主要是本地系统CHAIR Local版本)的建设过程中,技术和内容建设方面都遇到了一些困难: 1)批量条目查重 一篇文章可能有多个作者都来自同一单位,通过作者名与学校名获取到的元数据和全文,难免会有重复,批量导人数据就需要考虑查重的问题。如果采取人工排查,将非常耗时耗力,因此技术实施组另外开发了一个基于题名和作者名的接口,在生成DSpace批量导人数据包前进行查重。当然这只是理想的做法,实际情况可能比较复杂。比如同一篇文章可能存在题目不一样的情况,那就需要根据额外的字段来进行判断查重,这些额外的字段可以是出版社、出版时间、关键词等。 2)OAI收割 对于愿意加入CHAIR项目但不支持OAI协议的机构知识库平台,项目中心网站就无法收集该机构知识库内的元数据,而且还可能存在数据字段名称不一致的情况。为此,技术实施组单独开发了元数据转换和导人工具,暂时以离线的方式将元数据导人项目中心网站。 3)删除条目 如果发现有重复记录或者操作失误,就需要删除对应条目。由于条目被系统接受以后会在Solr中建立索引,所以将条目删除后,从Solr中返回的检索结果中仍然包含此条目,但是该条目的页面已经无法访问。删除和重建索引可以解决这个问题,但是如果条目量增大索引文件就会变大,重建索引将需要很长一段时间。为了彻底解决这个问题,技术实施组单独开发了一个接口,在删除条目之后自动提交请求到Solr应用,删除对应的索引项,这样操作后检索结果中不会再出现已删除条目。 4)字符编码 一般情况下,数据的处理和批量导人包的生成都是在Windows环境下操作完成,如果直接上传至Linux或Unix服务器导入机构知识库系统,将会出现乱码。经过多方排查,项目组发现是由于编码不一致造成。解决办法就是先将Linux或Unix服务器环境编码改为与Windows一样,如GB18030。但是导人完成后必须再改回为UTF-8,否则机构知识库系统页面某些数据展示将会出现乱码。 5 总结 CALIS机构知识库建设及推广项目是个预研性质的项目,项目建设只有不到一年的时间,却取得了丰富的成果。由此可见,项目首创的“示范馆+参建馆(1+4)”的多馆协作开发机制是非常成功的,它有效地提高了项目建设的效率,各示范馆之间得以进行需求和技术等层面的密切交流,提高了成果的可用性并更好地满足了通用需求。也是得益于该机制,项目在人力、物力、财力上节约了很多资源,同时也积累了宝贵的建设经验,为图书馆业界联合力量、整合资源进行机构知识库系统平台以及其他项目的建设提供了有益的参考。 当然,这仅仅只是一个良好的开端,后续的建设任务还非常繁重。未来希望能够在全国高校机构知识库的建设进程中进一步探索多馆协作机制,吸引更多的图书馆参与,并且能够形成统一良好的合作建设规范。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。