基于二分网络的档案小众推荐服务模型研究

    吴晨菁

    摘 要:文章将二分网络运用到档案部门服务工作中,根据档案利用者的类型、需求特征和档案信息特点建立档案小众化推荐服务模型,通过物质扩散和热传导推荐算法的加权融合计算利用者与档案信息之间的网络关系,生成具有针对性的推荐列表,以期为档案部门向利用者提供纵深服务提供参考。

    关键词:档案少用性;二分网络;推荐服务模型;小众服务

    当前,我国档案利用热情逐渐冷却,依据二分网络建立的小众推荐服务模型就是一种针对档案少用性提供纵深推荐的服务方式。近年来,依托计算机而高度发达的数据存储及运算,使复杂网络的构建得以实现。复杂网络的研究主要集中于自然科学、工程科学领域,在图书馆领域的研究也逐渐增多,在档案领域仅有一篇涉及档案学术语的探讨,二分网络在档案领域的研究为零。因此,笔者研究二分网络相关内容,对其在小众推荐服务的应用进行初探。

    1 档案小众推荐服务模型构建的依据

    1.1 实践依据。档案的现实少用性是档案小众推荐服务模型建立的实践依据。我国档案利用活动经历过三次高峰期:平反冤假错案、上山下乡工龄档案查询、编史修志工作。[1]此后,类似的利用高峰再未出现。现阶段,一方面,档案的原始记录性、机密性、区域性及价值转移致使其无法时常处于高利用状态;[2] 另一方面,大部分的档案利用需求来自工作查考、学术研究,档案利用需求表现出明显的阶段性针对性。历史上,虽然档案已从封建统治的高阁走向人民身边,然而民众的档案意识尚未完全觉醒。但我们说档案的少用性现实状态,并不是指不利用。档案部门开展基于二分网络的小众推荐服务,针对特定用户分不同群组开展服务,是追求纵深服务的方式。[3]

    1.2 理论依据。二分网络是档案小众推荐服务模型建立的理论依据,通过二部分图可以探测到利用者之间、利用者与档案之间的互动关系,社团结构是有针对性的服务模式。

    1.2.1 二分网络概述。二分网络用于挖掘主体与客体的关系,是符合利用者利用需求长尾现象的网络形式。[4]二部分图是其表现形式,它由两方面组合,利用者及档案构成顶点集V,利用者和档案的链接构成边集E,表达式为G=(V,E),如图1(a)。V包含利用者子集U和档案子集A,基于图1建立的连接,可以得出集合U和集合A的单模映射,如图1(b)、图1(c)。二部分图及单模映射可以反映出利用行为的集聚特点及小众化特征。

    1.2.2 二分网络的特性。度与度分布度。一个节点的度是指与该节点相连接的另一部分节点的数量,在图1(a)中,u8节点仅与a5相连接,因此u8的度为1,如图1(b)所示。度分布是某选定节点与另一子集中节点连接的数目的分布情况。[5]度分布反映了最为活跃的利用者群体,以及被利用最为频繁的档案。

    集聚系数。同一卷宗中每份档案之间有很强的关联性,这就形成了无形的网络链接结构,卷宗中某一份档案也会在年份、人物等上与其他卷宗产生联系,这样的聚集链接就反映了该二分网络的聚集程度,即集聚系数,表示二分网络结构中各部分的联系程度。

    社团结构。利用者多为因某个原因而聚集在一起的一类群体,档案也会集聚,这些群体就是二分网络中的社团结构。其形成以网络中的节点为基础,首先设定相似度,然后合并相似度最高的社团,形成新的社团结构,接着以新的社团结构为基础,设定新的相似度,重复合并重复计算,最后组成一个大社团。[6]

    2 档案小众推荐服务模型的建立

    结合二分网络和档案利用者小众群组的相关内容,构建了如图2所示的档案小众推荐服务模型。

    2.1 利用者群组。根据档案的少用特性,档案的主要利用者多以专业、兴趣等聚集,他们就是二分网络中的社团结构,在社团结构中形成了利用者与利用者之间的聚类关系、利用者与档案之间的小众偏好关系。分析群组中利用者之间的影响方式、影响程度,挖掘隐藏关系,完善利用者群组之间的网络结构。[7]

    2.2 二分网络。建立利用者集合与档案信息集合是利用者与档案资源二分网络形成的基础。分析利用者建立利用者模型,根据档案语义建立档案资源模型,结合档案资源主题词、关键词进行利用者与档案之间的信息过滤,析出利用者之间的概率偏好关系,建立利用者与档案资源二部分结构。然后根据二部分图中利用者与档案之间连接关系,给利用者赋予初始值。

    2.3 推荐算法的加权。

    2.3.1 推荐算法。二部分图中,利用者与档案都将视为单纯的节点纳入推荐算法中,以利用与被利用的选择关系为依托,预测利用者对尚未接触过档案的喜好程度。物质扩散和热传导是主流的推荐算法。物质扩散满足守恒定律,节点a会把能量平均传递给相连的u节点,每个u节点的能量是从所有a中获得能量的总和。如图1,给u1相连的节点赋予能量1,不相连的为0,则u1的最终能量值为1/3的a1加1/2的a2。u会把收集到的能量再平均返回给a,算法如上。最后,将能量值最大的未利用过的档案推荐给该利用者。热传导算法中每个u节点的能量是相连的a节点能量的平均值,如u1的能量值为(1+1)/2;能量返回子集A后,a的能量就为相连的所有u节点能量的平均值。由此,便会推荐某利用者尚未使用过的档案信息中能量最高者。物质扩散算法最后结果倾向于推荐热门的档案信息;热传导算法在能量传递中,热源存在,冷门档案资源也不会被忽略。物质扩散和热传导推荐算法相结合,涵盖更全面的档案信息,这对档案利用者主力军提供更深入的推荐服务很有必要。[8]

    2.3.2 加权融合。物质扩散偏向于呈现给利用者热点性的档案信息,而热传导偏向于不易被发现的档案信息,更加注重多样性,两种算法各有其侧重的方面。设定一个动态的可调权重,通过档案利用者对推荐服务评价的变化,建立加权模型,调节物质扩散和热传导推荐算法的比例,达到两者有效的结合。对两种算法的加权融合同时满足了利用者对热门资源与冷门资源的多样需求,最大限度地将馆藏档案资源纳入到小众化推荐服务中去,使推荐服务更加全面深入。

    3 档案小众推荐服务模型的实现

    3.1 理念支撑。社会全体尤其是档案部门要正确认识目前我国档案利用不高的现象,这是推荐模型实现的理念支撑。无论理论上、实践上,还是历史的角度,都造就了目前我国档案少用性的现状。利用者与档案二分网络结构可以平衡热门与冷门资源的度,理性认识档案的少用特性,才能理性地开展推荐服务工作。

    3.2 资源保障。

    3.2.1 利用者调研。利用者群组(社团)是在一定的兴趣、专业、行业等范围内形成的,对群组的分析基于客观、全面的基础上。所以,形成利用者社团首先要对利用者进行充分的调研。利用者调研不必追求广而泛,侧重于精而深的纵向数据收集及数据分析。

    3.2.2 档案信息整合。档案信息集合是二分网络中的另一个数据集合,馆藏档案的收集、整理、存储是数据挖掘与分析的前提。提供纵深服务需要海量的档案信息支撑,档案信息的有效整合是二分网络中算法实现的基础。档案信息的整合注重宽而广的特点,收集、存储会应用到一些技术手段,特别是云存储技术。

    3.3 技术支持。在进行利用者、档案信息相互之间的数据分析时,需要运用数据挖掘技术来挖掘出不易被发现的关系,通过建模技术建立模型。因此,灵活使用数据挖掘工具、掌握先进建模技术,将会对推荐结果的准确性、推荐服务的可靠性大有裨益。

    4 结语

    档案的少用性质决定了当前我国档案部门不会像图书馆那样门庭若市,档案利用者也因职业、学术研究、兴趣爱好等利用需求而形成小众的利用者群组。因此,针对有需求的档案利用者群组,档案部门可以运用二分网络的相关内容,建立档案利用者与档案信息之间的二分结构,深度挖掘利用者之间、利用者与档案信息之间复杂的联系,进而将工作重点从由如何扩大服务数量切实转移到如何提高档案部门服务的质量上来,真正创造纵深服务和精深服务。