标题 | 装备财务信息管理系统应用研究 |
范文 | 刘欣 摘要:本文在会计凭证摘要结构文法的基础上,提出一种基于局部单一会计凭证摘要模式匹配的消除分词歧异方法。通过增加会计凭证摘要的匹配模式规则和模式顺序自动匹配的实现方式,解决了会计凭证摘要中存在冗余项的问题,提高了会计凭证摘要匹配效率和歧义消除质量。实验结果表明此方法在会计凭证摘要分词中优于一般消极模型的处理效果。 关键词:模式匹配 装备财务 信息管理 在过去二十年中,从起初的手工记账到现在的多方位信息化管理,计算机信息管理已经越来越多应用于装备财务管理的日常工作中,由此而产生了数量众多装备财务信息,这是分析装备财务效益,完善保障手段的依据,但这些有用的信息都隐含在海量数据中很难区分,信息的利用率比较低。因此,采用计算机自然语言识别技术自动提取信息已成必然的选择。它可以提高装备财务信息的效率和质量,避免传统审计方式各个环节的漏洞,并同时保证了审计的公正性。 1.问题提出 会计凭证中的摘要, 是依据审核无误的原始凭证对某项经济业务的内容所作的简明扼要的说明,也是财务信息使用人员从记账凭证和账簿上了解经济业务内容的途径,并由此寻找和发现不符合财务制度列支的事项。 摘要的特点是书写格式比较规范的短句,主要结构可以分为两大类:日常收支业务摘要填写和不涉及货币资金的业务摘要填写。 日常收支类业务摘要填写主要包括:购买装备、维修器材、办公用品、耗材等;报销差旅业务费;缴纳杂项费用、发放工资;借款还款业务。这类业务摘要填写的基本模式大致为:部门+姓名+(根据某预算项目)报销+业务费用内容,即主动宾格式。 不涉及货币资金的业务摘要填写主要包括:内部转账凭证;购进低值易耗品、固定资产出入库业务;提取某月职工加班费、慰问费、职工福利费等;收到上级下达或向下级下拨款项。这类业务摘要填写的基本模式大致为:购(代扣、暂收、下拨、计提等)+物品(经费、项目)+(入库),即动宾格式。 但是,由于摘要内容是由财务人员手工录入,每个人书写习惯的不同使得摘要的形式受到了一定的人为主观因素的影响。然而,对于摘要的填写格式,相关规定也只有大概的要求并无严格界定,某种程度上来说,只要可以被人所理解的摘要书写格式就被人认为是合理的书写格式。因此,摘要包含着许多的不确定性,不可能通过简单方法获取有用信息,这就是摘要信息自动识别的难点。 2.模式匹配分词 自然语言识别分词方法可分为规则分词法、模式匹配分词法和统计分词法三大类。其中模板匹配分词法是一种基于模式匹配的自然语言处理方法,它能够处理任何一个特定领域的自然语言。用模式匹配的方法进行自然语言的处理,必须首先分析自然语言的语法、语义规则,并从中提取不同的语言模式。每一种模式都要有利于从中精确地检索出所需要的信息。模式根据具体的需求,从自然语言的语法中提取某一成分,或者可以是几种成分的交融。目的是更有利于根据模式识别出自然语言中所需要的信息。而不必受制于语法的限制。 假设P代表模式;∑表示其后符号可以为一个或多个相连;K代表自然语言识别过程中所需要精确识别出来的关键信息;S代表模式定义过程中所需要的主语、谓语、宾语等,是模式中最关键的部分;R代表与所必需的关键信息及模式无关的其它信息;{}代表模式中可有可无的信息;[]代表模式中严格一致的信息;<>代表其中含有关键信息。基于模式匹配的自然语言识别的方法可以形式化定义为: P=∑{R,K}[S]{R} 为了更好地从自然语言中识别出所需要的信息,首先要定义一个用来匹配句子的模式。模式的定义并不是一成不变的,这要根据不同的应用,不同的需求来规定。其定义的原则如下: (1)由于几乎所有的摘要都符合语法,所以我们根据汉语语法中的主-谓-宾-定-状-补来划分模式的每一个模块。 (2)找出所有需要识别的信息,并判断他们属于语法中的哪一成分。 (3)界定与关键信息有关的所有语法成分,把这些语法成分作为模式的必备模块。这里的主、谓、宾、状、补并不是传统意义上的语法成分,而是以其为主。可以附加其他必要信息的准主语、准谓语、准宾语等。 3.模式匹配信息识别处理 会计凭证摘要可以被看成为存在一定语法规则的短句,本文设计了相关算法来对会计凭证摘要进行模式匹配分词,主要处理流程包括:预处理、分词过程和模式分析,如图1所示。 图1 模式匹配信息识别原理图 3.1预处理 该模块将初始输入的摘要电子文档标准化成统一的格式文本,去除无法处理的元素和空格等无意义的字符,输出为仅保留数字和字符的标准化文本。使会计凭证摘要满足分词处理格式要求,会计凭证摘要全角标点符号统一改为半角标点符号。如例1所示,源数据中的“92330”会在分词中会单个单词。所以,需要把它们转换成半角的字符串“92330”。 例1:技术处崔忠善报销付92330部队装备部招待所会务费。 处理后结果:技术处崔忠善报销付92330部队装备部招待所会务费。 3.2基本分词 对于预处理完成的会计凭证摘要,可以进行基本分词处理,基本分词采用规则与统计相结合的分词方法,并分层分步进行处理。 第一步:先将预处理后待切分的摘要文本数据利用盘古分词程序进行初步切分。 例如:四结算姜永兴报销‘水声对抗训练模拟器鉴定会会议费。 结果:四/结算/姜永兴/报销/水/声/对抗/训练/模拟器/鉴定会/会议/费/ 第二步:根据词频进行歧义消除。预处理完了以后,还存在歧义的问题。优先匹配识别并找出的摘要文本数据中的关键词汇,例如:核销、报销、下达、付、购、收、办理、出库、入库、核退、据等。 例如:/四/结算/姜永兴/报销/水/声/对抗/训练/模拟器/鉴定会/会议/费/ 结果: /四/结算/姜永兴/报销/水/声/对抗/训练/模拟器/鉴定会/会议/费/ 第三步,正确切分人名、单位名称。找出“办、室、部、局、处、中心等”关键词,将关键词前的整体识别为单位名称,而后根据姓氏匹配识别出人名。 例:/技术/处/崔忠/善/报销/付/92330/部队/装备/部/招待所/会务/费/ 结果:/技术处/崔忠善/报销/付/92330/部队/装备/部/招待所/会务/费/ 3.3模式分析 有了切分出的关键词汇,下面就可以把准确识别出摘要中的单位和人名以及开支内容作为研究对象进行的模式分析。 模式1: S1定义为单位和人员名称;K1定义为:企业名称;K2为识别关键信息,如物品、经费、项目;[S2]+[S3] 定义为:“报销+购”。 例:综计处/屈敏/报销/青岛/赛维斯/购/办公用品/款/ 结果: 模式2: S1定义为单位和人员名称;K为识别关键信息,如物品、经费、项目,[S2]+[S3]定义为:“办理+出库”、“办理+调拨”、“办理+入库”、“报销+购置”、“购+报销”、“购+入库”。 例:航保处/宗昌源/办理/历年/航海/导航/器材/出库 结果: 模式3: S1定义为单位和人员名称;K为识别关键信息,物品或费用名称。为了识别出关键信预算项目和物品费用名称,把S1定义为“__办__、__室__、__部__、__局__、__处__、__中心__”而非才传统意义上的主语;把S2定义为“报销、购买、购、报销购、购置、报销付购买、报销付、付”。 例:技术处/崔忠善/报销/付/购买/电脑/等/办公/设备/费 结果: 模式4: K为识别出关键信息,物品、经费、项目,[S2]定义为:“购置”。 例如:四处/贾俊岭/水声/对抗/模拟/器/设备/购置 结果: 模式5:[S2] K为识别出关键信息,包括物品、经费等,[S1]+[S2]定义为:据+核销、据+下达、核退+报销。 例:据/装/计/[2011]/221/号/核销/2011/年/通/计/决 结果: 比较这几种模式可以发现,由于预算项目物品、费用名称等关键信息相对于模式要素的位置不同,所以定义为不同的模式,这样做能够大大提高关键信息单位人名的识别准确率,解决单位人名识别不精确的缺点。同时能够限定关键信息费用名称的识别范围,提高识别的准确率。 4.模式匹配的级别设定 通过上面的分析,可以很好地对特定会计凭证摘要定义出完善的模式。模式定义完了之后,把它们放在知识库中,当进行会计凭证摘要识别的时候,先从知识库中提取模式,用模式来匹配会计凭证摘要。然而在模式匹配的过程中必须根据会计凭证摘要的特点遵循必要的原则,为了提高会计凭证摘要识别的准确率,我们应该首先匹配相对复杂模板,避免发生匹配错误。如:避免将模式2匹配成模式1。 当匹配成功后就进行关键信息的识别,而不必再去匹配其他的模式,这就需要设定模式匹配的级别。在提取模式的过程中,已经获得了大量的实例。根据这些实例,可以判断出哪种模式更复杂,约束限制条件越多,模式级别就越高,就应该进行优先匹配。所以,我们安排了由模式1到模式5,即由复杂到简单的匹配顺序来对会计凭证摘要进行匹配。 5.测试环境和结果 针对本文研究的会计凭证摘要信息识别技术,利用盘古分词系统、海军某单位会计凭证摘要数据以及自建的歧义词库等实验数据,进行算法性能测试。在盘古分词系统的基础上,实现本文研究的会计凭证摘要分词算法。 5.1系统的架构 盘古分词是eaglet开发的开源分词组件,是一个完整的分词应用程序。盘古并没有提供基于模式匹配的分词功能,通过对盘古分词的程序组件的改进,增加模式匹配的分词处理模块,使系统在盘古分词的基础上自定义摘要短句模式结构来实现会计凭证摘要分词处理。 5.2软件实现 系统软件采用C#.net程序设计语言来开发完成。分词引擎是基于本文研究设计的模式匹配算法来实现的,它嵌入到盘古程序中,在盘古分词算法基础上对摘要进行二次切分,从而获得所需要的关键信息。下面是软件系统实现的效果图 图2 模式匹配分词系统实现效果图 从海军某单位的摘要数据中可以得出本文提出的分词算法有较高的准确率,海军某单位的摘要数据中2000条摘要来进行测试实验,其中有正确1833条,错误167条,准确率达到91%以上。因此可以确定本文提出的分词算法能够识别绝大部分摘要中的关键信息。 6.结束语 自然语言分词算法是会计凭证摘要信息识别的重要技术方法,本文在对会计凭证摘要信息特点分析的基础上,对中文分词技术结合模式匹配判别算法进行了改进。经实验数据表明该算法对会计凭证摘要信息识别效果良好。虽然实验取得了较高的正确率,但还有很多不足之处,如能考虑到匹配模板的通用性,以及可扩展性,将会达到更好的识别效果。 参考文献: [1]周雪忠,吴朝晖.基于信息抽取的文本挖掘[J],计算机科学,2003(1). [2]龚小谨,罗振声,骆卫华.语句子谓语中心词的自动识别[J],中文信息学报,2003(2). [3]封春升, 郝爱民.语句子谓语中心词的自动识别[J];计算机工程与应用,2006(19). 例如:/四/结算/姜永兴/报销/水/声/对抗/训练/模拟器/鉴定会/会议/费/ 结果: /四/结算/姜永兴/报销/水/声/对抗/训练/模拟器/鉴定会/会议/费/ 第三步,正确切分人名、单位名称。找出“办、室、部、局、处、中心等”关键词,将关键词前的整体识别为单位名称,而后根据姓氏匹配识别出人名。 例:/技术/处/崔忠/善/报销/付/92330/部队/装备/部/招待所/会务/费/ 结果:/技术处/崔忠善/报销/付/92330/部队/装备/部/招待所/会务/费/ 3.3模式分析 有了切分出的关键词汇,下面就可以把准确识别出摘要中的单位和人名以及开支内容作为研究对象进行的模式分析。 模式1: S1定义为单位和人员名称;K1定义为:企业名称;K2为识别关键信息,如物品、经费、项目;[S2]+[S3] 定义为:“报销+购”。 例:综计处/屈敏/报销/青岛/赛维斯/购/办公用品/款/ 结果: 模式2: S1定义为单位和人员名称;K为识别关键信息,如物品、经费、项目,[S2]+[S3]定义为:“办理+出库”、“办理+调拨”、“办理+入库”、“报销+购置”、“购+报销”、“购+入库”。 例:航保处/宗昌源/办理/历年/航海/导航/器材/出库 结果: 模式3: S1定义为单位和人员名称;K为识别关键信息,物品或费用名称。为了识别出关键信预算项目和物品费用名称,把S1定义为“__办__、__室__、__部__、__局__、__处__、__中心__”而非才传统意义上的主语;把S2定义为“报销、购买、购、报销购、购置、报销付购买、报销付、付”。 例:技术处/崔忠善/报销/付/购买/电脑/等/办公/设备/费 结果: 模式4: K为识别出关键信息,物品、经费、项目,[S2]定义为:“购置”。 例如:四处/贾俊岭/水声/对抗/模拟/器/设备/购置 结果: 模式5:[S2] K为识别出关键信息,包括物品、经费等,[S1]+[S2]定义为:据+核销、据+下达、核退+报销。 例:据/装/计/[2011]/221/号/核销/2011/年/通/计/决 结果: 比较这几种模式可以发现,由于预算项目物品、费用名称等关键信息相对于模式要素的位置不同,所以定义为不同的模式,这样做能够大大提高关键信息单位人名的识别准确率,解决单位人名识别不精确的缺点。同时能够限定关键信息费用名称的识别范围,提高识别的准确率。 4.模式匹配的级别设定 通过上面的分析,可以很好地对特定会计凭证摘要定义出完善的模式。模式定义完了之后,把它们放在知识库中,当进行会计凭证摘要识别的时候,先从知识库中提取模式,用模式来匹配会计凭证摘要。然而在模式匹配的过程中必须根据会计凭证摘要的特点遵循必要的原则,为了提高会计凭证摘要识别的准确率,我们应该首先匹配相对复杂模板,避免发生匹配错误。如:避免将模式2匹配成模式1。 当匹配成功后就进行关键信息的识别,而不必再去匹配其他的模式,这就需要设定模式匹配的级别。在提取模式的过程中,已经获得了大量的实例。根据这些实例,可以判断出哪种模式更复杂,约束限制条件越多,模式级别就越高,就应该进行优先匹配。所以,我们安排了由模式1到模式5,即由复杂到简单的匹配顺序来对会计凭证摘要进行匹配。 5.测试环境和结果 针对本文研究的会计凭证摘要信息识别技术,利用盘古分词系统、海军某单位会计凭证摘要数据以及自建的歧义词库等实验数据,进行算法性能测试。在盘古分词系统的基础上,实现本文研究的会计凭证摘要分词算法。 5.1系统的架构 盘古分词是eaglet开发的开源分词组件,是一个完整的分词应用程序。盘古并没有提供基于模式匹配的分词功能,通过对盘古分词的程序组件的改进,增加模式匹配的分词处理模块,使系统在盘古分词的基础上自定义摘要短句模式结构来实现会计凭证摘要分词处理。 5.2软件实现 系统软件采用C#.net程序设计语言来开发完成。分词引擎是基于本文研究设计的模式匹配算法来实现的,它嵌入到盘古程序中,在盘古分词算法基础上对摘要进行二次切分,从而获得所需要的关键信息。下面是软件系统实现的效果图 图2 模式匹配分词系统实现效果图 从海军某单位的摘要数据中可以得出本文提出的分词算法有较高的准确率,海军某单位的摘要数据中2000条摘要来进行测试实验,其中有正确1833条,错误167条,准确率达到91%以上。因此可以确定本文提出的分词算法能够识别绝大部分摘要中的关键信息。 6.结束语 自然语言分词算法是会计凭证摘要信息识别的重要技术方法,本文在对会计凭证摘要信息特点分析的基础上,对中文分词技术结合模式匹配判别算法进行了改进。经实验数据表明该算法对会计凭证摘要信息识别效果良好。虽然实验取得了较高的正确率,但还有很多不足之处,如能考虑到匹配模板的通用性,以及可扩展性,将会达到更好的识别效果。 参考文献: [1]周雪忠,吴朝晖.基于信息抽取的文本挖掘[J],计算机科学,2003(1). [2]龚小谨,罗振声,骆卫华.语句子谓语中心词的自动识别[J],中文信息学报,2003(2). [3]封春升, 郝爱民.语句子谓语中心词的自动识别[J];计算机工程与应用,2006(19). 例如:/四/结算/姜永兴/报销/水/声/对抗/训练/模拟器/鉴定会/会议/费/ 结果: /四/结算/姜永兴/报销/水/声/对抗/训练/模拟器/鉴定会/会议/费/ 第三步,正确切分人名、单位名称。找出“办、室、部、局、处、中心等”关键词,将关键词前的整体识别为单位名称,而后根据姓氏匹配识别出人名。 例:/技术/处/崔忠/善/报销/付/92330/部队/装备/部/招待所/会务/费/ 结果:/技术处/崔忠善/报销/付/92330/部队/装备/部/招待所/会务/费/ 3.3模式分析 有了切分出的关键词汇,下面就可以把准确识别出摘要中的单位和人名以及开支内容作为研究对象进行的模式分析。 模式1: S1定义为单位和人员名称;K1定义为:企业名称;K2为识别关键信息,如物品、经费、项目;[S2]+[S3] 定义为:“报销+购”。 例:综计处/屈敏/报销/青岛/赛维斯/购/办公用品/款/ 结果: 模式2: S1定义为单位和人员名称;K为识别关键信息,如物品、经费、项目,[S2]+[S3]定义为:“办理+出库”、“办理+调拨”、“办理+入库”、“报销+购置”、“购+报销”、“购+入库”。 例:航保处/宗昌源/办理/历年/航海/导航/器材/出库 结果: 模式3: S1定义为单位和人员名称;K为识别关键信息,物品或费用名称。为了识别出关键信预算项目和物品费用名称,把S1定义为“__办__、__室__、__部__、__局__、__处__、__中心__”而非才传统意义上的主语;把S2定义为“报销、购买、购、报销购、购置、报销付购买、报销付、付”。 例:技术处/崔忠善/报销/付/购买/电脑/等/办公/设备/费 结果: 模式4: K为识别出关键信息,物品、经费、项目,[S2]定义为:“购置”。 例如:四处/贾俊岭/水声/对抗/模拟/器/设备/购置 结果: 模式5:[S2] K为识别出关键信息,包括物品、经费等,[S1]+[S2]定义为:据+核销、据+下达、核退+报销。 例:据/装/计/[2011]/221/号/核销/2011/年/通/计/决 结果: 比较这几种模式可以发现,由于预算项目物品、费用名称等关键信息相对于模式要素的位置不同,所以定义为不同的模式,这样做能够大大提高关键信息单位人名的识别准确率,解决单位人名识别不精确的缺点。同时能够限定关键信息费用名称的识别范围,提高识别的准确率。 4.模式匹配的级别设定 通过上面的分析,可以很好地对特定会计凭证摘要定义出完善的模式。模式定义完了之后,把它们放在知识库中,当进行会计凭证摘要识别的时候,先从知识库中提取模式,用模式来匹配会计凭证摘要。然而在模式匹配的过程中必须根据会计凭证摘要的特点遵循必要的原则,为了提高会计凭证摘要识别的准确率,我们应该首先匹配相对复杂模板,避免发生匹配错误。如:避免将模式2匹配成模式1。 当匹配成功后就进行关键信息的识别,而不必再去匹配其他的模式,这就需要设定模式匹配的级别。在提取模式的过程中,已经获得了大量的实例。根据这些实例,可以判断出哪种模式更复杂,约束限制条件越多,模式级别就越高,就应该进行优先匹配。所以,我们安排了由模式1到模式5,即由复杂到简单的匹配顺序来对会计凭证摘要进行匹配。 5.测试环境和结果 针对本文研究的会计凭证摘要信息识别技术,利用盘古分词系统、海军某单位会计凭证摘要数据以及自建的歧义词库等实验数据,进行算法性能测试。在盘古分词系统的基础上,实现本文研究的会计凭证摘要分词算法。 5.1系统的架构 盘古分词是eaglet开发的开源分词组件,是一个完整的分词应用程序。盘古并没有提供基于模式匹配的分词功能,通过对盘古分词的程序组件的改进,增加模式匹配的分词处理模块,使系统在盘古分词的基础上自定义摘要短句模式结构来实现会计凭证摘要分词处理。 5.2软件实现 系统软件采用C#.net程序设计语言来开发完成。分词引擎是基于本文研究设计的模式匹配算法来实现的,它嵌入到盘古程序中,在盘古分词算法基础上对摘要进行二次切分,从而获得所需要的关键信息。下面是软件系统实现的效果图 图2 模式匹配分词系统实现效果图 从海军某单位的摘要数据中可以得出本文提出的分词算法有较高的准确率,海军某单位的摘要数据中2000条摘要来进行测试实验,其中有正确1833条,错误167条,准确率达到91%以上。因此可以确定本文提出的分词算法能够识别绝大部分摘要中的关键信息。 6.结束语 自然语言分词算法是会计凭证摘要信息识别的重要技术方法,本文在对会计凭证摘要信息特点分析的基础上,对中文分词技术结合模式匹配判别算法进行了改进。经实验数据表明该算法对会计凭证摘要信息识别效果良好。虽然实验取得了较高的正确率,但还有很多不足之处,如能考虑到匹配模板的通用性,以及可扩展性,将会达到更好的识别效果。 参考文献: [1]周雪忠,吴朝晖.基于信息抽取的文本挖掘[J],计算机科学,2003(1). [2]龚小谨,罗振声,骆卫华.语句子谓语中心词的自动识别[J],中文信息学报,2003(2). [3]封春升, 郝爱民.语句子谓语中心词的自动识别[J];计算机工程与应用,2006(19). |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。