网站首页  词典首页

请输入您要查询的论文:

 

标题 藏文音节七元组软件算法设计与实现
范文

    张玉田 关白

    摘要:藏文音节七元组识别是藏文信息处理技术的基础,现代藏文字的研究是藏文信息处理的重点,为了更好地研究现代藏文字的各个构件,本文以现代藏文字为研究对象,按照藏文字的结构、长度和藏文书写顺序,提出了以藏文字符长度为基准的构件识别算法。

    关键词:藏文构件识别;藏字结构;藏文字符搭配;字长识别;藏文书写顺序

    中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)04-0195-03

    1 引言

    所谓的藏文音节七元组的识别,其实是指最长的现代藏文字符是由七个部件组成,所有藏文字符都是由不超过七个构件组成的,然后分别将各个构件识别出来。由于藏文字符处理技术在藏文信息处理领域已经取得较好成果,[1]因此提出全新的、有效的构件识别算法显得尤为重要。对藏文字进行构件识别是为了给藏文字符提供属性分析,藏文字符的属性分析可以为研究藏文字使用的稳定性及变迁情况提供科学依据,还可以分析藏文字在不同学科中的使用情况,对藏文信息处理的研究具有重要的指导及参考价值。

    2 藏文构件介绍

    现代藏文音节字中的基字、元音、前加字、后加字、上加字、下加字和再后加字(如图)被称之为构件,[2]而基字则是音节字中必不可少的一个构件。在这些构件的搭配过程中哪些前加字、上加字、又后加字和下加字与哪些基字搭配在藏语文法中都有着严格的规定。

    3 識别算法设计与实现

    藏文字符的长度是,构成该藏文字的构件的多少。如:一个藏文字的长度有:一个构件构成的藏文字符长度为一,两个构件构成的藏文字符长度为二,三个构件构成的藏文字符长度为三,四个构件构成的藏文字符长度为四,五个构件构成的藏文字符长度为五,六个构件构成的藏文字符长度为六,七个构件构成的藏文字符长度字长为七,现代藏文字符最长有7个构件构成。在判断现代藏文字符的具体构件时,首先根据藏字长度将藏文字符分为7大类,然后每一类按照藏文从左到右,从上到下的书写顺序进行匹配[3],也就是构件进行识别,具体算法流程如下图所示:

    4 结束语

    对藏文组字部件的识别研究可以提高现有藏文信息处理研究的成果。在藏文排序、检索、拼写检查、自动分词、语料库制作、文本编辑、辅助教学等领域它也有着非常广泛的应用前景,它可以简化许多不必要的工作程序,提高经济效益与社会效益,有着非常重要的现实意义。

    参考文献:

    [1] 高定国,关白.回顾藏文信息处理技术的发展[J].西藏大学学报:社会科学版,2009(3):18-27.

    [2] 高定国,龚育昌.现代藏字属性统计研究[J].中文信息学报,2005(1):71-75.

    [3] 才让卓玛,李永明,才智杰.基于Mealy机的藏文字构件分解[J].电子学报,2015(5):935-938.

    [4] 高定国,珠杰.藏文信息处理的原理与应用[M].成都:西南交通大学出版社,2014:25.

    【通联编辑:唐一东】

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/6 4:08:18