认知体验观视阈下少数民族多模态语言档案数据库建设思考

    王金海 孟子惠

    摘? 要:本文基于认知体验观和多模态语言理论,结合少数民族语言档案管理的特殊性,分析多模态民族语言档案数据库建设的必要性,探讨多模态民族语言档案数据库的基本构成,并以音频语言档案数据库的建设为例,提出建设该类档案数据库的基本步骤,以期对我国少数民族语言档案管理工作和相关研究的开展提供借鉴思路。

    关键词:认知体验观;档案管理;少数民族语言档案;多模态语言;档案数据库

    Abstract: In this paper, basing on the theory of cognitive experience and multimodal language, combing with the particularity of minority language Archives management, analyzing of multimodal national language Archives database construction, the necessity of multimodal nation language basic structure of the database Archives, and audio language Archives for the construction of the database, for example, building the basic steps of the class Archives database, in order to minority language Archival management in our country and the development of related research to provide reference ideas.

    Keywords: Cognitive experience view; Archives management; Archives of minority languages; Multimodal language;? Archive database

    本文基于认知体验观和多模态语言理论对少数民族语言档案数据库建设的认知基礎、必要性及具体建设等问题展开探讨。

    1 少数民族多模态语言档案管理的必要性

    据统计,国内现存民族语言达120余种之多,其中,有近30种还兼具文字使用,尤以维文、壮文、蒙文、藏文及哈萨克文等最具影响力。这些语言历时悠久,底蕴深厚,在本语族内通常与汉语共存使用,并行不悖,较为广泛地运用于广播传媒、科教出版及公共管理等社会生活的众多领域。

    然而,研究显示,我国境内已有近50种民族语言处于严重濒危,9种民族语言已经消亡。[1]这无疑对少数民族文字档案的管理提出了巨大挑战。可见,对少数民族特殊语言环境下非通用语言的档案管理显得格外重要。

    当前我国各少数民族地区的档案管理机关多已开展本民族文字档案的收集和整理。但囿于少数民族地区语言和社会环境的特异性,相较通用语言档案,民族语言档案管理在多样性上要求更高。

    单纯以文字形式保存的语言档案,在精确性和可利用性上均存在一定弊端,这在一定程度上限制了少数民族语言档案管理工作的有效开展,势必会对我国多民族文化的可持续保护和传承产生不良影响。科学管理少数民族语言档案既是我国语言档案管理不可或缺的重要内容,也是语言档案管理的艰巨任务。

    在各少数民族的语言档案中,其中有一部分是以口头形式呈现,如口述的神话、传说、诗歌及谚语等,还有相当部分则是以书面形式记录,如正式出版的书籍、官方档案及民间文书等。

    到了近现代,部分语言文字档案开始以音视频的形式出现,主要涉及相关访谈、民族发展中成果的图片影像资料整理等。音视频格式的语言档案资料在新时期档案管理工作中已越来越多见,但在早期语言文字档案资料的管理中尚不多见。

    早期档案以口头和书面形式居多,并有部分档案面临缺损或流失的问题,亟待重新整理。对早期语言文字档案的管理是民族档案管理工作中最有价值,也最有难度的一部分。

    考虑到少数民族语言文化的特殊性,单纯口头或书面的记录既不利于相关档案的精准记录,也不利于后期的有效利用和传承。

    笔者查阅相关文献发现,在方言档案建设方面,浙江方言语音档案建设工程曾对68 个方言的语音、词汇、说唱及戏曲等方面建立了音视频档案库。

    相较民间口传或文字记录等传统方言档案记录形式,音视频档案库的建设无疑对抢救和完善方言资源和区域文化具有积极意义;在少数民族语言档案建设方面,汉藏同源词研究系统收录了汉藏语系中包括少数民族语言在内的12 种汉语方言和122 种语言中最具代表性的1500 余条词汇,但仅以文字形式记录。

    中国社会科学院建设的汉语、蒙语、维语和藏语民族语言资料库仅涉及781篇文章的文本信息,且多数年代久远的语言档案存在语音信息不同程度的缺失等问题,借助图像、视频等现代技术手段全方位展示语言档案信息的管理形式显著不足,这直接导致现有老旧语言文字档案的精准度和可利用度存在严重缺陷。[2]

    相反,与传统语言档案不同,多模态语言档案更强调不同模态语言间的整合关系,旨在通过搭建跨模态框架,借助多种感官体验的认知叠加更精准地记录和传播信息,使各模态间相互组配,相互促进,从而达到语言信息结构的最优存储。因此,对民族语言档案,特别是早期语言档案信息的多模态存档扩容就显得尤为必要。

    加快少数民族语言档案,特别是濒危语言档案的多模态档案数据库建设,探索民族地区语言档案管理的新模式,可以有效保护和抢救少数民族文化,从而使语言档案资源能更好地服务社会文化发展。

    总体上,目前我国少数民族多模态语言档案建设尚处于探索阶段,亟待完善。随着现代信息技术的发展和大数据时代的来临,我国的档案现代化建设不断推进,这为由文字、图片、音频及视频综合架构的多模态语言档案数据库建设提供了更多可能性。[3]

    2 多模态语言档案数据库的基本构成和建设

    2.1 多模态语言档案数据库的基本构成

    2.1.1 文本数据库。文本数据库仍是民族语言档案库的基础,尤其是年代久远的文字档案,应尽量留存原始档案,这类语言档案数据库多以词句、段落及属性解析等文本信息的形式存在,主要激活视觉体验认知。

    2.1.2 图像数据库。图像数据库主要起到辅助文本档案和音频档案的作用,例如对有关发音部位语言档案信息的记录,图像便可以起到很有效的辅助作用。条件允许的前提下,所有文本子档案库也都应建立对等图像子档案库留作副本。这类语言档案数据库亦主要激活视觉体验认知。

    2.1.3 音频数据库。音频数据库应作为民族语言档案数据的主要部分来创建,因其兼顾了语言档案的存储效率、存储精准性和保存持久性等方面的最佳平衡点。音频数据库尤其在记录语言的语音信息方面显得格外重要,如音位、语调、韵律等语音属性档案。

    理想的音频档案数据库应实现通过语音快速检索数据的功能,同时还应该涵盖本民族语言与普通话的双向匹配。[4]条件允许的前提下,所有文本子档案库都应建立对等音频子档案库留作副本,这类语言档案数据库主要激活听觉体验认知。

    2.1.4 视频数据库。视频数据库则通过字幕、发声和图像的互相补充,融合了视觉体验认知和听觉体验认知,使民族语言数据信息呈现得更清晰,可实现语言档案的最优集成化效果。这种多位一体的多模态语言档案,弥合了相关语言档案的失真问题,可以使民族语言的内涵及特征得到更好展现。

    以上四类子数据库既相互独立又相互补充,共同构成了完整的民族语言档案数据库系统。多模态语言档案建设可针对少数民族语言档案的特殊性进行全方面立体构建,能更精准、更多样地展现语言档案的信息内涵。

    2.2 建设步骤——以音频数据库为例

    2.2.1 选取目标語言材料。选取语言数据材料是语言档案音频数据库建设的首要步骤,其中最核心的问题是数据的典型性问题。[5]

    最具代表性的语言数据既能更准确地反映相关类属语言档案的典型特征,又能最大程度降低数据库建设的成本,以最经济的数据样本实现最大化的特征覆盖。

    如在设计词表时,可优先选取双音节词,以便研究词语的变调特征;在设计语篇朗读材料时,应尽量涵盖能反映韵律、音段等多特征在内的多种句式。

    2.2.2 建立发声人信息档案库。发声人语音的标准性是保证发声人信息档案库科学性的关键。发声人选取标准主要有三个方面:一是应为常年生活在当地的典型母语使用者,且固定家庭成员也应为母语使用者;二是发声人听力和发声能力正常,无影响语音信息采集的相关疾病或缺陷;三是年龄段和性别分布相对平衡。

    如在采集壮族歇后语语音数据时,选取15-65岁间不同年龄段的本地母语使用者男女各10名,并进行测试以确定发声人发音符合要求。

    2.2.3 采集语言数据。采集语言数据是建立语言档案音频数据库的核心步骤,主要涉及采集地点的选取、采集设备的装配及现场采集等关键问题。传统借助录音笔的即时即地采集模式,虽相对便捷,但声音质量普遍不高,容易产生数据失真等问题,从而影响语音数据的精准性和后期可分析性。

    因此,语言数据的采集应在专业的场地由专业人员操作专业设备完成采集。除了声音之外,还应采集发声人的表情和肢体动作等辅助信息,优化采集效果。

    2.2.4 加工语言数据。这一步骤主要包括对采集数据的后期处理和校对归档两部分。采集语言数据后,需要进行后期处理,以保证数据的有效性,如删除无效数据或对低质量音频进行降噪及削波等修缮处理等。此外,还要对采集数据进行校对归档,确保数据信息的准确性,如核验语音与目标文本是否对应、查缺补漏等。

    2.2.5 管理和维护语言档案。档案的合理命名、编排及检索对于语言档案数据库的集成化、高效化使用至关重要。如在对录制的音频数据命名时可包含发声人的年龄、性别、材料名称、录制时间及录制地点等信息,以便快速识别和调取;鉴于多模态语言档案的特殊性,定期对语言档案实施维护也十分必要,如对损坏的音频数据及时修复或补录等。

    参考文献:

    [1]彭飞.基于格局理论的多模态语言档案数据库建设研究[J].北京档案,2017(03): 26-28.

    [2]石贞贞.符号学视域下多模态语言档案建设研究.[J].山西档案,2019(04): 84-86.

    [3]刘永.档案信息资源共享云体系建设的思考.[J].档案管理,2017(06): 25-29.

    [4]赵生辉,胡莹.中国少数民族语言档案双语著录规范研究[J].档案管理,2019(02): 24-26.

    [5]彭飞.澳大利亚少数民族语言档案数据库建设现状及启示[J].中国档案,2019(11): 70-71.

    (作者单位:王金海,广西民族大学/郑州航空工业管理学院;孟子惠,天津师范大学? 来稿日期:2020-12-19)