标题 | 基于内容的数字音频快速检索技术综述 |
范文 | 糜增元 【摘要】 本文通过基于内容的数字音频快速检索专利技术申请文献的检索、统计和分析,依据音频检索流程分析了该技术领域的发展分支,特别针对特征提取、音频分割等技术进行阐述。 【关键字】 音频检索 特征提取 语音 音频分割 一、引言 基于人工输入标注和属性进行音频检索的传统检索方式存在以下缺陷: 1)当数据量越多时,人力工作量随之加大; 2)对音频的感知有时难以用文字表达清楚; 3)不支持实时音频检索,因此基于内容的音频检索技术应运而生。 基于内容的音频检索利用音频信息的幅度、频谱等物理特性,响度、音高、音色等听觉特性和音频类别、语义等特征进行检索,能够有效且快速获得用户所需的音频资源。 二、主要技术发展路线以及专利申请情况分析 基于内容的数字音频快速检索技术使用数字音频的声学特征作为音频指纹代替音频内容数据本身进行检索,音频指纹相比音频内容数据本身,数据量得到大幅的压缩,有助于大量数字音频内容的管理,使得音频资源的管理更加规范高效。 检索处理流程如下所述: 1)接收音频流; 2)对音频进行特征提取; 3)对音频进行分割; 4)针对不同音频组分采用不同处理方式。 以下,针对流程每一环节的技术分支进行进一步的阐述: 1)依照对采样点提取特征的不同,音频特征提取可分为时域特征的提取、频域特征的提取、时域特征的提取,其中可提取的音频时域特征有平均能量,过零率和线性预测系数等,而频域特征的提取是利用傅里叶变换可分解出音频信号的频率成分,可提取的音频频域特征有带宽、频谱中心、谐音、音调等,对于时变剧烈的音频信号,小波变换能够抓住信号局部的时频特性,提高信号分析的能力。 2) 音频分割是比较相邻两个或几个短时音频特征,寻找发生突变的地方,在音频特征发生突变的地方对连续的音频流进行切分,把连续的音频流变成时间长短不一的音频片段,其主要包括:静音分割:检测音频流中的静音段作为突变点以进行分割;非静音分割:检测音频流中音频持续段作为音频片段。 3) 音频组分,根据对音频数据内容的划分可以知道,语音、音乐和其他声响具有显著不同的特性,因而目前的处理方法可以分为相应的三种:处理包含语音的音频和不包含语音的音频,后者又把音乐单独划分出来。换而言之,第一种是利用自动语音识别技术,后两种是利用更一般性的音频分析,以适合更广泛的音频媒体,如音乐和声音效果,当然也包含数字化语音信号。 图1表示基于内容的数字音频快速检索技术中针对不同音频组分专利申请量情况.从图1可以看出,针对语音检索的专利申请量较多,这主要是由于其应用领域较广,例如声音识别、语音控制等,市场前景广阔,能带来可观经济效益,因此高校及企业均投入大量人力精力对其进行研究改进。 除此之外,对乐曲的快速检索申请量也较多,主要涉及用户利用示例音乐或是哼唱片段的检索。 三、结语 通过对基于内容的音频检索技术的处理流程以及不同音频组分申请量比重了解分析后,可以看出,目前主流研究方向仍是针对语音语义的创新研究。 参 考 文 献 [1]钟宝荣, 吴春辉,音频检索方法的研究,《长江大学学报(自然科学版)》,2008年6月第5卷第2期. [2]蔺国梁,基于压缩域特征的音频识别算法,《甘肃联合大学学报(自然科学版)》,2011年第25卷第6期. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。