网站首页  词典首页

请输入您要查询的论文:

 

标题 基于语音识别技术的移动全能秘书平台设计
范文 李梦瑶 向卓元
摘要:随着人工智能中语音识别技术的快速发展,以及Android手机的普及,加上中央近期提出“互联网+”计划,语音与文本及时、快速、准确的转换以及信息的即时传输将缓解纸质资源浪费现状,突破传统会议局限性,提高工作、生活效率。将语音识别技术与Android平台相结合,构建移动全能语音秘书平台,利用基于线性预测特征的语音识别算法实现语音模式匹配,提高语音识别率,实现工作生活智能化、无纸化。
关键词:语音识别技术;Android;移动全能秘书;互联网+;线性预测特征模型
DOIDOI:10.11907/rjdk.151595
中图分类号:TP319
文献标识码:A 文章编号文章编号:16727800(2015)008012702
0 引言
随着地球资源的日益减少,加上人们环境意识的逐步增强,办公无纸化、生活无纸化逐渐得以实现。当前办公环境下,会议记录需要秘书通过人工录入方式将会议信息录入电脑中,大大降低了办事效率,增加了人力成本。并且由于人工输入速度与语速不成正比,记录的真实性也有待提高[1]。鉴于此,本文基于语音识别技术设计移动秘书平台。该系统主要功能如下:用户通过注册拥有自己的账号,在生活模式下,通过个人语音直接录音以记录自己的生活琐事,系统将录音转换为文本存入本机中形成备忘录或者个人日记;工作模式下,可以通过系统邀请在线好友进行语音会议,录音会及时转换为文字,做到即时通信,最终形成完整会议记录,并通过邮件发送给参会的每一个人。
1 语音识别与即时通信技术
1.1 语音识别——语音转文本
语音识别即自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类语音中的词汇内容转换为计算机可读的输入内容。语音识别包括语音合成、语音听写、语音翻译[2]。
一个完整的语音识别系统可大致分为3部分:①语音信号预处理与特征提取;②模式匹配;③语言模型与语言处理。
语音转文本通过语音识别第一阶段得到机器识别的内容之后再进行模型匹配,查找词典中高频词组并进行前后语意分析,得出最终转化的文本。
1.2 即时通信——移动会议室(Android平台)
移动互联网成为了人们生活中必不可少的部分,而传统会议室对空间的要求限制了人们的行动。会议移动化,与会者可以通过智能手机端在会前、会中或者会后浏览会议相关文档,以及会议时间、会议主题、会议记录等会议相关信息。智能化、标准化、集成化将是办公会议系统的发展趋势。
随着移动互联网的发展,互联网即时通信也在向移动化扩张,与此同时,Android系统的开放性及其强大的通信功能,以及在手机和平板电脑等移动设备的普遍应用,使得移动会议室能够得以实现。
根据2014Q2中国智能手机市场操作系统分布状况可知,Android市场占有率达78.6%,ios占比为13.7%,Windows、BlackBerryOS以及其它操作系统占比较小。由此可以看出,Android平台市场应用广泛,这为系统的兼容性打下了坚实基础。
2 系统结构设计
2.1 总体架构设计
移动全能秘书系统总体架构设计如图1所示,其采用成熟稳定的数据库设计模式:客户机/服务器(Client/Server)模式。客户机端为移动手机端,手机端使用目前最流行的Android操作系统,服务器端使用Windows Server 2003。这种设计在当前更具有代表性和普遍性。
本系统分前端和后端,系统前端包括客户端和系统后台。客户端主要是手机端,这里采用普及最广的Android系统作为平台,用于向用户提供整个服务。同时本系统采用热门的语音识别技术,移动端和语音云之间采用HTTP协议交互信息,以提高整个系统的数据传输效率,完成各种业务需求。平台管理员PC端则用于维护系统信息并完成前台信息对接工作,采用.net框架进行开发,用C#实现。移动端和管理员后台端,都采用TCP通信协议,以保障通信的稳定与快速。
后端采用Windows+Http+Servlet+sqlsever的组合,首先Http网络协议可提高整个系统数据传输效率, sqlsever的开源性和极快的响应速度使得系统在成本上能够得到控制,并且Servlet经典的客户端和服务器数据传输模式与json数据传输类型保证了语音转化为文本数据传输过程的完整性,也能够实现更好的用户体验。后端为平台数据库及Android本地sqlite数据库,会议记录保存在后台服务器端,保证了记录的不可篡改性与安全性。而备忘录保存在本地则提高了用户对系统的体验度,减轻了对服务器端数据的堆积。整个后端既能满足系统所有的业务需求,同时也保证了用户信息的私有化。前端为Android移动端,都采用TCP通信协议,保障了通信的稳定与快速。
图1 系统总体架构设计
2.2 Android系统语音识别设计
本系统在个人语音、在线会议环节利用语音识别技术,实现快速语音录制及声音转文本功能。可用手机代替现有的会议记录秘书、个人日记本、个人备忘录,实现会议记录、备忘录、个人日记的无纸化。
在Android平台运用语音识别,建立听写识别对象,创设听写监听,利用信号处理的方法对说话人语音进行检测、降噪等预处理,以便得到最适合识别引擎处理的语音。将得到的音频录制结果通过语言云的SDK接口扫描到云端词库进行识别,得到最适合的结果。语音识别基本架构如图2所示。
图2 语音识别架构
3 系统功能设计
移动全能秘书平台是基于语音识别技术、即时通信技术和Android系统而建立,可解决资源匮乏、信息流通延迟、传统会议时空局限性等问题,实现会议和生活的高效和“无纸化”。
系统前端为客户端,主要分为会议模式和生活模式。会议模式下实现查看在线用户、组建会议室、应邀进入会议室、语音转文本会议录制、结束会议并向参会人发送会议记录、浏览会议记录等功能。生活模式下实现个人备忘录语音转文本录制、浏览备忘录等功能。后端为平台管理员端,可进行会议记录管理、用户管理。其功能结构如图3所示。
图3 用户APP功能
4 语音模式匹配实现
语音会议与个人日记中的关键点在于如何实现模式匹配,以及如何查询最高频的文字,做到模块匹配。查阅资料发现,线性预测编码(LPC)及动态规划技术算法,能够很好地解决模板匹配中遇到的模板与待识别语音时间长度不一致的问题,可显著提高识别率。线性预测特征的基本原理是建立在语音的数字模型基础上,为估计数字模型中的参数,线性预测法提供了一种可靠精确的有效方法[3]。
将自回归信号模型(AR模型)作为语音信号处理的常用模型。此时H(z)可写为:
H(z)=S(z)[]U(z)=z[]1-p[]i=1aiz-i(1)
语音抽样信号s(n)和激励信号之间的关系可用下列差分方程来表示:
s(n)=p[]i=1ais(n-i)+Gu(n)(2)
所以预测误差滤波器A(z)和H(z)的逆滤波器,有下式成立:
H(z)=G[]A(z)(3)
H(z)称为合成滤波器。
线性预测误差滤波相当于一个逆滤波过程或逆逼近过程,当调整滤波器A(z)的参数使输出e(n)逼近一个白噪声序列u(n)时,A(z)和H(z)是等效的,而按最小均方误差准则求解线性预测系数正是使输出e(n)白化的过程。
通过语音数据采集,集合线性预测过滤误差声波,再通过语音云中有海量中文高频词的词典,查找与模式匹配库中相匹配的最高频的字词进行文本翻译,为用户提供准确率较高的语意翻译。
5 结语
本系统所提供的功能可以在很大程度上突破传统会议局限,解决文档保存、纸资源浪费、打字困扰等问题,用户借助该软件可以提高工作效率,其生活也更加便捷。目前,人工智能技术逐渐渗透到人们的日常生活与工作中,且中央近期提出“互联网+”,“互联网+”行动计划重点在于促进计算机信息技术与生活及其它行业的融合创新,本系统正好响应此计划,为人们的工作与生活提供了极大方便。及时推送与语音识别技术的紧密结合,也将为本系统打开广阔的应用前景。
参考文献:
[1] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009(1):112123.
[2] 高新涛,陈乖丽.语音识别技术的发展现状及应用前景[J].甘肃科技纵横,2007(4):13.
[3] 高翔.计算机语音录入系统中准确性问题的研究[J].自动化与仪器仪表,2015(2):103104.
[4] 蔡敏.基于多特征组合优化的汉语数字语音识别研究[J].电子器件,2013(2):282284.
(责任编辑:孙 娟)
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/15 20:32:55