一、基于偶数帧段输入隐马尔可夫模型的噪声环境下汉语连续语音识别研究(论文文献综述)
庄娴[1](2021)在《基于深度学习的嵌入式语音识别系统的设计与实现》文中进行了进一步梳理随着人工智能技术不断发展,当今社会,语音不仅仅是人类之间通信交流的手段,也成为人机交互的重要桥梁。近年来,语音识别技术发展飞速,开始逐渐应用到各个领域。深度学习的加入,使得语音识别的准确率有了质的飞跃,但是伴随而来的是网络模型越来越大,难以在嵌入式设备上移植和使用。而且语音数据存在一定的隐私性,存在收集困难的问题。并且在实际的语音场景中,总是存在各种噪音,包括但不限于环境噪声、设备噪声、发动机噪声等,这些噪声都会影响语音识别的效果。如何在保证语音识别准确率的情况下,最大限度地将模型压缩至适合嵌入式系统运行,成为众多学者研究的问题。本文希望通过研究端到端语音识别方法,设计出一个基于深度学习的轻量级中文语音识别模型,然后将模型移植到嵌入式设备上进行测试。本文的具体工作如下:1.针对语音开源数据集不多并且现实场景中语音环境存在噪声的问题,本文将中文语音开源数据集进行收集与整理,形成Large-Dataset,同时将深度学习方法融入传统信号处理方法设计了一个噪声抑制算法,在噪声数据集上进行测试,可以将字错误率降低1.48%。2.针对语音识别模型普遍比较庞大的问题,本文对端到端语音识别方案进行了研究,以1×1卷积核作为骨干网络的核心,通过门控线性卷积(Gated Convolutional Networks,GCN)解决长距离依赖的问题,设计了一个全卷积的轻量级神经网络,并且使用联结时序分类(Connectionist Temporal Classification,CTC)来解决输入与输出不等长的问题,实现自动对齐。3.针对汉字样本分布极不均衡的问题,本文将Focal Loss的思想与CTC Loss相结合,使其对不同分布的汉字样本具有不同的关注度,减轻样本不均衡对语音识别准确率的影响,获得了0.85%字错误率的降低。4.针对嵌入式环境内存小、计算力不足的问题,本文使用8Bit权重量化技术对模型进行压缩,将模型压缩至接近原来的四分之一;同时设计了移位量化加速方案,设计出合适的码本对8Bit量化后的模型权重进行优化,将大量的卷积乘法运算转换成移位后相加的模式,在损失0.6%字错误率的前提下将模型的推理速度在嵌入式系统上提升了40%。
刘佳文[2](2021)在《越南语连续语音识别系统关键技术研究及实现》文中研究表明语音识别就是利用计算机将语音波形信号转化为文字信号,近些年来随着深度学习的进步,这项技术得到了快速的发展,语音信号的识别率得到了很大的提升。在工业、通信、汽车电子等方面得到了广泛的应用。随着近年来中越关系的升温,对越南语的相关人才和技术的需求也在不断增加。所以本文对语音识别领域现有的各种建模方法进行研究,引入端到端技术应用在越南语语音识别上,工程实现一个越南语连续语音识别平台。基于此平台可以加快现有语义识别技术成果在实际中的转化应用,不断促进该领域的研究发展。论文的主要工作包括:(1)研究并实现基于矩阵分解优化深度神经网络的声学模型。本文首先对越南语的书写和发音规律进行研究,实现越南语的音素集合划分,为后续语音识别特征提取、声学模型、语言模型、解码模型的构建奠定机理理论基础;其次在传统隐马尔可夫-深度神经网络模型基础上,重点研究了基于矩阵分解优化的越南语声学模型,能够对越南语声学特征进行更为精细刻画,且运算速度快;再次,分析了越南语的书写特点,并指出构建基于音节的语言模型的困难,研究提出了一种基于字节单元的语言模型。最后在选用的语料库上搭建了越南语连续语音识别系统。实验结果表明,基于矩阵分解优化深度神经网络的方法相对于已有主流算法,获得了更为优异的性能。(2)研究并实现了基于变换器(Transformer)的端到端越南语连续语音识别系统。首先研究了端到端系统的发展和建模的优势分析,并给出了注意力机制建模方法;其次,在自注意力和互注意力机制基础上,研究并实现了基于堆叠编译码器结构的变换器模型,详细给出了编码器网络构建、译码器网络构建、位置信息建模算法和模型构建准则;最后构建了基于堆叠编译码器变换器模型的越南语连续语音识别系统,将该模型的端到端系统与其他两种端到端模型进行比较,并且系统讨论了不同识别单元对变换器模型系统性能的影响。相比于传统声学模型、语言模型、解码器等框架结构的语音识别系统,该端到端系统具有结构简单、要求更少越南语先验专业知识等特点,具有较好的应用前景。(3)研究并实现了通用的越南语连续语音识别平台框架。首先根据对越南语的识别率、实时性要求及系统服务功能分析,详细设计了语音识别平台的总体框架,即采用云计算服务的软件架构;其次对系统的数据结构进行了详细的分析与设计,包括语音识别相关表、文件存储相关表、批量任务相关表、引擎及Worker配置相关表和系统基础配置相关表;再次对语音识别平台进行具体实现,包括用户账号管理、智能语音识别、识别结果分析、系统配置和系统管理等。本文设计的语音识别平台框架具有很好的通用性和扩展性,根据用户的具体需求提供定制化的解决方案,能从可靠性、快速响应及易用性等方面满足用户的需求。
吴敏[3](2019)在《面向俄语军事语音的语种识别研究》文中研究表明随着各种信息获取手段的不断进步,获取到的信息变得更多、更容易也更多冗余,语音信息也是如此。随着越来越多的多语种语音环境的出现,对语音信息中非目标语种的所有冗余信息的剔除变得愈加关键,针对语音的语种识别需求也越来越大。为了填补目前国内针对俄语的语种识别研究的空白,本文将结合深度学习方法,针对俄语军事语音进行语种识别研究。本文通过研究俄语发音特点,发现语音频谱图包含语种鉴别特征,并通过对比实验证明了频谱图特征在军事领域针对俄语语音的识别效果良好。本文采用交叉验证的方法划分数据集,进行了两次对比实验:首先是通过对比实验来探究不同语种识别特征和分类模型的识别性能。在此过程中,研究了音素序列特征提取、频谱特征提取、高斯建模特征提取三种特征提取方法,具体分析了使用高斯建模特征提取方法获取的基于因子分析的全空间建模辨识向量ivector特征;还研究了深度学习方法中能够捕捉图像特征的卷积神经网络,对比了传统语种识别方法与基于CNN的深度学习语种识别方法在汉、越、俄、西、日五种语言上的性能差异。其次是通过混合构成俄语军事语音语料,训练针对俄语军事语音的语种识别模型来比较ivector特征和频谱图特征,在此过程中分析了俄语军事语音语料的特点,研究了ivector维度对识别性能的影响。通过实验发现基于CNN的语种识别方法相比传统语种识别方法在五语种识别任务上的识别效果明显提升;基于频谱图特征-CNN的语种识别方法在针对俄语军事语音语料的识别任务上表现最佳,获得了100%的召回率和99.2%的精确率。在此基础上,本文构建了一个能够准确、快速地从特定环境下的各种语音信息中辨别提取出俄语语音信息的语种识别原型系统,该原型系统能够以99.8%的识别准确率识别俄语军事语音。实验结果表明基于深度学习方法的语种识别明显优于传统语种识别方法;基于俄语发音特点找到的ivector特征的确在俄语识别任务上表现更佳;使用基于深度学习的针对俄语军事语音语料的语种识别原型系统作为语音数据处理的前端部分,能够提高俄语军事语音的提取效率。深度学习方法的效果与数据集的质量息息相关,本原型系统对于其他环境语音识别效果不佳,使用特定环境的语音来再次进行训练可以使神经网络更好地识别该环境下的语音。
陈晓仕[4](2017)在《语音触发SOC芯片的软硬件协同设计及低延时方案》文中提出随着信息技术的发展,非接触式人机交互以其方便快捷的特点受到广泛关注。而自然语言作为人类主要的沟通方式,其与机器识别技术相结合的交互方式因具有非接触式交互的诸多优点成为人工智能领域的研究热点之一。随着语音识别技术的进步,人们已经可以通过简单的语音指令让机器系统完成相应的操作。随着移动互联网的兴起,语音交互技术在移动终端也得到了广泛应用。但移动终端往往采用电池供电,而长时间处于识别状态将消耗大量的能量,因此移动终端系统往往采用按键或者屏幕触摸的方式来激活语音交互系统。藉此,人们提出设计一款低功耗语音触发芯片来解决长时间识别的问题。但是,低功耗同时又制约了语音触发芯片的计算能力。如何在有限的计算能力下,提供快速、准确的识别结果成为一种挑战。本文通过研究MFCC特征提取过程、GMM-HMM语音识别算法和VAD检测算法,在详尽分析算法各步骤的运算时间和主要运算的基础上,根据分析的结果提出了一套低延时的优化方案。该低延时优化方案包括硬件优化和软件优化。硬件上,采用SRAM作为程序空间载体,加速CPU取指的速度;设计硬件乘加运算和单高斯似然度计算单元,加速主要耗时的计算。软件上,则采用了空间换时间的方式,利用查找表、多项式拟合和合并相同HMM状态的概率计算等方法降低系统识别的时延。基于该优化方案,本文通过利用软硬件协同方法,设计了一款以AndesCore N10为核心的语音触发SOC芯片,并完成了对基于该芯片的语音触发系统进行测试。本文设计的SOC芯片采用TSMC 0.13um工艺制作,核心为AndesCore N10.,外设包括高精度Sigma-Delta ADC,GPIO,SPI等模块。基于该SOC芯片的语音触发系统平均时延为9.952ms,识别率和误识别率分别为95.5%和0.5%。在日常办公环境下,系统误触发次数小于1次/天。研究结果对于进一步推进语音触发芯片在移动终端应用具有较好的参考价值。
赵明明[5](2012)在《语音识别系统中特征提取和声学建模的研究》文中研究表明语音识别基本过程包括预处理、语音增强和语音消噪、语音分割、各类识别特征的提取、语音识别的声学模型、语音识别的语言学模型等几个部分。本文对上述过程进行了详细介绍,并对特征提取和声学模型进行了重点研究。本文分析了语音增强和消噪的一般方法,讨论了采用建立实时在线噪声数据库来提升语音增强和消除噪声的思路;介绍了语音识别中端点检测的方法和重要作用。详细归纳了各种特征参数,以及其提取方法和在语音识别中发挥的作用。重点分析了两种对美尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)的改良的特征参数提取方法。一种名为Bark子波美尔频谱倒谱系数(BarkMFCC,BMFCC),它将Bark子波变换嵌入到MFCC参数提取的过程中,比普通MFCC参数更准确的描述语音信号这种快速变化而又短时平稳性信号的频谱特征。另一种名为临频带小波变换美尔频谱倒谱系数(Critical Frequency Band andWavelet Transform MFCC,WMFCC),提取此参数时采用小波变换依照听觉临频带来构建新的更能准确反映人耳听觉的新型虑波器组来代替原来滤波器组的方法,相比MFCC参数的美尔频谱组成的听觉滤波器组,依照听觉临频带构建的小波滤波器组能更好的反映人耳耳蜗的工作机制。在对特征参数提取进行大量研究的基础上,提出了一种新型的特征参数,线性预测残差相位倒谱系数(Linear PredictiveResidual Phase Cepstrum Coefficients,RPCC), RPCC在提取的过程中将残差相位特征以线性叠加的方式与LPCC参数进行融合,改善了线性预测倒谱系数(LinearPredictive Cepstral Coding,LPCC)在反映各语音基元差别的不足,随后的实验证明了此参数的有效性。在声学模型方面,本文详细分析了各型的隐马尔可夫模型。并在分析对比现有的声学模型的基础上,提出了一种新型的声学识别模型,非齐次半连续隐马尔可夫模型(Nonhomogeneous Semi-continuous Hidden Markov Model,NSCHMM)。此模型与标准隐式马尔可夫模型相比,不仅比较准确的描述了观测量,而且改善了对马尔可夫链状态的描述。NSCHMM模型与齐次HMM对每个观测量都用高斯分布完全描述不同,采用特征向量共享的方式描述观测量,简化了模型;与齐次HMM采用几何分布描述内部隐含状态的段长分布不同,采用高斯分布来描述内部隐含状态的段长分布。通过对语音资料的驻留概率统计表明,语音的驻留概率并非几何分布形式,而是更接近于高斯分布、均匀分布等。因此采用高斯分布来描述内部隐含状态段长分布的NSCHMM相比用几何分布的齐次HMM更适合用于语音识别。在随后的与齐次HMM的连续语音识别实验中也证明了此模型的有效性。考虑到HMM类模型对易混语音识别存在先天缺陷,文章的最后也讨论了NSCHMM模型与支持向量机组成两级决策语音识别系统的思路。并分析了NSCHMM与基于置信度和采用改进的动态时间规整有向无环一分多支持向量机(DWT支持向量机)的联合作为声学识别模型的应用前景。
李荣松[6](2011)在《基于HMM的非特定人孤立词语音识别》文中研究说明语音识别技术是语音信号处理的一个分支,语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别研究的理论已经非常成熟,达到了很高的识别效果。我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从实验室逐步走向实用。然而,由于将语音识别应用于实际时,存在背景噪音、方言口音、口语等多方面的影响,一直没有取得广泛的应用。因此目前大部分产品仍局限于实验室环境,研究的热点是如何实现在线无监督的学习和多方法综合自适应学习算法,另一方面如何提高识别精度并降低系统复杂度。由于论文在语音识别方面的研究刚刚起步,且大词汇量语音识别系统需要建立词典涉及到很多语言学知识,并且需要大型语音库,因此论文主要研究了非特定人孤立词语音识别。内容包括自适应端点检测门限研究,Mel倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)各维系数对识别结果的贡献,持续时间状态的参数选取,以及隐马尔可夫(Hidden Markov Model,HMM)状态数选取,训练集大小选取等问题。论文研究了基于隐马尔可夫模型(HMM)的非特定人孤立词语音识算法。根据实际计算分析,对端点检测方法进行了设置双门限、阈值实时更新等方面的改进;计算了系统的时间复杂度,在采样速率、音节状态数、语音帧帧移的选取上进行了优化处理。通过系统的实时实验,表明优化后的语音识别系统更能够准确的将所需语音段提取出来,计算时间也有大幅度的下降,而识别率下降甚微。论文中研究的算法均在基于PC104的嵌入式系统下进行了原理样机实现,并在实验室环境下完成了实际测试和验证,具有较高的识别精度、可靠性和实时性。
张军[7](2009)在《基于MFCC的语音识别加速技术研究》文中研究表明随着计算机及电子技术的进步,越来越多的移动终端提供了语音识别和语音指令等相关功能,这些功能最主要的目的,在于让人们的生活更方便,但是要将它们用于嵌入式系统,却会遇到执行速度太慢的问题。原因在于这些电子设备不具备很强的浮点运算能力,而在语音特征提取过程中,却存在着大量的浮点数运算。针对嵌入式系统语音识别执行速度太慢的问题,本文对MFCC语音倒谱特征参数提取的各步骤进行了详细研究,给出一种在嵌入式系统中运用定点数运算和查表算法来实现语音识别加速的方法。识别率是评价语音识别系统的一个重要指标,语音识别系统的识别率和速度是一对互相矛盾的参数,如何能在尽量提高识别速率的前提下不影响识别率是本文研究的另一个重点。为此,本文在对语音识别算法作深入研究的基础上,从精准度、识别率和语音识别执行速度三个层面对基于MFCC的浮点数语音识别系统和定点数语音识别系统进行了对比实验,分析了系统识别速度和识别率的变化情形,成功地提升了系统识别速度,验证了本文实现方法的可行性。
华婷婷[8](2007)在《面向嵌入式计算的语音识别技术的实验研究》文中提出语音识别技术经过几十年的探索和研究,已经取得了一系列突破性的进展,一些成熟技术正逐渐应用于实际生活中。近年来,作为一种方便的人机交互手段,语音识别在消费类电子产品和工业控制等领域迅速发展,有着广泛的应用前景。嵌入式平台上的基于隐马尔可夫模型的非特定人、小词汇量、孤立词语音识别技术正在成为目前研究的热点之一。本文系统地研究了组成小词汇量语音识别系统的各种关键技术,在Matlab实验平台下完成语音训练和识别算法的设计,取得相关实验数据,为软硬件协同实现语音识别提供依据,并在此基础上探讨了其在FPGA上的实现问题。语音识别的理论模型对系统的构建具有指导意义,本文首先分析了语音信号的声学模型和汉语音节特点,合理地选择了音节作为语音识别的基本单元。然后详细地论述了语音识别的流程和基于Matlab的软件实验平台,并应用隐马尔可夫模型实现孤立词语音识别。隐马尔可夫模型对时间序列具有很强的建模能力,通过对时间序列特征参数的训练,为每个语音建立一个隐马尔可夫模型。待识别语音通过与各个隐马尔可夫模型匹配,即得到识别结果。它是一个鲁棒性模型,可以确保识别的高正确率,因此,广泛应用于语音识别领域。论文在Matlab实验平台上编写和仿真了预处理、端点检测、特征参数提取、矢量量化、隐马尔可夫模型训练和识别几个子功能模块,实现了语音识别的整体过程。并用汉语数字识别验证了方案的可行。同时,在对经典方法深入研究的前提下,本文还探讨将动态窗长、模糊理论等引入语音识别过程,通过对小词汇量孤立词的语音识别实验,取得了一定的效果。文章最后采用Matlab、VC++、FPGA,建立了一个软硬件协同语音识别的实验研究平台,探讨了语音识别算法在FPGA上的应用,重点考虑了基于帧的流程决策、MFCC定点计算和Viterbi算法等几个问题。结合FPGA结构特点,直接使用加法器、乘法器、比较器等建立一个Viterbi算法结构,采用改进的方法计算Viterbi得分和预计算逻辑实现了一种简单的基于隐马尔可夫模型的语音模板匹配。实验证明了该方案的切实可行。
诺明花[9](2006)在《维吾尔语孤立词和连续数字语音识别系统的设计与实现》文中进行了进一步梳理目前,语音识别最主要的研究途径是采用统计模型(隐含马尔可夫模型等)的方法以及人工智能(例如神经网络)的方法。 本文完成了维吾尔语特定人小词汇量孤立词语音识别(采用DTW模型),用java基本实现了小型引擎;在此基础上用Matlab6.2对维语连续数字识别中的数字录音、HMM模型训练和识别算法进行了仿真。 论文的主要工作由两部分组成。第一部分小词汇量特定人孤立词维吾尔语语音引擎的建立是基于DTW识别方法,其通用性比较好。提取梅尔倒频谱特征参数,码本设计时使用LBG算法。自定义的孤立词词典内容,使用所得的码本来形成词典小型引擎,训练过程中生或每个单词对应的.vq文件,它充当参考模板库。识别模块中用动态时间规整识别方法计算失真度(欧氏距离)最低的模板,在词典中搜索与其名称相同的单词,并在用户界面上显示此单词(模板名称),即识别结果。 第二部分工作就是孤立数字识别的基础上,研究维语数字串识别。首先具体分析十个维语数字音子特性建立音子模型,在经典齐次HMM模型下,采用了基于聚类的方法训练参考模式,识别用LB+Viterbi算法,采用直接对HMM模型输出的音子类别串分析而得识别结果。在分析基础上用Matlab6.2仿真维语连续数字识别中的HMM模型训练和识别算法。它可以完成不定长度数码串(本文测试了长度为2、3、4的数字串)的识别任务。
陈立伟,张晔[10](2006)在《基于改进的隐马尔可夫和神经网络混合模型的语音识别》文中研究说明研究了一种非齐次隐马尔可夫模型(Inhomogeneous Hidden Markov Model),然后将自组织特征映射神经网络与这种非齐次隐马尔可夫模型相结合,训练出抗噪声的HMM模型,并应用该混合模型进行语音识别。实验结果表明,该模型适合于对噪声背景下的语音进行识别。该模型具有更好的抗噪鲁棒性,在信噪比较低的情况下(5dB-10dB),识别率可以提高5%左右。
二、基于偶数帧段输入隐马尔可夫模型的噪声环境下汉语连续语音识别研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于偶数帧段输入隐马尔可夫模型的噪声环境下汉语连续语音识别研究(论文提纲范文)
(1)基于深度学习的嵌入式语音识别系统的设计与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外研究历史与现状 |
1.2.1 语音识别国内外研究历史与现状 |
1.2.2 嵌入式移植神经网络研究现状 |
1.3 本文的主要贡献与创新 |
1.4 本论文的结构内容安排 |
第二章 基础理论及相关技术 |
2.1 深度学习技术 |
2.1.1 深度学习概况 |
2.1.2 卷积神经网络 |
2.1.3 循环神经网络 |
2.1.4 深度学习框架 |
2.2 语音识别概况 |
2.2.1 语音识别技术原理 |
2.2.2 传统语音识别模型 |
2.2.3 端到端语音识别模型 |
2.3 嵌入式移植 |
2.3.1 轻量级网络设计 |
2.3.2 量化 |
2.4 本章小结 |
第三章 轻量级语音识别模型设计 |
3.1 语音噪声抑制算法 |
3.2 轻量级模型网络结构设计 |
3.2.1 基于GatedCNN的模型设计 |
3.2.2 使用多路并行网络结构 |
3.3 损失函数 |
3.3.1 CTC Loss |
3.3.2 基于Focal Loss改进的损失函数 |
3.4 基于统计学的语言模型设计 |
3.4.1 语言模型介绍 |
3.4.2 基于n-gram的语言模型设计 |
3.5 模型训练 |
3.5.1 数据集介绍 |
3.5.2 实验参数设置 |
3.6 实验分析 |
3.6.1 实验环境配置 |
3.6.2 评价指标 |
3.6.3 实验结果及分析 |
3.7 本章小结 |
第四章 基于嵌入式的语音识别系统实现 |
4.1 模型量化压缩加速 |
4.1.1 量化技术 |
4.1.2 量化方案设计 |
4.1.3 ONNX模型优化 |
4.1.4 8Bit量化压缩优化 |
4.1.5 移位量化加速优化 |
4.2 模型量化结果分析 |
4.2.1 评价指标 |
4.2.2 实验环境配置 |
4.2.3 实验结果与分析 |
4.3 本章小结 |
第五章 总结与展望 |
5.1 论文总结 |
5.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(2)越南语连续语音识别系统关键技术研究及实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 连续语音识别系统的发展 |
1.2.1 基于隐马尔可夫模型的连续语音识别系统 |
1.2.2 端到端的连续语音识别系统 |
1.2.3 越南语连续语音识别的现状 |
1.3 论文的研究思路 |
1.3.1 问题分析 |
1.3.2 论文主要研究内容 |
1.4 结构安排 |
第二章 基于矩阵分解优化深度网络的的越南语语音识别模型 |
2.1 基于HMM-GMM模型的连续语音识别系统 |
2.1.1 高斯混合模型 |
2.1.2 隐马尔可夫模型 |
2.1.3 HMM-GMM模型训练 |
2.2 基于HMM-DNN的越南语连续语音识别系统 |
2.2.1 DNN结构 |
2.2.2 LSTM结构 |
2.2.3 TDNN-F结构 |
2.3 越南语语料库 |
2.3.1 越南语简介 |
2.3.2 语料库介绍 |
2.3.3 数据处理 |
2.4 实验分析 |
2.4.1 实验配置 |
2.4.2 实验结果 |
2.5 本章小结 |
第三章 基于堆叠式编解码结构的端到端语音识别模型 |
3.1 CTC模型 |
3.2 RNN-T模型 |
3.3 Transformer模型 |
3.3.1 注意力机制 |
3.3.2 编码层 |
3.3.3 解码层 |
3.3.4 位置嵌入 |
3.4 实验结果及分析 |
3.4.1 实验配置 |
3.4.2 实验结果 |
3.5 本章小结 |
第四章 连续语音平台架构设计与实现 |
4.1 总体设计思路 |
4.1.1 架构介绍 |
4.1.2 架构优势 |
4.1.3 设计原则 |
4.2 系统数据结构设计 |
4.2.1 语音识别相关表 |
4.2.2 文件存储相关表 |
4.2.3 批量任务相关表 |
4.2.4 引擎及Worker配置相关表 |
4.2.5 系统基础配置相关表 |
4.3 系统模块及功能实现 |
4.3.1 开发环境简介 |
4.3.2 用户账号管理 |
4.3.3 智能语音识别 |
4.3.4 结果分析 |
4.3.5 系统配置 |
4.3.6 系统管理 |
4.4 达到的技术指标 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 论文工作总结 |
5.2 前景与展望 |
致谢 |
参考文献 |
作者简历 |
(3)面向俄语军事语音的语种识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 引言 |
1.1 研究背景 |
1.2 研究意义 |
1.2.1 俄语军事语音研究 |
1.2.2 语种识别方法对比研究 |
1.2.3 基于深度学习的语种识别原型系统 |
1.3 研究关键问题 |
1.3.1 语种识别特征的选取 |
1.3.2 深度学习与语种识别方法的结合 |
1.4 论文的主要内容及组织结构 |
第二章 特征提取方法 |
2.1 音素序列方法 |
2.1.1 基于PRLM的语种识别 |
2.1.2 基于WPLLR的语种识别 |
2.2 频谱特征的提取方法 |
2.2.1 梅尔频率倒谱系数特征 |
2.2.2 移位差分倒谱特征 |
2.3 高斯建模特征 |
2.3.1 高斯混合模型特征 |
2.3.2 GMM-MLLR特征 |
2.3.3 辨识向量ivector特征 |
2.4 本章小结 |
第三章 深度学习方法 |
3.1 神经网络 |
3.2 深度学习 |
3.3 卷积神经网络 |
3.3.1 神经感知机的发展 |
3.3.2 图像特征捕捉器 |
3.3.3 CNN的实际应用 |
3.4 本章小结 |
第四章 语种识别方法对比研究 |
4.1 实验准备 |
4.1.1 实验环境 |
4.1.2 实验语料 |
4.1.3 实验设置 |
4.2 传统语种识别方法 |
4.2.1 基于MFCC-SVM的语种识别 |
4.2.2 基于SDC-SVM的语种识别 |
4.2.3 基于ivector-SVM的语种识别 |
4.3 深度学习语种识别方法 |
4.3.1 基于MFCC-CNN的语种识别 |
4.3.2 基于ivector-CNN的语种识别 |
4.3.3 基于语音频谱特征的CNN语种识别 |
4.4 实验过程 |
4.4.1 特征数据准备 |
4.4.2 语种识别模型训练 |
4.4.3 测试打分模块 |
4.5 实验结果 |
4.5.1 结果数据 |
4.5.2 结果分析 |
4.5.3 实验小结 |
第五章 俄语军事语音语种识别原型系统 |
5.1 俄语军事语音的特点 |
5.2针对俄语军事语音的对比实验 |
5.2.1 实验设置 |
5.2.2 实验过程 |
5.2.3 实验结果 |
5.3 构建原型系统 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 主要工作 |
6.2 研究展望 |
致谢 |
参考文献 |
作者简历 |
(4)语音触发SOC芯片的软硬件协同设计及低延时方案(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 本文的研究方向及主要工作 |
第二章 语音识别及激活算法 |
2.1 语音识别系统介绍 |
2.2 HMM基本原理 |
2.3 HMM的三个经典问题 |
2.3.1 评估问题 |
2.3.2 译码问题 |
2.3.3 训练问题 |
2.4 MFCC特征 |
2.5 语音激活检测 |
2.6 本章小结 |
第三章 低延时优化设计 |
3.1 耗时分析与优化分析 |
3.1.1 ASR、VAD优化分析 |
3.1.2 MFCC特征提取优化分析 |
3.2 硬件层面优化 |
3.2.1 基于SRAM的程序空间 |
3.2.2 硬件运算单元 |
3.3 软件层面优化 |
3.3.1 查找表优化设计 |
3.3.2 多项式拟合 |
3.3.3 合并相同HMM状态的符号观测概率计算 |
3.4 优化效果 |
3.5 本章小结 |
第四章 语音触发芯片硬件简介及寄存器设计 |
4.1 语音触发芯片介绍 |
4.2 寄存器设计 |
4.2.1 ADC寄存器设计 |
4.2.2 硬件加速器寄存器设计 |
4.2.3 GPIO寄存器设计 |
4.3 本章小结 |
第五章 语音触发系统构建 |
5.1 语音识别模型构建与存储设计 |
5.1.1 模型训练 |
5.1.2 存储设计 |
5.2 程序设计 |
5.2.1 初始化过程 |
5.2.2 中断进程与主进程通信管道设计 |
5.2.3 中断进程设计 |
5.2.4 主进程设计 |
5.3 本章小结 |
第六章 验证与测试 |
6.1 测试方案设计 |
6.2 性能测试 |
6.2.1 测试DEMO |
6.2.2 时延测试 |
6.2.3 近场识别测试 |
6.2.4 远场识别测试 |
6.3 电气测试 |
6.4 本章小结 |
结论 |
参考文献 |
攻读学位期间获得的学术成果 |
致谢 |
附件 |
(5)语音识别系统中特征提取和声学建模的研究(论文提纲范文)
摘要 |
ABSTRACT |
1 引言 |
1.1 语音识别发展状况 |
1.2 语音识别急待解决的问题 |
1.3 本文主要工作和论文安排 |
2 语音识别基本过程 |
2.1 语音识别前期处理 |
2.1.1 纯净语音信号的提取 |
2.1.2 识别基元的精确端点检测 |
2.2 各类型特征参数及其提取办法 |
2.3 两种改良 MFCC 特征参数以及提取方法 |
2.3.1 MBFCC 特征参数以及其提取方法 |
2.3.2 临频带小波变换改良的 ZWFCC 的提取 |
2.4 语音识别中的声学模型 |
2.4.1 HMM 模型极其衍生模型 |
2.4.2 支持向量机模型及其应用 |
2.4.3 以上两种模型的性能局限 |
3 特征参数 RPCC 和声学模型 NSCHMM |
3.1 线性相位残差 RPCC 特征参数 |
3.2 NSCHMM 模型 |
3.2.1 NSCHMM 模型拓扑结构 |
3.2.2 NSCHMM 的观测概率描述 |
3.2.3 NSCHMM 的状态转移概率描述 |
3.3 模型与 SVM 混合式声学模型的探讨 |
4 实验 |
4.1 RPCC 特征参数的实验 |
4.2 NSCHMM 语音识别模型的实验 |
5 总结与展望 |
5.1 论文的主要工作 |
5.2 下一步工作展望 |
参考文献 |
附录 A:作者攻读硕士学位期间发表论文及科研情况 |
附录 B:语音信号 RPCC 求解主要程序 |
附录 C:基于 NSCHMM 声音模型的语音识别主要程序 |
致谢 |
(6)基于HMM的非特定人孤立词语音识别(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究的背景和意义 |
1.2 国内外发展现状 |
1.3 本文主要研究工作 |
第二章 语音信号处理基础 |
2.1 语音的波形及特性 |
2.2 语音的产生 |
2.2.1 发声器官 |
2.2.2 清音、浊音和爆破音 |
2.2.3 基音频率 |
2.2.4 共振峰 |
2.3 语音信号的简化数字模型 |
2.4 语音信号的时域分析 |
2.4.1 语音短时分析技术 |
2.4.2 短时能量和平均幅度 |
2.4.3 短时平均过零率 |
2.4.4 短时自相关函数 |
2.5 语音信号的频域分析 |
2.5.1 短时傅立叶变换的定义和物理意义 |
2.5.2 基于短时傅立叶变换的语谱图及其时频分辨率 |
2.5.3 倒谱同态处理 |
2.6 非特定人小词汇量孤立词语音识别方法概述 |
2.6.1 语音识别系统构成 |
2.6.2 孤立词语音识别系统的原理 |
第三章 语音预处理和特征提取 |
3.1 语音信号预处理 |
3.2 端点检测 |
3.2.1 短时能量法 |
3.2.2 短时过零率法 |
3.2.3 能量积法 |
3.3 特征参数提取 |
3.3.1 线性预测系数 |
3.3.2 倒谱系数 |
3.3.3 Mel特征参数 |
第四章 HMM在语音识别中的应用 |
4.1 HMM的特点 |
4.2 HMM基本原理 |
4.2.1 马尔可夫链 |
4.2.2 隐马尔可夫模型 |
4.2.3 隐马尔可夫模型的基本问题 |
4.2.4 连续HMM和半连续HMM |
4.3 HMM模型的计算优化 |
4.3.1 多观察值序列训练 |
4.3.2 HMM溢出问题 |
4.3.3 一种新的HMM溢出问题解决方法 |
4.3.4 初始模型的选取 |
4.3.5 HMM训练 |
4.4 语音识别部分的实现 |
4.4.1 语音识别部分的总体框图 |
4.4.2 语音信号预处理 |
4.4.3 端点检测及其改进 |
4.4.4 特征参数提取 |
4.4.5 时间复杂度的分析和优化 |
4.4.6 识别实验分析 |
第五章 系统实现与结果分析 |
5.1 语音数据的采集与数据库的建立 |
5.1.1 实验硬件设备 |
5.1.2 语音数据库的建立 |
5.2 实验结果与分析 |
5.2.1 实验结果 |
5.2.2 结果分析 |
5.3 存在的问题 |
结论 |
致谢 |
参考文献 |
作者简介 |
(7)基于MFCC的语音识别加速技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 引言 |
1.2 语音识别技术发展历史 |
1.2.1 国外语音识别发展概况 |
1.2.2 国内语音识别发展概况 |
1.3 语音识别研究现状及发展趋势 |
1.3.1 语音识别研究现状 |
1.3.2 语音识别发展趋势 |
1.4 语音识别系统面临的问题 |
1.5 本文研究工作及论文结构 |
1.5.1 本文的主要工作及创新 |
1.5.2 论文的组织结构 |
第二章 语音识别基础理论 |
2.1 语音识别系统的分类 |
2.2 语音识别系统基本模型 |
2.3 语音信号预处理 |
2.3.1 端点检测 |
2.3.2 预加重 |
2.3.3 分帧 |
2.3.4 加窗 |
2.4 语音信号的特征参数 |
2.4.1 特征参数概述 |
2.4.2 倒谱特征参数 |
2.4.3 线性预测系数 |
2.4.4 梅尔频率倒谱特征参数 |
2.5 语音识别基本方法 |
2.5.1 动态时间规整 |
2.5.2 矢量量化 |
2.5.3 隐马尔可夫模型 |
2.5.4 解码过程 |
2.6 语音识别系统的分析评价标准 |
2.6.1 测试数据的选择 |
2.6.2 识别精度 |
2.6.3 识别速度 |
第三章 基于 MFCC的语音识别加速算法 |
3.1 改进方法介绍 |
3.2 整数运算和查表算法 |
3.2.1 预加重 |
3.2.2 加窗 |
3.2.3 快速傅立叶变换 |
3.2.4 三角带通滤波 |
3.2.5 离散余弦变换 |
3.2.6 计算能量对数 |
3.2.7 开平方根表格 |
第四章 实验结果与分析 |
4.1 精准度实验 |
4.1.1 cosTable和sinTable误差 |
4.1.2 对数和平方根表误差 |
4.1.3 MFCC各步骤误差比较 |
4.2 识别率实验 |
4.3 执行速度实验 |
4.4 算法执行效率测试和内存泄漏报告 |
4.4.1 算法执行效率 |
4.4.2 内存泄漏分析报告 |
结束语 |
5.1 本文总结 |
5.2 未来研究方向 |
参考文献 |
致谢 |
研究成果及发表的学术论文 |
北京化工大学 硕士研究生学位论文答辩委员会决议书 |
(8)面向嵌入式计算的语音识别技术的实验研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题的研究目的与研究意义 |
1.2 语音识别技术简介 |
1.2.1 语音识别的分类 |
1.2.2 语音识别技术的发展历程 |
1.2.3 语音识别技术的发展趋势 |
1.3 本文的主要工作和结构 |
第二章 语音识别概述 |
2.1 语音识别的声学基础 |
2.1.1 语音信号的产生模型 |
2.1.2 汉语音节的结构和特点 |
2.2 语音识别的框架 |
2.2.1 语音识别的过程 |
2.2.2 识别方法简介 |
2.3 基于 Matlab的实验平台 |
第三章 孤立词语音识别算法 |
3.1 预处理 |
3.1.1 语音采样、滤波、A/D转换 |
3.1.2 预加重 |
3.1.3 分帧、加窗 |
3.2 端点检测 |
3.2.1 短时能量 |
3.2.2 短时过零率 |
3.2.3 双门限端点检测 |
3.3 特征参数提取 |
3.3.1 LPCC |
3.3.2 MFCC |
3.3.3 MFCC的优点 |
3.4 矢量量化(VQ) |
3.4.1 矢量量化技术概述 |
3.4.2 码本设计 |
3.4.3 初始化码本 |
3.5 隐马尔可夫模型(HMM) |
3.5.1 HMM的三个基本问题 |
3.5.2 HMM的实现问题 |
第四章 语音识别改进及实验分析 |
4.1 实验框架与环境介绍 |
4.2 引入动态窗长的端点检测 |
4.3 面向嵌入式的LPCC、MFCC实验分析 |
4.4 基于C-means模糊聚类法的改进VQ |
4.5 面向嵌入式的DTW、HMM实验分析 |
第五章 嵌入式语音识别探讨 |
5.1 实验平台 |
5.1.1 硬件平台 |
5.1.2 Matlab与VC++混合编程 |
5.1.3 PCI设备驱动 |
5.2 基于帧的流程决策 |
5.3 MFCC的定点计算 |
5.4 嵌入式Viterbi算法 |
5.4.1 Viterbi算法变形 |
5.4.2 Viterbi算法的VLSI结构 |
5.4.3 FPGA仿真与实现 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 进一步工作展望 |
参考文献 |
致谢 |
硕士期间发表的论文 |
(9)维吾尔语孤立词和连续数字语音识别系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
符号说明 |
目录 |
第一章 序言 |
1.1 语音识别综述 |
1.1.1 语音识别系统 |
1.1.2 语音识别技术的研究 |
1.1.3 我国的语音识别研究 |
1.2 语音识别中的关键技术 |
1.2.1 语料库和语音库 |
1.2.2 特征提取 |
1.2.3 声学模型 |
1.2.4 语言模型 |
1.3 维吾尔语语音识别研究的意义 |
1.3.1 研究意义 |
1.3.2 维吾尔语语音技术的研究 |
1.4 论文主要工作 |
第二章 语音识别系统 |
2.1 语音识别基本原理 |
2.2 预处理和参数分析 |
2.2.1 端点检测 |
2.2.2 特征提取 |
2.3 语音识别 |
2.3.1 语音模型和语言模型 |
2.3.2 语音识别的方法 |
2.3.2.1 动态时间规整(DTW)法 |
2.3.2.2 矢量量化(VQ)法 |
2.3.2.3 隐马尔可夫模型(HMM)算法 |
2.3.3 模型参数训练 |
第三章 维吾尔语孤立词语音识别系统的设计与实现 |
3.1 维吾尔语的音系结构 |
3.1.1 维吾尔语的音素结构 |
3.1.2 维吾尔语的音节结构 |
3.1.3 维吾尔语的词语构成 |
3.1.4 维吾尔语的划分音节规则 |
3.2 维吾尔语孤立词识别系统的设计 |
3.2.1 系统整体结构 |
3.2.2 主要模块的设计 |
3.2.2.1 特征提取模块的设计 |
3.2.2.2 矢量量化模块的设计 |
3.2.2.3 隐马尔可夫模块的设计 |
3.3 维吾尔语孤立词识别系统的实现 |
3.3.1 训练模块 |
3.3.1.1 训练界面模块 |
3.3.1.2 输入语音(Audio)模块 |
3.3.1.3 端点检测(DSP)模块 |
3.3.1.4 码本模块 |
3.3.2 识别模块 |
3.4 试验 |
3.4.1 实验数据 |
3.4.2 分析与讨论 |
第四章 维吾尔语连续数字语音识别系统的设计与实现 |
4.1 维吾尔语连续数字识别系统的设计 |
4.1.1 系统整体结构 |
4.1.2 主要模块的设计 |
4.1.2.1 语音录入模块 |
4.1.2.2 语音训练模块 |
4.1.2.3 识别模块 |
4.2 维吾尔语连续数字识别系统的实现 |
4.2.1 录音工具实现 |
4.2.2 训练算法的实现 |
4.2.2 识别算法的实现 |
4.3 试验 |
4.4 讨论 |
4.4.1 使用好的声卡和灵敏度高的话筒 |
4.4.2 语音声音要大不能太小 |
第五章 总结与展望 |
5.1 本课题小结 |
5.2 本课题展望 |
参考文献 |
研究生期间发表论文 |
致谢 |
学位论文独创性声明 |
学位论文知识产权权属声明 |
四、基于偶数帧段输入隐马尔可夫模型的噪声环境下汉语连续语音识别研究(论文参考文献)
- [1]基于深度学习的嵌入式语音识别系统的设计与实现[D]. 庄娴. 电子科技大学, 2021(01)
- [2]越南语连续语音识别系统关键技术研究及实现[D]. 刘佳文. 战略支援部队信息工程大学, 2021(03)
- [3]面向俄语军事语音的语种识别研究[D]. 吴敏. 战略支援部队信息工程大学, 2019(02)
- [4]语音触发SOC芯片的软硬件协同设计及低延时方案[D]. 陈晓仕. 华南理工大学, 2017(06)
- [5]语音识别系统中特征提取和声学建模的研究[D]. 赵明明. 重庆师范大学, 2012(12)
- [6]基于HMM的非特定人孤立词语音识别[D]. 李荣松. 中国民航大学, 2011(03)
- [7]基于MFCC的语音识别加速技术研究[D]. 张军. 北京化工大学, 2009(07)
- [8]面向嵌入式计算的语音识别技术的实验研究[D]. 华婷婷. 江苏大学, 2007(05)
- [9]维吾尔语孤立词和连续数字语音识别系统的设计与实现[D]. 诺明花. 新疆大学, 2006(12)
- [10]基于改进的隐马尔可夫和神经网络混合模型的语音识别[J]. 陈立伟,张晔. 应用声学, 2006(02)