智能语音翻译机的设计-文章-电子竞赛-数据采集与处理类

智能语音翻译机的设计

时间:01-17 15:44 阅读:1416次

*温馨提示：点击图片可以放大观看高清大图

简介：据旅游局的相关数据显示，2011年我国出境旅游人数6900万人次，比十年前增长了近5倍。他们大部分的人都只会母语，在解决语言方面问题时，即使按照平均每人花费500元计算，也是一个多达250—300亿的市场。随着中国老百姓的收入逐步增加，出国旅游的人越来越多。但是不会外语怎么办?许多人就打算购买一款翻译机随身使用，方便出国沟通。

一、开发背景

据旅游局的相关数据显示，2011年我国出境旅游人数6900万人次，比十年前增长了近5倍。他们大部分的人都只会母语，在解决语言方面问题时，即使按照平均每人花费500元计算，也是一个多达250—300亿的市场。随着中国老百姓的收入逐步增加，出国旅游的人越来越多。但是不会外语怎么办?许多人就打算购买一款翻译机随身使用，方便出国沟通。

目前市场上翻译机的品牌数不胜数，让很多消费者挑得眼花缭乱，但大多都是基于文字的翻译(TTS)，需要手动输入文字后翻译;有的可以根据语音来进行翻译，但都需要数据流量从服务器端获取翻译结果，一款好的翻译机不仅价格比较昂贵而且需要大量数据流量，速度慢，成本高。

二、图片

三、结构说明

基于以上开发背景，设计出基于存储的自动语音旅游翻译机。该翻译机实现自动语音翻译。

翻译机采用单片机STC15F2K60S2作为核心控制处理芯片，由LD3320语音芯片进行语音识别处理和音频解码、功放喇叭、录音输入、SD卡接口、触摸显示器等模块组成。其基本结构框图如上图1所示。

语音识别模块：非特定的语音识别，大众均可以使用，不需要特定人员或者特定的声音。

音频解码：取出SD卡中存储的MP3格式语音文件经过转换之后可以通过功放播放出来。

功放喇叭：通过音频放大经过喇叭播放解码模块解码出的声音。

触摸显示器：采用TFT LCD触摸液晶屏显示译出后的内容，通过触摸控制翻译机音量大小及英汉、汉英模式。

三、功能

自动语音翻译机是由非特定人语音识别系统，通过对非特定人的语音识别，只要用户对着终端说出你想表达的内容，翻译机就会将语音内容和数据库进行比对识别并自动翻译成客户所需要的语言，液晶屏上显示用户说的语言，用以识别翻译机是否检测到，再通过语音播放传达给对方，反之亦然。

四、使用说明

将用户所需的数据库文件储存在SD卡中，插入SD卡接口，上电，在触摸屏上选择翻译模式，然后对着拾音器说话，翻译机会自动的将所说的内容显示在触摸屏上并播放翻译语音。

例如：选择中英模式，客户说：“你好”，液晶屏上显示“你好”同时以英文播放“Nice to meet you”;客户说：“Nice to meet you!”，液晶屏上显示“Nice to meet you!”同时用中文播放“你好”。

选择中日互译模式，客户只要说中文，液晶屏上显示相应的中文。如果屏上显示“Please say it again!”，此时需要用户再说一次，翻译机再一次进行识别。

声音大小可通过触摸屏上声音大小图标改变，如若喇叭声音不够大，还可插上耳机。

平台选型说明

本设计的翻译机采用大赛规定的STC15F2K60S2单片机为控制核心， LD3320作为语音识别芯片，AX2010解码芯片读出SD卡中存储的MP3语音并解码输出，小功率集成功放TDA2822，TFT LCD触摸液晶屏，两节3.8V可充电电池作为电源

设计说明

一、设计方案

自动旅游翻译机是用LD3320语音识别芯片，AX2032解码芯片等芯片基于增强型51单片机STC15F2K60S2，来实现语音自动翻译及显示播放。

1 控制系统模块

采用STC15F2K60S2单片机作为系统主控制芯片，优点是片上资源丰富，I/O口很多，价格便宜，处理速度快。

2 语音识别模块

采用专用语音识别芯片LD3320，它是一颗基于非特定人语音识别(SI-ASR:Speak-Independent Automatic Speech Recognition)技术的语音识别和声控芯片。而且它不需要外接任何的辅助芯片如FLASH、RAM等即可实现语音识别、声控、人机对话功能。

3音频解码

采用AX2010解码芯片取出SD卡中存储的MP3语音并解码输出。

4 功放喇叭

采用小功率集成功放TDA2822。通过音频放大，喇叭播放解码模块解码出来的声音。

5 触摸显示器

采用TFT LCD触摸液晶屏显示译出后的内容，通过触摸控制翻译机音量大小及翻译模式。

6 电源模块

电源采用两节3.8V可充电电池，通过三端电源稳压电路，提供各种不同的电压和电流。

二、设计原理

1 语音识别模块

非特定人语音识别系统一般侧重提取反映语义的特征参数，尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时，尽量也包含说话人的个人信息。

一个完整的基于统计的非特定人语音识别系统可大致分为三部分：

(1)语音信号预处理与特征提取。特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。

(2)声学模型与模式匹配。声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较，得到最佳的识别结果。

声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

(3)语言模型与语言处理。语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。

语音识别模块由语音芯片LD3320组成。不需要外接任何辅助的外围Flash/RAM/AD芯片，就可以完成语音识别功能。它不需要用户事先训练和录音，完成非特定人语音识别，识别准确率95%。识别句内容可以动态编辑修改，因此可由一个系统支持多种场景。支持并行和串行接口，串行方式可以简化与其他模块的连接。可设置为休眠状态，而且可以方便地激活，实现低功耗。其语音识别电路设计图如图2所示。

2音频解码

语音编码器的主要功能就是把用户语音的PCM(脉冲编码调制)样值编码成少量的比特(帧)。这种方法使得语音在链路产生误码、网络抖动和突发传输时具有鲁棒性(Robustness)。在接收端，语音帧先被解码为PCM语音样值，然后再转换成语音波形。

音频解码中，包括回声抵消EC、混音、背景噪声抑制ANS、静音压缩、自动增益控制AGC、唇音同步、包丢失隐藏PLC等部分组成。

利用存储器存储不同的音频内容，其内容为解码器能识别的MP3等语音格式。再采用专用的音频解码芯片AX2010芯片，它是一款高性能的8位RISC单片机，IO口扩展方便，支持MP3外接信号直接切换、USB/SD/AUX/FM直接切换，支持FAT16、FAT32以及FAT文件系统。MP3音频解码原理图如图3所示。