首页 > 基础设施 > 正文

语音技术及其应用

2008-01-21 16:15:48  来源:IT写作社区

摘要:时至今日,语音技术产品的市场日益升温,语音识别技术已经成为计算机进一步在亿万百姓中普及的关键技术,也必将成为信息产业的标志性技术和未来计算机的重要特征。
关键词: 语音技术 应用

    自从ENIAC问世之后,马上有人想到要让计算机听懂人说话,并开始了这方面的研究工作。所以说,语音识别的研究历史与计算机的发展历史一样长。计算机的发展已历经了从电子管到晶体管以至超大规模集成电路的好几代,单单微机的CPU就从早期的4004发展到今天的奔腾4代,涌入了普通家庭,已与我们的数字化生活密不可分。但是,与计算机同步发展的语音识别技术似乎并不遵循摩尔规律,它的产品也迟迟未能进入市场。时至今日,语音技术产品的市场日益升温,语音识别技术已经成为计算机进一步在亿万百姓中普及的关键技术,也必将成为信息产业的标志性技术和未来计算机的重要特征。

一、语音将成为下一代操作系统和应用程序的用户界面

    计算机语音识别就性质而言是非常复杂的,是跨学科的边缘性研究,涉及数学、声学、生理学、数字信号处理、心理学、统计学、语言学等诸多领域。语音识别技术的原理看起来似乎并不复杂,它主要依赖于计算机发达的运算能力和存储能力,就像战胜棋王的“深蓝”,其致胜的关键是拥有大型棋谱数据库和每秒上亿次的是非判断能力。

    一般来说,计算机语音识别是一个模式识别匹配的过程。在这个过程中,计算机首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的整体模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板。然后,据此模板号的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系,这也是目前语音识别过程中的一个难点。

    总而言之,语音识别的任务是利用语音学知识和语言学知识,首先对语音信号进行基于信号特征的模式分类,这是语音信号处理的范畴,分类的结果是得到拼音串;其次是利用语言学知识对拼音串做进一步处理,得到一个符合语法和语义的句子。而对于汉语,还要在其中完成音字的转换。

    语音识别就应用来说,有低水准和高水准之分。高水准的语音识别用来实时地控制和操作计算机,不允许出错;低水准语音识别的应用则更为广泛,诸如听写系统。但是每个语音识别系统都有下列特征:

    ·连续性与不连续性:如果语音识别系统是连续的,用户就能正常地与系统对话;如果是不连续的,用户就需要字字停顿。显然,连续的识别比不连续的识别更受欢迎,但它却需要更多的处理能量。

    ·单词量:语音识别系统可以有或大或小的词汇量。词汇量小的识别系统需要用户发出简单的命令,而宣读文件时,这一系统就必需有大的词汇量,大词汇量识别系统比小词汇量识别系统需要更多的处理能量和储存空间。虽然日常生活中常用的词汇最多不超过一两万个,但每个专业的术语一般不少于几万条。

    ·扬声器的独立性:独立扬声器语音识别系统可以在机器外独立工作,而非独立扬声器语音识别系统则需要用户用大约三十分钟的时间训练该系统来适应他或她的声音。

    ·特定人与非特定人:例如有男声、女声、童声之分。

    ·规则句式与自由句式:识别结构化的句式比较容易,因为它有规则可循,有一定的范围;而人们说话大多采用任意句式,增加了计算机识别的难度。

    汉语语音识别系统按发音方式可分为孤立字发音识别系统、连接词发音识别系统和连续语音识别系统;按识别对象可分为特定人及非特定人识别系统;按词汇表的大小可分为小词汇表识别系统、中等词汇表识别系统、大词汇表识别系统和无限词汇表识别系统。实践证明,对汉语而言,只能用连续的语音识别技术;目前,代表汉语语音识别技术最高水平的是非特定人无限词汇的连续语音识别系统,例如IBM的ViaVoice98/2000。

    正像Windows扬弃Dos一样,计算机生产及使用的下一次飞跃将由人机界面的革新开始。毫无疑问,语音将摒弃键盘和鼠标,成为下一代操作系统和应用程序的用户界面。

二、高速处理器和低成本内存的发展促使语音识别的产品进入市场

    语音识别技术的研究与发展举步维艰。在50年代以前,由于计算机的计算能力和有关语音信号处理方面的理论都处于比较低的水平,有关语音识别的研究工作未能形成规模。而对这一课题开展大规模研究是在60年代末和70年代初。尽管初期的研究常常未能达到预期的目标,却使人们认识到了语音识别研究的艰巨性。

    像计算机的许多关键性技术一样,IBM也做了语音识别的开创性的工作。1972年,IBM成立了一个专门小组从事计算机语音识别技术的开发。开发初期,一页纸的词汇需要整整一房间的计算机同时处理,而且这些词汇必须是由一个特定的人非连续地读出。IBM在所有语音识别技术关键性领域的研究均获得了成果,包括:(1)识别语音特征:语音符号首先被数字化,并根据经过抽取和导向的语音频率、力度等特征被分割成每百分之一秒的时间点。包含导向成分的数字化的信息是增强识别能力所必须的。(2)语音模型:技术人员根据语言的基础语音元素对真实声音的录音进行分析、分类和分级,研制成能使一组特定人员的动态语音型式特征化的统计模型。语音上特征明显的语言或方言的识别要求特征明显的语音模型。(3)统计语言模型:语言使用类型特征化的统计模型是建立在大量实体的收集的基础上的,为了更好地识别同一种语言的不同的使用方法,需要不同的语言模型。(4)规则发展:除了建立语音和语言模型的基础的规则,还需要各种各样的规则去概括和研究潜在的词汇序列,通过组合相应的语音和语言模型统计来衡量每个侯选序列的可能性,并且选择最有可能的一个,该方法被证实在有效地缩小研究范围和改善极端复杂的正确的词汇序列研究过程方面是具有核心意义的。正是因为这种规则的发展,实时识别大量词汇、连续的速度才成为可能。

    语音识别的困难涉及语音信号和自然语言的多变性及复杂性问题,主要包括以下几方面:

    ·在连续语音中,词与词之间没有明显的停顿间隙,词与词之间的分割困难;

    ·每一个基本的声学识别单元(如音素)受前后音素发音方式的影响(称为交调),而使语音声学信号的特征变得不稳定;

    ·不同人或不同的心理和生理以及在不同的说话环境,即便说同一个词,声学信号特征也会发生变化;

    ·一个词的读音不仅包含了与词义有关的特征,而且还包含了说话人的性别、年龄、情绪等大量与词义无关的信息,而后面这些信息对语音的识别造成了干扰,而且把这些互不相关的信息分离开比较难;

    ·自然语言的多变性难以借助一些基本的文法规则进行描述,从而使计算机的编程产生困难。

    可以说,研究的最大的成果是80年代初R.Rabiner和F.Jelinek等人将隐含马尔可夫模型(Hidden Markov Model,HMM)引入语音识别中。他们把HMM与矢量量化(Vector Quantization,VQ)结合起来,用于与人无关的孤立词识别,并取得成功。HMM语音识别模型和算法以及动态规划模板匹配技术(又称动态时间归整Dynamic Time Warping,DTW)已成为当今国际上的主流技术。

    因为人耳对不同频率的声波有不同的听觉灵敏度,从200Hz到5KHz之间的语音信号对语音的清晰度影响最大;低音掩蔽高音容易,反之则较困难;在低频处的声音掩蔽的临界带宽较高频端小。所以,人们从低频到高频这一频段内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征进一步处理后就可作为语音识别系统的输入特征。由于这种特征不依赖于信号的性质,对输入的信号不作任何假设和限制,又利用了听觉模型研究的成果,因此,这种参数与基于LPC(Linear Prediction Coding,语音处理的线性预测编码)的全极点模型参数相比具有较好的鲁棒性,当信噪比降低时仍然具有较好的识别性能。目前,这种基于听觉模型的语音特征在语音识别系统中也已获得了广泛的应用。

    要建立一个语音识别系统仅有一个好的语音特征还不够,还要有一个好的语音识别的模型和算法。为研究方便,在语音识别系统中通常分为两部分:声学层部分主要研究如何充分利用语音信号中的信息,语音学层部分主要研究如何充分利用已有语音学知识来提高系统的分辨率。

    常用算法有基于神经网络的训练和识别算法、基于动态时间归整匹配的DTW算法和基于统计的隐含马尔可夫模型(HMM)识别和训练算法;连同基于规则的方法、基于统计的方法、基于文法规则的方法和基于对语料库统计的方法相结合;近年来,又有人将神经网模型与HMM模型结合起来,使其优势互补,进一步提高了系统的识别率;另外,也有人将模糊识别的方法应用于语音识别中。我们可以从以二元文法模型为例说明模型如何通过训练得到,进而扩展为三元文法模型,可以预见,随着高速处理器和低成本存储器的发展,语音识别的效率会不断地提高。

    随着微机的中央处理器从4位到64位、时钟频率从8MHz到2GHz的飞跃,内存(RAM)从16K到256M,外存(硬盘)容量从10M到100G的发展,语音识别技术经历了从最初的特定人、小词汇量、非连续、非独立扬声器的语音识别到今天的非特定人、大词汇量、连续、独立扬声器的语音识别的发展历程,而且识别速度和准确率都有了极大提高。

    无论如何,语音技术已成为计算机工业发展的趋势,使全球亿万人享受着与计算机对话的便利与乐趣,是电脑走向人性化的重要一步。

三、语音识别产品将是继电话、计算机、Internet之后信息产业界的又一次革命

    如果我们能够突破人机交互的瓶颈,就能使任何人都可以对计算机“发号施令”,口授文章,甚至“亲切交谈”,真正全面地实现“君子动口不动手”的人机交互方式。

    正是这充满潜力的市场前景使世界上一些知名公司无不看重“语音识别”这块正待开发的市场,IBM、Dragon、Intel、Microsoft、Philips、Motorola、Apple、National、Nortel等大公司都设有专门的语音识别技术研发部或子公司,每年投入的研究经费达数千万美元。Intel公司推出的PentiumⅢ为语音产品的实时化提供了进一步的保证。反过来,语音产品的发展也将为半导体工业提供新的契机。

    在国际市场上,由于中国的国际地位与日俱增以及在经济和市场方面所处的重要地位,汉语语音识别越来越受到重视;各大公司都相继投入到汉语语音识别系统的开发中,其投资也在逐年增加。

    智能翻译机、语音拨号、语音查询、语音自动定票系统、语音工业控制等等,可以想见,凡用计算机的地方都会有语音识别。在计算机辅助教育方面,计算机就成为专业的家庭辅导教师;在幼儿进行启蒙教育的玩具中,语音识别也将倍受欢迎。

    电脑语音合成技术即CTI(Computer Telephone Integration),是用计算机技术处理电话语音。通常是建一个信息呼叫中心,用户打来电话时计算机会自动地一层层地转给相关部门,一直到为用户解决问题为止。有的语音信箱可以支持不同语种。CTI并非新技术。与网络电话把数据压缩打包进行传输有所不同,CTI到底还是一种语音模拟传输技术,只不过用上了计算机对语音进行智能管理而已。发达国家早几年就普及了这项应用,“是个机构就有呼叫中心”,以保证客户或合作伙伴打来的每一个电话都有回应。中国却还没有走到这一步,目前除了电信部门普遍开通了“呼叫中心”服务之外,大多数企业还刚刚起步。这个差距反映了管理和竞争意识方面的问题。

    中文语音浏览器产品“Interversa”使我们能够用“嘴”遨游互联网实现了“所说即所得”。Interversa已针对PentiumⅢ的SSE指令集进行了优化,并将在PentiumⅢ上实现最好的性能和识别率。

    常见的语音识别系统还有“命令和控制(Command&Control)”(是连续的,拥有小词汇量和独立扬声器)、“语音导航”、微软的“不连续听写(Discrete Dictation)”(是不连续、大词汇量和非独立扬声器的),IBM的ViaVoice则属于连续听写。

    日渐火爆的语音市场再一次给我们带来了机遇和挑战;不断涌现和日新月异的新产品将证明,语音识别产品是继电话、计算机、Internet之后,信息产业界的又一次革命。(责任编辑:刘科


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。