百度研究出深度学习语音识别系统DeepSpeech,嘈杂环境下识别率超Google、苹果

发布时间: 2014-12-19 10:15  
  不久前,百度的首席科学家吴恩达(Andrew Ng)在接受采访时曾谈到了百度最近人工智能项目的进展情况,强调了近期百度重点是攻关语音识别。现在他们已经在这方面取得了突破。
 
  这项成果的名字叫做 Deep Speech,是一款采用深度学习技术的语音识别系统系统。其独特之处在于,它可以在饭店等嘈杂环境下实现将近 81% 的辨识准确率。
 
  81% 的准确率听起来似乎不算高。但是同样环境下,其他的商业版语音识别 API,包括 Bing、Google 以及 Wit.AI 等的最高识别率也只有 65%。相比之下这就算十分突出的表现了。而且按照吴恩达的说法,这样的结果依然低估了 Deep Speech 与其他语音识别系统的准确率差异,因为 Deep Speech 进行比较时还把其他语音识别系统那些返回空白字符串的结果排除在外了。而且 Deep Speech 跟顶级的学术型语音识别模型(基于流行的数据集 Hub5’00 建模)相比也高出 9 个百分点。
 
  百度首席科学家吴恩达称尽管这还只是一项研究,但是公司正在考虑将它集成到供智能手机和 Baidu Eye 之类的可穿戴设备使用的语音识别软件当中。而且百度还在开发与 Amazon Echo 类似、集成有语音助手的家电产品,名字叫做 CoolBox。除此以外,百度在开发的智能自行车当然也能利用 Deep Speech 技术。
 
  Deep Speech 的基础是某种递归神经网络(RNN),这种递归神经网络经常被用于语音识别和文本分析。
 
  但是 Deep Speech 的成功主要得益于一个长达 10 万小时的语音数据训练集。这是百度人工智能实验室团队用新颖的办法在嘈杂环境下建立的。其过程大致是这样的。首先百度收集了 7000 小时的语音会话数据,然后再将这些语音文件与包含有背景噪音的文件合成到一起,最后形成约 10 万小时的训练集。这些背景噪音包括了饭店、电视、自助餐厅以及汽车内、火车内等场景。相比之下,Hub5’00 的数据集总共只有 2300 小时。
 
  当然,这么庞大的数据大多数系统都不知道如何去处理。吴恩达表示,Deep Speech 的成功很大程度上要取决于百度规模庞大的基于 GPU 的深度学习基础设施。GPU(图形处理器)往往是偏数学型计算的首选。许多深度学习系统都采用 GPU 避免通信瓶颈(不过微软的深度学习系统Adam 却走了不同的路线),但是像百度这样大规模的设施却是少见的。
 
  百度的另一大改进,是对这个庞大的数据集采用了端到端的深度学习模型,而不是标准的、计算代价高昂的声学模型。传统上一般都会把语音识别分别为多个步骤,其中一步叫做语音调适,但是百度却不做这一步,而是给 Deep Speech 的算法提供大量的数据,然后让它去学习所有需要学习的东西。这种做法除了收获了准确率以外,还显著减少了代码库的规模。
 
  这项研究是吴恩达领导的百度人工智能实验室多位研究人员的努力成果,论文发表在了康奈尔大学图书馆的 arXiv.org 网站上。

 

阿里巴巴最快于9月第二周

2014/09/01

据华尔街日报称,消息人士透露,阿里巴巴计划在9月8日当周IPO,股票可能于9月18日-...

苹果又申请新专利了:让

2014/09/01

日前,苹果正在申请一项新专利:让用户通过Siri和CarPlay实现车辆定位功能。 苹果官方...

万达、百度、腾讯投资5

2014/08/29

今天,万达、百度、腾讯于深圳宣布,在香港注册成立电子商务公司,一期投资额50亿...

阿里财报中的轻重缓急

2014/08/29

IPO前夕,马云也没闲着。法国、意大利、韩国、新加坡、澳大利亚、巴西。马云在环球...



ABOUT US

米果科技是一家高速成长的互联网全网营销解决方案提供商,致力于将先进的全网营销经验融入到客户推广过程中,为企业提供网络信息化、协同办公及商务系统、精准营销、全案策划、顾问定制等多元化的互联网全方位服务。

CONTACT US

400-000-6930   010-67011800/08/38

中国•北京•朝阳区裕民路12号元辰鑫大厦E2座2411室

vip@migal.cc

Copyright©2001-2015 MIGAL CHINA. All rights reserved.

米果科技 版权所有 | 资深全网营销解决方案提供商

京ICP备08002342号 京公海网安备110108000990号

米果微信公众平台

关注米果官方微博

访问米果手机网站

链接- 网站维护 服务器维护 百度百科创建 网站维护