首页 观察 数智化 正文

声控应用:无数有待开发的机会

作者:快鲤鱼 时间:2013-12-22 0

科幻电影里常能看到人机直接对话的场景,随着设备越来越先进,以智能手机为首,人机交流离日常生活已经不再遥远。

声音控制已经被不少移动APP采用,对软件开发者也蕴含着无限可能。与之前出现的非声音途径的应用(如短信息)开发的热潮相比,声控应用无疑代表了无数有待开发的机会。

为什么选择声控?

用声音交流有什么优势呢?虽然已经有不计其数的应用选择键盘作为交互界面,让用户实现搜索、邮件、记录等功能,但对许多人来说,智能手机的触屏键的方寸之地还是太受约束。

手机天然适合声控,用户在走动时也能读取信息并发出指令。此外,声控还能大大方便行动不便的人群。虽然声控技术还有待发展,即便是苹果的Siri也存在很多缺陷,但却代表了声控实现人机交互的进步方向。随着智能学习、统计数据挖掘等技术,机器理解人类话语的能力也不断进步。

语言应用的成功植入

向应用中引入语音识别已有成功先例。一家问答网站Ask.com,在其iOS和安卓版本的APP中引入了Nuance的语言识别技术。这项技术对应的连接可以让用户以说话的方式进行提问或评论回复。

亚马逊也往最新版的Kindle iOS应用中加入了支持苹果VoiceOver阅读/导航的插件,方便阅读不便的人在iPhone和iPad上使用Kindle。

亚马逊表示超过180万本电子书将支持这一阅读功能。亚马逊此前还并购了一家名家IVONA的软件公司,该公司的技术提供Kindle“text to speech”和其他语音阅读相关功能。

关注这一块技术的创业公司也不在少数。如2013年初,Joyride在APP中引入声控,并募集了100万美元的融资。Joyride希望实现100%声控,让用户即便在开车时也能享受社交游戏等娱乐活动。

另一家创业公司,Nuiku实现了一项技术:用户说出指令,应用能自动分析,调用用户已经上传材料中相对应的内容。Niuku在9月份宣布获得160万美元的融资。

Forrestor最近发布的调查指出,移动应用中附带声控功能的比例不断增加,大部分用户使用该功能发短信,46%用来搜索,40%用来导航,38%用声控做记录。

集成语音

语音交互技术由两部分组成。一部分叫“语音合成”,指“文本”到“语音”(Text to speech,简称TTS)的过程。设备或应用能利用TTS实现与用户的交流,读取文本信息、指令,或向用户呈现程序运行的进度。

另一部分叫“语音识别”技术,识别用户向APP的说话以发出指令,或用信息/邮件的形式做出反应,后者通常要键盘辅助实现。理想的语音应用兼具两者,但初学者可以先从编写单一功能的程序开始熟悉这项技术。

乍看之下,语音合成/识别库并不复杂——识别输入的发音并输出语音对应的序号即可,但实际上通常情况下获得清晰自然的效果并不容易。

阅读文本时不同人发音存在微妙的差异,这些差异不会影响到人类交流,但要让机器同时完成自然语言和数字信号的处理,对识别和编译都提出了相当的要求。

要从零开始建立一套完整的语音交换算法需要成千上万小时的编程,好在有一些现成的商品化的APP工具提供帮助。编程者在为项目选择SDK前需确定开发模式。开发模式主要有两种:

云系统: 自动语音识别(Automatic Speech Recognition,简称ASR)和TTS通过云系统完成,速度快,准确性高,使用也比较广泛。虽然限制了运行APP的设备需要时刻联网,但也缩小了设备自身体积。

内置式: 内置移动语音识别或TTS让声音识别编译过程在本地完成,可离线工作,但设备也相应更笨重。至于其工作原理,是将每个可能的音节录音后存在预置的音频数据库中。IVONA语音识别系统则提供美式英语(Kendra,女性发音)和英式英语(Amy,女性)的发音下载,每份数据约150MB。此外云系统收网络影响可能出现翻译延迟,本地处理则避免了这一中间过程的影响。

热门话语库

Nuance提供目前移动应用开发使用最热门的语音库。Nuance的应用Dragon Dictation可完成从语言到文本的转化,iOS版本免费。该应用录制语音后上传到网络处理器供识别,因此要求无线网络连接。但总体来说延迟并不明显,应用能迅速将所说内容的对应文字显示在主窗口中。

苹果、谷歌和微软都为各自的手机系统提供直接语言到文本识别工具,为用户提供手动输入以外的选择。从iOS7开始,苹果又新增了AVSpeechAynthesizer这一API实现语音集成功能。过去如果应用开发人员想让设备说话,需要在程序中加入自己的代码解决发音方案,既费时又增加了程序体积。而有了iOS7这一语音整合API,开发者仅用几行代码就能给应用加入发音功能。此外,这一API也适用网页应用开发。

OpenEars是一款离线语音识别和文字-语音转换开源开发包,支持西语和英语。和其他离线语料库一样,往应用中加入OpenEars能大大增加软件提及(仅OpenEars就超过200M)。但开发人员后期可以去除未使用的语言版本,最终程序的大小通常可以控制在6~20M(除非兼容多语言,那样程序体积会更大)。

其他常见SDK开发包还有:Ivona,iSpeech,Vocalkit和Acapela,这些都是在线并需付费的SDK。

程序开发人员根据不同需求来选择为设计的APP配备哪种语料库,评价是否合适需要权衡解决效率和总成本。随着语音识别一些关键问题的解决(如“鸡尾酒会问题”,即在众多声音中辨识目的语音,联系上下文,口音识别,识别有口吃的人说话等),APP中的语音识别的用户体验也会不断改善。

但对开发者来说,现在还不是一拥而上为每个应用都按上语音选项的时候,也许可以从错误率小的地方入手,如填写表格,来逐步过渡到语音应用。首先往最常用的功能中引入语音选项,然后通过逐步迭代,扩展到其他应用。此外,如果程序本身不涉及太多可读出的内容,也许不用TTS系统,简单的语音芯片就足够了。

另一种情况,如果程序不用识别整段对话,而只用识别其中某个关键字时,引入语音识别API或相关服务并不合适,而应该相应采用Keyword Spotting(关键字抓取)技术,两种算法也不一样。语音识别针对的是全部语段,远远多于关键字抓取的形式,后者只瞄准给定的关键字或词组,更加简单快捷。

结论

语音技术在应用中的发展潜能是无限的,行动不便的用户将成为首批获益对象。未来可穿戴设备的完善进一步促进语音对话在移动设备中的应用。虽然这一过程不能一蹴而就,但程序开发人员应当有先觉意识,往应用中加入语音选项以提高产品竞争力。

最后说个笑话。以前母亲看到我总是用电脑打字,就会抱怨“以后孩子只会打字,都不会写字了”。这下好了,有了语音技术,连打字都要成为历史了吧^ ^。

TAG:
© 2011 - 2024  钛锋网  TMTForum.com