这半年主要忙着实习和毕业论文的相关事宜,到这月底终于算是完事了。后面即是专心将产品相关的能力提升,高质量的完成需求。这半年也做了几个项目,后续一一复盘总结。这次总结复盘的项目是制单时通过语音添加商品。算是供应链手机端场景的丰富。
做这个项目中接触到了语音交互相关的东西,所以探讨一下语音交互对于B端产品(app端)赋能的可能。
1、语音交互的流程
先说一下语音交互一个比较标准的流程是怎样的,大致可以分为5个步骤。
首先,第一步是触发,现在市面上的产品有两种方式,第一种是较为智能的语音触发,比如苹果的siri、小米的小爱同学、百度的小度、天猫的天猫精灵。总结来看,手机的语音助手以及智能家具都是通过语音的方式来触发。
第二步是输入,这一步是语音交互与其他交互最大的区别,是通过语音的方式将想要的信息的输入到系统中。
第三步是语音识别(ASR),即将输入的语音转换成正确的文字,现在国内主流的第三方平台,如科大讯飞、百度AI等,都号称准确率能够达到98%。但是我们根据项目上线的内测商家反馈来看,现在制约“语音添加商品”功能最制约的地方也在于这个节点。
第四步:语义识别。这一步分为两类,开放域是被与封闭域识别。开放域的识别即是人和机器正常平等的交流,但是现在的语音产品还无法做到完全的开放域识别,只能做到有限的开放域识别。封闭域识别,即通过定向的指令来让机器进行一些操作。我们这次做的语言添加商品就是通过词性的分析、分类等来识别用户发出的指令。
第五步:反馈。产品基于语义识别的情况进行相应的反馈。这一步与语义识别是产品设计的难点,要设定一系列的指令,根据不同指令情况,来决定反馈的情况,要注意不能让用户堵在某一步的流程上,同时不能识别的情况,要给予错误提示和解决方法的反馈
图1.1语音交互的流程
2、语音交互的优势
2.1 门槛和学习成本低,简化步骤,操作简单
我认为这一点是语音交互最大优势。语音是大部分人与生俱来的能力,基本上每个人都有,因此通过语音来发出指令,基本上所有人都能一学就会。比如我爸妈不怎么会用智能手机,经常通过语音消息来发微信消息。
同时通过语音的形式来输入指令,简化了许多繁琐的系统操作步骤,语音交互不一定让效率变的更高,特别是在如今语音技术还有许多缺陷的情况下。比如如果用户操作系统的熟悉度够高,可能会比语音方式速度更快。拿制单时的添加商品来说,在sku数量不多的情况下,如果用户能够很快的查找到,并且足够熟悉系统和手机操作,会比语音交互的方式时间更短,但是在这种场景下对用户的要求也更高。因此语音会让交互变得简单,用户能够更加省力,并且上手难度低。
图2.1手动添加商品和语音添加的对比
2.2 更少的感官占用,适用一些特定的场景下
将人从几项感官的束缚中解放出来,比如双眼、双手等。一个典型的例子是驾驶的时候无法使用双手,所以许多地图都配备了语音助手的功能。语音的输入能够解放双手、语音的输出能够解放双眼。
图2.2高德地图的语音助手
3、语音交互的缺陷
3.1 受环境吵杂、普通话的标准程度等因素影响
这一点缺陷集中在第三步——语音识别上,因为使用的是第三方的平台技术,受制约于现在语音识别的技术情况。这一点也是“语音添加商品”项目中商家反馈的主要问题,主要有两点。
主要暴露的问题的有两个:1、同音字现象,将用户说的词语转换另一个同音的词语,因此我们在匹配的时候没法准确找到用户需要的商品。
2、用户普通话不标准。由于一些用户说话存在一些口音,现在的第三方平台还不能很好的识别出正确文字。
3.2 语义识别不够智能
因为智能识别需要的投入的成本极高,因此我们现在能做到的是给用户一定的规则,让用户在规则的范围之内给出语音,然后通过词性分析、归来,以及词语顺序等方式来识别语句意思。
语音智能识别成本高,并且受制于语音识别,产出比较低。
我们原想设想让用户在添加商品的时候,通过短句的形式直接添加商品并且带有数量和价格。但是通过数据来看,用户在使用的时候90%以上都是说“商品名称”,数量和价格通过手动的方式来修改。因为限定比较多,很难让用户完全按照指定的规则去说。
3.3 场景有限制,一般在较为私密性的场景
因为语音的输入形式,并不局限于人与机器之间,还存在人与人之间,因此用户用语音时,通常会考虑到对其他人的影响。比如通常在公共场合的情况,很少会看到其他人会使用手机语音助手。以现在语音应用比较多的智能家具来说,智能家居属于家庭应用,这本身就属于私密性的场景。
4、现在较为常见的应用场景
4.1快捷入口(流量入口?)
对于信息架构较为的复杂的产品,在首页增加语音入口,通过语音的方式找到自己想要的功能或进入页面,价值同样在于简化了繁琐的操作和步骤,提高产品的易用性。
图3.1美团和支付宝首页的语音入口页面
4.2 语音助手
通过语音的形式辅助完成各项功能,价值在于双手不方便的场景下,而能够使用各项功能。比如高德地图的小德。
图3.2苹果的siri和高德小德
4.3 输入文字工具
通过语音的形式输入在通过文字的形式的输出,代替打字,来使输入变得简单,减少步骤。
图3.3微信和京东的搜索页面支持语音搜索
5、语音交互设计建议
5.1语义识别不够智能的情况下,尽量做好引导
因为识别不够智能,也就是在封闭域识别的情况下,我们希望用户按照我们的语义识别规则范围内发出指令,这时候就必须做好引导,让用户发出我们能够识别的语音指令。但是在指令较为复杂的情况下,用户通常很难按照设定的规则进行,并且受限于语音识别,句子越长,越难识别准确。
因此语音现在能够赋能地方在于,如原来需要通过手动点击4个步骤完成,而通过语音的方式只需要一个词语或者一个小短句即可。
图3.3语音交互的引导提示
5.2语音的输出信息量慢于视觉的输出,语音过程和结果的可视性
因为语音的方式,即声音通常情况下在相同时间内信息的输出量是小于视觉的。并且因为声音的不可视性,如果出现识别不了的情况,通常无法让用户明白问题在哪里。所以在设计的时候应该尽量保证语音交互的可视性,让用户明白和掌握自己的输出了什么。从现在应用的产品来看,通常都会有语音交互可视性。
6、总结
总的来看,语音交互的优点很明显,缺陷也很多。比较受制于语音相关技术的成熟度。能够赋能的地方在两个点。
1、操作是否复杂、上手难度是否比较高。能不能通过一个词语或短句即可完成。
2、双手或双眼被占用的情况下,想要使用某个功能,可以考虑用语音来输入或输出。
可以看出语音交互更多能为提高易用性服务,在特定场景下能够提升效率。
