浅析语音交互对于B端产品（app端）的赋能作用-蜗牛派

这半年主要忙着实习和毕业论文的相关事宜，到这月底终于算是完事了。后面即是专心将产品相关的能力提升，高质量的完成需求。这半年也做了几个项目，后续一一复盘总结。这次总结复盘的项目是制单时通过语音添加商品。算是供应链手机端场景的丰富。

做这个项目中接触到了语音交互相关的东西，所以探讨一下语音交互对于B端产品（app端）赋能的可能。

1、语音交互的流程

先说一下语音交互一个比较标准的流程是怎样的，大致可以分为5个步骤。

首先，第一步是触发，现在市面上的产品有两种方式，第一种是较为智能的语音触发，比如苹果的siri、小米的小爱同学、百度的小度、天猫的天猫精灵。总结来看，手机的语音助手以及智能家具都是通过语音的方式来触发。

第二步是输入，这一步是语音交互与其他交互最大的区别，是通过语音的方式将想要的信息的输入到系统中。

第三步是语音识别（ASR），即将输入的语音转换成正确的文字，现在国内主流的第三方平台，如科大讯飞、百度AI等，都号称准确率能够达到98%。但是我们根据项目上线的内测商家反馈来看，现在制约“语音添加商品”功能最制约的地方也在于这个节点。

第四步：语义识别。这一步分为两类，开放域是被与封闭域识别。开放域的识别即是人和机器正常平等的交流，但是现在的语音产品还无法做到完全的开放域识别，只能做到有限的开放域识别。封闭域识别，即通过定向的指令来让机器进行一些操作。我们这次做的语言添加商品就是通过词性的分析、分类等来识别用户发出的指令。

第五步：反馈。产品基于语义识别的情况进行相应的反馈。这一步与语义识别是产品设计的难点，要设定一系列的指令，根据不同指令情况，来决定反馈的情况，要注意不能让用户堵在某一步的流程上，同时不能识别的情况，要给予错误提示和解决方法的反馈

语音交互赋能的探讨

图1.1语音交互的流程

2、语音交互的优势

2.1 门槛和学习成本低，简化步骤，操作简单

我认为这一点是语音交互最大优势。语音是大部分人与生俱来的能力，基本上每个人都有，因此通过语音来发出指令，基本上所有人都能一学就会。比如我爸妈不怎么会用智能手机，经常通过语音消息来发微信消息。

同时通过语音的形式来输入指令，简化了许多繁琐的系统操作步骤，语音交互不一定让效率变的更高，特别是在如今语音技术还有许多缺陷的情况下。比如如果用户操作系统的熟悉度够高，可能会比语音方式速度更快。拿制单时的添加商品来说，在sku数量不多的情况下，如果用户能够很快的查找到，并且足够熟悉系统和手机操作，会比语音交互的方式时间更短，但是在这种场景下对用户的要求也更高。因此语音会让交互变得简单，用户能够更加省力，并且上手难度低。

语音交互赋能的探讨

图2.1手动添加商品和语音添加的对比

2.2 更少的感官占用，适用一些特定的场景下

将人从几项感官的束缚中解放出来，比如双眼、双手等。一个典型的例子是驾驶的时候无法使用双手，所以许多地图都配备了语音助手的功能。语音的输入能够解放双手、语音的输出能够解放双眼。

语音交互赋能的探讨

图2.2高德地图的语音助手

3、语音交互的缺陷

3.1 受环境吵杂、普通话的标准程度等因素影响

这一点缺陷集中在第三步——语音识别上，因为使用的是第三方的平台技术，受制约于现在语音识别的技术情况。这一点也是“语音添加商品”项目中商家反馈的主要问题，主要有两点。

主要暴露的问题的有两个：1、同音字现象，将用户说的词语转换另一个同音的词语，因此我们在匹配的时候没法准确找到用户需要的商品。

2、用户普通话不标准。由于一些用户说话存在一些口音，现在的第三方平台还不能很好的识别出正确文字。

3.2 语义识别不够智能

因为智能识别需要的投入的成本极高，因此我们现在能做到的是给用户一定的规则，让用户在规则的范围之内给出语音，然后通过词性分析、归来，以及词语顺序等方式来识别语句意思。

语音智能识别成本高，并且受制于语音识别，产出比较低。

我们原想设想让用户在添加商品的时候，通过短句的形式直接添加商品并且带有数量和价格。但是通过数据来看，用户在使用的时候90%以上都是说“商品名称”，数量和价格通过手动的方式来修改。因为限定比较多，很难让用户完全按照指定的规则去说。

3.3 场景有限制，一般在较为私密性的场景

因为语音的输入形式，并不局限于人与机器之间，还存在人与人之间，因此用户用语音时，通常会考虑到对其他人的影响。比如通常在公共场合的情况，很少会看到其他人会使用手机语音助手。以现在语音应用比较多的智能家具来说，智能家居属于家庭应用，这本身就属于私密性的场景。

4、现在较为常见的应用场景

4.1快捷入口（流量入口？）

对于信息架构较为的复杂的产品，在首页增加语音入口，通过语音的方式找到自己想要的功能或进入页面，价值同样在于简化了繁琐的操作和步骤，提高产品的易用性。

语音交互赋能的探讨

图3.1美团和支付宝首页的语音入口页面

4.2 语音助手

通过语音的形式辅助完成各项功能，价值在于双手不方便的场景下，而能够使用各项功能。比如高德地图的小德。

语音交互赋能的探讨

图3.2苹果的siri和高德小德

4.3 输入文字工具

通过语音的形式输入在通过文字的形式的输出，代替打字，来使输入变得简单，减少步骤。

语音交互赋能的探讨

图3.3微信和京东的搜索页面支持语音搜索

5、语音交互设计建议

5.1语义识别不够智能的情况下，尽量做好引导

因为识别不够智能，也就是在封闭域识别的情况下，我们希望用户按照我们的语义识别规则范围内发出指令，这时候就必须做好引导，让用户发出我们能够识别的语音指令。但是在指令较为复杂的情况下，用户通常很难按照设定的规则进行，并且受限于语音识别，句子越长，越难识别准确。

因此语音现在能够赋能地方在于，如原来需要通过手动点击4个步骤完成，而通过语音的方式只需要一个词语或者一个小短句即可。

语音交互赋能的探讨

图3.3语音交互的引导提示

5.2语音的输出信息量慢于视觉的输出，语音过程和结果的可视性

因为语音的方式，即声音通常情况下在相同时间内信息的输出量是小于视觉的。并且因为声音的不可视性，如果出现识别不了的情况，通常无法让用户明白问题在哪里。所以在设计的时候应该尽量保证语音交互的可视性，让用户明白和掌握自己的输出了什么。从现在应用的产品来看，通常都会有语音交互可视性。

6、总结

总的来看，语音交互的优点很明显，缺陷也很多。比较受制于语音相关技术的成熟度。能够赋能的地方在两个点。

1、操作是否复杂、上手难度是否比较高。能不能通过一个词语或短句即可完成。

2、双手或双眼被占用的情况下，想要使用某个功能，可以考虑用语音来输入或输出。

可以看出语音交互更多能为提高易用性服务，在特定场景下能够提升效率。

本文作者：产品汪的个人修养，其版权均为原作者所有，文章内容系作者个人观点，不代表蜗牛派对观点赞同或支持，未经许可，请勿转载，题图来自Unsplash，基于CC0协议。

1、语音交互的流程

2、语音交互的优势

2.1 门槛和学习成本低，简化步骤，操作简单

2.2 更少的感官占用，适用一些特定的场景下

3、语音交互的缺陷

3.1 受环境吵杂、普通话的标准程度等因素影响

3.2 语义识别不够智能

3.3 场景有限制，一般在较为私密性的场景

4、现在较为常见的应用场景

4.1快捷入口（流量入口？）

4.2 语音助手

4.3 输入文字工具

5、语音交互设计建议

5.1语义识别不够智能的情况下，尽量做好引导

5.2语音的输出信息量慢于视觉的输出，语音过程和结果的可视性

6、总结

相关推荐