在多方合作的项目中,我们需要规划项目的合理落地方案,并在执行过程中和各方有效沟通。结合近期羚珑商家合作测试项目的实践经历,聊聊我在项目中的心得体会。

项目背景:
我们想了解京东首焦banner中,设计因素对点击效果的影响情况。做这件事最大的限制在于投放数据会受多种因素影响,不仅是一个设计因素的选择,还有比如人群、出价、品牌、类目等因素的不同,都能影响到最终的投放结果。因此,从总体样本中取样进行分析的意义不大。为了解决上述问题,我们招募了一些能控制其他因素的品牌广告主,与有能力支持投放的测试投放系统合作,共同完成A/B测试。
不难发现这个需求会涉及到多个项目角色,意味着将有复杂的推进流程,需要提前拆解与规划,才能保证项目进度可控。

测试项目流程与分工
我们可以分三步来进行:
(1)找到项目关键步骤
关键步骤是将一个项目的推进拆解成多个阶段,找到关键步骤,也就知道了每个阶段的主要任务,可以进一步分工来推进项目。
如何找到关键步骤?我们可以从项目目标中提取。测试项目的目标是找到设计因素与投放点击效果的影响关系。这个目标里提取重要的关键词为:设计因素、投放点击效果、影响关系。面对这些关键词我们会有疑问产生如「测试设计因素是什么?有哪些?」、「如何投放」、「如何判断影响关系」,再进行串联梳理,得到完整步骤流程。
(2)明确角色任务与产出
每个阶段的主要任务,可以拆解分工给项目角色,项目角色也就有了各自的任务,角色产出物则是任务执行的结果,将直接推动项目进入下一环节。所以为了顺利推进项目,我们需要根据项目实际情况评估角色任务分工是否合理,产出是否满足项目要求。
比如在「设计测试图片」这个步骤中,有两个分工方案,让广告主或我们自己设计图片。我们从项目时长、沟通成本、潜在风险等维度进行评估,判断广告主把控变量不严谨会导致测试数据无效,且外部合作沟通成本较高时间不够,所以最后将设计图片的任务分给了内部。
(3)预判项目风险
对流程规划得越详细,在后续合作过程中越容易把控项目的节奏,项目风险越低。
再如「设计测试图片」这个关键步骤,详细展开执行流程会发现涉及到交互设计师、两方视觉设计师、广告主四个角色。对于项目执行角色,产出物的质量及按时交付尤为重要,所以重点把控输出准确性与完成时间。对于项目决策角色,也就是决策最终投放哪些图片的广告主,沟通配合尤为重要。所以基于规避风险也对项目流程进行了优化,前置在项目之初,要求广告主提前准备交付内容,规定交付时间及格式,以及充分沟通说明图片设计产出之后不能进行较大改动。
(1)保证数据有效
测试结论来源于测试数据,我们首先应该保证回收数据的有效性。测试项目的关键指标是点击率,即点击量与曝光量的比值。当图片本身曝光量低时,我们认为随着曝光量增加,点击率比值波动范围仍然较大,数据还未稳定在某个区间段,会影响结论准确性,判定为无效数据。发现类似这种问题,我们会和广告主商量继续投放,延长测试时间来增加曝光。
(2)充分测试
要想得到可靠普适的结论,需要对比多组样本的测试结果。对于某个设计因素,我们先进行了单一广告主的投放数据对比,可以找到投放效果最优和最差的设计水平。然后又将多个广告主的结果进行对比,会发现存在不一致的情况,验证了单组样本结论不能作为类目结论输出。如果多个广告主结果一致,或呈现某一趋势,则结论在该类目可以认为较为普适。
(3)差异分析
对于多组样本结果不一致的情况,可以从组间因素差异着手分析。

背景设计因素测试结果
上图是两个广告主分别测试背景设计因素得到的结果。第一组的投放结果为实景设计效果更好,第二组则为普通平面设计效果更好。产生这样差异的原因是什么呢?我们先找出组间可能导致这一结果的因素,分别是颜色和产品。从颜色上看,是否平面+黑色效果更好呢?我们看了其他广告主结果,否定了这一猜想。再从产品图来看,两个产品的识别度是不同的,我们将其他广告主该因素测试图按产品是否容易识别分组,最终得出两组不同的结论:当产品图易识别时,背景设计对效果影响不大;当产品图不易识别时,实景图效果更好。这也就解释了上图结果不一致的原因。
回顾整个项目,我个人认为项目中最重要的工作是沟通。下面我来分别谈谈内外部沟通的经验。
与外部团队、广告主合作推进项目,需要及时有效的沟通,什么是有效的沟通呢?
(1)围绕对方利益谈配合
广告主只看转化结果,我们如果只谈设计不谈转化,广告主是不会想要出钱参与项目的,那么项目也将停滞不前。所以在合作前,我们做了项目及团队包装,用真实的案例让广告主快速理解参与项目所能带来的价值,并用团队以往的作品、能力展示让广告主了解与我们合作的优势。广告主越认同项目价值及我们的专业度,配合度就会越高。

招募PPT中的真实案例介绍
(2)围绕对方目标来“推销”方案
在推进项目这一点上,找到目标一致的点更容易促成各方意见达成一致。
我们合作的广告主很多会选择外包banner设计,所以广告主们习惯了做传说中的“甲方爸爸”,难免会对视觉设计方案有各种主观意见。比如,某电视广告主不喜欢红色图片设计,想要蓝色。对于这样的分歧,我个人喜欢用引导式的沟通方法。首先,不要急于表达自己或否定对方的意见,可以以疑问句式来猜测对方的目的。“喜欢蓝色是希望用沉稳的颜色来表现产品的高级感吗?”,如果猜测正确,对方会因自己的需求被理解而更容易沟通,这时再继续阐述用红色如何表达高级感;如果猜测不正确,对方会顺势说出原因,我们再围绕对方的目标进一步沟通。如果对方毫无理由“不喜欢这个设计”,而设计师并不觉得有设计问题,那么我们需要停止专业角度的沟通,从设计是否满足当前阶段项目需求的角度来沟通,方案则更容易被接受。
内部合作分交互、视觉、用研三种不同的岗位角色,在项目中都发挥着自己重要的作用。
交互擅长统筹与拆解问题,团队的内部沟通能产生多种解题思路,对项目的推进至关重要;在遇到如需要统计学分析、样本设置等专业问题时,用研可以提供更专业的分析方法与帮助,为我们实现科学分析提供有力支持;视觉设计师对banner设计有丰富的经验,可以在各个环节中发挥优势。从项目之初就参与设计因素拆解、测试方案设置,可以补充视觉相关的设计因素,在优化测试方案、风险预期方面都可以提供重要的建议。在结论推导中,对图中的因素差异敏感度高,可以根据数据提出关键猜想。
除专业领域的配合外,不少同学有其个人特长,常常在不经意间闪闪发光,也是项目中有待发现和挖掘的宝藏。
以上是我关于初次完成此类合作测试项目的思考,欢迎大家一起交流。
免责声明:本文版权归原作者所有,文章系作者个人观点不代表蜗牛派立场,如若转载请联系原作者;本站仅提供信息存储空间服务,内容仅为传递更多信息之目的,如涉及作品内容、版权等其它问题都请联系kefu@woniupai.net反馈!
]]>电商首页作为转化漏斗中的最顶层,是优化的重中之重,本文简要介绍了电商首页几个最基本的试验点,您可以通过使用ab测试试验的方式(当然更欢迎您使用吆喝科技的ab测试试验平台)帮助您去快速开展优化,另外,我们不仅提供了一些场景和针对它们进行优化的方案,而且提供了一些指标帮助我们如何去衡量这些方案。

最最容易的ab试验机会是您可以通过测试在提示框中的提示文本了(为您在您想要测试的页面上使用吆喝科技的可视化功能),目前还有部分的电商网页搜索栏中没有提示文本或只有简单的提示像这样:

需要试验的地方:


需要关注的指标:

可选方案:
▲指定产品或热门产品
▲启发类型

▲专注于功能(户外网站提示装备和衣服)
小提示:如果您的搜索页提示不够强,或者您觉得和自己的业务不够相关,那么修改试验一下吧,也许你能指引用户朝着你的业务目标前进!
几乎所有的banner 和轮播图都会占据着电商主页的第一屏幕的核心部位,它们通常是这样:和屏幕一样宽,快速的移动,经常难以定位到想要的那个商品,并且你很难看N张图片CTA按钮在同一个位置。
常见的轮播图:

需要试验的地方:
需要关注的指标:
可选方案:

▲这个案例中,用户在左右两侧有可能更容易识别到翻页按钮,定位到的商品
▲这个案例中,使用缩略图代替了轮播图中常用的分页提示,用户有可能一眼找到自己感兴趣的内容

▲这个案例中,不被惯性驱使,跳出来思考一下,使用表格有递进展示首页信息,最新内容一目了然,而无需用户手动完成轮播切换获取。
很多电商首页有在轮播图下放置抢购或特价商品,但是大部分这些商品都没有机会被用户触达,相比点击他们,大部分用户会去选择点击顶部主导航栏。
常见的导航和首屏:

而在首页的下方紧接着就是爆款或当季热销:

▲爆款或当季热销的商品由于无法展现在首屏,失去了曝光转化的机会。(根据google 的研究,首屏大概有73%的曝光率)
需要试验的地方:
需要关注的指标:
可选方案:

▲上面案例采用了降低首页轮播图的高度,使热销商品有了在首屏(Above the fold)展示的入口。进而有可能提高转化。
首页中轮播图和顶部广告banner 大部分时候用户是不会注意到和点击的。
首页的广告通常如下:

而用户在使用分类导航却目标十分明确,但是却是一片空白如下:

需要试验的地方:
需要关注的指标:
可行方案:

▲在食品分类中浏览的人群,更有可能容易喜欢酒类的广告,进而有可能提高转化。
免责声明:本文版权归原作者所有,文章系作者个人观点不代表蜗牛派立场,如若转载请联系原作者;本站仅提供信息存储空间服务,内容仅为传递更多信息之目的,如涉及作品内容、版权等其它问题都请联系kefu@woniupai.net反馈!
]]>上一篇文章“「深度」A/B测试中的因果推断——潜在结果模型”中我们介绍了用于A/B测试因果推断的潜在结果模型,现在我们来看看在统计推断中如何应用这个模型,对试验的因果效果进行估计。本文作者详细的介绍了在统计推断中对A/B模型的应用。

前面我们说过,对于因果效果的估计,我们需要比较多个个体的实际观测到的潜在结果,其中一部分个体和另外一部分分别接受不同的处理,观测到不同的潜在结果。
假如我们有两个用户参与这个雾霾小试验:小强和小明,观测到如下的结果。

表面上来看,小强不戴口罩咳嗽 100 分钟,小明戴口罩也是咳嗽 100 分钟,我们也许就简单地得出一个结论:雾霾时戴口罩没有用,咳嗽不会少。
但是真实情况可能是:小强对雾霾的抵抗力比小明好很多,所以他不戴口罩咳嗽 100 分钟,戴口罩只咳嗽 10 分钟;而身体较弱的小明不戴口罩会咳嗽 200 分钟,戴口罩咳嗽 100 分钟。
那么真实的因果效果应该是戴口罩少咳嗽 100 分钟左右,我们从数据表面得出的戴口罩无用的结论是错误的。
上面给出的是一个只有两个个体的简单例子,如果参与试验的个体很多,同样可能出现这样的状况。
显然,个体之间是存在差异的,如果我们把抵抗力强的分派在一组,把抵抗力差的分派到另外一组,然后进行对比,结果就会和真实情况偏差很大,从而得出错误的结论。
问题的关键在于参与试验的用户进行分组的方法,也就是哪些用户观测到戴口罩的潜在结果,哪些用户观测到不戴口罩的潜在结果,这是对试验比较的结果影响很大的重要因素。
我们把这个分组的过程称为用户分流/分派机制 (assignment mechanism)。
也就是说,多个个体参与试验并不足以保证我们进行有效的因果推断,我们必须掌握个体的分流机制这个关键信息或者对其进行有计划的控制。
分流机制和因果效果的定义没有关系,但是它是潜在结果模型应用过程中的关键一步,是决定效果估计准确性的重要因素。
我们通常需要在试验设计中选择一个好的分流方案,以使得因果效果的估计接近于它的定义,并且尽可能提升试验的统计功效。
因果效果是通过潜在结果(只能观测到其中一个)的比较来定义的,和实际接受到的处理无关。
但是,因为我们只能观测到一半的潜在结果,无法得知个体的因果效果,在评估因果效果时就存在一个因果推断的困难:数据缺失问题,个体没有接受到的处理所对应的潜在结果的数据是缺失的。
因此,解决问题的关键就是缺失数据的处理机制,在因果推断中就是分流机制。
哪些个体应该接受哪些处理,或者说哪些潜在结果应该被观测到?分流机制的这些分派决定是非常关键的。
我们再看看有 4 个用户参与雾霾小试验的例子,这次试验增加了用户小芳和小刚,小芳和小强在一组,不戴口罩;小刚和小明在一组,戴口罩。
观测到数据如下:

这次从数据上看:不戴口罩咳嗽 150 分钟(平均)、戴口罩咳嗽 55 分钟(平均)、结论是戴口罩可以减少咳嗽时间 95 分钟(平均)。
和真实的个体因果效果对比我们可以看出,这个估计结果是很准确的。
这次试验为什么可以推断出正确的结论呢?
因为我们增加了试验用户小芳和小刚,而小芳的雾霾抵抗力和小明接近(相同),小刚的抵抗力和小强接近(相同);
从而解决了数据缺失的问题:你可以把小芳的结果看作是小明没有观测到的不戴口罩情况下的潜在结果,把小刚的结果看作是小强没有观测到的戴口罩情况下的潜在结果。
这里分流的关键在于把用户属性(抵抗力)差不多的小强 vs 小刚,以及小明 vs 小芳,分派到两个不同的组,接受不同的处理。
如果反过来,把属性差不多的用户都放在同一个组,那么数据缺失问题还是没有得到解决,试验结论和上面两个用户情况下的试验一样依然是错的。
从这两个例子我们可以看出:我们不能脱离个体的分流机制而仅仅由个体观测到的潜在结果来进行因果推断。
有效的推断要求我们必须考虑这个问题:为什么这些用户接受这个处理,另外的用户接受另一个处理?
采用随机化分流方式的试验设计就是随机化试验 (Randomized Experiments),它是我们在 A/B 测试中进行统计推断的基础。传统的随机化试验主要有三种类型:
最简单的 Bernoulli 试验以类似于抛硬币的方式来决定每一个个体的分派;
完全随机化试验中每个 treatment 分派到的个体数量是固定的,但个体的分派是随机的;分层随机化则是在完全随机化的基础上,先通过协变量对总体进行分层,然后在层内随机化分派。
不同的随机化试验类型(随机化分流方式)导致不同的分派概率分布。
以完全随机化试验为例,其个体概率如下:

根据这个概率分布,我们就可以对总体的平均因果效果进行统计推断和估计了。
让我们先从数学上正式地定义平均因果效果(Average Causal Effect),它是我们试验和分析的最终目标。
首先把总体中所有的个体编号为 i = 1, …, N,N 是总体的容量。
每个个体可接受一组处理中的一个,我们用 Ti 来表示个体 i 可接受的处理的集合。
大多数情况下,这个集合对所有个体都是相同的。
在我们的小试验中,Ti 包括两个处理水平:0 表示不戴口罩(control 组),1 表示戴口罩(treatment 组)。
![]()
每个个体可接受的处理水平都有一个对应的潜在效果,Yi(0)和 Yi(1)、Yi(1)和 Yi(0) 的比较(通常是差值),就是个体 i 的因果效果了。
![]()
个体的因果效果我们是无法直接得知的,也不是我们的关注重点。
我们通常关心的是总体中所有个体的因果效果的平均值,即平均因果效果。

其中

分别是所有个体不戴口罩(0)的平均潜在结果,和所有个体戴口罩(1)的平均潜在结果。
ACE 就是我们试验分析的目标,它等于“戴口罩(1)的平均潜在结果 ——不戴口罩(0)的平均潜在结果”。
我们前面已经说过,每个个体的两个潜在结果只能观测到其中一个,另外一个是不知道的,所以Yi(0)和Yi(1) 里面有一半是没有观测值的,我们不能由 ACE 的定义公式直接计算出它的值。
对 ACE 的一个很自然的估计量就是“treatment 组观测到的平均潜在结果—control 组观测到的平均潜在结果”
![]()
假设参与试验的 N 个用户中有 Nt 个分派到 treatment 组,Nc 个在 control 组,那么 treatment 组和 control 组的平均潜在结果分别是


我们需要评估一下这个估计量的准确性,最基本的衡量标准就是它是否 ACE 的无偏估计,即该估计量的期望是否等于 ACE。
令指示变量 Wi 表示个体 i 被分派的处理(取值 0 或 1),估计量可改写为:

其期望值:

如果分派机制 W 是完全随机化分派,那么随机变量 Wi 的期望:
![]()
因此可得:

可知,在完全随机化试验中,我们根据直观得到的简单估计量是 ACE 的无偏估计,是基本可用的。
从上面的推断过程可以看出,个体的完全随机化分派机制在其中扮演了非常重要的角色,正是由于随机变量 Wi 的概率分布的特点,使得 ACE 的这个简单估计量是无偏估计。
现在我们来看看这个 ACE 估计量的精确性,也就是其抽样方差。
根据随机变量 Wi 的概率分布的特点,通过类似的方法,可得到 ACE 估计量的方差为:

其中

分别是潜在结果 Yi(0)和 Yi(1)的样本方差,而

则是个体因果效果 Yi(1) – Yi(0) 的样本方差。
如果总体中的个体因果效果为常量(例如,戴口罩的效果对所有人都是少咳嗽 100 分钟),那么该项为 0,我们得到:

以观测到的组内样本方差近似代替总体的样本方差可得到一个方差估计量:

结合平均因果效果的估计量和抽样方差估计量可得到假设检验统计量为:

是不是看起来很眼熟?嗯,其实就是我们常用的独立双样本情况下的 z 检验量的计算公式:

大家现在是不是对隐藏在这个公式里的因果效果有所理解了?!
免责声明:本文版权归原作者所有,文章系作者个人观点不代表蜗牛派立场,如若转载请联系原作者;本站仅提供信息存储空间服务,内容仅为传递更多信息之目的,如涉及作品内容、版权等其它问题都请联系kefu@woniupai.net反馈!
]]>