数据产品经理 – 蜗牛派

从数据分析师、策略产品经理、再到数据产品经理的工作历程总结

蜗牛派 — Sun, 26 Jul 2020 09:42:24 +0000

工作前每个人对岗位都有自己心中的理解，工作后可能觉得事实不是想象的那样，但岗位是死的，人是活的；不管什么岗位，又一定的能力就能获得最好的结果。本文记录了我在数据岗位上走过的路，从数据分析师、到策略产品经理、再到数据产品经理，以及途中的憧憬、现实、困境与思考。

一、数据分析师的野望

1. 憧憬

“让数据说话”、“用数据讲故事”是很多初出茅庐数据分析师的美好愿景，我也不例外。

凭借一年数据分析实习生的经历，双非院校数学专业的我，成功混入微博；那年微信初露锋芒，而腾讯微博早已落败，微博的同事里还不乏清北的学霸；那年，我还不会SQL。

2. 现实

入职之后据我观察，数据分析师们的日常工作大致入下图分布：

日常监控——公司重要业务和产品的表现好不好？如果出现了异常的波动，快速解释下是为什么？
效果评估——产品新上线了一个功能策略，运营新上线了一个活动，需要量化的评估下到底效果好不好？
业务决策——各个业务线的KPI该怎么定？在整个大环境下是该往A方向走还是该往B方向去？
专题研究——不同年龄段的用户都是怎么使用和看待产品的？哪些因素是用户留存的关键？
老板需求——（最紧急最重要的工作事项）解决各路老板的各种临时性看数据需求，比如上午产品总监说为什么这个功能这么少人用？、比如下午技术大佬说我这个新策略不可能才这么点儿提升你们是不是算错了？（就想算出个开心的数呗）、比如晚上快下班了CEO想起来体验下产品发现有个数据（比如他自己昨天发的某条微博的阅读量）跟他的直觉不符（wtf？）。

3. 困境

1）“老板，我想做PPT”：记得离职面谈的时候我主动提到，感觉最近一年的时间，我的产出主要都是Excel和邮件里直接回复一些数据结果，都很少有PPT。这个现象在我理解，就是产出不成型、不系统、拿不出手。

2）SQLboy和查数姑：记得有次加班到深夜，几个同事之间相互调侃，我们部门虽然叫数据管理部，但好像做的事情更多都是算数啊，改名叫算数中心好了。是的，我们60%+的时间和精力都耗费在各种常规的or临时的算数上面了，我们是数据时代的流水线工人

3）尴尬的组织架构：随着越来越多的公司认识到数据的重要性，有一种倾向就是会在所有业务线之下单独成立一个数据分析部门，这样做可以在某种程度上避免业务部门既当运动员又当裁判员的情况，也就是自卖自夸伪造效果。但问题也随之而来，既然不是自家人，那么肥水就不想流入外人田，高价值的工作内容（如决策建议）自然就不是很想让独立的数据分析部门染指；在这种情况下，数据分析师们更多的精力只能发泄在日常数据监控、效果评估和自娱自乐的研究性分析上。另外一种倾向，就是把分析师们打散安置在各个业务部门中，不过打听了下，他们的苦恼就是过于贴身、聚焦，导致视野被限制在一个狭小的范围内。但我总觉得，初级阶段的分析师们，还是在业务中会更好些。

4. 破局

1）用机器解放人力：人是肉做的，终究做不了没得感情的算数机器，机器的事儿，还是应该让机器来。数据分析师跟数据产品经理，应该是一对好基友，后者将业务理解与分析思路固化到产品上，争取一劳永逸的解决80%的常规算数需求，让分析师们有更多精力去做些高自我价值实现的研究和分析

2）用系统思考提前应对老板们的脑洞：一线的从业者们作为某种程度上的体力劳动者，相对老板有天然的劣势：从大量日常琐碎体力劳动中解放出来的老板们，有更多的时间、更多的信息去思考。上帝一思考，人类就发慌。老板们的每一个散点式发问，对毫无思考储备的我们来说，都是一次降维打击。如果日常机器能帮我们释放一部分劳动力，我们就有更多时间去尝试思考下老板视角的问题，用一个相对完整的体系去应对老板的散点问题，避免被动挨打、牵着鼻子跑

3）用敏锐的目光避开外行老板：所有老板都有脑洞，但滋养脑洞的基础大相径庭。我们不应该苛求每个老板都是数据出身，但至少可以选择那些愿意尊重客观规律、或者秉承“让专业的人做专业的事”原则的老板。比什么都不懂更可怕的，是以为自己懂；比以为自己懂还要可怕的，是以为自己比专业人士更懂

4）用产品思维让自己破圈：尤其在做过产品经理后感触最深，分析师的产出是否有价值、能否落地，最关键的就是会不会提问题，毕竟怎么分析问题是跟在提出问题之后的；能否提一个好问题，一方面是考验对业务是否熟悉，一方面就是考验能否跳出自身的思维模式。搞技术的人，或多或少都容易把自己的逻辑搞成自闭环，只在同业的小群体内能互相理解，跳出群体就会有鸡同鸭讲的感觉，这种就是小逻辑，而我理解的大逻辑，不仅仅是缜密完备的，也应该是朴素易懂的。能让大部分人都理解你的逻辑，才能让逻辑发挥作用，否则就是自我陶醉；能否站在对方的角度思考问题，就是从小逻辑到大逻辑的关键。

二、策略产品经理的专注

1. 憧憬

“策略”这个词很性感，很飘逸，也很难被界定。

市面上有各式各样的策略产品经理，从岗位招聘要求上看，会给人一种大学里做数据建模的感觉，很亲切。

2. 现实

策略产品经理的主要任务，就是做策略。

虽然策略本身不好定义，但可以跟算法做个对比，在对比中稍微澄清一下。

打个比方：算法好比种菜的，策略好比炒菜的，炒菜的不用知道这个西红柿是怎么种出来的，那个鸡蛋是怎么生出来的，但需要知道西红柿和鸡蛋各自的特点，再根据特点设计菜的炒法；所以策略可以理解为对算法的应用，既然是应用，就要结合应用场景做个性化适配。

又比如：KFC在中国推出了豆浆油条一样，背后还是那套标准的餐饮供应管理体系，但在中国就有本土化；有时候，策略也可以是跳脱具体算法之外，因地制宜的设计一个计算逻辑，解决眼下应用场景的具像化问题。

在这个阶段，我主要做的是品牌广告方向的策略；背景很简单，每个投放品牌广告的客户，都是很有钱的爸爸，因为穷爸爸们只会锱铢必较的投效果广告——没人点击我就不掏钱。

但品牌广告爸爸们不一样，作为大牌，每年都有一定的预算用在培养消费者心智（洗脑），具体形式就是投放一些让你看了觉得很有意思、并能增加品牌正面认知的广告，不强求消费者看了就掏钱买的那种。

这类广告很难衡量效果，但爸爸们也不傻，想让我花钱，你至少要说清楚：

这次广告要投放给谁看？——找到合适的人
这次广告要在什么渠道来呈现？——在恰当的时机
这次广告主要突出的内容是什么？——说正确的话

为了回答这3个问题，过去传统的4A广告公司，就像影视作品里演的那样（比如《广告狂人》），通宵彻夜的脑暴、喝酒、抽烟、沉思，只为了灵光乍现的一刻；但现在4A公司和互联网广告巨头们，会强调用数据来驱动投放前的上述决策。

以百度为例：它知道很多人在想要购买一个商品之前的心路历程——搜索内容——把这些数据加以利用，就能避免纯创意层面上的撕扯（一千个人心中有一千个哈姆雷特，很难说我的创意就是绝对的好）。策略在这里的核心作用，就是利用数据设计出一个系统性的计算方法，解答上述3个问题。

上图就是一个相对完整的解答流程，篇幅限制，今天只举例其中一个小环节：在消费者眼中，谁是我们的竞品？（上图中竞品分析模块）

上面这个散点图，是竞品分析的传统做法。

以汽车行业举例，右上角的那个奇骏就是广告主爸爸的儿子——本品，剩下的那些都是竞品，哪个离奇骏最近，哪个就是本品的最大竞品。

传统做法从相似度和争夺率这2个维度来拆解“竞争”这个概念，试图量化点与点之间的距离。

但有问题，因为相似度和争夺率是这么计算的：

相似度：在一段时间内，既搜过本品也搜过竞品的用户，在搜过本品或搜过竞品的总用户中的比例（本品与竞品的交集/本品与竞品的并集）。
争夺率：在一段时间内，搜索过本品的用户中，有多少人还搜索过某个竞品（本品与竞品的交集/本品）。

问题1：如果我事先不输入任何竞品，这个方法就行不通（相似度和争夺率的核心都是算交集，可你不告诉我跟谁交，我怎么算？）。相当于它无法突破已知的经验范畴，而我们往往就是需要数据告知一些经验以外的东西。

问题2：这个方法中，只应用了“重合”这一个特征；然而用户的搜索行为是一个连续的序列，是有前后顺序（先搜A再搜B和先搜B再搜A，不一样）、有次数多寡（搜了10次A和只搜了1次A，不一样）、有距离远近的（刚搜完A就搜B，和搜完A之后又搜了CDE之再搜B，不一样），这些信息在传统方法中，都没有体现出来。

问题3：传统方法下，谁是竞品需要看图说话；那么问题来了，就拿图里的逍客和途观来说，看上去跟奇骏都比较近，到底哪个才是最强劲的竞争对手？

下图就是对传统方法的升级尝试，而且考虑需要向广告主介绍本次投放决策的理论依据，过程中的策略也需要很高的可解释性：

以奇骏为本品，对新策略做一个形象化解释：当我搜索过包含奇骏的某个关键词之后，如果我紧接着就搜索了逍客（特征=前后顺序+间隔位置），而且还搜索了很多次（特征=搜索次数），那么逍客与奇骏的竞争强度就会大大的增加。

怎么样，是不是很符合直观的认知？

这个策略不是一个离线的、一次性的计算，它后续落地到一个自动化的产品上。

它的优化空间还很大，比如拿用户的具体搜索内容来看，“逍客省油么？” VS “逍客4s店在哪儿？”，肯定是后者体现的购买意愿更强，竞争强度也就更强。

3. 困境

很开心在工作的第2～3年做这个岗位，它跟业务不远，对数据的应用又比较专注。

但策略的落地要么是在某个产品上，要么是依托于某个运营活动，我既不是做产品的、也不是做运营的，很难决定这个策略最终落地的形态和效果。

说到底，策略是一个承上启下的环节，往好了说是枢纽，往坏了说就是上不达天堂、下不接地气，接地气的事情我感觉我做过了，我想上天堂。

4. 破局

选择做一个产品经理，尤其是数据方向的产品经理，可以从最终端的场景反向贯穿整个流程，未尝不是一个破局的办法；

又或者，可以横向去尝试别的策略方向，比如推荐策略、反作弊策略，这些场景的需求量更大，有更多前辈经验的积累，不至于出现孤军奋战的感觉。

三、数据产品经理的开悟

1. 憧憬

最开始对数据产品经理的期待很朴素——产品经理是不是就可以指使别人干活，自己动动嘴皮子动动脑子就好了？

这样就能有大把的时间花在思考上面，而不是琐碎的体力劳动上了，而且还能自己的产品自己做主，从业务端需求的收集、到产品功能的设计、到功能中策略的填充、到最终上线后的运营和效果反馈，想想就很激动！此处，需要给曾经的自己一个“呵呵”。

2. 现实

后来我做过两类数据产品：

一类是延续了在百度的广告方向，继续做品牌广告的投放前决策平台；
另一类是做数据运营平台，某种程度上，就是BI报表的升级。

我也从一个被安排的明明白白、只需要专心捣鼓策略的学生型员工，变成一个家长式的、需要安排好大家的工作、时间被会议切割到支离破碎的社会型员工了。

同时，我的产品也并不能完全由我做主，方向上的事情会有各路老板的意志干预，也会有各路利益方入局博弈，很多时候我能做的，也往往是在妥协中尽量保持初心罢了。

但这个岗位给我最大的收获，就是逼迫我去直面问题的本质——到底哪些人需要这个产品？他们需要用它解决什么问题？我设计的东西到底有没有解决这些问题？

之前不论是做数据分析，还是策略产品，因为劳动成果很难独立的对用户产生影响，所以很少操心去思考那些问题。

反正我分析出了一些结论、做出了若干策略，最终效果好不好，还要取决于产品功能或运营活动的设计。

用户的反馈也很少直接冲着我来，自己可以稳坐后方钓鱼台。但数据产品经理需要走上前线，因为这个岗位的本质是产品，不是数据。

就拿做PC端的数据运营平台举例：这个平台的初期目标，就是服务好部门的200多人，快速准确的了解到部门孵化的10来个产品的数据表现。

最开始我脑海中只是天然的觉得，之前用过的那些第三方BI报表有缺陷，重展示轻分析；既然这次是自研平台，就做些不一样的，于是乎，有了下面这个东西：

它的初衷是：

分析体系结构化（指标按照不同业务方向进行归类）；
指标卡片化（一段时间范围内的总量、日均值、波动率）；
卡片可点击（点击后可联动展示指标的波动分析）；
内嵌指标波动分析方法（时间的对比+多维度的下钻，尤其是后者，直接量化定位波动原因）；

然而，用户对上述4个设计初衷的直接反馈是：

指标分散，没法一次性找到所有想要的；
卡片太大占空间，浪费多余，还不如做成表格能一眼多看到更多指标；
能意识到可以点击，但点击后因为PC端高度限制，只能看到下方的趋势图跟着变动，根本注意不到再下面那个指标异动分析表格也在动；
经介绍说明后能理解异动分析对指标波动的解释，但理解有门槛；

问题很明显，我把这个数据产品的数据部分看的太重了，忽略了其产品的部分。

后来我发现，这也是现阶段很多数据产品经理同行的共性，数据>产品，偏离了岗位的本质。

这个数据运营平台，到底是解决谁的什么问题？

思考之后，有了下面这个迭代的版本：

用完成的业务流程串联起零散的指标；
指标卡片点击唤起浮层，所有分析展示一屏解决；
异动分析简化图形化，只保留核心概念；
原有顶部筛选控件位置优化，释放屏幕纵向空间；

迭代的终点还远远没到，后续有机会再专门开篇说下对这类数据运营平台的想法，尤其是跟AI的结合。

3. 困境

很多时候，数据产品类似一个中台型的产品。

没有中台的命，却有中台的病；如何兼容各方的个性化需求？如何评价数据产品的价值产出？这些问题既是我的“绝望之谷”，也会是我的“开悟之坡”。

4. 破局

不要让自己受限，这个限制可能是外界给予的，但更多时候是自己给予的。

我的经历告诉我，岗位是死的，但能力是活的。

数据分析师就只能钻研各种分析工具、统计模型么？策略产品经理就不能设计下产品的功能么？数据产品经理就只安心做好产品就够了么？

当你愿意抬头时，路就会越走越宽。

本文作者：古牧聊数据，其版权均为原作者所有，文章内容系作者个人观点，不代表蜗牛派对观点赞同或支持，未经许可，请勿转载，题图来自Unsplash，基于CC0协议。

免责声明：本文版权归原作者所有，文章系作者个人观点不代表蜗牛派立场，如若转载请联系原作者；本站仅提供信息存储空间服务，内容仅为传递更多信息之目的，如涉及作品内容、版权等其它问题都请联系kefu@woniupai.net反馈！

什么是数据敏感度？哪些因素会影响到数据敏感度？

蜗牛派 — Sat, 25 Jul 2020 10:47:41 +0000

在各大厂的数据分析师、数据产品经理和产品经理等岗位的招聘要求里，我们经常看到“数据敏感度高”、“数据意识强”等信息。既然数据敏感度如此重要，大家如此重视数据敏感度，那么，到底什么是数据敏感度呢？今天就从五个方面来谈谈我对数据敏感度的理解。

一、什么是数据敏感度

数据敏感度其实有两种含义。第一种是指数据本身是否涉密、是否包含个人隐私或者涉及商业机密等，此时的数据敏感度实际上是指数据的涉密等级或安全性，涉及的机密越多则数据的敏感度越高；其二是指人对数据的敏锐察觉能力，是用来评估人对数据的及其代表的意义所表现出的应激式反应与洞察力。

通常，我们说到的数据敏感度是特指第二种，亦即对数据的敏感度。本文今天重点讨论的也是第二种。

二、如何理解数据敏感度

1、数据敏感度是一种综合素养

数据敏感度本质上是一种数据的洞察力，这种洞察力其实是个人数据修养和业务能力的综合体现。面对同样一个数据，有的人就能一眼看到危机感，有的人能一眼就能看出错误，有的人却熟视无睹、毫无感觉，这种差别是跟个人长期的业务积累和数据修养有关系的。“冰冻三尺,非一日之寒,骐骥千里,非一日之功”，要练就一双慧眼，要拥有收放自如的数据敏感度需要经过长期的刻意训练。关键时刻方显高手本色，高手在关键时刻的数据敏感度往往会带了奇迹般的发现，而这些发现可能决定着企业的生死存亡。这就是最能体现数据敏感度的价值感的高光时刻。

2、数据敏感度是对某些特定岗位的要求

数据敏感度还是一把标尺，这把标尺在招聘时可以用来筛选更符合要求的候选人。但数据敏感度应该是对某些特定岗位的要求，比如：数据分析师、数据建模工程师、数据产品经理等。这些人员经常与数据打交道，同时也经常用数据跟业务人员进行交流，因此，这些岗位对数据敏感度这方面的要求会高一些，此时的数据敏感度是必选项。但是，对于其它与数据或业务离的比较远的岗位，比如人力资源、行政后勤等岗位，有数据敏感度固然很好，但没有数据敏感度也无可厚非，此时的数据敏感度就是可选项，不是对岗位的硬性要求。因此，数据敏感度因人而异、因事而异，不能强求每个人都要对数据有敏感度。

3、数据敏感度是分等级的

数据敏感度既然是一把标尺，就能将测试者分出不同的等级。在笔者看来，数据敏感度分为三个等级：基础等级、高阶等级和大神级别。基础等级是只对数据敏感，也就说对数据是不是出现异常了、是不是有错漏了等有感觉，能立马发现这些异常现象。

比如：某一天APP的卸载量突然超出平常数值的20%以上，此时如能发现卸载量数据的异常算是达到了数据敏感度的基本要求；高阶等级不仅要求对数据本身是否出现异常有判断力，还要求分析到这种异常数据背后的原因是什么、异常数据会带来业务哪些影响、接下来应该做些什么等。此时的数据敏感度一方面要求具备对数据本身的觉察力，另一方面还要求具备高度的业务反应力，能将数据与业务的关系厘清；第三个等级就是大神级别，这个级别的数据敏感度要求当事人具备丰富的业务实战经验和超强的数据洞察力，不仅要厘清数据背后的原因，还要能分析出数据异常所牵连的各种关联关系，并预见到可能带来的各种影响，还能在此基础上把握好时机、做出关键的决策。

比如：我们经常听说到股市上有些大神的传说，他们总是能从各种事件中嗅出政策走向和股票趋势来，然后基于对某些股票股价变化的敏感度，总能判断出最合适的抄底机会，入手后再选择合适的清仓时机出手。这些股市的大神能做到如此出神入化，一方面固然是与他们有多年的炒股经验、操盘经历有关，另一方面与他们对股票数据的敏感度也是密不可分的。

4、数据敏感度并非与生俱来的，是可以训练和培养的

人并非生来就有数据敏感度的，但是诸多事实证明数据敏感度是可以通过刻意训练来提高的。之所以说数据敏感度并非与生俱来的，是因为我们这里所说的数据敏感度是在职场和商业的语境下的，也就说先要进入职场，然后做与数据和业务相关的工作，还要经常与数据打交道、用数据作为沟通语言，有了这样的约束条件后，再说有意愿训练数据敏感度，最后能坚持下来、能在数据敏感度上有所成绩的就少之又少了。数据敏感度既然可以通过后天的努力来提升，那么，只要依照恰当的方法就可以训练出来，这个在下文中会继续细说。

三、哪些因素会影响到数据敏感度

前面说到数据敏感度实质上是一种洞察力，那么，到底哪些因素会影响到我们的数据敏感度呢？笔者认为：业务常识、相关度、关注度、个人经历、个人精力、记忆力等因素都在一定程度上影响到我们的数据敏感度。

业务常识比较容易理解，就是最对所从事的行业有一个基本的认知和商业common sense 。比如：你如果在电信运营商行业工作，你至少应该大面上知道三大运营商的移动用户数、4G用户数、各自的平均ARPU等，如果你在移动互联网行业，那你对APP的次日留存、三日留存、月留存、付费率等指标的平均值应该有一定的概念。再比如：微信公众号文章的粉丝打开率平均值一般在10%左右，如果你的微信公众号的某篇文章打开率超过了30%，那就说明你的文章比较受粉丝的追捧，或者是文章的传播有不错的效果。

相关度和关注度。人们总是习惯性的去关注与自己工作相关度较高的事物和数据。所谓“萝卜青菜各有所爱”，关注与自己相关度高的数据，而不关注与自己不相关的数据，这也是人之常情。只有先关注到这些与自己相关度高的数据，才有可能产生数据的敏感度，对自己不相关、不感兴趣的数据一般情况下是不太会产生数据敏感度的。

个人经历和精力。数据敏感度与每个职场人的经历相关，职场经历成就个人的业务经验和见识。比如：某咨询顾问写的PPT分析报告，自己认为写的滴水不漏的，可是在甲方面前就被人看出来一个数据的小问题，然后一个数据问题就牵扯出一些列的数据和结论都站不住脚。这种因数据问题被Diss经历对于培养职场人的数据敏感度绝对是一种很好的学习教材；还有就是个人的精力也会影响到数据敏感度。在信息爆炸的今天，我们每个人每天都会接收到很多的信息，加之个人的精力有限，当我们把大部分精力投入到了某项工作时，可能分配给另外某些工作的精力就十分有限，此时就可能对这些工作上的数据就没有产生应有的警觉和敏感了。

数据敏感度还与个人的记忆力有关。我们知道，数据的敏感度有时候就是来自于对数据的前后比较。当我们没有记住一些关键指标的常规表现数值时，当这些指标出现异常时我们就可能视而不见，没有了记忆就没有了比较，没有比较就失去了判断。所以有时候牢记一些关键指标和数据，是培养我们的数据敏感度的基础。

综上所述，业务常识、相关度和关注度、个人经历和精力、记忆力等是影响数据敏感度的常见因素。之所以提到这些方面，是希望我们在着力训练和培养自身的数据敏感度时，能特别注意到这些因素。

四、如何培养数据敏感度

训练和培养对数据的敏感度应该是大家比较感兴趣的话题。结合自身的体会，笔者觉得需要从六个方面着力培养自己的数据敏感度：刻意加强“三个训练”、做到“三有”。

刻意加强三个“训练”：

1、加强数据化思维训练：为培养数据敏感性，可以在工作和生活中刻意加强自己的数据化思维。训练自己用数量化的语言进行描述和表达，比如：在做自我介绍时，可以将自己进行数量化包装：工作了多少年，做了多少个项目，负责过多少个产品case,带过多少人的团队，实现了多大的业绩等等。凡事不以感情做判断，而以“数量”、“金额”、“比例”等指标作为衡量的尺度。再如：在介绍某个项目的效果时，用数据说话，将效果的表达换算成提升幅度、增长率、投入产出比等数据和指标。

2、加强图表解读能力训练：图表化表达是对数据进行分析和展现的常用方式。要加强对数据可视化的理解和解读能力，训练自己看图说话的能力，要善于前后对照、关联分析和交叉比对，从图表中发现规律。请教相关领域专家，明白可视化图表背后的意义，组织语言进行描述性练习，反复练习和训练，自己明白的同时也要让听众听明白。图表解读能力提高了，数据敏感度就会随之提高。

3、加强批判性思维训练：要刻意训练自己的批判性思维，对外部给到的数据都要心存怀疑，都要问清楚数据来源和计算口径，必要时亲自上手进行“交叉验证”。批判性思维是一种能力，就像是古董专家，刚入行的时候，对每一件古董都需要翻阅大量的文献书籍，反复核对和验证。量变就会引发质变，功到自然成，当验的货到了一定数量级时，你就会自然而然的炼就了一双慧眼，只要一掌手、一上眼就能判断它的成色。此时，也就是你练就数据敏感度的时刻了。

做到“三有”：

1、有谱：要熟悉自身的业务，业务水平要靠谱，要对业务建立深刻的理解和知识点的储备，这是培养数据敏感性的基础。有谱是指对数据所代表的业务信息要有一个基本的认知和概念。所谓靠谱，至少是对某些数据的来龙去脉要清楚，对该数据的业内平均水平、最高水平、最低水平有一个清醒的认识，要知道数据的变动所代表的意义。

2、有心：在日常工作中，要学会做一个有心人，探究数据背后隐藏的信息。要走心去刨根问底关键数据的业务逻辑和计算规则，要留心关键数据的变化，用心记住关键的指标数值。

3、有感：当数据出现异常值时，要能形成对数据走势的预感和判断，并在后续的工作中观察自己的预感是否得到了印证。还要注重基于业务逻辑进行关联思考，对关键数据的连锁反应建立自己的“感想”和观点。

数据敏感度是可以通过刻意训练、逐步形成习惯的。秘密就在于：“三个训练”、“三有”，你GET到了吗？数据敏感度，你值得拥有！

五、AI时代还需要数据敏感度吗

在大数据和人工智能时代，机器在人类的训练下正逐步具备一定的学习能力。既然数据敏感度是可以通过学习和训练来获得的，那么，机器只要经过适当的驯养和调教，就有可能形成自己的数据敏感度。理论上说机器具备数据敏感度是有可能实现的。一旦机器也对数据有了一定的敏感度，人类还需要继续保持自己的数据敏感度吗？是不是可以把数据监测、数据解读和判断的事情全部交给机器来处理呢？笔者认为，短期内还是要坚持以人为主的模式，即使在AI时代，人类仍然需要主宰自己的数据敏感度。

机器固然能具备一定的数据敏感度，但是在运用数据来解读业务的能力仍然有一定的局限性。在对数据进行分析和解读时，一个基本的原则就是：结构化的数据以人为主，非结构化数据可以借助机器的支持；小数据以人为主，大数据可以借助机器的算力的支持；关键的数据以人为主，非关键的数据可以借助机器的力量。

本文作者：大数据产品设计与运营，其版权均为原作者所有，文章内容系作者个人观点，不代表蜗牛派对观点赞同或支持，未经许可，请勿转载，题图来自Unsplash，基于CC0协议。

浅析数据产品经理 VS AI产品经理的5点区别与联系

蜗牛派 — Sun, 24 May 2020 06:01:16 +0000

本篇从4点区别，产品目标的区别、产品实战过程的区别、算法模型实战区别、产品经理驾驭难易程度区别，和1点联系的实战多案例鉴别AI产品经理与数据产品经理的区别与联系，并通过多个实战案例掌握数据产品经理和AI产品经理各自的技能。

人工智能快速渗入到各个行业，AI 产品经理缺口高达 6.8 万，成为稀缺人才。「AI 产品经理」项目面向想要通过AI 技术推动业务发展的产品经理以及商业领导者。

将介绍如何创建能带来商业价值的 AI 产品，学习 AI 产品开发流程。你将跟LineLian学习案例研究、创建数据集，并构建AI模型，熟练掌握各种 AI 概念和实用技能并能够构思、开发、评估和实施基于人工智能技术的新产品。

而数据产品经理也是时下的热门岗位。

两者关系是，AI产品经理以数据为基础，数据产品经理发展的晋级阶段是AI产品经理。

第一点区别：产品目标不同

有时候产品经理不得不拍着胸脯提需求，常常会遭遇多方的质疑，这个需求靠谱吗？有时候产品上线后大家感觉应该一片欢喜，但是公司却没有带来很好的商业增长；

当增长遇瓶颈；当产品不能精准的推荐给用户；当生产效率变低；当产品经理不能预测新的产品需求和新的服务需求；当人力成本变高，当有些固定流程的工作可以被机器人代替；

前类主要是数据产品经理要解决的问题，通过数据来验证产品提出的产品需求的正确性，通过上线后的数据来发现产品需要迭代改进甚至创新的点，通过数据分析，数据挖掘发现原本发现不了的产品问题，改进问题。

后类主要是AI产品经理的产品目标，AI一方面能帮人节省时间，另外能预测原本发现不了的产品和服务需求，还有AI能够解决不确定性的产品服务需求。

数据产品经理的产品目标是用数据确认确定性的需求；AI产品经理的产品目标是创造性的解决不确定性的产品需求。

第二点区别：产品实战过程不同

先讲数据产品经理的产品过程，再看AI产品经理的产品过程。

数据产品经理的数据分析的步骤一般可以分为如下6个步骤：

明确分析的目的
数据准备
数据清洗
数据分析
数据可视化
分析报告

数据产品经理案例：朝阳医院医药销售情况数据分析经典案例拆解

1. 分析目的

通过对朝阳区医院的药品销售数据的分析，了解朝阳医院的患者的月均消费次数，月均消费金额、客单价以及消费趋势、需求量前几位的药品等。

2. 数据导入

从笔者LineLian本地读取数据，如果需要数据分析进一步的可以点击文章最后的链接。

3. 数据清洗

数据清洗包含，行缺失值、列缺失值、异常值如不该出现负值出现了负值，不该过大不该过小等异常值的清洗、数据列名的修改变更、数据类型的转换、数据重新抽取排序等等清洗。

4. 数据分析

数据产品经理的数据分析主要是数据对应的业务分析，数据场景分析，常由数据产经理提出产品分析方案，例如本案例中，月均消费次数的业务定义计算方式是：月均消费次数 = 总消费次数 / 月份数；

月均消费金额的业务定义计算方式是：月均消费金额 = 总消费金额 / 月份数；客单价业务定义计算方式是：客单价 = 总消费金额 / 总消费次数。等等

5. 数据可视化

对于擅长形象思维的同学来说，文不如图，图不如视频，数据可视化就是讲数据分析的文变成形象的图或者变成可视化直观化的结构呈现的更直接明了。

例如本案例中药品销售前十的情况如下图：

6. 产品数据分析报告

产品数据分析报告无固定的形式，根据笔者的经验有的专家直接带着一张嘴也行，有的写成PPT，有的用Word文档，有的则是PDF，有的是个其他的文档或者图片。

AI产品经理案例：

AI产品内容领域增长方向更加明显，根据笔者LineLian实际工作发现有以下几个产品实战过程方案。

神经网络、机器学习、深度学习以软件为主的产品；
机器人、芯片、智能硬件、软硬件协同类的产品；
具有行业经验以场景驱动寻找AI赋能；
以AI算法创新为主。

本篇先讲以神经网络、机器学习、深度学习软件为主的产品方案解决过程。

AI产品经理案例：训练神经网络经典案例拆解

选定一个基础模型
设定初始化参数代入模型
用训练集对模型进行训练
通过一些数量指标，评估训练误差
如果训练误差不满足要求，继续调整参数
重复7–8次
采集新的数据，生成新的数据集。

（1）选定一个基础模型

本篇选择sklearn.neural作为基础训练模型框架。如下图

（2）设定初始化参数代入模型

设置神经网络模型参数，隐藏层坐标大小(50,50)。

（3）训练出模型，用训练集对模型进行训

导入数据，需要如下图中数据集的同学请观看笔者的微信公众号LineLian数智产品窗口。

一次训练模型，采用训练集数据训练MLP分类器模型

一次查看模型训练结果

将一次训练的模型保存

（4）通过一些数量指标，评估训练误差

通过准确率数据、通过绘制误差曲线等等评估模型训练效率。

（5）如果训练误差不满足要求，继续调整参数

重新优化节点数等参数，再次训练模型

（6）重复7–8

重新调整，坐标、节点、训练次数等参数、超参数，重复训练模型，最终选择优秀的模型备用。

（7）选择新的数据，生成新的数据集

本篇使用的是著名的MINST数据集，如果需要请关注笔者的微信公众号LineLian数智产品窗口。

针对这个图像数据集存在的问题比较明显，1.训练的数据数量；2.数据标注的质量；鉴于此，可以使用自己的自有Label数据集重新训练新的模型。

第三点区别：算法模型不同

数据产品经理常用的算法如下：

对于数据分析所采用的的算法非常多，主要是解决验证性和确定性问题的算法，例如：回归、三次多项式等等算法均可以属于数据产品经理采用的数据分析算法。

1. RFM算法模型

RFM模型想必很多搞数据做产品运营的同学都听说过，最常用在用户分层管理中。而且很多提到RFM模型都会动不动就祭出。

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。

2. CART: 分类与回归树

CART, Classification and Regression Trees。

在分类树下面有两个关键的思想：第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。

3. K-Means算法

k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割(k < n)。

它与处理混合正态分布的最大期望算法(本十大算法第五条)很相似，因为他们都试图找到数据中自然聚类的中心。

它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

4. 关联规则Apriori算法

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

5. SVM支持向量机

支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。

它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。

6. 最大期望(EM)算法

在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉数据集聚（Data Clustering）领域。

7. PageRank算法

PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里•佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量，衡量网站的价值。

PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。

8. AdaBoost 迭代算法

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。

9. 其他数据分析算法模型

AI产品经理常用的算法如下：

（1）神经网络算法模型

起步神经网络算法( Neural Network )是机器学习中非常非常重要的算法。这是整个深度学习的核心算法，深度学习就是根据神经网络算法进行的一个应用特例。某种程度上来说AI产品的入门在于对神经网络算法的理解和应用。

（2）机器学习算法模型 Maching learning

机器学习的对象是：具有一定的统计规律的数据。

机器学习根据任务类型，可以划分为：

监督学习任务：从已标记的训练数据来训练模型。主要分为：分类任务、回归任务、序列标注任务。
无监督学习任务：从未标记的训练数据来训练模型。主要分为：聚类任务、降维任务。
半监督学习任务：用大量的未标记训练数据和少量的已标记数据来训练模型。
强化学习任务：从系统与环境的大量交互知识中训练模型。

机器学习根据算法类型，可以划分为：

传统统计数据学习：基于数学模型的机器学习方法。包括SVM、逻辑回归、决策树等。

这一类算法基于严格的数学推理，具有可解释性强、运行速度快、可应用于小规模数据集的特点。

（3）深度学习DeepLearning

深度学习：基于神经网络的机器学习方法。包括前馈神经网络、卷积神经网络、递归神经网络等。

这一类算法基于神经网络，可解释性较差，强烈依赖于数据集规模。但是这类算法在语音、视觉、自然语言等领域非常成功。

没有免费的午餐定理(No Free Lunch Theorem:NFL)：对于一个学习算法A，如果在某些问题上它比算法B好，那么必然存在另一些问题，在那些问题中B比A更好。

（4）CNN

卷积神经网络（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

（5）RNN

循环神经网络（Recurrent neural network：RNN）是神经网络的一种。单纯的RNN因为无法处理随着递归，权重指数级爆炸或梯度消失问题，难以捕捉长期时间关联；而结合不同的LSTM可以很好解决这个问题。

时间循环神经网络可以描述动态时间行为，因为和前馈神经网络（feedforward neural network）接受较特定结构的输入不同，RNN将状态在自身网络中循环传递，因此可以接受更广泛的时间序列结构输入。手写识别是最早成功利用RNN的研究结果。

（6）GNN

图神经网络，图神经网络划分为五大类别，分别是：图卷积网络（Graph Convolution Networks，GCN）、图注意力网络（Graph Attention Networks）、图自编码器（ Graph Autoencoders）、图生成网络（ Graph Generative Networks）和图时空网络（Graph Spatial-temporal Networks）。

（7）其他神经网络。

第四点区别：产品经理驾驭难度不同

产品经理驾驭产品的难易程度参考下图：

第五点联系：最后AI产品经理与数据产品经理既有区别也有联系

联系是：数据产品经理常用的元素数据是AI产品经理常用的元素数据+算法+算力三元素之一。

做好数据产品经理是为了今天的饭碗，做好AI产品经理是为了明天的希望。两者都很重要。

总之AI产品经理和数据产品经理是唇齿相依的关系！