什么是内容产品的推荐系统和内容算法？-蜗牛派

什么是推荐系统？为了解决信息过载和用户无明确需求的问题，找到用户感兴趣的物品，于是有了个性化推荐系统。那么什么是内容算法，内容算法我们通常也叫做内容推荐引擎，它是移动互联网以来新型的内容产品，打破了之前主动获取内容的形态，可以在用户无明确需求的情况下提供感兴趣的内容，并产生了新的内容生态。本文作者对推荐系统和内容算法分别进行阐述，希望对你有帮助。

十分钟聊聊推荐系统和内容算法

在上下班拥挤的地铁中打开咨询应用查看新闻或信息，午休时间拿出手机登录淘宝想要剁手买买买，坐在家里在大众点评上搜索周末的聚餐地点…..这一个个生活中再普通不过的场景，其实都早已处在推荐系统的掌控中：

内容推荐，将用户感兴趣的话题和内容呈现在用户的眼前，你看到的是明星趣事，我看到的是影片点评；
购物推荐，根据用户的风格和偏好进行商品推荐，你看到的是潮流高跟鞋，我看到的是复古马丁靴；
美食推荐，结合用户的口味和住址推荐美食去处，你看到的是日式寿喜锅，我看到的是重庆火锅；

个性化推荐让人们不再被热点围绕、不再被排行榜左右，而是享受足够定制化的信息集合——新闻资讯、服饰服装、饮食偏好，让自己成为独一无二的个体；

但是，这些纷繁复杂的内容是如何来到自己眼前的？内容推荐系统缘何如此了解自己，又如何让自己身陷信息茧房中？

一、推荐系统与搜索系统

从工程角度来看，推荐系统与搜索系统的架构具有一定的相似度，二者都是实现信息与用户意图之间的匹配。

搜索系统是将海量内容与用户表意明确的查询词相关联，推荐系统则是将海量内容与用户没有明确表达的偏好相关联。

搜索的架构：

离线部分：专注内容的搜索和处理。爬虫系统从海量网站上抓取原始内容，并建立不同的搜索索引体系（可理解为分类，更容易找）。

在线部分：

①负责响应用户的搜索请求，完成内容的筛选和排序，并把结果返回给用户；

②当用户输入搜索词后，系统会对搜索词进行分词、变换、扩充、纠错等处理过程，以便更好③理解用户的搜索意图；

④经历完搜索词处理后，进入召回环节；

⑤召回得到的候选集合会继续进入排序环节，通过更精细的计算模型对每一篇候选内容进行分值计算，获得最后结果；

⑥在展示给用户之前，搜索结果还需要经过规则干预（例如官网这种会优先展示）；

⑦在结果展示之后，用户的点击反馈会影响到排序环节的模型；

十分钟聊聊推荐系统和内容算法

以搜索系统为参考基础，我们可以更好理解推荐系统中工作方式：

推荐系统离线部分同样需要通过各种方式来获取待推荐的内容，并进行索引化处理；

在线部分，量化用户的请求，完成内容的筛选并进行排序；召回和排序操作与搜索系统比较相似，系统基于类目查询和实体词查询分别获得内容集合，并经过规则层的处理后最终反馈给用户；

但值得注意的是，在推荐系统中，用户行为不仅像在搜素系统中具有针对内容价值的群体评估意义，而且还具有针对自身画像的个体化意义；

在内容价值评估层面，读者就像读者团，通过自己的行为评估内容好坏；

个体进化层面，用户的阅读反馈行为在持续改进自身的画像；

十分钟聊聊推荐系统和内容算法

二、推荐的起点：断物识人

尽管推荐系统中应用了各种高深的算法、架构，但基础原理还是朴素的：更好的了解推荐的内容，更好的了解要推荐给的人？

断物：想要把内容推荐给人，首先需要充分理解内容的特点到底是什么？如果连推荐内容的特点都说不明白，那就别说推荐效果了。更好的提取和表达待推荐内容的特点，就是断物的意义了。

断物最简单的方式就是“贴标签”；

标签是我们对多维事物的降维理解，抽象出事物更具代表性、更显著的特点，我们会对标签进行有针对性地投射，有倾向性地选用不同的标签以换取信息匹配效率最大化。这其实涉及到“标签”和“分类”的关系。

通常来讲，分类是树状的，自上而下的划分，每个节点有严格的父类继承关系；

应用分类时必须考虑分类权威性和信息完备性问题，避免因为子节点不全或分类错误；

由于树状结构性较好，所以在内容的分类上有很多应用：淘宝刷选功能；

十分钟聊聊推荐系统和内容算法

标签是网状的，更强调属性关系而非继承关系，只有权重大小之分，不强调包含与被包含关系；这就使得标签比分类更灵活；

由于网状结构包含树状结构，故而标签可以被应用于分类的；

标签可由专家系统产出，也可由普通网友自定义产出；

但在某些领域，标签很难准确的表意或概括，比如怎么定义一个人是否帅气？大家各有标准。

所以这时候就需要引入聚类的方式来描述，这种方式不是通过标签词的方式来定义事物是怎么样的，而是基于某一维度特征将相关物品组成一个集合，并告诉你这个新的物品同那个比较类似；

识人：我们可以简单直观的把”识人”理解为给目标用户贴标签的过程；通过标签来描述一个用户的特征集合；

我们通常将用户画像数据分为静态和动态两类：

静态用户画像：用户独立于产品场景之外的属性，性别、年龄、教育、常驻位置等等；静态数据具有统计意义，比如女性可能消费冲动更高等；

动态用户画像：用户在产品场景中所产生的显式或隐式行为；显示行为包括点赞、评论、分享等；隐式行为包括浏览时长、用户操作行为等；

十分钟聊聊推荐系统和内容算法

三、推荐算法：物以类聚、人以群分

在理解了内容和用户的基础特征之后，推荐算法是如何匹配用户和内容的？概括而言，这一过程所作的就是”物以类聚，人以群分”。

物以类聚：基于内容属性的相似性推荐

有了完善的物品画像，我们就可以基于其固有属性来计算物品与物品之间的相似度，从而推荐用户历史消费相似的新物品；

基于内容属性推荐的好处在于，只依赖物品本身的特征而不依赖用户的行为，让新的物品、冷僻的物品都能得到展示的机会；

但其存在问题在于，推荐质量的优劣完全依赖于特征构建的完备性，但特性构建本身是一件系统工程，存在一定成本；

人以群分：基于用户的协同过滤

把用户的消费行为，以此进行用户相似性或物品相似性的计算，进行信息匹配，是协同过滤的基础；

协同过滤可以分为三个子类：基于物品的协同、基于用户的协同、基于模型的协同；

基于用户的协同：第一步，找到那些与你在某一方面口味相似的人群，第二步，将这一群人喜欢的东西推荐给你；

基于物品的协同：先确定你喜欢什么东西，再找到与之相似的东西推荐给你，只是物品与物品之间的相似度，不是从内容属性的角度衡量的，而是从用户反馈的角度衡量的；

（比如：内容A、C都被用户B、C阅读，从阅读角度看，两篇内容更相似，当A阅读A时，系统就会选择与之类似的内容C推荐给他）

基于模型的协同：是用用户的喜好信息来训练算法模型，实时预测用户可能的点击率；

四、冷启动

作为连接内容与人的推荐系统，每时每刻都在面对增量的问题：增量的用户、增量的内容

（1）新的内容对推荐系统而言，是没有信息量积累的，需要积累一定的曝光量和互动量（阅读、分享等）来收集足够的信息

（2）从0到1积累基础数据的过程就是冷启动

其效果的好坏直接影响到用户端、作者端的满意度和留存率；

内容的冷启动：

在推荐系统中，一篇内容借助探索性展示完成了从0到1的用户反馈积累过程。

如果在这个过程中，没有得到足够的正反馈，系统就会认为这篇内容不受欢迎，反之，如果顺利找到目标人群，则是可能成为爆款。

在内容被提交进入系统开始，因为缺乏用户的行为反馈，推荐系统更依赖于内容本身的固有属性来进行冷启动。基于内容的展示和消费，有内容展现维度和内容消费维度。

内容展现维度顾名思义是展现给用户的信息，如标题、封面、发布时间等
内容消费维度包括作者层和内容层
作者层做着的粉丝群体更应该看到该作者的新内容，一个过往表现更好的作者可以得到更高的冷启动推荐量
内容层分类信息、关键词、命中的实体和话题等，用于判断内容与用户的偏好是否匹配

用户的冷启动：

推荐服务的目标：用户留存率。因此，只有在保证用户留存的前提下，才会考量推荐的兴趣探索效果如何。

注意：对于慢热型用户，我们并不急于熟悉他的方方面面，而是以留住用户为第一目的。

对于冷启动的内容，我们可以基于文本分析抽离出内容的关键字、话题来建立内容画像，对于冷启动的用户，我们同样需要尽快完善信息的搜集和预处理工作，建立对用户的初步认知，

对于移动端产品来说，获取用户信息额途径很多种：WIFI获取地理位置、通讯录获取社交关系、应用安装获取偏好、账号登录系统更是打通了微信、微博等内容；

五、结尾——推荐系统中常见问题

常见的推荐问题

①推荐重复：在内容生产门槛不断降低、产量持续攀升的背景下，当一个新闻事件发生后，权威新闻源会发布新闻通告，自媒体会从不同角度进行评论，搬运工也会批量产出蹭热点的内容。

内容的大繁荣也带来了信息的过载问题。对用户来说，其需要的是有价值的信息而非千篇一律的内容，用户可能会厌恶列表页上千篇一律的标题，更会因为点击了标题后却发现内容了无新意而怒发冲冠、拍案而起。

②推荐密集：密集是指用户的推荐列表中同一类内容的占比过高，导致局部多样性丧。

③易反感内容（即容易引起用户不适的内容，比如黄赌毒、暴力等）。

本文作者： 97年陈伯伯，其版权均为原作者所有，文章内容系作者个人观点，不代表蜗牛派对观点赞同或支持，未经许可，请勿转载，题图来自Unsplash，基于CC0协议。

免责声明：本文版权归原作者所有，文章系作者个人观点不代表蜗牛派立场，如若转载请联系原作者；本站仅提供信息存储空间服务，内容仅为传递更多信息之目的，如涉及作品内容、版权等其它问题都请联系kefu@woniupai.net反馈！

一、推荐系统与搜索系统

二、推荐的起点：断物识人

三、推荐算法：物以类聚、人以群分

四、冷启动

五、结尾——推荐系统中常见问题

相关推荐