什么是内容产品的推荐系统和内容算法?-蜗牛派

什么是内容产品的推荐系统和内容算法?

什么是推荐系统?为了解决信息过载和用户无明确需求的问题,找到用户感兴趣的物品,于是有了个性化推荐系统。那么什么是内容算法,内容算法我们通常也叫做内容推荐引擎,它是移动互联网以来新型的内容产品,打破了之前主动获取内容的形态,可以在用户无明确需求的情况下提供感兴趣的内容,并产生了新的内容生态。本文作者对推荐系统和内容算法分别进行阐述,希望对你有帮助。

十分钟聊聊推荐系统和内容算法

在上下班拥挤的地铁中打开咨询应用查看新闻或信息,午休时间拿出手机登录淘宝想要剁手买买买,坐在家里在大众点评上搜索周末的聚餐地点…..这一个个生活中再普通不过的场景,其实都早已处在推荐系统的掌控中:

  • 内容推荐,将用户感兴趣的话题和内容呈现在用户的眼前,你看到的是明星趣事,我看到的是影片点评;
  • 购物推荐,根据用户的风格和偏好进行商品推荐,你看到的是潮流高跟鞋,我看到的是复古马丁靴;
  • 美食推荐,结合用户的口味和住址推荐美食去处,你看到的是日式寿喜锅,我看到的是重庆火锅;

个性化推荐让人们不再被热点围绕、不再被排行榜左右,而是享受足够定制化的信息集合——新闻资讯、服饰服装、饮食偏好,让自己成为独一无二的个体;

但是,这些纷繁复杂的内容是如何来到自己眼前的?内容推荐系统缘何如此了解自己,又如何让自己身陷信息茧房中?

一、推荐系统与搜索系统

从工程角度来看,推荐系统与搜索系统的架构具有一定的相似度,二者都是实现信息与用户意图之间的匹配。

搜索系统是将海量内容与用户表意明确的查询词相关联,推荐系统则是将海量内容与用户没有明确表达的偏好相关联。

搜索的架构:

离线部分:专注内容的搜索和处理。爬虫系统从海量网站上抓取原始内容,并建立不同的搜索索引体系(可理解为分类,更容易找)。

在线部分:

①负责响应用户的搜索请求,完成内容的筛选和排序,并把结果返回给用户;

②当用户输入搜索词后,系统会对搜索词进行分词、变换、扩充、纠错等处理过程,以便更好③理解用户的搜索意图;

④经历完搜索词处理后,进入召回环节;

⑤召回得到的候选集合会继续进入排序环节,通过更精细的计算模型对每一篇候选内容进行分值计算,获得最后结果;

⑥在展示给用户之前,搜索结果还需要经过规则干预(例如官网这种会优先展示);

⑦在结果展示之后,用户的点击反馈会影响到排序环节的模型;

十分钟聊聊推荐系统和内容算法

以搜索系统为参考基础,我们可以更好理解推荐系统中工作方式:

推荐系统离线部分同样需要通过各种方式来获取待推荐的内容,并进行索引化处理;

在线部分,量化用户的请求,完成内容的筛选并进行排序;召回和排序操作与搜索系统比较相似,系统基于类目查询和实体词查询分别获得内容集合,并经过规则层的处理后最终反馈给用户;

但值得注意的是,在推荐系统中,用户行为不仅像在搜素系统中具有针对内容价值的群体评估意义,而且还具有针对自身画像的个体化意义;

在内容价值评估层面,读者就像读者团,通过自己的行为评估内容好坏;

个体进化层面,用户的阅读反馈行为在持续改进自身的画像;

十分钟聊聊推荐系统和内容算法

二、推荐的起点:断物识人

尽管推荐系统中应用了各种高深的算法、架构,但基础原理还是朴素的:更好的了解推荐的内容,更好的了解要推荐给的人?

断物:想要把内容推荐给人,首先需要充分理解内容的特点到底是什么?如果连推荐内容的特点都说不明白,那就别说推荐效果了。更好的提取和 表达待推荐内容的特点,就是断物的意义了。

断物最简单的方式就是“贴标签”;

标签是我们对多维事物的降维理解,抽象出事物更具代表性、更显著的特点,我们会对标签进行有针对性地投射,有倾向性地选用不同的标签以换取信息匹配效率最大化。这其实涉及到“标签”和“分类”的关系。

通常来讲,分类是树状的,自上而下的划分,每个节点有严格的父类继承关系;

应用分类时必须考虑分类权威性和信息完备性问题,避免因为子节点不全或分类错误;

由于树状结构性较好,所以在内容的分类上有很多应用:淘宝刷选功能;

十分钟聊聊推荐系统和内容算法

标签是网状的,更强调属性关系而非继承关系,只有权重大小之分,不强调包含与被包含关系;这就使得标签比分类更灵活;

由于网状结构包含树状结构,故而标签可以被应用于分类的

标签可由专家系统产出,也可由普通网友自定义产出;

但在某些领域,标签很难准确的表意或概括,比如怎么定义一个人是否帅气?大家各有标准。

所以这时候就需要引入聚类的方式来描述,这种方式不是通过标签词的方式来定义事物是怎么样的,而是基于某一维度特征将相关物品组成一个集合,并告诉你这个新的物品同那个比较类似;

识人:我们可以简单直观的把”识人”理解为给目标用户贴标签的过程;通过标签来描述一个用户的特征集合;

我们通常将用户画像数据分为静态和动态两类:

静态用户画像:用户独立于产品场景之外的属性,性别、年龄、教育、常驻位置等等;静态数据具有统计意义,比如女性可能消费冲动更高等;

动态用户画像:用户在产品场景中所产生的显式或隐式行为;显示行为包括点赞、评论、分享等;隐式行为包括浏览时长、用户操作行为等;

十分钟聊聊推荐系统和内容算法

三、推荐算法:物以类聚、人以群分

在理解了内容和用户的基础特征之后,推荐算法是如何匹配用户和内容的?概括而言,这一过程所作的就是”物以类聚,人以群分”。

物以类聚:基于内容属性的相似性推荐

有了完善的物品画像,我们就可以基于其固有属性来计算物品与物品之间的相似度,从而推荐用户历史消费相似的新物品;

基于内容属性推荐的好处在于,只依赖物品本身的特征而不依赖用户的行为,让新的物品、冷僻的物品都能得到展示的机会;

但其存在问题在于,推荐质量的优劣完全依赖于特征构建的完备性,但特性构建本身是一件系统工程,存在一定成本;

人以群分:基于用户的协同过滤

把用户的消费行为,以此进行用户相似性或物品相似性的计算,进行信息匹配,是协同过滤的基础;

协同过滤可以分为三个子类:基于物品的协同、基于用户的协同、基于模型的协同;

基于用户的协同:第一步,找到那些与你在某一方面口味相似的人群,第二步,将这一群人喜欢的东西推荐给你;

基于物品的协同:先确定你喜欢什么东西,再找到与之相似的东西推荐给你,只是物品与物品之间的相似度,不是从内容属性的角度衡量的,而是从用户反馈的角度衡量的;

(比如:内容A、C都被用户B、C阅读,从阅读角度看,两篇内容更相似,当A阅读A时,系统就会选择与之类似的内容C推荐给他)

基于模型的协同:是用用户的喜好信息来训练算法模型,实时预测用户可能的点击率;

四、冷启动

作为连接内容与人的推荐系统,每时每刻都在面对增量的问题:增量的用户、增量的内容

(1)新的内容对推荐系统而言,是没有信息量积累的,需要积累一定的曝光量和互动量(阅读、分享等)来收集足够的信息

(2)从0到1积累基础数据的过程就是冷启动

其效果的好坏直接影响到用户端、作者端的满意度和留存率;

内容的冷启动:

在推荐系统中,一篇内容借助探索性展示完成了从0到1的用户反馈积累过程。

如果在这个过程中,没有得到足够的正反馈,系统就会认为这篇内容不受欢迎,反之,如果顺利找到目标人群,则是可能成为爆款。

在内容被提交进入系统开始,因为缺乏用户的行为反馈,推荐系统更依赖于内容本身的固有属性来进行冷启动。基于内容的展示和消费,有内容展现维度和内容消费维度。

  • 内容展现维度 顾名思义是展现给用户的信息,如标题、封面、发布时间等
  • 内容消费维度 包括作者层和内容层
  • 作者层 做着的粉丝群体更应该看到该作者的新内容,一个过往表现更好的作者可以得到更高的冷启动推荐量
  • 内容层 分类信息、关键词、命中的实体和话题等,用于判断内容与用户的偏好是否匹配

用户的冷启动:

推荐服务的目标:用户留存率。因此,只有在保证用户留存的前提下,才会考量推荐的兴趣探索效果如何。

注意:对于慢热型用户,我们并不急于熟悉他的方方面面,而是以留住用户为第一目的。

对于冷启动的内容,我们可以基于文本分析抽离出内容的关键字、话题来建立内容画像,对于冷启动的用户,我们同样需要尽快完善信息的搜集和预处理工作,建立对用户的初步认知,

对于移动端产品来说,获取用户信息额途径很多种:WIFI获取地理位置、通讯录获取社交关系、应用安装获取偏好、账号登录系统更是打通了微信、微博等内容;

五、结尾——推荐系统中常见问题

常见的推荐问题

①推荐重复:在内容生产门槛不断降低、产量持续攀升的背景下,当一个新闻事件发生后,权威新闻源会发布新闻通告,自媒体会从不同角度进行评论,搬运工也会批量产出蹭热点的内容。

内容的大繁荣也带来了信息的过载问题。对用户来说,其需要的是有价值的信息而非千篇一律的内容,用户可能会厌恶列表页上千篇一律的标题,更会因为点击了标题后却发现内容了无新意而怒发冲冠、拍案而起。

②推荐密集:密集是指用户的推荐列表中同一类内容的占比过高,导致局部多样性丧。

③易反感内容(即容易引起用户不适的内容,比如黄赌毒、暴力等)。

本文作者: 97年陈伯伯,其版权均为原作者所有,文章内容系作者个人观点,不代表蜗牛派对观点赞同或支持,未经许可,请勿转载,题图来自Unsplash,基于CC0协议。
分享到:更多 ()
Copyright © 2015-2024 woniupai.net 蜗牛派 版权所有
皖ICP备18016507号-1 | 本站内容采用创作共用版权 CC BY-NC-ND/2.5/CN 许可协议