算法时代的影像创意内容个性化推荐机制研究
王兆红 刘庆振
随着大数据、云计算、人工智能等技术的快速发展,算法、个性化分发、推荐系统等概念正在为内容产业乃至整个传媒产业带来新的思维方式、生产方式和消费方式。在今天,中国至少有超过6亿以上的人、全球至少有超过25亿以上的人借助于算法来获取每天所消费的内容产品,这些内容产品既包括公众号、知乎问答这样的图文内容,也包括得到喜马拉雅这样的音频内容,还包括短视频、影视剧这样的影像内容。与此同时,在互联网和移动互联网领域的海量内容产品消费方面,有超过60%以上的流量都要归功于推荐算法和个性化分发系统。毋庸置疑,算法的巨大优势已经彻底改变了用户获取内容、消费内容和分享内容的习惯,而且其影响力将会在未来进一步提升,并从根本上改变内容产品的研发、生产、分发和反馈等各个环节。由于内容产品类型多元、形式多样,因此本文将聚焦于重点探讨影像创意内容产品的个性化推荐算法及其对影视传媒产业可能产生的重要影响。
一、 推荐系统的核心价值与基本逻辑
事实上,尽管大量用户依然并不清楚内容推荐系统的技术架构究竟是什么样,但是他们在影像内容的消费过程中已经离不开推荐系统了:今日頭条推荐的小视频内容、抖音快手推荐的短视频内容、新浪微博推荐的各种视频链接、优酷土豆爱奇艺等推荐的影视剧作品……当用户在等公交车、乘坐地铁时,当用户在紧张工作了几个小时停下来休息时,当用户在晚上即将睡觉之前,当用户在周末拥有整段闲暇时光时,这些生活、学习、工作、社交方面一个个看似非常普通的场景,都有可能是算法向用户进行个性化影像内容推荐的良好时机。“内容推荐就是将用户感兴趣的话题和内容呈现在用户面前,你看到的是明星逸事,我看到的是影片点评。”[1]这也就意味着我们必须根据用户的兴趣、偏好、调性,并结合用户过去的内容消费记录和消费习惯进行更加个性化的推荐。只有推荐系统每次向不同用户推荐的不同内容,才有可能是针对具体每一位用户进行的个性化推荐。因此,不同的用户即使在同一时间登录的是同一家视频网站或者同一个短视频移动应用,他们在各自的登录页面所看到的推荐内容也应该是完全不同的。甚至更进一步地,即使他们同时选择了同一家视频网站的电影频道或者同时输入了“喜剧电影”这个关键词,推荐系统向他们呈现的也应该是更符合各自口味的不同内容。因此,推荐系统实际上在做的事情就是完成具体场景下用户和内容之间更高效进行连接的技术工具。换言之,其根目的是“在智能传播时代实现用户、场景和内容之间的精准匹配”[2]。
在这个意义上,推荐系统连接着内容与用户双方,每次的完善、迭代或进化的基本动力就是不断地提升它所推荐内容的精准程度或提高它的匹配概率。对于用户来说,他希望看到的内容应该是个性化的而不是千篇一律的内容,他每次对内容的选择、观看、评论和转发等行为都会变成一种正向的认可或者负向的反感,推荐系统会根据这些历史数据不断地探索不同用户的兴趣偏好,以便向他推荐的内容越来越多地受到认可。对于内容来说,它希望能够找到越来越多对此话题感兴趣的用户,使他们愿意点击、完成观看并进行评论。只有真正找到合适的用户而不是单纯地呈现在所有用户面前,只有这样的内容传播才是有效的。所以,为了更好地完成用户和内容之间更加精准、更加高效、更加个性化的连接和匹配,推荐系统必须不断地优化它对二者的了解和洞察:一方面,它要更全面、更立体、更丰满地了解每一位用户的基本信息(包括性别、年龄、地域、职业等)、兴趣偏好(包括星座、性格、才艺、社交关系等)、场景特征(包括时空、状态、心情、周围环境等);另一方面,它还要从不同的维度、不同的视角来完成对每一则内容的判断,包括这则内容的基本属性(作者、时长、类型、年代等)、情感属性(人物、故事、冲突、感情等)、社交属性(话题、评分、评论、看过的好友等)。只有这样,它的推荐才会越来越精准、越来越个性化、越来越受到用户的认可和依赖。
实际上,这个不断提升对用户和内容了解程度的过程,就是一个不断完善用户画像和内容画像的过程。“所谓用户画像,就是根据用户人口统计学信息、社交关系式等信息而总结、抽象和挖掘出来的标签化用户模型。”[3]同理,内容画像就是将内容本身的类型、特征及其可能的潜在用户进行总结、抽象出来的内容模型。无论是进行用户画像,还是进行内容画像,最常用的两种方式就是对用户和内容进行类型化和标签化,也就是分类和贴标签。例如,我们可以把影像内容分为电影、电视剧、纪录片、综艺节目等不同的类型,在电影这个类型下面,我们又可以按照地域分港台电影、大陆电影、日韩电影、欧美电影等细分类型,或者按照题材分为爱情电影、喜剧电影、战争电影、惊悚电影等细分类型,这就是一个分类的过程。当然,无论对于内容还是对于用户而言,分类意味着把不同的内容或者不同的用户归入同一个类别,其导致的结果虽然在一定程度上方便了用户的主动查找,但也非常容易造成画像不够细致。因此,我们需要利用标签体系来完善具体到某一则内容或某一位用户的个性化特征。例如,某一位用户喜欢刘德华主演的电影,那么我们就可以将“刘德华”这个标签充实在它的用户画像中,在对他进行个性化影像内容推荐时,系统就会根据算法推荐机制优先向他推荐同样也贴有“刘德华”标签的内容。这也就是内容推荐系统最基本的原理,在这个逻辑下,不同的推荐系统和不同的应用经过长时期的探索不断完善着它们的个性化内容推荐算法。
二、 推荐系统在短视频领域的应用
短视频是内容推荐系统的典型应用场景之一。用户在看完一段短视频之后,系统就会自动推荐一段新的短视频,用户只需要动动手指点击观看即可,而不再需要自己输入关键词、点击搜索并筛选内容这一繁琐过程。这就是推荐引擎和搜索引擎的差异,也正是因为这种差异,短视频的推荐系统才必须要更好地了解用户需求以便向他们推荐更加合适的视频内容。很多用户在使用不同的短视频移动应用时,都会有类似的体会:有的应用体验非常好,能让人沉迷进去无法自拔,有的应用推荐的内容却根本不感兴趣,让人觉得无聊至极以致直接卸载该应用。事实上,这就是不同应用程序所采用的推荐算法之间的差异。如果一款短视频应用所采用的推荐算法不够优秀,所完成的内容画像和用户画像不够精准,就完全有可能导致该系统向用户推荐的内容无法实现个性化的精准匹配,从而进一步导致用户体验差、粘着性差、卸载率高等严重影响该产品市场竞争力的恶果。由于短视频本身存在短、小、轻、薄等特征,这在很大程度上提高了对推荐内容的精准度的要求,不恰当的一则短视频会与上一则内容之间产生明显的违和感、突兀感,从而使得用户无法沉浸在对内容的流畅体验中。所以,在短视频行业经过了一年多的快速爆发和严厉整顿后,下半场的竞争将会更多地聚焦在推荐算法的竞争上,算法强则核心竞争力强、推荐精准度高则市场占有率高将会成为短视频领域竞争的残酷法则。对于短视频应用而言,无论其推荐系统所采用的技术如何先进或者其算法对不同维度的数据赋予的权重如何不同,其根本目的都是要最大化地实现内容与用户的精准匹配。只有这样,它才可能在争夺用户注意力的战场上胜出。
在这一点上,快手的思路非常清晰,它通过精准刻画用户的意图,组合运用不同的算法来针对性地推荐个性化的视频、全面地覆盖用户的不同需求,以期能够提升其用户的点击率和观看率。具体而言,在一位新用户尚未注册登陆的情况下,它在没有形成一个较为完善的用户画像时,主要通过简洁的界面、随机的展示和体验友好的瀑布流等方式鼓励用户根据自身的兴趣爱好选择相应的短视频内容。在用户已经点击观看了几则短视频内容并刷新之后,推荐系统就会根据用户已经选择的内容向他展示更多与前几条短视频相类似的内容。在用户完成注册并登录之后,推荐系统主要通过组合“关注”“发现”和“同城”等几种不同的推荐算法,力图做到用户在不同场景下的不同内容需求。“发现”推荐的内容综合运用了协同推荐系统和内容过滤推荐系统两种方式,前者通过历史数据推断用户的兴趣偏好并据此向用户推荐新的内容,而后者则主要向用户推荐与他们之前看过的内容高度相似的短视频。“关注”向用户呈现的则是他已经关注了的短视频生产者创作的内容,推荐系统也会根据这些内容与用户需求之间的匹配程度进行排序。毕竟同一作者发布的内容也可能截然不同,如果不利用算法进行过滤,就可能会直接影响用户的体验。推荐系统会对发布的内容进行类型化和标签化,并利用机器快速地完善其画像,然后再根据算法模型判断这则视频与该用户之前观看的视频是否高度相似,从而决定是否向他推荐。“同城”则是主要基于地理位置的远近来决定优先向用户推荐哪些短视频内容。利用多种算法进行组合推荐的好处在于,它可以在很大程度上规避掉单一算法可能存在的明显不足,从而最大可能地向用户提供符合其需求的短视频推荐服务。此外,如果用户使用微博账号或者微信账号登录快手,推荐系统还会使用社会化过滤推荐系统向用户推荐其社会化媒体中的好友看过、点赞过和评论过的短视频内容。
另外一款短视频应用抖音为了更好地连接内容与用户,也在其推荐算法上面花费了大量的心思。有人将抖音对新上传内容的推荐方式总结为“赛马机制”,其基本的逻辑是:向每一则新上传的短视频内容随机地分配一个比较平均的流量池,对这些新上传视频的综合数据进行比较,并进一步向那些表现较好的视频内容分配一个更大的流量池,经过几轮叠加和不断强化的推荐之后,抖音的爆款内容也就出现了。当然,这种推荐机制更多地是从打造爆款内容的角度出发。其思路在于:已经有“100W+”的用户喜欢这则短视频内容了,那么它是值得推荐给更多用户的,没看过这则短视频的用户或许也会喜欢。也恰恰正是这样的思路使得抖音的推荐系统更多地向用户推荐了那些看上去更热门的内容,而非更符合用户真正需求的内容。而为了解决推荐过程中存在的类似问题,抖音采用了“算法推荐+人工精选”的组合机制。一方面,利用最新的机器学习技术设计相应的算法规则,确保推荐系统能够按照一定的频率和节奏向用户推荐相似短视频,但同时将这种推荐控制在一定的限度之内从而避免用户产生审美疲劳。另一方面,抖音会经常性地人工精选出不同类型、不同领域、不同作者的优质内容,根据相应的推荐规则和不同的用户标签向他们推荐不同的精选内容。随着学术领域对信息茧房问题的深入探讨以及政策层面对低俗内容的强势整顿,很多短视频应用也逐渐意识到自身推荐系统存在的各类瑕疵并加大力度完善其算法。事实上,好的推荐算法并不是站在流量经济的立场上一味迎合并向用户推荐相似度很高的内容,而是要从更多元化的角度向他针对性地推荐其视野范围之外的有价值内容。
三、 推荐系统在影视剧领域的应用
算法推荐的最重要价值在于它能够提高内容分发的效率,尤其是在今天内容产品以爆炸式的速度增长的语境之下,无论对于用户需求还是对于内容本身,个性化推荐系统无疑都是一个实现精准匹配、解决信息过载问题的重要手段。具体到影视领域,个性化推荐系统的价值也是显而易见的。今天的用户在互联网上消费影视产品时,他们面对的是数十万乃至上百万部影视作品的巨大库存,而且这个数字每年还在陆续地增加。单就国内来看,从2012—2017过去的五年间,我国的电影产量年均超过1000部、电视剧产量年均超过10000集。如果一名用户每天24小时不吃不睡只用来观看这些新增的影视作品,他的时间都是不够用的。在过去,几乎所有的视频网站都倾向于采用热门影视剧推荐的方式向所有用户进行千篇一律的内容推荐。举例而言,用户A和用户B登录某一家视频网站时,在两位用户的登录首页所看到的推荐作品是一样的,几乎都是最近一段时间比较热门的影视剧集,视频网站并不会因为两位用户的的性别、年龄、地域、职业、兴趣等差异化的属性,向他们分别推荐更符合各自口味的影像内容。这就会导致所有视频网站的几乎绝大部分流量都流向少数的所谓“头部”内容,出现80/20现象:即80%的流量流向了20%的热门作品,其余80%的作品分享了剩余的20%流量。这种粗放式的经营方式在过去个性化推荐技术尚不流行的时代还有其生存的空间,但是随着流量红利的褪去以及内容产业竞争的加剧,面向用户进行的更集约化、更精准化的运营方式对影视作品的个性化推荐系统提出了更高的要求,算法推荐也成为影视作品分发环节的标配。
从国际上看,Netflix在全球范围内都可以算得上较早进行影像内容个性化推荐的先行者,它从2006年悬赏百万美元进行推荐算法大赛开始,就一直致力于不断优化面向用户消费需求的影像内容推荐系统,并取得了令人瞩目的业绩。截止到2017年12月31日,Netflix全球用户总数已经达到1.1758亿人。其中,付费用户超过6000万,每天在其网站上的观看时长超过1亿小时,这在很大程度上得益于其面向用户进行个性化匹配的算法推荐系统。更值得一提的是,根据Netflix官方的粗略估算,其推荐系统每年为它节约的运营费用为10亿美元左右。正是因为Netflix对其推荐系统的高度自信,所以它大胆地在用户登录的首页就采用了个性化的推荐算法,用户登陆后首先看到的不是热门影视内容的推荐,而是为每名用户量身打造的差异化内容呈现。事实上,这一策略也的为Netflix带来了很好的回报:用户平均每3个小时的视频播放时长中就有2个小时是来自于用户登录首页的个性化推荐内容。为了减少用户漫无目的进行内容搜索与过滤的时间,Netflix综合运用了多种算法在登陆首页的最重要位置进行推荐,针对每位不同的用户都会有40行个性化的影视作品可供浏览选择,每行又有75部根据不同算法、不同标签和不同需求组合而成的推荐列表,而且每一部作品都清晰直白地向用户说明了进行推荐的理由,例如用户喜欢的演员阵容或网络评分等。涉及到具体的推荐算法,Netflix会根据用户的浏览记录选择相似的影像作品进行推荐、会根据内容排行榜的短期热点和周期性热点进行推荐、会根据继续观看的场景和用户搜索的场景进行推荐、会根据付费用户更加个人化的兴趣点进行推荐等。通过近几年不断改进和优化自身的算法,Netflix已經显著提高了它向用户推荐的影视作品的接受度,提升了这些内容的被播放比率。除了Netflix之外,YouTube也是全球范围内在影像领域运用推荐系统进行个性化分发的典型企业。2016年,在美国波士顿举办的第十届全球ACM推荐系统大会上,谷歌的研发团队发表了一篇题为《YouTube推荐系统中的深度学习网络》的论文,首次详细地公布了YouTube如何运用深度学习策略提升其推荐效果的技术细节。“跟谷歌其它领域的产品一样,YouTube同样经历了用深度学习来解决所有通用学习问题的根本性范式转变。”[4]这也就意味着,推荐系统将会针对用户的历史数据、即时场景以及各种其他复杂因素的不断变化而动态性地调整其所推荐的内容列表。
国内以影视作品为主的互联网企业在推荐算法方面起步较晚。2006年,Netflix尝试运用推荐系统进行作品分发时,国内的优酷、土豆等视频网站刚刚成立。尽管如此,国内的互联网企业近几年来也快速地在自身的业务领域加大了应用推荐系统的力度。例如,优酷在其首页上线了“优酷懂你”,向用户宣称看得越多其推荐的内容便会越符合用户的口味;腾讯视频上线了“你的专属频道”,通过算法为每位用户精挑细选量身打造一个个性化的内容频道;爱奇艺上线了“猜你喜欢”,以期借助于对过往浏览数据的挖掘找到用户可能会喜欢的同类内容;豆瓣的电影频道则专注于通过用户的“兴趣图谱”来挖掘标签体系和社交关系对于个性化影视作品推荐的巨大价值。事实上,未来的影视作品分发领域,版权和算法将是各大互联网企业能否在激烈的市场竞争环境下持续保持优势地位的两大关键要素。而随着数据挖掘、深度学习和人工智能技术不断地迭代进化,应用层面对于“千人千面”分发策略的不断完善也将推动着个性化推荐系统向着它的理想状态演进,从而使得内容平台方对用户的服务模式也逐渐从过去的主观臆断向基于数据的客观预測转变。
四、 面向算法时代的影像内容分发趋势
在一篇题为《2018年传媒业技术趋势报告》的文章中,未来今日研究所提到了作为传媒从业者我们应该重点关注的75个重要技术发展趋势,这其中的很多趋势与我们今天所提及的个性化推荐系统和智能算法息息相关,例如深度学习、机器阅读理解、计算传播学、5G通信网络等,这些技术都在以前所未有的程度影响着当前的影像内容乃至更多信息产品的分发模式朝着更加智能化的方向演进。举例而言,实时机器学习技术(Real-Time Machine Learning)意味着已经开发出来的计算机算法和智能硬件完全可以做到在获取数据的同时,马上根据已经取得的这些数据调整相应的模型了。在这样的前提下,真正能够称得上个性化的推荐算法就可以根据用户当前在手机应用(如抖音或腾讯视频)的浏览速度、关注焦点乃至用户情绪进行更加精准的内容推荐,或者实时调整页面的字体、颜色、风格以更适应不同用户的观看习惯。再如,这个研究所进行的更有意思的一项研究是,它的科学家正在训练机器人观看电视节目,而且在观看了大量的YouTube视频以及类似《绝望的主妇》这样的电视剧之后,这台基于人工智能的机器人设备已经能够非常准确地预测视频中的人物的下一个动作将要握手、击掌、拥抱或者亲吻了。这就意味着,算法可以根据对影像内容的预测以及对用户需求的预测实时地调整其所推荐内容的播放速度以更加符合用户的观看体验。事实上,无论是影像内容的分发环节,还是信息产品的产消流程,都将在已经开启的算法时代进行本质上的重构。推荐系统、人工智能、深度学习等技术创新背后的全新逻辑正在以更加广泛、更加深刻和更加具体的方式重塑着信息、内容、传播等领域的理论基础和现实基础,改造着我们通过媒体手段、内容产品和传播方式所建立起来的自身与他人之间的互动关系,并从根本上升华着每位用户的世界观和方法论。通过全新的算法逻辑和智能生态,推荐系统能更精确地依靠目标人群的兴趣图谱、用户画像和标签体系实现精准匹配,从而实现由“人找信息”到“信息找人”的本质性转变。因此,在未来的理想化的内容分发和信息传播景观中,任何非智能化、非个性化的内容推荐都在一定程度上可以被视为某种信息噪音,而如何过滤这些噪音则是推荐系统不断进化的核心使命。
参考文献:
[1]闫泽华.内容算法:把内容变成价值的效率系统[M].北京:中信出版社.2018:1.
[2]刘庆振.计算传播学:智能媒体视阈下传播学研究的新范式[J].教育传媒研究,2018(6):21-25.
[3]余传明,田鑫,郭亚静,安璐.基于行为——内容融合模型的用户画像研究[J].图书情报工作,2018(7):54-63.
[4]Paul Covington,Jay Adams,Emre Sargin.Deep Neural Networks for YouTube Recommendations.September 2016??the 10th ACM Conference[EB/OL].https://research.google.com/pubs/pub45530.html.