基于Tensorflow的电影推荐系统

    

    摘 要:随着大數据、区块链、人工智能等信息新技术的出现和应用,我们已经进入到数据大爆炸时代,海量数据在为用户带来丰富选择的同时也对用户快速检索到需求的信息,企业准确把握用户的需求提出挑战。个性化推荐系统是基于海量企业运营数据,通过挖掘产品数据和用户数据隐藏的信息,实现的针对不同用户的“千人千面”的个性化推荐服务,有助于企业精准把握用户需求,创造价值增益。

    关键词:大数据;个性化推荐;机器学习

    DOI:10.12249/j.issn.1005-4669.2020.25.320

    1 引言

    在近年来,随着电子商务的兴起,推荐系统得到了更为广泛的应用,同时也为推荐系统的研究注入了新的活力,例如Amazon、eBay、淘宝网等都采用了智能推荐系统来为用户提供个性化的推荐服务。高质量的推荐能够增加用户对网站的信任度,使用户产生依赖心理,提高用户对网站和企业的忠诚度。除了在电子商务领域的应用之外,随着个性化的信息服务逐渐成为应用技术的热点,推荐系统在新闻、电影、书籍、微博等的个性化推荐中也取得了不同程度的成功。

    目前,随着人们在推荐算法领域的不断研究,提出了许多准确度高、可解释性强的推荐算法,本片论文将基于内容的推荐和协同过滤推荐算法进行组合,提出一种联合推荐算法并进行实验。

    2 推荐系统模型

    推荐系统是商家和企业为了创造商业增益,增加用户黏度,通过对用户历史行为数据和用户信息数据进行分析,发掘用户兴趣点,向用户准确推送感兴趣的商品而应用的一套数据处理和分析系统。整个系统应当包括输入,推荐引擎和输出三个部分,如下图1所示。

    其中,输入包括用户静态信息如姓名、性别、年龄等以及用户动态信息包括消费记录、兴趣倾向、反馈信息等。推荐引擎是整个推荐系统所采用的推荐算法,包括基于内容的推荐、基于用户的推荐、协同推荐等。输出是推荐系统根据推荐引擎对输入数据的处理,产生的待推荐产品列表,并将这些产品进行排序,推送给用户。

    2 实验介绍

    1)数据集。本实验所采用的数据集是https://grouplens.org/datasets/movielens网站下载的ml-latest-small数据集。整个数据集统计了最近一段时间用户对不同电影的评分情况,整个数据集包括611名用户和9742部电影,数据基于现实统计,真实可信。

    2)联合推荐算法原理。对于基于内容的推荐算法而言[1],需要根据每部电影的内容以及用户已经评过分的电影来推断每个用户对每部电影的喜好程度,从而预测每个用户对没看过的电影的评分。因此,要实现基于内容的推荐系统,除了电影评分矩阵外还需要引入一个电影内容矩阵X作为算法输入,X矩阵的横向代表每部电影,纵向代表电影的特征维度。算法的目标是要根据用户-电影评分表和电影内容矩阵X推导出用户兴趣矩阵θ,然后将用户兴趣矩阵θ与电影内容矩阵X相乘,得到用户对电影的预测评分矩阵并进行排序推荐。整个算法的代价公式为:

    对于协同过滤推荐算法而言[3],则是需要根据用户对每种电影类型的喜好程度以及用户已经评过分的电影来推断每部电影的内容,从而预测每个用户对没看过电影的评分。因此,要实现协同过滤推荐系统,处理电影评分表外还需要引入一个用户兴趣矩阵θ作为输入,θ矩阵横向代表每个用户,纵向代表电影特征。算法的目标是要根据用户-电影评分表和用户兴趣矩阵θ推导出电影内容矩阵X,然后将用户矩阵θ与电影内容矩阵X相乘,得到用户对电影的预测评分矩阵并进行排序推荐,整个算法的代价公式为:

    根据基于内容的推荐算法和协同推荐算法原理,我们考虑将两种算法结合实现联合推荐。对于联合推荐算法不需要额外引入输入信息[2],只需要根据已有的用户-电影评分表,通过初始化电影特征矩阵X和用户兴趣矩阵θ构建训练模型,并通过模型训练保证训练后的X矩阵和θ矩阵符合实际预测,将二者相乘获得预测评分矩阵并进行排序推荐。整个算法的代价公式为:

    在产生电影内容矩阵X以及用户喜好矩阵θ的过程中,除了依据梯度下降原理调整矩阵X和矩阵θ的值使联合推荐代价公式J(X,θ)收敛之外,考虑采用最小化二乘法的思想,初始固定X值优化θ参数,然后固定θ值优化X参数,逐步迭代直至代价函数J(X,θ)收敛。

    3)实验结果。实验通过Tensorflow对电影内容矩阵X和用户兴趣矩阵θ进行初始化使之符合正态分布,并对实验模型进行了2000次训练,通过统计预测评分矩阵predicts与实际评分矩阵rating各项的误差和作为模型误差,并根据预测得分predicts矩阵实现针对不同用户的评分最高的20部电影的推荐。实验结果如下图2所示:

    4 结语

    个性化推荐系统针对目前电子商务以及新闻传媒等行业面临的商业困境,可以从海量用户数据和产品数据中准确筛选用户需求和用户消费趋向,有助于企业和网站准确把握用户兴趣点,实现服务升级和产品优化,同时对于用户也减少了检索代价,提高了服务满意度。本篇论文通过联合推荐算法减少了额外的算法输入和算法代价,提高了算法运行效率,实现了精准的针对不同用户的电影推荐。

    参考文献

    [1]曹毅,贺卫红.基于内容过滤的电子商务推荐系统研究[J].计算机技术与发展,2009,019(006):182-185.

    [2]李忠俊,周启海,帅青红.一种基于内容和协同过滤同构化整合的推荐系统模型[J].计算机科学,2009,36(012):142-145.

    [3]石丽丽.个性化推荐中协同过滤算法研究[D].河南大学,2012.

    作者简介

    王杰(1996-),男,汉族,山西运城人,学生,工学硕士,华北电力大学控制与计算机工程学院计算机科学与技术专业,研究方向:机器学习。