Model-Based 协同过滤算法 | 更文挑战-一一网

“这是我参与更文挑战的第7天，活动详情查看：更文挑战”

随着机器学习技术的逐渐发展与完善，推荐系统也逐渐运用机器学习的思想来进行推荐。将机器学习应用到推荐系统中的方案真是不胜枚举。以下对Model-Based CF算法做一个大致的分类：

基于分类算法、回归算法、聚类算法
基于矩阵分解的推荐
基于神经网络算法
基于图模型算法

基于K最近邻的协同过滤推荐

基于K最近邻的协同过滤推荐其实本质上就是MemoryBased CF，只不过在选取近邻的时候，加上K最近邻的限制。

这里我们直接根据MemoryBased CF的代码实现

修改以下地方

class CollaborativeFiltering(object):

    based = None

    def __init__(self, k=40, rules=None, use_cache=False, standard=None):
        '''
        :param k: 取K个最近邻来进行预测
        :param rules: 过滤规则，四选一，否则将抛异常："unhot", "rated", ["unhot","rated"], None
        :param use_cache: 相似度计算结果是否开启缓存
        :param standard: 评分标准化方法，None表示不使用、mean表示均值中心化、zscore表示Z-Score标准化
        '''
        self.k = 40
        self.rules = rules
        self.use_cache = use_cache
        self.standard = standard
复制代码

修改所有的选取近邻的地方的代码，根据相似度来选取K个最近邻

similar_users = self.similar[uid].drop([uid]).dropna().sort_values(ascending=False)[:self.k]

similar_items = self.similar[iid].drop([iid]).dropna().sort_values(ascending=False)[:self.k]
复制代码

但由于我们的原始数据较少，这里我们的KNN方法的效果会比纯粹的MemoryBasedCF要差

基于回归模型的协同过滤推荐

如果我们将评分看作是一个连续的值而不是离散的值，那么就可以借助线性回归思想来预测目标用户对某物品的评分。其中一种实现策略被称为Baseline（基准预测）。

Baseline：基准预测

Baseline设计思想基于以下的假设：

有些用户的评分普遍高于其他用户，有些用户的评分普遍低于其他用户。比如有些用户天生愿意给别人好评，心慈手软，比较好说话，而有的人就比较苛刻，总是评分不超过3分（5分满分）
一些物品的评分普遍高于其他物品，一些物品的评分普遍低于其他物品。比如一些物品一被生产便决定了它的地位，有的比较受人们欢迎，有的则被人嫌弃。

这个用户或物品普遍高于或低于平均值的差值，我们称为偏置(bias)

Baseline目标：

找出每个用户普遍高于或低于他人的偏置值 $b_u$
找出每件物品普遍高于或低于其他物品的偏置值 $b_i$
我们的目标也就转化为寻找最优的 $b_u$ 和 $b_i$

使用Baseline的算法思想预测评分的步骤如下：

计算所有电影的平均评分 $\mu$ （即全局平均评分）
计算每个用户评分与平均评分 $\mu$ 的偏置值 $b_u$
计算每部电影所接受的评分与平均评分 $\mu$ 的偏置值 $b_i$
预测用户对电影的评分：

\hat{r}_{ui} = b_{ui} = \mu + b_u + b_i
复制代码

文章版权归作者所有，未经允许请勿转载。

THE END

开发工具

《能力陷阱》——能力是优势，也是陷阱

RealNetworks RealPlayer和Helix Player格式串处理漏洞

HP-UX Passwd不明本地拒绝服务漏洞

TCP实现发送消息和文件上传–Java网络编程（二）｜Java 开发实战

【算法】插入排序图文讲解

IBM Rational ClearQuest 跨站脚本漏洞

Model-Based 协同过滤算法 | 更文挑战

基于K最近邻的协同过滤推荐

基于回归模型的协同过滤推荐

Baseline：基准预测