所谓少数人的智慧,实际指是的作者提出的基于专家的协同过滤(CF)在某些方面要优胜于传统的CF算法。

最后的总结作者吹嘘了一番专家CF相比于传统CF的几大优势: 数据稀疏性:推荐数据集固有的数据稀疏问题会因为信息量不足而带来一些额外的问题,专家收藏的数据稀疏度要比全体用户收藏的稀疏程度要低,即有更多的可参考的信息。

噪声评分:数据集里面难免会存在一些噪声评分,无论用户是有意的还是无意的,甚至还有些故意捣乱的用户或spammer。而专家在这方面则可靠得多,而且个人意见也比较容易保持一致。

冷启动问题:这是专家CF的一大卖点。对于用户冷启动,由于数据稀疏性与噪声问题而造成的问题,在专家CF里得到了不错的解决。 实验也证明了这一点。对于条目冷启动,由于专家更具有前瞻性,所以新条目更容易通过专家而进入到推荐池中。

可扩展性:如果直接使用基于用户相似度的CF算法进行推荐,在实际系统中几乎是不可行的,因为构造一个用户相似度矩阵是如此地庞大。而使用量要少得多的专家作为相似度矩阵的一个维度,矩阵的规模则现实得多。

隐私:这里还考虑了这样的一种可能性,即不需要你把数据传递到服务器,只需要把专家喜好传递到客户端,与你本地的收藏相匹配,然后服务器给你返回相应的推荐,避免了服务器记录你的收藏。

我补充一下,其实专家CF的对条目的覆盖面与多样性应该要更好一些,这跟专家收藏数量以及收藏的覆盖面更广这个特性有关。

看这篇文章,更多的是看文中阐述的思想,虽然这可能并不是他们首创的,但毕竟他们作了一个很好的总结与分析。 我一直在思索我们到底需要什么样的推荐,最近我觉得:至少在大部分的场合,我们需要的并不是与自己相似的用户的推荐,而是与自己相似的专家的推荐。 无论是看书、看电影、买手机、买笔记本,那批“行内人 物”的观点往往是左右我们决定的主要因素。这个结论在个性化要求相对比较低的中国显得更为真实。

论文解读

参考资料

https://zhuanlan.zhihu.com/p/27918429