
2.4.1 评价指标难题
做任何事情都需要有明确的目标,对于推荐系统也是一样,我们需要定义清楚推荐系统的具体评价指标,这样才能明确推荐什么样的内容。但是“推荐”这个概念并不是通过单一指标就能评价好坏的,它并不像“身高180一定比身高170个子高”,通过身高这个指标来比较那样简单易懂,推荐是要“猜测用户可能感兴趣的内容并推荐给用户”,这样一个抽象的概念要细化成具体指标,会遇到不少结果和设想相悖的问题,我们举例如下。
如果以点击率作为优化目标,这个是很容易想到的指标,只要点击率高就代表推荐的内容是用户愿意看的,但一些低俗内容利用更吸引人眼球的图片、一些故意夸大事实的标题,往往能够获得高于均值的点击率,长此以往内容水化的概率会大大增高。
如果以用户使用时长作为优化目标,那么推荐系统则会不断地推荐连续剧或者时长高于15min的长视频,低于5min的视频不管质量如何其推荐占比一定会逐渐减小。
如果以完播率作为优化目标,那么推荐系统则会大幅度降低长视频的推荐率,甚至会导致那些毫无剧情、毫无质量,只有2~3s的短视频内容泛滥,这些视频用户稍微看一会儿就播完了,完播率几乎接近于100%。
如果以提高点赞、评论、分享这些互动率作为优化目标,那么势必会导致创作者在视频的评论区进行互动抽奖行为,私建微信群要求粉丝提高互动率等利益刺激行为,反而忽略创作的内容质量,同时会加大社区平台的审核工作量。
通过以上例子可以看出,推荐系统任何单一目标的初心都是美好的,但执行下来的结果往往会偏离本意,这些单一目标之间相互依赖,此消彼长,没有哪一个单一目标能够在各方面都取得完美的结果。那么是否能够通过多目标优化的方式来取得一个综合效果最好的结果呢?
我们拟定一个北极星指标,该指标是一个综合了点击率、用户使用时长、完播率、互动率等数据所加权计算出来的结果,然而每个单一指标在这个公式里所占据的权重也是一个难以计算的值,通过人工运营设置规则是没办法挑出最优解的,只能通过机器学习的方法去模拟出多目标建模的解,然后当某一个因子发生变化时,如果其权重过大,则会对推荐结果产生较大的影响,导致北极星指标失效,只能说,推荐系统的评价指标制定是一个需要业务人员和技术人员共同参与、长期探索的过程。