Chap2 作业

2018-04-15 发布

2485 字 • 7 分钟

Task：调研豆瓣读书的书籍详情页中，「喜欢这本书的人也喜欢」这个推荐模块的效果。

注：下述表格内容需在科学上网模式下才可正常查看。

明确需求理想态

从公司整体业务链条来分析，该推荐模块理想态为：

用户想发现更多自己喜欢的书，通常有以下场景：

想主题阅读：比如要解决某个问题，或有某些阅读偏好或习惯。这类诉求可通过同关键词推荐、同豆列推荐、同类用户（标记了想读此书，或给此书四星及以上评价）关联行为推荐、同类作者推荐、豆瓣评分等，计算出「喜欢度」指标 Top10 。
想系统了解某位作者的思想，跟「人」读书：比如想读透芒格、司马贺等。这类诉求可通过作者名字直接定位其相关著作，故同作者推荐在推荐策略中权重较低即可；但若要深入了解某人思想，肯定少不了了解他人对该思想的评价，故依然需要上述主题阅读的推荐策略。

综合同关键词推荐、同豆列推荐、同类用户（标记了想读此书，或给此书四星及以上评价）关联行为推荐、同类作者推荐、豆瓣评分、同作者著作维度等，计算出「喜欢度」指标 Top10 后，又考虑到上述理想状态 2 的要求，再匹配豆瓣已有电子书目，将有电子版的图书排序适当提前。

取样数量：5 本（严谨取样应抽查至少 30 个样本才能代表整体情况，时间有限，所以只选了 5 个样本来示意思路）
取样来源：本次调研目的是发现问题，为提升效率，特地从个人熟悉领域选了几本熟悉的，且有关联而推荐结果不太理想的 5 本图书来验证上述猜想：
- 文献读写：
  - 会读才会写 (豆瓣)
  - 研究生完全求生手冊 (豆瓣)
- 积极心理学：
  - 心流 (豆瓣)
  - 三生有幸 (豆瓣)
- 育儿/脑科学：
  - 给孩子的未来脑计划 (豆瓣)

发现主要有以下问题：

phenomenon 1:

现象：不少没有评分的图书，也会出现在推荐列表中，比如 case1《会读才会写》 case2《研究生完全求生手册》的推荐
分析及建议
- 看来在推荐规则中图书评分权重不高，或没有评分也能纳入推荐。
- 也好，要不容易有马太效应——有些小众好书读的人少，如果一直没有评分无法被推荐，那读的人更少更难被推荐了。

phenomenon 2:

现象：推荐图书最低分是 7.2
分析及建议
- 7.2 在豆瓣图书评分中算是不太好的图书了吧，出现在推荐列表中，说明推荐规则里可能没有过滤评分较低的书籍。
- 为了给用户推荐更优质的图书，建议在推荐规则中加入图书评分限制：比如豆瓣图书评分在标准四区间往左的，不纳入推荐列表。

phenomenon 3:

phenomenon 4:

现象：case4《三生有幸》 case5《给孩子的未来脑计划》，这俩图书的推荐图书，其实以其主题或关键词，还有很多更适合的图书。现在推荐的这些，则和不少特定群体在豆瓣上的行为有关——这两本书都刚上市不到半年，推荐图书大部分是开智社群成员在读的图书，和关键词没多大关系。而当当、亚马逊等购物平台推荐，对《三生有幸》的推荐更集中在积极心理学，对《给孩子的未来脑计划》的推荐集中在育儿类图书，这更契合大众口味。
分析及建议
- 同类用户关联行为推荐权重过大，甚至大过了关键词推荐。
- 建议设定同类用户关联行为推荐权重上限，以便给更多用户带来更好的体验。毕竟特定社群人数有限，而大众和社群的口味不一定相同。

phenomenon 5:

现象：
- 豆瓣图书推荐模块有 2 个：「喜欢读"XXX"的人也喜欢的电子书」、「喜欢读"XXX"的人也喜欢」，且前者排在后者上方
- 有合适的书且豆瓣有电子书，会优先出现在「喜欢这本书的人也喜欢的电子书」推荐模块。有时候电子书没有收录合适的图书，则会推荐一些无关的，当然也有时候则没推荐。
分析及建议
- 前文推测的理想态 2 合理。
- 但这样容易给用户造成困扰影响用户体验，建议将电子书和实体书推荐模块合并，增加有电子书的图书的权重，并在呈现时特殊标注，吸引用户注意。

phenomenon 6:

现象：中文书下很少推荐同一主题的英文书。比如《会读才会写》和《研究生完全求生手册》，关联豆列（社会科学研究方法、学术方法与工具）里头推荐了很多相关的人会感兴趣的书，可能由于这些是英文书，都没出现在推荐列表里。
分析及建议
- 豆瓣可能觉得英文图书在国内受众不多，且豆瓣收录的英文书不多、很多都没有评分、标签，所以这些书被索引到的概率较低。
- 但这容易引发恶性循环：那些喜欢读英文书的朋友发现这里很少推荐英文书，便不太愿意来这里查书、找书，使得这些书被收录、有标签、有评分、有评论的概率更低。
- 所以，如果豆瓣想让站内英文书籍也更丰富，最好做些干预，比如自动抓取或 UGC 奖励增补更多英文图书标签。

phenomenon 7: