长期视角下的搜索推荐梳理

内容梳理

推荐

推荐本质上是做用户和物品之间的匹配,我们需要

  • 对用户做理解
    • 了解用户意图
      • 探索、目的明确等
    • 了解用户的兴趣和偏好
      • 考虑用户的基础信息、历史行为和反馈等
      • 个体和群体
    • 上下文建模
      • 环境、地域、时间、社交关系等
    • 新用户理解(冷启动)
      • 互动、反馈
      • 基础信息
      • 探索利用
  • 对物品做理解
    • 物品之间的关联
      • 相似性的度量
      • 搭配组合
    • 新物品理解(冷启动)
      • 内容信息
      • 用户反馈
      • 探索利用
  • 对用户和物品之间的关联做理解
    • 供需
    • 个性化
  • 一些约束
    • 多样性
    • 新颖性
    • 公平性
    • 实时性
    • 商业性

上述的模式还可以进一步的扩展,匹配的对象不一定是用户和物品,可以是任意集合A和集合B的匹配,也可以是任意集合A内部的匹配,匹配的过程也可以看作是过滤掉其他非匹配项的过程

总结起来推荐系统可以称之为一个 带约束的匹配 系统 , 本质上也是一个 信息过滤 工具 , 提高信息获取效率

推荐常用范式:

  • 就像雕刻家将一块粗糙的大理石雕刻成一件精美的艺术品一样
    • 在大理石上用锤子和凿子切割和去除多余的部分(召回)(粗略、快速过滤、决定上限)
    • 在大理石上用精细的工具塑造和雕刻细节(排序)(精细、较慢、逼近上限)

其他环节

  • 数据准备、离线评估、部署使用、反馈链路等

搜索

资料收集

哲学视角

推荐和搜索引擎是技术在信息获取方面的代表

questions about

  • the nature of information
  • human cognition,
  • the role of technology in shaping our lives

search and recommendations

  • reflect our insatiable desire for knowledge and information.
  • risk
    • Cognitive biases and the potential formation of information bubbles.
    • Are we truly making independent choices or are we increasingly being guided by algorithms?
    • How does our reliance on these systems affect our sense of meaning, purpose, and fulfillment?
    • The design and implementation of recommender systems raise ethical considerations.
  • positive
    • Efficient Information Retrieval.This has empowered individuals with unprecedented access to information, enabling learning, problem-solving, and personal growth.
    • Recommendation systems have the ability to introduce users to new and unexpected content. This promotes serendipitous discoveries, widening our horizons and exposing us to diverse ideas, cultures, and perspectives.

推荐

角度

  • 用户意图理解:寻找特定的、随意探索等
  • 用户环境关注:例如地点、时间等
  • 个性化

基础流程

  • 定义目标和指标
  • 数据收集与处理
  • 推荐算法的选择与实现
  • 模型训练和评估
  • 服务部署
  • 用户界面与交互
  • 监控和迭代优化

关注召回和排序

  • 召回(高效地从庞大的物品集中快速筛选出有限的候选集)

    • 多样性和覆盖
      • 多路召回策略要保证推荐列表的多样性,同时确保覆盖所有可能的用户兴趣点。例如,可以结合基于内容的召回,用户的历史行为召回,标签的召回和社交网络召回等,来提高覆盖率。
    • 效率与扩展性
      • 由于实时性的要求和大规模数据的处理,召回链路需要高效的算法和合理的架构设计来保证低延迟的响应。使用如倒排索引、MinHash、LSH(局部敏感哈希)等技术,可以加快召回的速度。
    • 实时性与动态性
      • 召回策略要能够快速反映用户的最新行为和物品的最新状态,例如利用用户的实时点击行为进行召回,或者把最新上架的物品纳入召回考虑。
    • 精准度与召回率
      • 在保证高召回率的同时,召回的准确性也非常重要,这要求算法能够挖掘出和用户兴趣高度相关的物品。精准度和召回率之间通常存在一定的平衡,需要根据实际业务需求调整。
    • 冷启动问题
      • 针对新用户或新物品,传统的召回策略可能无法工作,因此需要设计专门的冷启动召回机制,如利用内容特征进行召回。
    • 长尾效应
      • 工业界的召回系统还需要关注长尾物品的发掘,增加少见物品的曝光机会,从而平衡热门和非热门物品的推荐比例。
  • 排序

搜索

后续整理