推荐系统实战(二)特征工程

一、特征提取

特征Feature与特征域Feature Field

  • 特征:特征是数据集中的一个可量化的属性或变量,它能够提供有关数据对象的信息。特征可以是连续的数值,如温度或身高,也可以是离散的类别,如性别或颜色。特征是从原始数据中提取的,用于描述数据对象的属性,它们是机器学习模型进行预测或分类的基础。
  • 特征域:特征域通常指的是由多个特征组成的多维空间。每个特征是一个维度,数据点在这个空间中可以表示为向量。比如用户浏览历史中的商品列表是一个feature field,特定商品ID是 feature。

(一)物料画像

1、物料静态画像

(1)物料属性

可以直接从物料中获取的信息,比如物料上传者、物料上传时间、物料标题等等。

(2)物料的类别与标签
  • 获取途径:不依赖用户反馈,可以通过分析物料获得类别与标签。
  • 内容分析:①可以通过内容分析获取物料从属于某个类别或者某种标签的概率。②例子:比如可以通过BERT分析文本标题等信息,利用机器视觉算法分析视频封面等信息。③内容分析结果:一级分类,比如电影、音乐等等;二级分类,比如喜剧片、科幻片等等;标签,不从属于具体某个类别,比如某个明星的名字作为标签,可能在电影类别的文章上出现,也可能在音乐类别的文章中出现。
  • 物料的静态画像:表示形式可以为列表,比如[‘电影',’音乐']。

2、基于内容的embedding

将一个高维数据转换成方便处理的低维数据,把内容数据(如文本、图像、音频等)转换为固定长度的向量,这些向量能够捕捉内容的语义或特征信息,从而便于在低维空间中进行处理和计算。

3、物料的动态画像

  • 特点:是后验统计量,作为特征可能存在马太效应,使得本来推荐率更高的物料排的更靠前。
  • 地位:物料端最重要的特征,反映了物料的受欢迎程度。
  • 维度:时间粒度,比如一天、一周等等;统计对象,比如CTR、平均播放时长等等。

4、用户给物料反向打标签

消费过某个物料的用户身上的标签反向影响物料,丰富物料信息。

(二)用户画像

1、用户静态画像

  • 内容:比较稳定的用户信息,比如人口属性(年龄、性别等)。
  • 获取难点:用户隐私。
  • 新用户的静态画像:对新用户而言,由于缺乏行为数据,因此会较为依赖静态画像来做推荐。但是由于系统中老用户的行为丰富,贡献的样本多,因此训练出的模型可能对新用户不友好。
  • UserID:用户侧最细粒度的个性化信息,但是覆盖用户数目多,特征空间膨胀,可以引入Parameter Server来解决。

2、用户动态画像

①内容

指的是从用户历史行为数据中提取出用户的兴趣爱好,可以反映用户兴趣爱好的动态迁移。

②获取方式

(1)兴趣爱好提取与CTR预测一体:

  • 优点:简单直接,不用做过多的特征处理。
  • 缺点:面对比较久的历史行为数据和候选集较大的任务,由于兴趣爱好是在线提取的,耗时长不友好;提取出的用户兴趣以抽象的向量表示,可解释性较弱。
  • 简单例子:将一段时间与用户交互过的物料序列喂给模型,提取出一个向量,表示用户兴趣的抽象表达。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值