一、特征提取
特征Feature与特征域Feature Field
- 特征:特征是数据集中的一个可量化的属性或变量,它能够提供有关数据对象的信息。特征可以是连续的数值,如温度或身高,也可以是离散的类别,如性别或颜色。特征是从原始数据中提取的,用于描述数据对象的属性,它们是机器学习模型进行预测或分类的基础。
- 特征域:特征域通常指的是由多个特征组成的多维空间。每个特征是一个维度,数据点在这个空间中可以表示为向量。比如用户浏览历史中的商品列表是一个feature field,特定商品ID是 feature。
(一)物料画像
1、物料静态画像
(1)物料属性
可以直接从物料中获取的信息,比如物料上传者、物料上传时间、物料标题等等。
(2)物料的类别与标签
- 获取途径:不依赖用户反馈,可以通过分析物料获得类别与标签。
- 内容分析:①可以通过内容分析获取物料从属于某个类别或者某种标签的概率。②例子:比如可以通过BERT分析文本标题等信息,利用机器视觉算法分析视频封面等信息。③内容分析结果:一级分类,比如电影、音乐等等;二级分类,比如喜剧片、科幻片等等;标签,不从属于具体某个类别,比如某个明星的名字作为标签,可能在电影类别的文章上出现,也可能在音乐类别的文章中出现。
- 物料的静态画像:表示形式可以为列表,比如[‘电影',’音乐']。
2、基于内容的embedding
将一个高维数据转换成方便处理的低维数据,把内容数据(如文本、图像、音频等)转换为固定长度的向量,这些向量能够捕捉内容的语义或特征信息,从而便于在低维空间中进行处理和计算。
3、物料的动态画像
- 特点:是后验统计量,作为特征可能存在马太效应,使得本来推荐率更高的物料排的更靠前。
- 地位:物料端最重要的特征,反映了物料的受欢迎程度。
- 维度:时间粒度,比如一天、一周等等;统计对象,比如CTR、平均播放时长等等。
4、用户给物料反向打标签
消费过某个物料的用户身上的标签反向影响物料,丰富物料信息。
(二)用户画像
1、用户静态画像
- 内容:比较稳定的用户信息,比如人口属性(年龄、性别等)。
- 获取难点:用户隐私。
- 新用户的静态画像:对新用户而言,由于缺乏行为数据,因此会较为依赖静态画像来做推荐。但是由于系统中老用户的行为丰富,贡献的样本多,因此训练出的模型可能对新用户不友好。
- UserID:用户侧最细粒度的个性化信息,但是覆盖用户数目多,特征空间膨胀,可以引入Parameter Server来解决。
2、用户动态画像
①内容
指的是从用户历史行为数据中提取出用户的兴趣爱好,可以反映用户兴趣爱好的动态迁移。
②获取方式
(1)兴趣爱好提取与CTR预测一体:
- 优点:简单直接,不用做过多的特征处理。
- 缺点:面对比较久的历史行为数据和候选集较大的任务,由于兴趣爱好是在线提取的,耗时长不友好;提取出的用户兴趣以抽象的向量表示,可解释性较弱。
- 简单例子:将一段时间与用户交互过的物料序列喂给模型,提取出一个向量,表示用户兴趣的抽象表达。

1111

被折叠的 条评论
为什么被折叠?



