推荐系统实战（二）特征工程

原创

已于 2024-08-22 14:30:07 修改 · 2.1k 阅读

·

31

·

于 2024-07-29 18:06:19 首次发布

一、特征提取

特征Feature与特征域Feature Field

特征：特征是数据集中的一个可量化的属性或变量，它能够提供有关数据对象的信息。特征可以是连续的数值，如温度或身高，也可以是离散的类别，如性别或颜色。特征是从原始数据中提取的，用于描述数据对象的属性，它们是机器学习模型进行预测或分类的基础。
特征域：特征域通常指的是由多个特征组成的多维空间。每个特征是一个维度，数据点在这个空间中可以表示为向量。比如用户浏览历史中的商品列表是一个feature field，特定商品ID是 feature。

（一）物料画像

1、物料静态画像

（1）物料属性

可以直接从物料中获取的信息，比如物料上传者、物料上传时间、物料标题等等。

（2）物料的类别与标签

获取途径：不依赖用户反馈，可以通过分析物料获得类别与标签。
内容分析：①可以通过内容分析获取物料从属于某个类别或者某种标签的概率。②例子：比如可以通过BERT分析文本标题等信息，利用机器视觉算法分析视频封面等信息。③内容分析结果：一级分类，比如电影、音乐等等；二级分类，比如喜剧片、科幻片等等；标签，不从属于具体某个类别，比如某个明星的名字作为标签，可能在电影类别的文章上出现，也可能在音乐类别的文章中出现。
物料的静态画像：表示形式可以为列表，比如[‘电影'，’音乐']。

2、基于内容的embedding

将一个高维数据转换成方便处理的低维数据，把内容数据（如文本、图像、音频等）转换为固定长度的向量，这些向量能够捕捉内容的语义或特征信息，从而便于在低维空间中进行处理和计算。

3、物料的动态画像

特点：是后验统计量，作为特征可能存在马太效应，使得本来推荐率更高的物料排的更靠前。
地位：物料端最重要的特征，反映了物料的受欢迎程度。
维度：时间粒度，比如一天、一周等等；统计对象，比如CTR、平均播放时长等等。

4、用户给物料反向打标签

消费过某个物料的用户身上的标签反向影响物料，丰富物料信息。

（二）用户画像

1、用户静态画像

内容：比较稳定的用户信息，比如人口属性（年龄、性别等）。
获取难点：用户隐私。
新用户的静态画像：对新用户而言，由于缺乏行为数据，因此会较为依赖静态画像来做推荐。但是由于系统中老用户的行为丰富，贡献的样本多，因此训练出的模型可能对新用户不友好。
UserID：用户侧最细粒度的个性化信息，但是覆盖用户数目多，特征空间膨胀，可以引入Parameter Server来解决。

2、用户动态画像

①内容

指的是从用户历史行为数据中提取出用户的兴趣爱好，可以反映用户兴趣爱好的动态迁移。

②获取方式

（1）兴趣爱好提取与CTR预测一体：

优点：简单直接，不用做过多的特征处理。
缺点：面对比较久的历史行为数据和候选集较大的任务，由于兴趣爱好是在线提取的，耗时长不友好；提取出的用户兴趣以抽象的向量表示，可解释性较弱。
简单例子：将一段时间与用户交互过的物料序列喂给模型，提取出一个向量，表示用户兴趣的抽象表达。

标签

#机器学习 #推荐算法

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。