前提:今天受朋友的邀约,结合自己在推荐搜索系统下的经验,对企业级别特征工程应该如何进行设计,进行了一次分享,下面将这次分享的内容记录下来,以便有需要的朋友进行查看
一、融合众多推荐系统、搜索系统下的,特征系统的总结
1:一个好的特征搜索推荐业务特征体系一定要全面来进行设计,全面体现在这样几个板块上
(1):分商户、用户来进行提取(商户特征、用户特征、上下文特征)
(2):分类别来进行提取,比如静态特征、动态特征、交叉特征、向量特征等
(3):离线特征、实时特征
其中1 2是比较有交叉的一种描述,在实际中一般会同时考虑
2:详细介绍
(1):分商户、用户来进行提取(静态特征、动态特征、交叉特征、向量特征)
(2):
(3):
(4):
3:前面讲的是搜索推荐业务场景下通用的特征提取内容框架,下面我从抖音、快手、oppo浏览器、阿里妈妈这些业务场景下做具体分析
二、实际业务出发
1:阿里妈妈搜索广告转化预测
(1):数据格式
(2):特征设计
上面这些就是阿里妈妈在淘宝天猫业务场景下的数据特点,可以划分为这样几部分,对于这样的数据,我的特征设计格式会是下面这样
2:快手短视频预估分析
(1):数据格式
用户与作品的交互数据,每个字段的含义如下
a. 视觉特征(visual.zip):
作品的视觉特征以 numpy 格式存储于单独的文件中,可以通过numpy.load(filename)
进行读取,每条数据的维度为[1, 2048]
。
b. 人脸特征(face.txt ):
人脸特征描述封面中人脸的个数以及每个人脸的信息,包括人脸占整个图片的比例、人脸性别(0:女性,1:男性)、人脸年龄、相貌属性。
数据格式: photo_id \t json_serials
例:123456 [[0.20, 0, 18, 69], [0.23, 1, 20, 88]]
表示该作品封面中有两个人脸,其中第一个人脸的占比、性别、年龄和相貌属性分别为:0.20, 0, 18, 69;第二个人脸的占比、性别、年龄和相貌属性分别为:0.23, 1, 20, 88。
c. 文字描述特征(text.txt):
作品的封面文字(去掉标点符号以及无意义的数字)。分词过程使用开源项目 jieba。如“香辣蟹教程”,分词之后为香辣
,蟹
,教程
,脱敏后的值为 2972, 38252, 4202。
数据格式: photo_id \t cover_words
例:123456 \t 2972,38252,4202
表示id为123456的作品,封面文字经过分词和脱敏后的值为2972, 38252, 4202。
(2):特征设计
上面这些数据内容就是快手的这个应用场景下会使用到的用来训练推荐模型的数据,对于这样的数据,我们应该按照下面这种方式来提取特征
3:oppo浏览器数据分析
(1):数据格式
在oppo手机中搜索业务下有一个场景叫实时搜索(Instance Search),就是在用户不断输入过程中,实时返回查询结果。
这个数据来自OPPO手机搜索排序优化的一个子场景,并做了相应的简化,意在解决query-title语义匹配的问题。简化后,内容主要为一个实时搜索场景下query-title的ctr预估问题。
给定用户输入prefix(用户输入,查询词前缀)以及文章标题、文章类型等数据,预测用户是否点击。文章资源类别非全网资源,属部分垂直领域内容。
样例数据:
挂号 {"挂号信是什么": "0.023", "挂号网上预约": "0.029", "挂号网官网": "0.015", "挂号信": "0.082", "挂号": "0.066", "挂号信单号查询": "0.075", "挂号平台": "0.025", "挂号网": "0.225", "挂号信查询": "0.201", "挂号信查询中国邮政": "0.020", "挂号预约": "0.021"} 预约挂号网 应用 1
挂号 {"挂号信是什么": "0.023", "挂号网上预约": "0.029", "挂号网官网": "0.015", "挂号信": "0.082", "挂号": "0.066", "挂号信单号查询": "0.075", "挂号平台": "0.025", "挂号网": "0.225", "挂号信查询": "0.201", "挂号信查询中国邮政": "0.020", "挂号预约": "0.021"} 挂号网 网站 0
(2):特征工程
4:抖音短视频内容推荐
(1):数据格式
核心业务介绍:提供多模态的短视频内容特征,包括视觉特征、文本特征和音频特征,同时提供了脱敏后的用户点击、喜爱、关注等交互行为数据。需要通过一个视频及用户交互行为数据集对用户兴趣进行建模,然后预测该用户在另一视频数据集上的点击行为。
除此之外,还有一些抖音每个作品的音频向量、视频向量,这部分数据比较简单,能做的事情不太多
(2):特征工程
(1):各种各样的单类别特征和finish、like之间的交叉,这类特征一般会很有用 在线下,但是提取的时候一定要注意要用过去
的数据,而不能穿越了。
(2):因为是预测两个任务,finish和like,那么互相就可以提取一些可以更好表达对方的特征,相当于如果用户finish了那么like
的概率是多大
(3):规则类特征,在抖音里面,存在一部分使用者他是以商业为目的的,所以需要一些“刷单”的人把自己的作品给顶上去,这
些刷单的人凡是有交互就很有可能会同时点击finish或者like
(4):上面所有字段直接的一种交叉统计特征
前面在总体框架的时候,说到有实时特征,前面几个例子一直没介绍到,在最后讲解一些实时特征的做法
(5):实时特征
用户在过去1小时/最近几次交互中,实时ctr cvr是多少,交互的itemid中每种分类是多少个 |
用户在过去1小时中,一共交互多多少个itemid |
Itemid在最近10分钟、1小时、6小时的实时ctr是多少,实时交互人数是多少 |
Itemid在最近1小时的变化趋势是怎么样的 |
… |