wide & Deep tensorflow实现

前言
  最近读了下Google的两篇文章《Wide&Deep Learning》和《Deep&Cross Network》,趁着热乎比较下,顺道写个demo,免得后面用的时候瞎搞。 
  前者是用来给用户推荐潜在喜欢的APP;后者是用来预测用户可能点击的广告排序。基于用户基本信息和行为日志来做个性化的推荐,是商业化的重要一步,做得好,用户使用起来甚是满意,广告商支付更多费用;做得差,大家只能喝喝西风,吃点咸菜。

Why Deep-Network ?
  关于推荐,前面博文FTRL系列讲过,那是种基于基本特征和二维组合特征的线性推荐模型。其优点:模型简单明白,工程实现快捷,badcase调整方便。缺点也很明显:对更高维抽象特征无法表示,高维组合特征不全。而Deep-Network能够表达高维抽象特征,刚好可以弥补了线性模型这方面的缺点。

Why Cross-Network ?
  组合特征,为什么止步于两维组合?多维组合,不单说手挑组合特征费时费力,假设特征都组合起来,特征的数量非得彪上天不可。但是Cross-Network(参考5)则可以很好地解决组合特征的数量飙升的问题。所以说,并不是问题真难以解决,只不过牛人还没有解它而已。 
结构比较 
  啥都不如图明白,直接上图,左侧 Wide and Deep Network 右侧 Deep and Cross Network 


  上面两个图清晰地表示了两种方法的框架结构。
特征输入
  1)W&D的特征包括三方面: 
    User-Feature:contry, language, demographics. 
    Contextual-Feature:device, hour of the day, day of the week. 
    Impression-Feature:app age, historical statistics of an app. 
  1.1)Wide部分的输入特征: 
    raw input features and transformed features [手挑的交叉特征]. 
    notice: W&D这里的cross-product transformation: 
    只在离散特征之间做组合,不管是文本策略型的,还是离散值的;没有连续值特征的啥事,至少在W&D的paper里面是这样使用的。 
  1.2)Deep部分的输入特征: raw input+embeding处理 
    对非连续值之外的特征做embedding处理,这里都是策略特征,就是乘以个embedding-matrix。在TensorFlow里面的接口是:tf.feature_column.embedding_column,默认trainable=True. 
    对连续值特征的处理是:将其按照累积分布函数P(X≤x),压缩至[0,1]内。 
    notice: Wide部分用FTRL+L1来训练;Deep部分用AdaGrad来训练。 
  Wide&Deep在TensorFlow里面的API接口为:tf.estimator.DNNLinearCombinedClassifier 
  2)D&C的输入特征及处理: 
    所有输入统一处理,不再区分是给Deep部分还是Cross部分。 
    对高维的输入(一个特征有非常多的可能性),加embeding matrix,降低维度表示,dense维度估算:6∗(category−cardinality)1/46∗(category−cardinality)1/4。 
    notice:W&D和D&C里的embedding不是语言模型中常说的Word2Vec(根据上下文学习词的低维表示),而是仅仅通过矩阵W,将离散化且非常稀疏的one-hot形式词,降低维度而已。参数矩阵的学习方法是正常的梯度下降。 
    对连续值的,则用log做压缩转换。 
    stack上述特征,分别做deep-network和Cross-network的输入。 
cross解释 
  cross-network在引用5中有详细介绍,但是在D&C里面是修改之后的cross-network。 
xl=x0∗xTl−1∗wembedding+b+xl−1
xl=x0∗xl−1T∗wembedding+b+xl−1

  单样本下大小为:x0=[d×1]x0=[d×1];xl=[d×1]xl=[d×1]; wembedding=[d×1]wembedding=[d×1];b=[d×1]b=[d×1],注意 w是共享的,对这一层交叉特征而言,为啥共享呢,目测一方面为了节约空间,还一个可能原因是收敛困难(待定)。
tf实现D&C的注意事项
  1)mult-hot的特征表示问题 
    tf.feature_column.indicator_column来表示。 
    注意,_IndicatorColumn不支持叠加_EmbeddingColumn操作。 
  2)embedding问题 
    tf.feature_column.embedding_column来表示,默认trainable=True 
    特征间共享embed: tf.contrib.layers.shared_embedding_columns 
  3)数据读入的问题 
    dataset流解析函数要在input_fn内部。 
    tf.cast 与 tf.string_to_number。 
  4)tf.estimator.Estimator问题 
    自定义的model_fn的参数params项,是显式地传递。 
    注意,estimator本身带有异步更新的机制,SycOpt。 
  5)cross-network的实现 
    借助广播来计算。 
    验证,tile是不影响原始参数梯度计算的。 
  6)不定长特征的embedding 
    tf.feature_column + estimator 
    是不支持不定长特征的处理的,仅支持定长的。 
    只能用tf.nn.embedding_lookup_sparse来处理不定长特征。 
    对字符串离散不定长特征的示例代码附在后面。 
    非用tf.feature_column处理不定长特征,会有报错 
    convert Sparse Tensor to Tensor的维度错误,但是不知道内部哪里的错。

tf_debug
  因为是用tf.estimator写的模型,无法使用print查看内部变量,调试就成了大问题。tf.estimator在设计的时候,考虑到了这种情况,将其设计为可接收外部定义的hook,支持tf_debug。详细代码见下面的mult.py。 
  hook的样式,params[‘hooks’] = 
  [tf_debug.LocalCLIDebugHook()], 
  然后传递到estimator内部,给train或者evaluate使用。 
  用tf_debug查看内部变量,举个栗子,想看下 
  tf.feature_column.embedding_column的combiner=sum是怎么个操作。 
  某特征输入: 
  1)State-gov|human 2)Self-emp-not-inc|human 3)State-gov|human 
  为了方便,初始化embedding-matrix=ones. 


  debug下运行,得到embedding-mat变量如下: 


  对特征的处理结果:编码表示和index值(embedding输入侧的的索引值) 


  发现embedding-vec如下: 


  发现:其中的combiner=sum是依照index找到embedding-vec,然后对embedding_vec加和得到embedding结果的。自行替换成随机初始化的embedding-matrix,得到同样的验证结果。
github 源码
  利用tf.feature_column + dataset + tf.estimator 实现Deep and Cross。 
  数据集是census income dataset。 
  D&C 测试 demo : https://github.com/jxyyjm/tensorflow_test/blob/master/src/deep_and_cross.py 
  tf_debug 测试 demo : https://github.com/jxyyjm/tensorflow_test/blob/master/src/multi.py 
  下面给出cross_计算在tf里面的多种实现,对tf.matmul /tf.tensordot的应用是核心,简洁高效是重要的。

#!/usr/bin/python
# -*- coding:utf-8 -*-
import tensorflow as tf
import sys 
reload(sys)
sys.setdefaultencoding('utf-8')

def cross_op(x0, x, w, b): 
  ## absolute the defination 计算速度最慢,低效 ##
  x0 = tf.expand_dims(x0, axis=2) # mxdx1
  x  = tf.expand_dims(x,  axis=2) # mxdx1
  multiple = w.get_shape().as_list()[0]
  x0_broad_horizon = tf.tile(x0, [1,1,multiple])   # mxdx1 -> mxdxd #
  x_broad_vertical = tf.transpose(tf.tile(x,  [1,1,multiple]), [0,2,1]) # mxdx1 -> mxdxd #
  w_broad_horizon  = tf.tile(w,  [1,multiple])     # dx1 -> dxd #
  mid_res = tf.multiply(tf.multiply(x0_broad_horizon, x_broad_vertical), tf.transpose(w_broad_horizon)) # mxdxd # here use broadcast compute # 
  res = tf.reduce_sum(mid_res, axis=2) # mxd #
  res = res + tf.transpose(b) # mxd + 1xd # here also use broadcast compute #a
  return res 
def cross_op2(x0, x, w, b): 
  ## 充分利用了广播计算 来实现cross,也很低效 ##
  x0 = tf.expand_dims(x0, axis=2) # mxdx1
  x  = tf.expand_dims(x,  axis=2) # mxdx1
  dot = tf.matmul(x0, tf.transpose(x, [0, 2, 1]))
  mid_res = tf.multiply(dot, tf.transpose(w))
  res = tf.reduce_sum(mid_res, axis=2) + tf.transpose(b) # mxd  + 1xd # here also use broadcast compute #
  return res 
def cross_op_single_data(x0, x, w, b):
  ## 最简洁的cross_实现方法,单条样本 ##
  ## all para size is [d, 1] ##
  dot = tf.matmul(x0, tf.transpose(x)) # dxd
  cros= tf.tensordot(dot, w, [[1], [0]]) + b ## dot的某行 dot  w的某列 ##
  return cros
def cross_op_batch_data(x0, x, w, b):
  ## x0 and x size is [batch, d],与后面的方法一致,计算高效 ##
  ## w  and b size is [d, 1]
  x0 = tf.expand_dims(x0, 2) # [batch, d, 1]
  x  = tf.expand_dims(x,  2) # [batch, d, 1]
  dot= tf.matmul(x0, tf.transpose(x, [0, 2, 1])) # [batch, d, d] = batch x {[dx1]x[1xd]
  #cros = tf.tensordot(dot, w, [[1], [0]) + b # [batch, d, 1] this is wrong
  cros = tf.tensordot(dot, w, 1) + b ## 这种写法来源与maxnet ## 很奇妙 ##
  return tf.squeeze(cros, 2)
def cross_op_None_batch(x0, x, w, b):
  ## x0 and x size is [None, d] ## 借助了keras.backend.batch_dot ##
  ## w  and b size is [d, 1]
  x0 = tf.expand_dims(x0, 2) # [batch, d, 1]
  x  = tf.expand_dims(x,  2) # [batch, d, 1]
  dot= tf.contrib.keras.backend.batch_dot(x0, tf.transpose(x, [0,2,1]), [2, 1])
  #cros = tf.tensordot(dot, w, [[1], [0]]) + b # this is wrong 
  cros = tf.tensordot(dot, w, 1) + b
  return tf.squeeze(cros, 2)


Reference
《2016-Wide & Deep Learning for Recommender Systems》
《2017-Deep & Cross Network for Ad Click Predictions》
https://research.googleblog.com/2016/06/wide-deep-learning-better-together-with.html (google research blog)
https://github.com/tensorflow/models/tree/master/official/wide_deep (wide&deep github code)
《2016-Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features》 
附:tf.nn.embedding_lookup_sparse如何处理不定长的字符串的embedding问题。
输入数据如下:
csv = [
  "1,oscars|brad-pitt|awards",
  "2,oscars|film|reviews",
  "3,matt-damon|bourne",
]
第二列是不定长的特征。处理如下:

import tensorflow as tf

# Purposefully omitting "bourne" to demonstrate OOV mappings.
TAG_SET = ["oscars", "brad-pitt", "awards", "film", "reviews", "matt-damon"]
NUM_OOV = 1

def sparse_from_csv(csv):
  ids, post_tags_str = tf.decode_csv(csv, [[-1], [""]])
  table = tf.contrib.lookup.index_table_from_tensor(
      mapping=TAG_SET, num_oov_buckets=NUM_OOV, default_value=-1) ## 这里构造了个查找表 ##
  split_tags = tf.string_split(post_tags_str, "|")
  return ids, tf.SparseTensor(
      indices=split_tags.indices,
      values=table.lookup(split_tags.values), ## 这里给出了不同值通过表查到的index ##
      dense_shape=split_tags.dense_shape)

# Optionally create an embedding for this.
TAG_EMBEDDING_DIM = 3

ids, tags = sparse_from_csv(csv)

embedding_params = tf.Variable(tf.truncated_normal([len(TAG_SET) + NUM_OOV, TAG_EMBEDDING_DIM]))
embedded_tags = tf.nn.embedding_lookup_sparse(embedding_params, sp_ids=tags, sp_weights=None)

# Test it out
with tf.Session() as s:
  s.run([tf.global_variables_initializer(), tf.tables_initializer()])
  print(s.run([ids, embedded_tags]))

1) 这样就可以处理非定长的特征了,坏处是无法纳入到tf.feature_column + tf.estimator模型框架里,模型输入和整体结构都暴露在外面,丑~ 
2)改写成共享embedding也非常容易。 
据说最新的tf 1.5里新增 Add support for sparse multidimensional feature columns.【鼓掌】抽空看看
 

你可能感兴趣的:(机器学习,TensorFlow)