gongyouliu01

FFM：土豪的利器，平民该怎么玩？(tensorflow2, Bi-FFM)

作者 | xulu1352 目前在一家互联网公司从事推荐算法工作（知乎：xulu1352）

编辑 | auroral-L

（本篇文章已获得作者的独家授权）

0.前序

在之前推荐算法中的倚天剑: FM (tensorflow2实现)一文介绍了FM的有关原理，本文登场的是FM家族的肥仔，土豪公司的利器——FFM(Field-aware Factorization Machine，即具备特征域(Field)意识的FM。至于为何给它冠名肥仔+土豪利器，说来话长，本文后面会作详细分析。我们知道FFM源于FM，基于FM引入了Field概念，在特征组合上更加细腻，同一特征针对不同Field作特征交叉组合时使用不同隐向量(embedding)，即有不同表征信息，而FM的每个特征与其他特征组合时共享一个embedding向量。因而FFM模型的表达能力更强，但其计算复杂度也因此更高。假设有F个特征域，那么FFM的参数量应该是FM的F-1倍，实际生产中特征域数都至少在几十以上，在一个很大的基数上再放大几十或成百倍，这个参数量的改变非常阔怕。更阔怕的是，它无法像FM那样通过数学公式转化，将计算复杂度由平方级降至线性级别。FFM的这一特性无疑抬高了训练与推理的门槛，让很多家里没矿的玩家不得不谨慎衡量投入回报比，也因此都望而却步。幸运的是，微博团队针对FFM参数量太大，耗内存，训练速度慢的问题，提出了Bi-FFM(Bilinear-FFM，双线性FFM模型)，让我这样的平民玩家也可以在生产上试试FFM的威力，体验下土豪的乐趣。好了，吹水的话，就到此为止了，下面看看FFM与Bi-FFM的原理。

1.FFM原理

首先来回顾下FM的数学表达式，

FFM是FM的升级版，通过引入field的概念，FFM把相同性质的特征归于同一个field， FM可以看作FFM的特例，是把所有特征都归属到一个field时的FFM模型。在FFM中，每一维特征，针对其它特征的每一种field，都会学习一个隐向量。因此，隐向量不仅与特征相关，也与field相关，根据FFM的field敏感特性，FFM模型方程定义为，

其中，  是第  个特征所属的field。对比式(1)与式(2)可以得出，基于field的FFM和FM的区别：
（1）FM特征  、  、  交叉时，对应的隐向量  、、是可以无区别得互相交叉的，也即是说的系数为  ，的系数为，显然，  无论与  ，还是与做交叉时，组合系数都是共享同一个，并没有做区分。
（2）FFM同样是对特征进行交叉，但是FFM的特征、  、交叉时，对应的隐向量、、，是将field差别信息考虑进去的；即  与特征  ，与特征做交叉时，组合系数不再使用同一个，而是根据field信息区分为  和  。

如果隐向量的长度为，那么FFM的二次参数有个，是远多于FM模型的个。此外，由于隐向量与field相关，FFM二次项并不能够简化，其预测复杂度是。

FFM：土豪的利器，平民该怎么玩？(tensorflow2, Bi-FFM)_第1张图片

FM与FFM参数对比

接下来，我们探索FFM的loss function。

在ctr预估中，模型训练一般我们使用叉熵损失函数，假设我们有组样本（），表示第组数据及其对应的label。则为表示label的一个数{0,1}，即取0或者1。那么，FFM交叉熵损失函数可表示为，

其中，为FFM推理公式输出值，为sigmoid概率输出函数，即,顺便提下其一个优良求导性质。

在利用梯度下降法求解参数时，其梯度推导过程如下，

推到这里可见，接下来我们只需关心求导结果，因为在推理阶段已经计算过了，是一个已知结果。

继续解析，

当参数为时，。

当参数为时，二阶项的梯度更新公式：

总结下，

到此，我们发现FFM的梯度更新公式并不复杂，训练阶段的计算时间复杂度主要来源式(2)计算FFM的输出值，复杂度为 , 因此，训练时间复杂度为。想必此时，我给它冠名FM家族的肥仔+土豪利器，应该不过分，参数量远多于FM，训练时间复杂度又在，没有强大GPU资源做后盾，平民玩FFM就是跛足，举步维艰。

2.FFM的优化：Bi-FFM

为了减小参数量及提高训练速度，微博团队基于共享参数矩阵对FFM做一些改进，提出了双线性FFM模型，它的核心思想是：分别使用一个隐向量来表达，与FM一样，但是把两个特征交互的信息用一个共享参数矩阵表示。那么，Bi-FFM的二阶交叉项的表达式可写成如下形式：

图形表示如下：

FFM：土豪的利器，平民该怎么玩？(tensorflow2, Bi-FFM)_第2张图片

对于共享矩阵，Bi-FFM作者给出了三种选择：

类型1: 共享同一个，这是参数量最小的一种形式。的参数量是，是特征Embedding的size；
类型2: 每个field共享一个，即每个field各自学各自的；
类型3: 每两个fields对共享一个，能更加细化地描述特征组合；

FFM：土豪的利器，平民该怎么玩？(tensorflow2, Bi-FFM)_第3张图片

Bi-FFM对比FFM的参数量减少是非常显著的，由于一阶项并无区别，参数量差别集中在二阶交叉项。

比如以Criteo这个4500万的数据集为例，从下图我们可以非常明显的感受到它们之间参数量差异。

FFM：土豪的利器，平民该怎么玩？(tensorflow2, Bi-FFM)_第4张图片

3.Bi-FFM的一种实现

关于Bi-FFM二阶交叉层的实现，主要参考了新浪微博机器学习团队发表在RecSys19上的FiBiNET中双线性交叉层的实现方式。文章标题为 FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction，下面看看它的tf实现方式。

class BilinearInteraction(Layer):
    """BilinearInteraction Layer used in FiBiNET.
      Input shape
        - A list of 3D tensor with shape: ``(batch_size,1,embedding_size)``. Its length is ``filed_size``.
      Output shape
        - 3D tensor with shape: ``(batch_size,filed_size*(filed_size-1)/2,embedding_size)``.
      Arguments
        - **bilinear_type** : String, types of bilinear functions used in this layer.
        - **seed** : A Python integer to use as random seed.
      References
        - [FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction](https://arxiv.org/pdf/1905.09433.pdf)
    """


    def __init__(self, bilinear_type="interaction", seed=1024, **kwargs):
        self.bilinear_type = bilinear_type
        self.seed = seed


        super(BilinearInteraction, self).__init__(**kwargs)


    def build(self, input_shape):


        if not isinstance(input_shape, list) or len(input_shape) < 2:
            raise ValueError('A `BilinearInteraction` layer should be called '
                             'on a list of at least 2 inputs')
        embedding_size = int(input_shape[0][-1])


        if self.bilinear_type == "all":
            self.W = self.add_weight(shape=(embedding_size, embedding_size), initializer=glorot_normal(
                seed=self.seed), name="bilinear_weight")
        elif self.bilinear_type == "each":
            self.W_list = [self.add_weight(shape=(embedding_size, embedding_size), initializer=glorot_normal(
                seed=self.seed), name="bilinear_weight" + str(i)) for i in range(len(input_shape) - 1)]
        elif self.bilinear_type == "interaction":
            self.W_list = [self.add_weight(shape=(embedding_size, embedding_size), initializer=glorot_normal(
                seed=self.seed), name="bilinear_weight" + str(i) + '_' + str(j)) for i, j in
                           itertools.combinations(range(len(input_shape)), 2)]
        else:
            raise NotImplementedError


        super(BilinearInteraction, self).build(
            input_shape)  # Be sure to call this somewhere!


    def call(self, inputs, **kwargs):


        if K.ndim(inputs[0]) != 3:
            raise ValueError(
                "Unexpected inputs dimensions %d, expect to be 3 dimensions" % (K.ndim(inputs)))


        n = len(inputs)
        if self.bilinear_type == "all":
            vidots = [tf.tensordot(inputs[i], self.W, axes=(-1, 0)) for i in range(n)]
            p = [tf.multiply(vidots[i], inputs[j]) for i, j in itertools.combinations(range(n), 2)]
        elif self.bilinear_type == "each":
            vidots = [tf.tensordot(inputs[i], self.W_list[i], axes=(-1, 0)) for i in range(n - 1)]
            p = [tf.multiply(vidots[i], inputs[j]) for i, j in itertools.combinations(range(n), 2)]
        elif self.bilinear_type == "interaction":
            p = [tf.multiply(tf.tensordot(v[0], w, axes=(-1, 0)), v[1])
                 for v, w in zip(itertools.combinations(inputs, 2), self.W_list)]
        else:
            raise "NotImplementedError"
        output = concat_func(p, axis=1)
        return output


    def compute_output_shape(self, input_shape):
        filed_size = len(input_shape)
        embedding_size = input_shape[0][-1]


        return (None, filed_size * (filed_size - 1) // 2, embedding_size)


    def get_config(self, ):
        config = {'bilinear_type': self.bilinear_type, 'seed': self.seed}
        base_config = super(BilinearInteraction, self).get_config()
        base_config.update(config)
        return base_config

Bi-FFM实现核心部分就如上了，下面就来看看Bi-FFM的模型搭建，整个代码框架参照了开源deepctr包，有些code组件依据需要做了改动，下面就来动动手撸一遍吧。

为了更好地演示Bi-FFM模型完整的搭建及训练，这里拟造部分我们真实场景所用数据，如下：

字段介绍：

label：为label数据 1:正样本，0：负样本
client_id: 用户id
c_follow_topic_id：该物料所属话题，是否为用户用户关注话题，是：1，否：0
c_topic_id_ctr：该物料所属话题，对用户三天内对该话题的ctr
follow_topic_id: 用户关注话题分类id
exposure_hourdiff: 物料曝光时帖子距创建时的小时数
topic_id: 物料所属的话题
relpy: 物料曝光是的回复数
share: 物料曝光是的分享数
keyword: 物料item对应关键词id
topic_id_ctr：用户三天内不同话题的ctr

import numpy as np
import pandas as pd
import datetime
import itertools
import tensorflow as tf
from tensorflow.keras.layers import *
import tensorflow.keras.backend as K
from tensorflow.keras import layers
from tensorflow.keras.models import Model
from tensorflow.keras.callbacks import TensorBoard
from tensorflow.python.keras.initializers import Zeros, glorot_normal,glorot_uniform, TruncatedNormal
from collections import namedtuple, OrderedDict


########################################################################
               #################数据预处理##############
########################################################################


# 定义参数类型
SparseFeat = namedtuple('SparseFeat', ['name', 'voc_size', 'hash_size', 'vocab','share_embed','embed_dim', 'dtype'])
DenseFeat = namedtuple('DenseFeat', ['name', 'pre_embed','reduce_type','dim', 'dtype'])
VarLenSparseFeat = namedtuple('VarLenSparseFeat', ['name', 'voc_size','hash_size', 'vocab', 'share_embed', 'weight_name', 'combiner', 'embed_dim','maxlen', 'dtype'])


valid_keyword = pd.read_csv('/opt/data/keyword_freq.csv',sep='\t')
valid_keyword = valid_keyword[valid_keyword.cnt >3]
print(len(valid_keyword))
# 筛选实体标签categorical 用于定义映射关系
CATEGORICAL_MAP = {
            "keyword": valid_keyword.keyword_tag.unique().tolist(),
           }


feature_columns = [DenseFeat(name='c_topic_id_ctr', pre_embed=None,reduce_type=None, dim=1, dtype="float32"),
                   SparseFeat(name="c_follow_topic_id", voc_size=2, hash_size= None, vocab=None,share_embed=None, embed_dim=8, dtype='int32'),
                   SparseFeat(name="exposure_hourdiff", voc_size=6, hash_size= None, vocab=None,share_embed=None, embed_dim=8, dtype='int32'),
                   SparseFeat(name="reply", voc_size=6, hash_size= None, vocab=None,share_embed=None, embed_dim=8, dtype='int32'),
                   SparseFeat(name="share", voc_size=6, hash_size= None, vocab=None,share_embed=None, embed_dim=8, dtype='int32'),
                   SparseFeat(name='topic_id', voc_size=720, hash_size= None, vocab=None,share_embed=None, embed_dim=8,dtype='int32'),
                   SparseFeat(name='exposure_hour', voc_size=25, hash_size= None, vocab=None,share_embed=None, embed_dim=8,dtype='int32'),
                   VarLenSparseFeat(name="follow_topic_id", voc_size=720, hash_size= None, vocab=None, share_embed='topic_id', weight_name = None, combiner= 'sum', embed_dim=8, maxlen=20,dtype='int32'),
                   VarLenSparseFeat(name="keyword", voc_size=21500, hash_size= None, vocab='keyword', share_embed=None, weight_name = None, combiner= 'sum', embed_dim=8, maxlen=5,dtype='int32'),
                   VarLenSparseFeat(name="topic_id_ctr", voc_size=720, hash_size= None, vocab=None, share_embed='topic_id', weight_name = 'topic_id_ctr_weight', combiner= 'sum', embed_dim=8, maxlen=5,dtype='int32'),
                  ]


# 用户特征及贴子特征
linear_feature_columns_name = ['c_follow_topic_id', 'exposure_hourdiff', 'c_topic_id_ctr',]
bilinear_feature_columns_name = ["topic_id", 'exposure_hour','reply' , 'share', 'keyword', 'follow_topic_id', 'topic_id_ctr']


linear_feature_columns = [col for col in feature_columns if col.name in linear_feature_columns_name ]
bilinear_feature_columns = [col for col in feature_columns if col.name in bilinear_feature_columns_name ]


bucket_dict = {
    'exposure_hourdiff': [3, 7, 15, 33],
    'reply': [12, 30, 63, 136],
    'share': [2, 11],
}


DEFAULT_VALUES = [[0],[''],[0],[0], [0.0], 
                  [0], [0],[0],[0], ['0'], ['0'],['0:0']]
COL_NAME = ['label', 'client_id', 'c_follow_topic_id', 'exposure_hourdiff', 'c_topic_id_ctr',
            "topic_id", 'exposure_hour','reply' , 'share', 'keyword', 'follow_topic_id', 'topic_id_ctr']




def _parse_function(example_proto):
    
    item_feats = tf.io.decode_csv(example_proto, record_defaults=DEFAULT_VALUES, field_delim='\t')
    parsed = dict(zip(COL_NAME, item_feats))
    
    feature_dict = {}
    for feat_col in feature_columns:
        if isinstance(feat_col, VarLenSparseFeat):
            if feat_col.weight_name is not None:
                kvpairs = tf.strings.split([parsed[feat_col.name]], ',').values[:feat_col.maxlen]
                kvpairs = tf.strings.split(kvpairs, ':')
                kvpairs = kvpairs.to_tensor()
                feat_ids, feat_vals = tf.split(kvpairs, num_or_size_splits=2, axis=1)
                feat_ids = tf.reshape(feat_ids, shape=[-1])
                feat_vals = tf.reshape(feat_vals, shape=[-1])
                if feat_col.dtype != 'string':
                    feat_ids= tf.strings.to_number(feat_ids, out_type=tf.int32) 
                feat_vals= tf.strings.to_number(feat_vals, out_type=tf.float32)
                feature_dict[feat_col.name] = feat_ids
                feature_dict[feat_col.weight_name] = feat_vals
            else:      
                feat_ids = tf.strings.split([parsed[feat_col.name]], ',').values[:feat_col.maxlen]
                feat_ids = tf.reshape(feat_ids, shape=[-1])
                if feat_col.dtype != 'string':
                    feat_ids= tf.strings.to_number(feat_ids, out_type=tf.int32) 
                feature_dict[feat_col.name] = feat_ids
    
        elif isinstance(feat_col, SparseFeat):
            feature_dict[feat_col.name] = parsed[feat_col.name]
            
        elif isinstance(feat_col, DenseFeat):
            if not feat_col.pre_embed:
                feature_dict[feat_col.name] = parsed[feat_col.name]
            elif feat_col.reduce_type is not None: 
                keys = tf.strings.split(parsed[feat_col.pre_embed], ',')
                emb = tf.nn.embedding_lookup(params=ITEM_EMBEDDING, ids=ITEM_ID2IDX.lookup(keys))
                emb = tf.reduce_mean(emb,axis=0) if feat_col.reduce_type == 'mean' else tf.reduce_sum(emb,axis=0)
                feature_dict[feat_col.name] = emb
            else:
                emb = tf.nn.embedding_lookup(params=ITEM_EMBEDDING, ids=ITEM_ID2IDX.lookup(parsed[feat_col.pre_embed]))                
                feature_dict[feat_col.name] = emb
        else:
            raise "unknown feature_columns...."
            
    # 分桶离散化
    for ft in bucket_dict:
        feature_dict[ft] = tf.raw_ops.Bucketize(
            input=feature_dict[ft],
            boundaries=bucket_dict[ft])
        
        
    label = parsed['label']
    
    
    return feature_dict, label




pad_shapes = {}
pad_values = {}


for feat_col in feature_columns:
    if isinstance(feat_col, VarLenSparseFeat):
        max_tokens = feat_col.maxlen
        pad_shapes[feat_col.name] = tf.TensorShape([max_tokens])
        pad_values[feat_col.name] = '-1' if feat_col.dtype == 'string' else -1
        
        if feat_col.weight_name is not None:
            pad_shapes[feat_col.weight_name] = tf.TensorShape([max_tokens])
            pad_values[feat_col.weight_name] = tf.constant(-1, dtype=tf.float32)


# no need to pad labels 
    elif isinstance(feat_col, SparseFeat):
        pad_values[feat_col.name] = '-1' if feat_col.dtype == 'string' else -1
        pad_shapes[feat_col.name] = tf.TensorShape([])
    elif isinstance(feat_col, DenseFeat):
        if not feat_col.pre_embed:
            pad_shapes[feat_col.name] = tf.TensorShape([])
        else:
            pad_shapes[feat_col.name] = tf.TensorShape([feat_col.dim])
        pad_values[feat_col.name] = 0.0 




pad_shapes = (pad_shapes, (tf.TensorShape([])))
pad_values = (pad_values, (tf.constant(0, dtype=tf.int32)))






filenames= tf.data.Dataset.list_files([
      './user_item_act_test.csv'
])
dataset = filenames.flat_map(
        lambda filepath: tf.data.TextLineDataset(filepath).skip(1))


batch_size = 10
dataset = dataset.map(_parse_function, num_parallel_calls=50)
dataset = dataset.repeat()
dataset = dataset.shuffle(buffer_size = batch_size) # 在缓冲区中随机打乱数据
dataset = dataset.padded_batch(batch_size = batch_size,
                               padded_shapes = pad_shapes,
                              padding_values = pad_values) # 每1024条数据为一个batch，生成一个新的Datasets
dataset = dataset.prefetch(buffer_size=tf.data.experimental.AUTOTUNE)


# 验证集
filenames_val= tf.data.Dataset.list_files(['./user_item_act_test_val.csv'])
dataset_val = filenames_val.flat_map(
        lambda filepath: tf.data.TextLineDataset(filepath).skip(1))


val_batch_size = 1024
dataset_val = dataset_val.map(_parse_function, num_parallel_calls=50)
dataset_val = dataset_val.padded_batch(batch_size = val_batch_size,
                               padded_shapes = pad_shapes,
                              padding_values = pad_values) # 每1024条数据为一个batch，生成一个新的Datasets
dataset_val = dataset_val.prefetch(buffer_size=tf.data.experimental.AUTOTUNE)




########################################################################
               #################自定义Layer##############
########################################################################






# 多值查找表稀疏SparseTensor >>  EncodeMultiEmbedding
class VocabLayer(Layer):
    def __init__(self, keys, mask_value=None, **kwargs):
        super(VocabLayer, self).__init__(**kwargs)
        self.mask_value = mask_value
        vals = tf.range(2, len(keys) + 2)
        vals = tf.constant(vals, dtype=tf.int32)
        keys = tf.constant(keys)
        self.table = tf.lookup.StaticHashTable(
            tf.lookup.KeyValueTensorInitializer(keys, vals), 1)


    def call(self, inputs):
        idx = self.table.lookup(inputs)
        if self.mask_value is not None:
            masks = tf.not_equal(inputs, self.mask_value)
            paddings = tf.ones_like(idx) * (-1) # mask成 -1
            idx = tf.where(masks, idx, paddings)
        return idx
    
    def get_config(self):  
        config = super(VocabLayer, self).get_config()
        config.update({'mask_value': self.mask_value, })
        return config




class EmbeddingLookupSparse(Layer):
    def __init__(self, embedding, has_weight=False, combiner='sum',**kwargs):
        
        super(EmbeddingLookupSparse, self).__init__(**kwargs)
        self.has_weight = has_weight
        self.combiner = combiner
        self.embedding = embedding
    
    
    def build(self, input_shape):
        super(EmbeddingLookupSparse, self).build(input_shape)
        
    def call(self, inputs):
        if self.has_weight:
            idx, val = inputs
            combiner_embed = tf.nn.embedding_lookup_sparse(self.embedding,sp_ids=idx, sp_weights=val, combiner=self.combiner)
        else:
            idx = inputs
            combiner_embed = tf.nn.embedding_lookup_sparse(self.embedding,sp_ids=idx, sp_weights=None, combiner=self.combiner)
        return tf.expand_dims(combiner_embed, 1)
    
    def get_config(self):  
        config = super(EmbeddingLookupSparse, self).get_config()
        config.update({'has_weight': self.has_weight, 'combiner':self.combiner})
        return config




class EmbeddingLookup(Layer):
    def __init__(self, embedding, **kwargs):
        
        super(EmbeddingLookup, self).__init__(**kwargs)
        self.embedding = embedding
    
    
    def build(self, input_shape):
        super(EmbeddingLookup, self).build(input_shape)
        
    def call(self, inputs):
        idx = tf.cast(inputs, tf.int32)
        embed = tf.nn.embedding_lookup(params=self.embedding, ids=idx)
        return embed
    
    def get_config(self):  
        config = super(EmbeddingLookup, self).get_config()
        return config


    


# 稠密转稀疏 
class DenseToSparseTensor(Layer):
    def __init__(self, mask_value= -1, **kwargs):
        super(DenseToSparseTensor, self).__init__()
        self.mask_value = mask_value
        


    def call(self, dense_tensor):    
        idx = tf.where(tf.not_equal(dense_tensor, tf.constant(self.mask_value , dtype=dense_tensor.dtype)))
        sparse_tensor = tf.SparseTensor(idx, tf.gather_nd(dense_tensor, idx), tf.shape(dense_tensor, out_type=tf.int64))
        return sparse_tensor
    
    def get_config(self):  
        config = super(DenseToSparseTensor, self).get_config()
        config.update({'mask_value': self.mask_value})
        return config


class HashLayer(Layer):
    """
    hash the input to [0,num_buckets)
    if mask_zero = True,0 or 0.0 will be set to 0,other value will be set in range[1,num_buckets)
    """


    def __init__(self, num_buckets, mask_zero=False, **kwargs):
        self.num_buckets = num_buckets
        self.mask_zero = mask_zero
        super(HashLayer, self).__init__(**kwargs)


    def build(self, input_shape):
        # Be sure to call this somewhere!
        super(HashLayer, self).build(input_shape)


    def call(self, x, mask=None, **kwargs):
        if x.dtype != tf.string:
            zero = tf.as_string(tf.ones([1], dtype=x.dtype)*(-1))
            x = tf.as_string(x, )
        else:
            zero = tf.as_string(tf.ones([1], dtype=x.dtype)*(-1))
            
        num_buckets = self.num_buckets if not self.mask_zero else self.num_buckets - 1
        hash_x = tf.strings.to_hash_bucket_fast(x, num_buckets, name=None)
        if self.mask_zero:
#             mask = tf.cast(tf.not_equal(x, zero), dtype='int64')
            masks = tf.not_equal(x, zero)
            paddings = tf.ones_like(hash_x) * (-1) # mask成 -1
            hash_x = tf.where(masks, hash_x, paddings)
#             hash_x = (hash_x + 1) * mask


        return hash_x
    def get_config(self, ):
        config = super(HashLayer, self).get_config()
        config.update({'num_buckets': self.num_buckets, 'mask_zero': self.mask_zero, })
        return config
    


class Add(tf.keras.layers.Layer):
    def __init__(self, **kwargs):
        super(Add, self).__init__(**kwargs)


    def build(self, input_shape):
        # Be sure to call this somewhere!
        super(Add, self).build(input_shape)


    def call(self, inputs, **kwargs):
        if not isinstance(inputs,list):
            return inputs
        if len(inputs) == 1  :
            return inputs[0]
        if len(inputs) == 0:
            return tf.constant([[0.0]])
        return tf.keras.layers.add(inputs)
 


class BilinearInteraction(Layer):
    """BilinearInteraction Layer used in FiBiNET.
      Input shape
        - A list of 3D tensor with shape: ``(batch_size,1,embedding_size)``. Its length is ``filed_size``.
      Output shape
        - 3D tensor with shape: ``(batch_size,filed_size*(filed_size-1)/2,embedding_size)``.
      Arguments
        - **bilinear_type** : String, types of bilinear functions used in this layer.
        - **seed** : A Python integer to use as random seed.
      References
        - [FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction](https://arxiv.org/pdf/1905.09433.pdf)
    """


    def __init__(self, bilinear_type="interaction", seed=1024, **kwargs):
        self.bilinear_type = bilinear_type
        self.seed = seed


        super(BilinearInteraction, self).__init__(**kwargs)


    def build(self, input_shape):


        if not isinstance(input_shape, list) or len(input_shape) < 2:
            raise ValueError('A `BilinearInteraction` layer should be called '
                             'on a list of at least 2 inputs')
        embedding_size = int(input_shape[0][-1])


        if self.bilinear_type == "all":
            self.W = self.add_weight(shape=(embedding_size, embedding_size), initializer=glorot_normal(
                seed=self.seed), name="bilinear_weight")
        elif self.bilinear_type == "each":
            self.W_list = [self.add_weight(shape=(embedding_size, embedding_size), initializer=glorot_normal(
                seed=self.seed), name="bilinear_weight" + str(i)) for i in range(len(input_shape) - 1)]
        elif self.bilinear_type == "interaction":
            self.W_list = [self.add_weight(shape=(embedding_size, embedding_size), initializer=glorot_normal(
                seed=self.seed), name="bilinear_weight" + str(i) + '_' + str(j)) for i, j in
                           itertools.combinations(range(len(input_shape)), 2)]
        else:
            raise NotImplementedError


        super(BilinearInteraction, self).build(
            input_shape)  # Be sure to call this somewhere!


    def call(self, inputs, **kwargs):


        if K.ndim(inputs[0]) != 3:
            raise ValueError(
                "Unexpected inputs dimensions %d, expect to be 3 dimensions" % (K.ndim(inputs)))


        n = len(inputs)
        if self.bilinear_type == "all":
            vidots = [tf.tensordot(inputs[i], self.W, axes=(-1, 0)) for i in range(n)]
            p = [tf.multiply(vidots[i], inputs[j]) for i, j in itertools.combinations(range(n), 2)]
        elif self.bilinear_type == "each":
            vidots = [tf.tensordot(inputs[i], self.W_list[i], axes=(-1, 0)) for i in range(n - 1)]
            p = [tf.multiply(vidots[i], inputs[j]) for i, j in itertools.combinations(range(n), 2)]
        elif self.bilinear_type == "interaction":
            p = [tf.multiply(tf.tensordot(v[0], w, axes=(-1, 0)), v[1])
                 for v, w in zip(itertools.combinations(inputs, 2), self.W_list)]
        else:
            raise "NotImplementedError"
        output = concat_func(p, axis=1)
        return output


    def compute_output_shape(self, input_shape):
        filed_size = len(input_shape)
        embedding_size = input_shape[0][-1]


        return (None, filed_size * (filed_size - 1) // 2, embedding_size)


    def get_config(self, ):
        config = {'bilinear_type': self.bilinear_type, 'seed': self.seed}
        base_config = super(BilinearInteraction, self).get_config()
        base_config.update(config)
        return base_config
    
    
########################################################################
               #################定义输入帮助函数##############
########################################################################


# 定义model输入特征
def build_input_features(features_columns, prefix=''):
    input_features = OrderedDict()


    for feat_col in features_columns:    
        if isinstance(feat_col, DenseFeat):
            input_features[feat_col.name] = Input([feat_col.dim], name=feat_col.name)
        elif isinstance(feat_col, SparseFeat):
            input_features[feat_col.name] = Input([1], name=feat_col.name, dtype=feat_col.dtype)         
        elif isinstance(feat_col, VarLenSparseFeat):
            input_features[feat_col.name] = Input([None], name=feat_col.name, dtype=feat_col.dtype)
            if feat_col.weight_name is not None:
                input_features[feat_col.weight_name] = Input([None], name=feat_col.weight_name, dtype='float32')
        else:
            raise TypeError("Invalid feature column in build_input_features: {}".format(feat_col.name))


    return input_features


# 构造 自定义embedding层 matrix
def build_embedding_matrix(features_columns, linear_dim=None):
    embedding_matrix = {}
    for feat_col in features_columns:
        if isinstance(feat_col, SparseFeat) or isinstance(feat_col, VarLenSparseFeat):
            vocab_name = feat_col.share_embed if feat_col.share_embed else feat_col.name
            vocab_size = feat_col.voc_size + 2
            embed_dim = feat_col.embed_dim if linear_dim is None else 1
            name_tag = '' if linear_dim is None else '_linear'
            if vocab_name not in embedding_matrix:
                embedding_matrix[vocab_name] = tf.Variable(initial_value=tf.random.truncated_normal(shape=(vocab_size, embed_dim),mean=0.0, 
                                                                           stddev=0.001, dtype=tf.float32), trainable=True, name=vocab_name+'_embed'+name_tag)
    return embedding_matrix


# 构造 自定义embedding层              
def build_embedding_dict(features_columns):
    
    embedding_dict = {}
    embedding_matrix = build_embedding_matrix(features_columns)
    
    for feat_col in features_columns:
        if isinstance(feat_col, SparseFeat):
            vocab_name = feat_col.share_embed if feat_col.share_embed else feat_col.name     
            embedding_dict[feat_col.name] = EmbeddingLookup(embedding=embedding_matrix[vocab_name],name='emb_lookup_' + feat_col.name)
        elif isinstance(feat_col, VarLenSparseFeat):
            vocab_name = feat_col.share_embed if feat_col.share_embed else feat_col.name 
            if feat_col.combiner is not None:
                if feat_col.weight_name is not None:
                    embedding_dict[feat_col.name] = EmbeddingLookupSparse(embedding=embedding_matrix[vocab_name],combiner=feat_col.combiner, has_weight=True, name='emb_lookup_sparse_' + feat_col.name)
                else:
                    embedding_dict[feat_col.name] = EmbeddingLookupSparse(embedding=embedding_matrix[vocab_name], combiner=feat_col.combiner, name='emb_lookup_sparse_' + feat_col.name) 
            else: 
                embedding_dict[feat_col.name] = EmbeddingLookup(embedding=embedding_matrix[vocab_name],name='emb_lookup_' + feat_col.name) 


    return embedding_dict




# 构造 自定义embedding层              
def build_linear_embedding_dict(features_columns):
    
    embedding_dict = {}
    embedding_matrix = build_embedding_matrix(features_columns, linear_dim=1)
    name_tag = '_linear'
    
    for feat_col in features_columns:
        if isinstance(feat_col, SparseFeat):
            vocab_name = feat_col.share_embed if feat_col.share_embed else feat_col.name     
            embedding_dict[feat_col.name] = EmbeddingLookup(embedding=embedding_matrix[vocab_name],name='emb_lookup_' + feat_col.name+name_tag)
        elif isinstance(feat_col, VarLenSparseFeat):
            vocab_name = feat_col.share_embed if feat_col.share_embed else feat_col.name 
            if feat_col.combiner is not None:
                if feat_col.weight_name is not None:
                    embedding_dict[feat_col.name] = EmbeddingLookupSparse(embedding=embedding_matrix[vocab_name],combiner=feat_col.combiner, has_weight=True, name='emb_lookup_sparse_' + feat_col.name +name_tag)
                else:
                    embedding_dict[feat_col.name] = EmbeddingLookupSparse(embedding=embedding_matrix[vocab_name], combiner=feat_col.combiner, name='emb_lookup_sparse_' + feat_col.name+name_tag) 
            else: 
                embedding_dict[feat_col.name] = EmbeddingLookup(embedding=embedding_matrix[vocab_name],name='emb_lookup_' + feat_col.name+name_tag) 


    return embedding_dict




# dense 与 embedding特征输入
def input_from_feature_columns(features, features_columns, embedding_dict, cate_map=CATEGORICAL_MAP):
    sparse_embedding_list = []
    dense_value_list = []
    
    for feat_col in features_columns:
        if isinstance(feat_col, SparseFeat):
            _input = features[feat_col.name]
            if feat_col.vocab is not None:
                vocab_name = feat_col.share_embed if feat_col.share_embed else feat_col.name
                keys = cate_map[vocab_name]
                _input = VocabLayer(keys)(_input)
            elif feat_col.hash_size is not None:
                _input = HashLayer(num_buckets=feat_col.hash_size, mask_zero=False)(_input)
                    
            embed = embedding_dict[feat_col.name](_input)
            sparse_embedding_list.append(embed)
        elif isinstance(feat_col, VarLenSparseFeat):      
            _input = features[feat_col.name]
            if feat_col.vocab is not None:
                mask_val = '-1' if feat_col.dtype == 'string' else -1
                vocab_name = feat_col.share_embed if feat_col.share_embed else feat_col.name
                keys = cate_map[vocab_name]
                _input = VocabLayer(keys, mask_value= mask_val)(_input)
            elif feat_col.hash_size is not None:
                _input = HashLayer(num_buckets=feat_col.hash_size, mask_zero=True)(_input)
            if feat_col.combiner is not None:
                input_sparse =  DenseToSparseTensor(mask_value=-1)(_input)
                if feat_col.weight_name is not None:
                    weight_sparse = DenseToSparseTensor()(features[feat_col.weight_name])
                    embed = embedding_dict[feat_col.name]([input_sparse, weight_sparse])
                else:
                    embed = embedding_dict[feat_col.name](input_sparse)
            else:
                embed = embedding_dict[feat_col.name](_input)
                
            sparse_embedding_list.append(embed)
                
        elif isinstance(feat_col, DenseFeat):
            dense_value_list.append(features[feat_col.name])
            
        else:
            raise TypeError("Invalid feature column in input_from_feature_columns: {}".format(feat_col.name))
             
    return sparse_embedding_list, dense_value_list




def concat_func(inputs, axis=-1):
    if len(inputs) == 1:
        return inputs[0]
    else:
        return Concatenate(axis=axis)(inputs)
    
def combined_dnn_input(sparse_embedding_list, dense_value_list):
    if len(sparse_embedding_list) > 0 and len(dense_value_list) > 0:
        sparse_dnn_input = Flatten()(concat_func(sparse_embedding_list))
        dense_dnn_input = Flatten()(concat_func(dense_value_list))
        return concat_func([sparse_dnn_input, dense_dnn_input])
    elif len(sparse_embedding_list) > 0:
        return Flatten()(concat_func(sparse_embedding_list))
    elif len(dense_value_list) > 0:
        return Flatten()(concat_func(dense_value_list))
    else:
        raise "dnn_feature_columns can not be empty list"


        
def get_linear_logit(sparse_embedding_list, dense_value_list):
    
    if len(sparse_embedding_list) > 0 and len(dense_value_list) > 0:
        sparse_linear_layer = Add()(sparse_embedding_list)
        sparse_linear_layer = Flatten()(sparse_linear_layer)
        dense_linear = concat_func(dense_value_list)
        dense_linear_layer = Dense(1)(dense_linear)
        linear_logit = Add(name='linear_logit')([dense_linear_layer, sparse_linear_layer])
        return linear_logit
    elif len(sparse_embedding_list) > 0:
        sparse_linear_layer = Add()(sparse_embedding_list)
        sparse_linear_layer = Flatten(name='linear_logit')(sparse_linear_layer)
        return sparse_linear_layer
    elif len(dense_value_list) > 0:
        dense_linear = concat_func(dense_value_list)
        dense_linear_layer = Dense(1, name='linear_logit')(dense_linear)
        return dense_linear_layer
    else:
        raise "linear_feature_columns can not be empty list"




########################################################################
               #################定义模型##############
########################################################################




def BilinearFFM(
    linear_feature_columns,
    bilinear_feature_columns,
    bilinear_type='interaction',
    seed=1024):
    
    """
    Instantiates the BilinearFFM Learning architecture.
    Args:
        linear_feature_columns: An iterable containing all the features used by linear part of the model.
        dnn_feature_columns: An iterable containing all the features used by deep part of the model.
        bilinear_type: str,bilinear function type used in Bilinear Interaction Layer,can be ``'all'`` , ``'each'`` or ``'interaction'``
        seed: integer ,to use as random seed.
    return: A TF Keras model instance.
    """
    
    features_columns = linear_feature_columns + bilinear_feature_columns


    # 特征处理
    features = build_input_features(feature_columns)
    inputs_list = list(features.values())
    
    # 构建 linear embedding_dict
    linear_embedding_dict = build_linear_embedding_dict(linear_feature_columns)
    linear_sparse_embedding_list, linear_dense_value_list = input_from_feature_columns(features, linear_feature_columns, linear_embedding_dict)
    # linear part
    linear_logit = get_linear_logit(linear_sparse_embedding_list, linear_dense_value_list)


    # 构建 BI-FFM embedding_dict
    bilinear_embedding_dict = build_embedding_dict(bilinear_feature_columns)
    bilinear_sparse_embedding_list, _ = input_from_feature_columns(features, bilinear_feature_columns, bilinear_embedding_dict)
    bilinear_out = BilinearInteraction( bilinear_type=bilinear_type, seed=seed)(bilinear_sparse_embedding_list) 
    
    bilinear_dot = Lambda(lambda x: K.sum(x, axis=-1), name='bilinear_dot')(bilinear_out) # ?, filed_size * (filed_size - 1) // 2
    bilinear_logit = Lambda(lambda x: K.sum(x, axis=-1), name='bilinear_logit')(bilinear_dot) # ?, 1
    
    final_logit = Add()([bilinear_logit, linear_logit])
    
    output = tf.keras.layers.Activation("sigmoid", name="BilinearFFM")(final_logit)


    model = Model(inputs=inputs_list, outputs=output)


    return model




########################################################################
               #################模型训练##############
########################################################################


model = BilinearFFM(linear_feature_columns, bilinear_feature_columns, bilinear_type='interaction', seed=1024)
model.compile(optimizer="adam", loss= "binary_crossentropy",  metrics=tf.keras.metrics.AUC(name='auc'))


log_dir = '/mywork/tensorboardshare/logs/' + datetime.datetime.now().strftime("%Y%m%d-%H%M%S")
tbCallBack = TensorBoard(log_dir=log_dir,  # log 目录
                 histogram_freq=0,  # 按照何等频率（epoch）来计算直方图，0为不计算
                 write_graph=True,  # 是否存储网络结构图
                 write_images=True,# 是否可视化参数
                 update_freq='epoch',
                 embeddings_freq=0, 
                 embeddings_layer_names=None, 
                 embeddings_metadata=None,
                        profile_batch = 20)


total_train_sample =  100
total_test_sample =    100
train_steps_per_epoch=np.floor(total_train_sample/batch_size).astype(np.int32)
test_steps_per_epoch = np.ceil(total_test_sample/val_batch_size).astype(np.int32)
history_loss = model.fit(dataset, epochs=3, 
          steps_per_epoch=train_steps_per_epoch,
          validation_data=dataset_val, validation_steps=test_steps_per_epoch, 
          verbose=1,callbacks=[tbCallBack])

Bi-FFM搭建模型的整体代码就如上了，感兴趣的同学可以copy代码跑跑，动手才是王道，下面我们看看上述code搭建的模型结构

FFM：土豪的利器，平民该怎么玩？(tensorflow2, Bi-FFM)_第5张图片

参考文献

张俊林：FFM及DeepFFM模型在推荐系统的探索
梦醒潇湘：[FFM学习] 美团深度FFM原理与实践
FM/FFM
安超杰：FFM简介及实践
王多鱼：FFM算法原理及Bi-FFM算法实现
基于Tensorflow实现FFM_leadai的博客-CSDN博客_ffm tensorflow
FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction
shenweichen/DeepCTR

你可能感兴趣的:(人工智能,机器学习,深度学习,python,数据分析)

python 推荐算法库_[译] 详解个性化推荐五大最常用算法 weixin_39612733 python 推荐算法库
允中若朴编译自Stats&Bots量子位出品|公众号QbitAI推荐系统，是当今互联网背后的无名英雄。我们在某宝首页看见的商品，某条上读到的新闻，甚至在各种地方看见的广告，都有赖于它。昨天，一个名为Stats&Bots的博客详解了构建推荐系统的五种方法。量子位编译如下：现在，许多公司都在用大数据来向用户进行相关推荐，驱动收入增长。推荐算法有很多种，数据科学家需要根据业务的限制和要求选择最好的算法。
如何从Slack导出文件中提取数据：一步步指导 stjklkjhgffxw 前端服务器 python
引言Slack已经成为许多团队用于即时通讯和协作的关键工具。随着时间的推移，在Slack中积累了大量的信息和数据，这些数据可能对分析和归档系统非常有价值。为此，Slack提供了数据导出功能，允许用户导出工作区的消息和文件。本篇文章将详细介绍如何使用Python读取Slack的导出文件，并展示如何使用SlackDirectoryLoader进行数据的加载和处理。主要内容1.导出Slack数据首先，你
Python智能推荐系统与个性化电商 master_chenchengg python python 办公效率 python开发 IT
Python智能推荐系统与个性化电商探索宝藏：揭开推荐系统的神秘面纱数据炼金术：挖掘用户行为背后的黄金智能导购员：为每位顾客定制专属购物体验实时响应大师：打造即时反馈的动态推荐社交网络效应：借助朋友的力量扩大影响力反馈循环艺术家：持续改进与优化用户体验未来展望：迎接智能化零售的新时代探索宝藏：揭开推荐系统的神秘面纱在电子商务的世界里，推荐系统就像是一个藏宝图，它帮助商家找到那些隐藏在海量商品中的“
Python实现个性化推荐二 Ninina1992 python 人工智能开发工具
基于内容的推荐引擎是怎么工作的基于内容的推荐系统，正如你的朋友和同事预期的那样，会考虑商品的实际属性，比如商品描述，商品名，价格等等。如果你以前从没接触过推荐系统，然后现在有人拿枪指着你的头，强迫你在三十秒之内描述出来，你可能会描述这样一个基于内容的系统：呃，呃，我可能会给你看一大堆来自同一个厂家，并且拥有类似的说明的产品。你正在利用商品本身的属性来推荐类似的商品。这样做非常合理，因为这就是我们在
【股票数据API接口46】如何获取股票指历史分时BOLL数据之Python、Java等多种主流语言实例代码演示通过股票数据接口获取数据 Athena二哈 python java 开发语言股票数据接口 api
如今，量化分析在股市领域风靡一时，其核心要素在于数据，获取股票数据，是踏上量化分析之路的第一步。你可以选择亲手编写爬虫来抓取，但更便捷的方式，莫过于利用专业的股票数据API接口。自编爬虫虽零成本，却伴随着时间与精力的巨大消耗，且常因目标页面变动而失效。大家可以依据自己的实际情况来决定数据获取方式。接下来，我将分享200多个实测可用且免费的专业股票数据接口，并通过Python、JavaScript（
【股票数据API接口45】如何获取股票指历史分时MACD数据之Python、Java等多种主流语言实例代码演示通过股票数据接口获取数据 Athena二哈 python java 开发语言 api 股票数据接口
如今，量化分析在股市领域风靡一时，其核心要素在于数据，获取股票数据，是踏上量化分析之路的第一步。你可以选择亲手编写爬虫来抓取，但更便捷的方式，莫过于利用专业的股票数据API接口。自编爬虫虽零成本，却伴随着时间与精力的巨大消耗，且常因目标页面变动而失效。大家可以依据自己的实际情况来决定数据获取方式。接下来，我将分享200多个实测可用且免费的专业股票数据接口，并通过Python、JavaScript（
Python酷库之旅-第三方库Pandas(011) 神奇夜光杯 python pandas 开发语言标准库及第三方库基础知识学习与成长
目录一、用法精讲25、pandas.HDFStore.get函数25-1、语法25-2、参数25-3、功能25-4、返回值25-5、说明25-6、用法25-6-1、数据准备25-6-2、代码示例25-6-3、结果输出26、pandas.HDFStore.select函数26-1、语法26-2、参数26-3、功能26-4、返回值26-5、说明26-6、用法26-6-1、数据准备26-6-2、代码示例
端到端自动驾驶的分布式传感器融合架构 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
自动驾驶,分布式传感器融合,深度学习,计算机视觉,雷达,lidar,惯性导航,Kalman滤波,决策控制1.背景介绍自动驾驶技术作为未来交通运输的重要发展方向，近年来取得了显著进展。然而，实现真正安全的自动驾驶仍然面临着诸多挑战，其中之一就是如何有效地融合来自不同传感器的数据，构建一个可靠的感知、决策和控制系统。传统的自动驾驶系统通常依赖于单一传感器，例如摄像头或雷达，这会导致感知信息的缺失和鲁棒
实战：基于Pandas的房价数据分析全流程深度解析（附高阶技巧与数学推导）（十二） WHCIS Pandas pandas 数据分析 python
一、项目深度解析框架1.1分析维度全景图数据加载元数据分析数据清洗特征工程多维分析模型准备自动化报告1.2高阶分析工具链数据清洗：Missingno高级可视化、Optuna自动超参优化特征工程：TsFresh时序特征生成、FeatureTools自动化特征衍生可视化：Plotly动态交互、Altair声明式语法报告：JupyterNotebook魔法命令、Voila仪表板二、数据加载的工程级优化2
Python 与 C++ 混合编程云淡丶风轻 Python python c++开发语言
目录概述实现混合编程的方式ctypes的使用方法pythran的使用方法概述Python是解释型语言，在进行数学运算场景下，性能是瓶颈。C++性能卓越，但学习门槛高且开发效率比Python低。C++可以用于密集型计算并用Python进行调用。实现混合编程的方式将影响性能的核心代码用C++来写，而逻辑开发由Python完成。方法一：使用ctypes库加载C++编写的动态链接库。ctypes是Pyth
pyenv+virtualenv+virtualenvwrapper+VSCode+Jupyter notebook+Spyder的安装（python版本管理+环境管理+编译器解释器设置） norah2 python virtualenv vscode
关于Python的思考流程和一些废话（可以略过）最近想要再次开始学习关于python之类的东西，但是之前电脑因为硬盘坏了所以重装了系统，导致之前用的python环境都没有了，因此现在需要重新安装。用了这么久的pyhton，很明显可以知道很多项目会依赖不同的python版本，要么是代码语法格式略有差异，要么是依赖的第三方库兼容的python版本不同，这就会经常出现在上一个项目运行的好好的包，在下一个
大模型时代的软件架构设计 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
引言当今世界，人工智能（AI）技术正以惊人的速度发展，其中大模型（LargeModels）的崛起尤为引人注目。大模型，也被称为深度学习模型，因其庞大的参数规模和强大的数据处理能力，成为推动AI技术前进的重要力量。随着大模型的广泛应用，软件架构设计面临着前所未有的挑战和机遇。大模型时代的软件架构设计，不仅需要解决传统软件架构所面对的问题，如性能、可靠性和可扩展性等，还需要应对大模型带来的新挑战，如计
Python与C进行混合编程程序员AlbertTu Python Python开发者 Python的C++扩展
目录写在前面在vs中建立一个工程设置调整step1选择输出目录step2改变目标文件拓展名step3添加附加目录step4添加附加库目录step5添加附加依赖项知识储备条件编译简单例程程序测试补充说明写在前面阅读这篇文章需要一定的C/C++和Python基础，阅读完这篇文章，你将能够开发简单的Python的库。笔者所使用的C++编译器是vs2017，所使用的Python版本是Python3
安装skimage库经验 PeterClerk python 深度学习人工智能
方法一：使用pip安装1.在安装scikit-image之前，确保系统已经安装了Python和pip（Python的包管理工具）。在命令行中输入以下命令来检查：python--versionpip--version2.使用pip来安装scikit-image。在命令行中输入以下命令：pipinstallscikit-image3.安装完成后，通过以下Python代码来验证scikit-image是
python编写liunx服务器登陆自动巡检脚本运维_攻城狮 liunx linux 服务器运维人工智能
前言：用户需要一份用Python编写的Linux系统巡检脚本，检查内存、磁盘、CPU使用率，还有网络连通性。首先，我得确定用户的使用场景。可能用户是系统管理员，需要定期监控服务器状态，确保系统正常运行。或者是开发人员，想自动化巡检流程，减少手动检查的工作量。接下来，用户提到的具体指标有内存、磁盘、CPU和网络。我需要考虑如何用Python获取这些信息。对于Linux系统，通常可以通过读取/proc
计算机视觉与机器学习之文档解析与向量化技术加速多模态大模型训练与应用——文件向量化大模型！知世不是芝士计算机视觉人工智能大语言模型 ai大模型多模态大模型机器学习 LLM
目录前言1、TextIn文档解析技术1.1、文档解析技术1.2、目前存在的问题1.2.1、不规则的文档信息示例1.3、合合信息的文档解析1.3.1、合合信息的TextIn文档解析技术架构1.3.2、版面分析关键技术Layout-engine1.3.3、文档树提取关键技术Catalog-engine1.3.4、双栏1.3.5、非对称双栏1.3.6、双栏+表格1.3.7、无线表格1.3.8、合并单元格
计算机毕业设计 ——jspssm507Springboot 的论坛管理系统程序媛9688 课程设计
作者：程序媛9688开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等。文末获取源码+数据库感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人计算机毕业设计——jspssm507Springboot的论坛管理系统JSPSSM507SpringBoot论坛管理系统功
Amazon SageMaker 批量转换中的 JSON 处理技巧 t0_54coder json 个人开发
在使用AmazonSageMaker进行机器学习模型的批量转换时，我们经常会遇到一些配置和数据格式的问题。今天我们来讨论一个常见的困扰：如何处理在MultiRecord批量策略下JSON数据的解析错误。背景介绍AmazonSageMaker提供了强大的批量转换功能，允许我们对大量数据进行推理。这在处理大规模数据集时非常有用。然而，当我们尝试将批量策略从SingleRecord切换到MultiRec
GitHub 星标10W+的大模型书籍：《轻松入门大模型应用开发：GPT-4 和 ChatGPT 实战指南》，25年一书通关LLM大模型程序员丸子人工智能语言模型自然语言处理大模型 AI LLM 大模型应用
当下大模型这么火，还有人很多人想加入进来，但是不知道怎么去学习，那么今天我就给大家分享一本适合所有人的一本神仙级入门大模型的书籍，小白也能学会。它是由奥利维耶·卡埃朗和玛丽-艾丽斯·布莱特合著的一本《大模型应用开发极简入门：基于GPT-4和ChatGPT》，为初学者提供一份清晰、全面的“可用知识”，帮助读者快速了解GPT-4和ChatGPT的工作原理及优势。此书使用流行的Python编程语言来构建
编程小白冲Kaggle每日打卡（7）--kaggle学堂：＜Python＞布尔型和条件形 AZmax01 编程小白冲Kaggle每日打卡 python 开发语言
Kaggle课程官网链接：BooleansandConditionals本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。目录BooleansandConditionalsBooleansComparisonOperationsCombiningBooleanValuesConditionalsBooleanconversionYourTurnBooleansandConditionals
编程小白冲Kaggle每日打卡（4）--kaggle学堂：＜编程简介＞列表 AZmax01 编程小白冲Kaggle每日打卡机器学习人工智能 python
Kaggle课程官网链接：IntrotoLists本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。IntrotoLists整理您的数据，以便您能够高效地使用它。Introduction在进行数据科学研究时，您需要一种组织数据的方法，以便高效地使用它。Python有许多数据结构可用于保存数据，如列表、集合、字典和元组。在本教程中，您将学习如何使用Python列表。Motivation在“花
小红书电商运营，97节小红书vip内部课，带你实现小红书赚钱 LooKMeG 大数据教育电商
本套小红书电商运营VIP课程系统解析平台运营全流程，包含97节实战教学视频深度讲解垂直账号打造、数据选品策略、爆款图文创作等核心技能。课程涵盖店铺开设流程优化、考古加选品工具应用、灰豚数据分析实操，重点突破流量获取、笔记违规规避、直播脚本设计等实操难点。教学内容涉及AI图片生成、Live动图制作、私域变现布局等前沿技术，配套ERP软件使用指南与主播能力培养方案，帮助学员掌握小红书站内外选品技巧、高
python官方文档中文版[15],python3.7官方文档中文版 2401_84503846 网络信息可视化
大家好，给大家分享一下python官方帮助文档中文版，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Python学习路线by鱼皮。原创不易，请勿抄袭，违者必究！大家好，我是鱼皮，肝了十天左右的Python学习路线终于来了~和之前一样，在看路线前，建议大家先通过以下视频了解几个问题：Python为什么这么火？为什么都在说学Python找不到工作？Python真香么？我要学Python么？
python下载大文件mp4,python下载速度太慢 2401_85305177 前端
本篇文章给大家谈谈python下载大文件mp4，以及python下载速度太慢，希望对各位有所帮助，不要忘了收藏本站喔。Python学习路线by鱼皮宿迁趣品网络。原创不易，请勿抄袭，违者必究！大家好，我是鱼皮，肝了十天左右的Python学习路线终于来了~和之前一样，在看路线前，建议大家先通过以下视频了解几个问题：Python为什么这么火？为什么都在说学Python找不到工作？Python真香么？我要
计算机毕业设计 ——jspssm508Springboot 的旅游管理奔强的程序课程设计旅游
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
编程小白冲Kaggle每日打卡（5）--kaggle学堂：＜Python＞Hello,Python! AZmax01 编程小白冲Kaggle每日打卡 python 机器学习深度学习
Kaggle课程官方链接：Hello,Python本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。Hello,PythonPython语法、变量赋值和数字的快速介绍本课程涵盖了您需要的关键Python技能，以便您可以开始将Python用于数据科学。这门课程非常适合那些有一些编程经验的人，他们想把Python添加到他们的技能库中。（如果你是第一次编程，我们鼓励你查看我们的编程入门课程，该课
利用Python生成器和迭代器高效处理大数据文件清水白石008 计算机 Python题库 python python
利用Python生成器和迭代器高效处理大数据文件在Python中，处理大型数据文件时，内存管理是一个重要的考虑因素。传统的数据处理方法可能会一次性将整个文件加载到内存中，这在数据量较小时是可行的，但当数据量变得非常大时，这种方法就不再适用。幸运的是，Python提供了生成器和迭代器的概念，它们可以帮助我们在处理大型数据集时节省内存。本文将详细介绍如何使用这些工具来高效地处理大数据文件。什么是生成器
计算机毕业设计 ——jspssm510springboot 的人职匹配推荐系统程序媛9688 课程设计
作者：程序媛9688开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等。文末获取源码+数据库感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人计算机毕业设计——jspssm510springboot的人职匹配推荐系统人职匹配推荐系统技术说明本毕业设计项目“jsps
计算机毕业设计 ——jspssm513Springboot 的小区物业管理系统程序媛9688 课程设计
作者：程序媛9688开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等。文末获取源码+数据库感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人计算机毕业设计——jspssm513Springboot的小区物业管理系统技术说明：小区物业管理系统（基于JSP+SSM+
计算机毕业设计 ——jspssm514Springboot 的校园新闻网站程序媛9688 课程设计
作者：程序媛9688开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等。文末获取源码+数据库感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人计算机毕业设计——jspssm514Springboot的校园新闻网站技术说明：JSPSSM514Springboot校园
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL