weixin_39972567

兴趣点推荐代码_推荐系统模型阿里用户兴趣模型（附完整代码）

项目地址：StephenBo-China/recommendation_system_sort_model

阿里天池数据集地址：数据集-阿里云天池

最近由于工作需要用tensorflow2.0复现了下阿里的兴趣模型，本文将先对论文进行描述，再介绍如何使用tensorflow2.0进行复现。建议阅读本文前先读一遍论文，本文的论文解析部分可作为辅助。

一、论文解析：

Base Model：

base model比较简单，就是将用户历史行为序列的各个商品的类别特征embedding之后，与非类别特征concat后进入pooling层(sum pooling与average pooling均可，具体可根据实际情况进行调整)；pooling后与embedding后的用户画像特征及目标商品特征一起concat后进入最后的MLP得到最终的分类结果。

Embedding Layer：

input: high dimensional binary vectors
ouput: low dimensional dence representations

对于第i个category特征来说，该特征有K个不同类别的值，我们希望将它embedding到D维，则：

为第i个特征的词典，为第j个类别的embedding后的向量。具体的embedding的其他方法可阅读embedding相关的paper。

2. Pooling Layer：

由于MLP的输入层必须是固定长度的节点数，但是不同用户的历史行为序列长度不同，因而我们没有办法直接对行为序列特征进行concat，为了使得embedding后的行为序列长度相同，我们可以采用pooling操作让行为序列产出的特征长度相同，pooling可使用sum pooling或average pooling。sum对emebdding后的行为序列的各个item求和，average对embedding后的行为序列的各个item求均值得到。

3. MLP:

输入为concat(用户画像特征，pooling(embedding(历史行为序列))，目标商品特征)的全连接神经网络，最终使用softmax得到最终分类结果。loss采用log loss。

Base Mode存在的问题：

pooling直接处理用户历史行为序列会有信息丢失：

Base模型中直接对多个Embedding向量进行等权的sum-pooling，这种方法肯定会带来信息的丢失，而且相对重要的Embedding向量也无法完全突出自己所包含的信息。base model中使用average pooling或者sum pooling对emebdding后的历史行为序列进行处理，对不同用户的行为序列得到同长度的MLP输入。但是这样做对于行为序列内的所有内容都是一视同仁的，不利于用户兴趣的表达。比较简单的方法是将embedding后的向量直接展开，但是这样会增加embedding层的学习权重，容易导致过拟合(个人理解，这样做不但会增加训练权重，且依然不能表达用户的兴趣信息，但是论文中是这样说的)。

2. 如何让Base Model的pooling层产出能够表达出用户兴趣信息？

用Attention给pooling添加权重后求和，让模型更加关注有用的信息。因为在用户的历史行为序列中，展现item的数量要多于点击item，如果直接对行为序列等权sum pooling，展现序列贡献的信息要更多，但是点击item更加能体现用户的实际兴趣，因而加权后进行pooling可以提取出更多的兴趣信息。

DIN：

DIN创新点：

(1) weighted-sum pooling:

a. weighted-sum pooling方法：

在历史行为序列进入pooling前，加入attention层，计算出行为序列中不同item的权重a_i后，再使用如下公式得到sum pooling的结果：

其中，为embedding后的用户行为序列；是emebdding后目标商品的特征向量；为attention层产出结果。

本文attention不使用传统的attention方法，需单独维护一个全连接神经网络得到最终attention结果，attention神经网络的输入为：行为序列中的每个item组合上目标商品的特征concat后作为输入，输出为各个item的权重。即用全连接层得到行为序列各个item的attention权重后，直接使用attention的权重向量与emebdding后行为序列做矩阵乘法即可得到。

attention的神经网络结构如下图所示：

b. weighted-sum pooling为什么不用传统attenion方法：

传统方法使用softmax获得attention产出的权重被遗弃，因为传统方法使得attention的权重求和为1，这样求得的权重并不是用户兴趣的分布估计，采用神经网络最终使用sigmoid或其他激活函数得到序列attention权重分布，从而获得对用户兴趣的权重估计更适用于用户兴趣的表示。比如一个用户历史行为序列中90%都是衣服，10%是电子产品。如果目标商品是t恤和手机的话，传统attention方法会使得t恤的高于手机，因为用户的行为序列中大部分都是衣服，但是用户购买手机与否与他购买衣服与否是没有直接关联的，因而不能用传统的方法直接求softmax，softmax使得行为序列中的各个item都有了关联从而得出了商品权重。实际使用时可尝试最后激活函数使用softmax与sigmoid分别看效果后进行选择。

2. Dice激活函数：

可也看到，每一个yi对应了一个概率值pi。pi的计算主要分为两步：将yi进行标准化和进行sigmoid变换。Dice激活函数与batch normalisation一样都是用来解决Internal Covariate Shift问题。

3. Mini-batch Aware Regularization：

商品id等需要embedding的特征，有些特征非常稀疏，导致embedding的训练参数过多，很容易造成过拟合。用户对于商品的数据符合长尾定律，也就是说有些id只出现了几次，而以下部分id会出现很多次，这样训练过程中就加入了更多噪声，使得模型更容易过拟合。因而需要正则化的方法来防止过拟合，但是由于DIN的大部分训练权重都是由embedding贡献的，直接加入L1正则或者L2正则的话会提高模型训练的复杂度(对于一个mini-batch来说，在没有L2正则时，梯度下降只需要更新embedding中的非0参数，但是加入L2正则由于要计算L2-norm，则需要对所有的参数进行计算)。因而论文提出了mini-batch regularization的方法，让模型自适应各个embedding feature的正则化强度。

最终推导出的权重更新公式如下：

由于Mini-batch Aware Regularization是生效在embedding层的权重更新中，且只有在需要embedding的特征非常稀疏时，才需要该正则化方法，因而本文直接使用tensorflow自带的embedding层，只要输入特征不是非常稀疏，不用该方法不会影响到模型最终效果。

二、实现：

模型自定义层：

1.weighted-sum pooling：

Attention层输入为行为序列与target item组合后的特征，由于一个batch下的行为序列长度不同，因而给长度不足最大长度的补1padding后，输入到全连接神经网络，最后通过sigmoid激活函数得到a(i)的值，在用得到的权重向量与embedding后的行为序列矩阵做矩阵乘法即得到了权重乘以各个item后求和pooling的结果。

class attention(tf.keras.layers.Layer):
    def __init__(self, keys_dim):
        super(attention, self).__init__()
        self.keys_dim = keys_dim
        self.fc = tf.keras.Sequential()
        self.fc.add(layers.BatchNormalization())
        self.fc.add(layers.Dense(100, activation="sigmoid")) 
        self.fc.add(layers.ReLU())
        self.fc.add(layers.Dense(50, activation="sigmoid"))
        self.fc.add(layers.ReLU())
        self.fc.add(layers.Dense(1, activation=None))


    def call(self, queries, keys, keys_length):
        #Attention
        queries = tf.tile(tf.expand_dims(queries, 1), [1, tf.shape(keys)[1], 1])
        din_all = tf.concat([queries, keys, queries-keys, queries*keys], axis=-1)
        outputs = tf.transpose(self.fc(din_all), [0,2,1])
        key_masks = tf.sequence_mask(keys_length, max(keys_length), dtype=tf.bool)
        key_masks = tf.expand_dims(key_masks, 1)
        paddings = tf.ones_like(outputs) * (-2 ** 32 + 1)
        outputs = tf.where(key_masks, outputs, paddings)
        outputs = outputs / (self.keys_dim ** 0.5)
        #outputs = tf.keras.activations.softmax(outputs, -1)
        outputs = tf.keras.activations.sigmoid(outputs)

        #Sum Pooling
        outputs = tf.squeeze(tf.matmul(outputs, keys))
        print("outputs:" + str(outputs.numpy().shape))
        return outputs

2.Dice激活函数：

class dice(tf.keras.layers.Layer):
    def __init__(self, feat_dim):
        super(dice, self).__init__()
        self.feat_dim = feat_dim
        self.alphas= tf.Variable(tf.zeros([feat_dim]), dtype=tf.float32)
        self.beta  = tf.Variable(tf.zeros([feat_dim]), dtype=tf.float32)

        self.bn = tf.keras.layers.BatchNormalization(center=False, scale=False)

    def call(self, _x, axis=-1, epsilon=0.000000001):

        reduction_axes = list(range(len(_x.get_shape())))
        del reduction_axes[axis]
        broadcast_shape = [1] * len(_x.get_shape())
        broadcast_shape[axis] = self.feat_dim

        mean = tf.reduce_mean(_x, axis=reduction_axes)
        brodcast_mean = tf.reshape(mean, broadcast_shape)
        std = tf.reduce_mean(tf.square(_x - brodcast_mean) + epsilon, axis=reduction_axes)
        std = tf.sqrt(std)
        brodcast_std = tf.reshape(std, broadcast_shape)

        x_normed = self.bn(_x)
        x_p = tf.keras.activations.sigmoid(self.beta * x_normed)

        return self.alphas * (1.0 - x_p) * _x + x_p * _x

整体实现：

除了weighted-sum pooling为din的自定义层，其余均为tensorflow包含层，直接通过论文中模型结构构造整个模型即可：

class DIN(tf.keras.Model):
    def __init__(self, embedding_count_dict, embedding_dim_dict, embedding_features_list, user_behavior_features, activation="PReLU"):
        super(DIN, self).__init__(embedding_count_dict, embedding_dim_dict, embedding_features_list, user_behavior_features, activation)
        #Init Embedding Layer
        self.embedding_dim_dict = embedding_dim_dict
        self.embedding_count_dict = embedding_count_dict
        self.embedding_layers = dict()
        for feature in embedding_features_list:
            self.embedding_layers[feature] = layers.Embedding(embedding_count_dict[feature], embedding_dim_dict[feature])
        #DIN Attention+Sum pooling
        self.hist_at = attention(utils.get_input_dim(embedding_dim_dict, user_behavior_features))
        #Init Fully Connection Layer
        self.fc = tf.keras.Sequential()
        self.fc.add(layers.BatchNormalization())
        self.fc.add(layers.Dense(200, activation="relu")) 
        if activation == "Dice":
            self.fc.add(Dice())
        elif activation == "dice":
            self.fc.add(dice(200))
        elif activation == "PReLU":
            self.fc.add(layers.PReLU(alpha_initializer='zeros', weights=None))
        self.fc.add(layers.Dense(80, activation="relu"))
        if activation == "Dice":
            self.fc.add(Dice()) 
        elif activation == "dice":
            self.fc.add(dice(80))
        elif activation == "PReLU":
            self.fc.add(layers.PReLU(alpha_initializer='zeros', weights=None))
        self.fc.add(layers.Dense(2, activation=None))


    def get_emb_din(self, user_profile_dict, user_profile_list, hist_behavior_dict, target_item_dict, user_behavior_list):
        user_profile_feature_embedding = dict()
        for feature in user_profile_list:
            data = user_profile_dict[feature]
            embedding_layer = self.embedding_layers[feature]
            user_profile_feature_embedding[feature] = embedding_layer(data)

        target_item_feature_embedding = dict()
        for feature in user_behavior_list:
            data = target_item_dict[feature]
            embedding_layer = self.embedding_layers[feature]
            target_item_feature_embedding[feature] = embedding_layer(data)

        hist_behavior_embedding = dict()
        for feature in user_behavior_list:
            data = hist_behavior_dict[feature]
            embedding_layer = self.embedding_layers[feature]
            hist_behavior_embedding[feature] = embedding_layer(data)

        return utils.concat_features(user_profile_feature_embedding), utils.concat_features(target_item_feature_embedding), utils.concat_features(hist_behavior_embedding)

    def call(self, user_profile_dict, user_profile_list, hist_behavior_dict, target_item_dict, user_behavior_list, length):
        #Embedding Layer
        user_profile_embedding, target_item_embedding, hist_behavior_emebedding = self.get_emb_din(user_profile_dict, user_profile_list, hist_behavior_dict, target_item_dict, user_behavior_list)
        hist_attn_emb = self.hist_at(target_item_embedding, hist_behavior_emebedding, length)
        join_emb = tf.concat([user_profile_embedding, target_item_embedding, hist_attn_emb], -1)
        logit = tf.squeeze(self.fc(join_emb))
        output = tf.keras.activations.softmax(logit)
        return output, logit

三、实验：

本文使用阿里天池数据集进行实验：

数据集介绍：

用户行为日志：

本数据集涵盖了raw_sample中全部用户22天内的购物行为(共七亿条记录)。字段说明如下：

(1) user：脱敏过的用户ID；

(2) time_stamp：时间戳；

(3) btag：行为类型, 包括以下四种：浏览、加入购物车、喜欢、购买。其中浏览为负例(展现未点击)，其他均为正例(点击)。

2. 用户画像特征：

(1) cms_segid：微群ID；

(2) cms_group_id：cms_group_id；

(3) final_gender_code：性别 1:男,2:女；

(4) age_level：年龄层次；

(5) pvalue_level：消费档次，1:低档，2:中档，3:高档；

(6) shopping_level：购物深度，1:浅层用户,2:中度用户,3:深度用户

(7) occupation：是否大学生，1:是,0:否

(8) new_user_class_level：城市层级

3. 目标商品：

(1) user_id：脱敏过的用户ID；

(2) adgroup_id：脱敏过的广告单元ID；

(3) time_stamp：时间戳；

(4) pid：资源位；

(5) noclk：为1代表没有点击；为0代表点击；

(6) clk：为0代表没有点击；为1代表点击；

4. 内容特征：

(1) adgroup_id：脱敏过的广告ID；

(2) cate_id：脱敏过的商品类目ID；

(3) campaign_id：脱敏过的广告计划ID；

(4) customer_id:脱敏过的广告主ID；

(5) brand：脱敏过的品牌ID；

(6) price: 宝贝的价格

5. 已处理好的实验数据集：

备注：实际训练样本共23249296条，测试样本共3308665条【用前面7天的做训练样本(20170506-20170512)，用第8天的做测试样本(20170513)】。为快速评估复现模型，仅取训练样本中10000条样本进行训练，测试样本中1000条进行测试。

训练loss：

(epoch=3，batch=100，训练数据集10000条，测试数据集1000条)

模型评估：

评估报告

2. ROC曲线及AUC：

什么是人工智能（AI）？ 5G云网络人工智能
人工智能AI（即ArtificialIntelligence）是计算机科学的一个分支，旨在让计算机模仿人类的决策能力、像人类一样思考和行动，来解决如自然语言处理、推荐、智能数据检索、预测等方面人类无法处理或难以处理的复杂工作。为什么需要人工智能？人类社会和计算机产生的数据量非常庞大，已远远超出人类可以处理的范围。人工智能发展到今天，覆盖了我们日常活动的各个方面，已经彻底改变了我们许多的生活或工作方
python操作mqtt william199912 物联网 python
文章目录概述连接操作代码示例可设置选项回调函数维持与mqtt代理之间的连接loop()loop_start()loop_forever()消息发送订阅主题概述python操作mqtt主要通过paho-mqtt库实现，支持mqtt3.1/3.1.1协议。连接操作Client(client_id="",clean_session=True,userdata=None,protocol=MQTTv311
mixin _未知_开摆 vue.js 前端 javascript
Mixin是面向对象程序设计语言中的类，提供了方法的实现。其他类可以访问mixin类的方法而不必成为其子类在Vue.js中，Mixin是一种灵活的代码复用方式，允许我们将组件之间的公共逻辑抽取出来，从而提高代码的可维护性和可重用性Mixins的基本概念定义Mixins：你可以创建一个包含数据、计算属性、方法和生命周期钩子的对象，然后在多个组件中复用它。示例://myMixin.jsexportco
如果大家想在win7上使用pycharm，就不能使用2019.3之后的版本（内附下载不同pycharm版本的链接）测试开发Kevin 测试开发 Python pycharm python
最近有一个在win7上使用pycharm开发pyhon代码的需求，在网上下载了最新的pycharm，运行报错"无法定位程序输入点CreateAppContainerProfile于动态链接库USERENV.dll”，多年测试工作经验告诉我，这个问题大概率是新版本的pycharm与win7不兼容导致的！！！然后在网上找到了答案：jetbrains官方给的回答是2019.3之后不支持windows7使
Python学习：split()方法以及关于str.split()[0]等形式内容的详细讲解鹿海园 python python学习之路
str.split(str="",num=string.count(str)).参数：str–分隔符，默认为所有的空字符，包括空格、换行(\n)、制表符(\t)等。num–分割次数。默认为-1,即分隔所有。返回值：Pythonsplit()通过指定分隔符对字符串进行切片，如果参数num有指定值，则分隔num+1个子字符串返回分割后的字符串列表。代码示例：输入str="Line1-abcdef\nL
低代码开发是传统开发的替代，还是补充？软件开发低代码
在当今快速发展的数字化时代，软件开发的需求呈爆发式增长。传统开发模式在长期的实践中形成了一套成熟的体系，但随着技术的演进，低代码开发逐渐崭露头角，引发了业界关于它究竟是传统开发模式的替代者还是补充者的激烈讨论。传统开发模式：深厚底蕴与坚固壁垒传统开发模式，历经多年发展，拥有一套严谨的流程，从需求分析、设计、编码、测试到部署，每个环节都有着严格的规范和标准。它适用于对性能、安全性和复杂性要求极高的场
C#接口(Interface) 幻想趾于现实 .NET C#c#开发语言
C#中的接口接口是C#中一种重要的概念，它定义了一组函数成员，但不实现它们。接口提供了一种标准结构，使得实现接口的类或结构在形式上保持一致。接口定义了属性、方法和事件，这些都是接口的成员，但接口只包含成员的声明，具体的实现由派生类负责定义接口接口使用interface关键字声明，通常接口名称以大写字母“I”开头。接口的作用接口为代码编写和程序开发提供了一个“协定”，即一个规范。使用接口可以确保不同
使用Python爬取政府公开数据获取统计信息和公共政策嵌入式开发项目 2025年爬虫精通专栏 python 开发语言爬虫网络爬虫
目录1.爬虫程序的准备工作2.网页的解析和数据提取3.数据的保存和处理4.政府公开数据爬虫的代码实现示例5.测试和评估爬虫程序6.总结政府公开数据是一种重要的信息资源，包含丰富的统计信息和公共政策数据。通过使用Python编写爬虫程序，我们可以从政府公开数据平台上获取统计数据和公共政策信息，帮助人们更好地了解社会和政府的发展动态。本文将介绍如何使用Python编写爬虫程序，从政府公开数据平台上提取
MySQL 查询语法与关键操作全解析百度一下吧后端 mysql 数据库
MySQL全面指南：增删改查、联表查询与权限管理详解一、MySQL基础操作语法1.1数据插入（INSERT）sql复制--插入单条完整记录（需包含所有字段）INSERTINTOusersVALUES(1,'admin','[email protected]','2023-01-01');--指定字段插入（推荐方式）INSERTINTOusers(username,email,created_at)
【python实操】python小程序之参数化以及Assert（断言） Lossya 1024程序员节 python 小程序 apache 封装异常捕获开发语言
引言python小程序之参数化以及Assert（断言）文章目录引言一、参数化2.1题目2.2代码2.3代码解释二、Assert（断言）2.1概念2.1.1Assert语句的基本语法：2.1.2基本断言2.1.3断言函数参数2.1.4断言前后状态一致2.2题目2.3代码2.3.1tool模块代码2.3.2断言代码2.4代码解释三、思考3.1参数化3.2Assert（断言）一、参数化2.1题目如何参数
利用 Python 构建地方政府公开数据爬虫：抓取政策文件、公开数据及规划 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化汽车
引言随着信息化进程的加快，地方政府在其官方网站上发布了大量的政策文件、统计数据和发展规划，以满足公众的知情权。这些数据的公开不仅有助于透明化治理，同时也为数据分析、政策研究提供了重要基础。然而，面对海量的网页数据，如何高效抓取和管理这些信息成为关键问题。本文将全面介绍如何利用Python构建一个爬虫系统，抓取地方政府的公开数据。我们将涵盖从技术选型、代码实现到数据分析的完整流程，并提供详细代码和优
大龄转行网络安全，可行吗？程序员肉肉 web安全安全网络学习开发语言
对于一直以来对网络安全兴趣很大，想以此作为以后的职业方向的人群。不用担心，你可以选择兼顾工作和学习，以步步为营的方式尝试转行到网络安全领域。那么，网络安全到底要学些什么呢？（1）基础部分基础部分需要学习以下内容：（1.1）计算机网络：重点学习OSI、TCP/IP模型，网络协议，网络设备工作原理等内容，其他内容快速通读；（1.2）Linux系统及命令：由于目前市面上的Web服务器7成都是运行在Lin
vue2-mixin的定义与和使用 16年上任的CTO VUE2 vue.js 前端 javascript mixin
文章目录1.什么是mixin2.局部混入3.全局混入4.多mixin混入冲突4.1替换性4.2合并型4.3合并队列型4.4叠加性5.使用场景#vue2-mixin的使用1.什么是mixinMixin是面向对象语言中的一个类，提供了方法的实现，其他类可以访问mixin类的方法而不用继承Mixin类通常作为功能模块使用，在需要该功能的地方进行混入，有利于代码复用，又避免了多继承的复杂在Vue中，Mix
python程序怎么给别人运行_python写完程序怎么运行 weixin_39953740 python程序怎么给别人运行
python写完程序怎么运行,命令行,代码,程序,编辑器,文本python写完程序怎么运行易采站长站，站长之家为您整理了python写完程序怎么运行的相关内容。安装并配置完成之后，我们就可以编写第一个python程序。学过其他语言的兄弟姐妹们，都知道语言的入门程序就是helloworld。那么，我们这里也以helloworld来抛砖引玉，打开python学习的大门。python运行有两种方式，一种
yolov5 c++ onnx pytorch pycharm gpu train test mulsh YOLO c++opencv pytorch pycharm
目的：目标实时检测；方法：c++调用yolov5模型；数据资源参考：【Yolov5】1.认真总结6000字Yolov5保姆级教程（2022.06.28全新版本v6.1）_yolov5教程-CSDN博客代码:#include#include#includeusingnamespacecv;usingnamespacecv::dnn;//#classnamesstd::vectorclasses={"
python是如何运行程序的？ vinkuan python python
从实现方式上看，python是一个名为解释器的软件包。解释器是一种让其他程序运行起来的程序。当编写一段python程序，Pyhton解释器将读取程序，并按照其中的命令执行，得出结果。实际上，解释器是代码与机器的计算机硬件之间的软件逻辑层。Python安装包至少包含一个解释器和一套支持库。程序执行从程序员的视角来看，Python程序是一个包含Python语句的文本文件。按照惯例，Python文件是以
网络安全知识点黑客Ash php 开发语言
1.2.1网络安全概念P4网络安全是指网络系统的硬件、软件及其系统中的数据受到保护，不因偶然的或恶意的原因而遭到破坏、更改、泄露，系统连续可靠正常地运行，网络服务不中断。1.2.3网络安全的种类P5（1）物理安全（2）系统安全（3）电子商务（4）协议安全（5）应用系统安全1.3.5网络攻击分类P11（1）主动攻击：包含攻击者访问他所需信息的故意行为。（2）被动攻击：主要是收集信息而不是进行访问，数
C# 不确定参数个数关键字 params 不射之射 C#C#关键字 params
今天接了个给项目写Log日志管理类的活。具体功能是将项目中用到的log日志打印地方都统一调用管理类的接口，从而可以统一通过开关控制log打印。做的时候需要拼接多个字符参数组成字符串，字符参数个数不确定，可能有0到n个，如果不同字符数量都写一个参数重载就不大合理，网上查了C#有params这个参数，可以实现传不同参数个数的功能。下面是代码演示。usingSystem;usingSystem.Text
使用Python和TensorFlow/Keras构建一个简单的CNN模型来识别手写数字 mosquito_lover1 python tensorflow keras
一个简单的图像识别项目代码示例，使用Python和TensorFlow/Keras库来训练一个基本的CNN模型，用于识别MNIST手写数字数据集，并将测试结果输出到HTML。代码运行效果截图：具体操作步骤：1.安装所需的库首先，确保你已经安装了所需的Python库：pipinstalltensorflownumpymatplotlibpandasjinja2TensorFlow：用于构建和训练深度
【保姆级教程】YOLOv8_Seg实例分割：训练自己的数据集 BILLY BILLY YOLOv8系列语义分割 YOLO 人工智能
一、YOLOV8环境准备1.1下载安装最新的YOLOv8代码仓库地址：https://github.com/ultralytics/ultralytics1.2配置环境pipinstall-rrequirements.txt-ihttps://pypi
PHP安全防护：深度解析htmlspecialchars绕过与防御策略小彭爱学习 php 网络安全 php 安全开发语言
PHP安全防护：深度解析htmlspecialchars绕过与防御策略一、为什么htmlspecialchars会被绕过？在PHP安全防护领域，htmlspecialchars()函数长期被视为防御XSS攻击的银弹。但安全研究数据显示，超过62%的XSS漏洞发生在已使用该函数防护的代码中。本文将深入剖析常见的绕过场景，并给出完整的防御方案。1.1htmlspecialchars基础认知//标准用法
标准的Python项目架构诚信爱国敬业友善 python 架构开发语言
项目架构的重要性代码组织重要性：清晰的代码组织可以减少混乱，提高代码的可读性和可维护性。示例：将代码按照功能模块组织，每个模块职责明确，便于定位问题和扩展功能。模块划分重要性：合理的模块划分可以降低模块间的耦合度，提高代码的重用性和扩展性。示例：将模型、视图、控制器分离（MVC模式），各模块专注于特定职责。依赖管理重要性：统一管理依赖可以确保项目的可移植性和稳定性。示例：使用requirement
anaconda集成环境 ovo咖啡猫ovo python 开发语言
#环境选择了anaconda集成环境，#原因懒人包，方便管理多环境，项目环境隔离，#缺点打包的时候有时因为pipinstall和condainstall下载的源版本不匹配导致打包失败，后台服务器代码打包失败尤为明显常用命令环境管理创建环境condacreate--namemyenv指定Python版本：condacreate--namemyenvpython=3.8激活环境condaactivat
《Node.js Express 框架》 froginwe11 开发语言
《Node.jsExpress框架》引言Node.js是一种基于ChromeV8引擎的JavaScript运行环境，它允许开发者使用JavaScript来编写服务器端代码。Express是一个简洁、灵活的Node.jsWeb应用框架，它为Web和移动应用程序提供了一系列强大的功能。本文将详细介绍Node.jsExpress框架，包括其基本概念、使用方法以及在实际项目中的应用。Node.jsExpr
C#面试常考随笔13: 泛型的主要约束和次要约束是什么？ Dr.勿忘 c#面试开发语言游戏引擎
在C#泛型中，主要约束和次要约束用于限制泛型类型参数的使用，确保类型参数满足一定的条件，从而提高代码的可靠性和可维护性。以下是主要约束和次要约束的详细介绍：主要约束引用类型约束（class）：表示泛型类型参数必须是引用类型，包括类、接口、委托和数组类型等。例如，定义一个只能接受引用类型的泛型方法：voidProcessReferenceType(Tobj)whereT:class{//这里可以安全
一切阅读都是误读博文视点编程 unix 读书网易招聘出版
一切阅读都是误读一切阅读都是误读——安伯托•艾柯上次读这本书已经是五年前的事了，中文版刚出版我就买了一本。那时候，我的工作相对比较清闲，有大量的时间阅读。恰巧我在负责公司的校园招聘及新员工培训，非常需要一些不错的教材，更早的时候听说过这本书的英文版，但是没能一读，中文版自是不能放过。另外，那年我在写书，记录一些程序员生涯中的心得，对经验的总结都颇有兴趣。爱不释手，是我第一次读完后的心境。完整经历了
yolov5 实例分割：从原理、构建数据集到训练部署外卖猿 AI实战 yolov5 实例分割 c++部署 opencv 自定义数据集
yolov5实例分割：从原理、构建数据集到训练部署1.模型介绍1.1YOLOv5结构1.2YOLOv5推理时间2.构建数据集2.1使用labelme标注数据集2.2生成coco格式label2.3coco格式转yolo格式3.训练3.1整理数据集3.2修改配置文件3.3执行代码进行训练4.使用OpenCV进行c++部署5.使用openvino进行c++部署参考文献1.模型介绍1.1YOLOv5结构
构建一个翻译助手Agent：提升翻译效率的实践 Ethan独立开发人工智能 AI ai agent
在上一篇文章中,我们讨论了如何构建一个测试助手Agent。今天,我想分享另一个实际项目:如何构建一个翻译助手Agent。这个项目源于我们一个出海团队的真实需求-提升翻译效率,保障翻译质量。从翻译痛点说起记得和产品团队讨论时的场景：小王：我们要把产品文档翻译成多种语言,人工翻译太慢了小李：是啊,而且专业术语的翻译要保持一致性我：主要是哪些翻译场景？小王：产品文档、技术文档、营销文案这些我：这些场景很
超详细UE4（虚幻4）第一人称射击（FPS）游戏制作教程孤客网络科技工作室 ue4 ue4 游戏
超详细UE4（虚幻4）第一人称射击（FPS）游戏制作教程引言在游戏开发领域，第一人称射击（FPS）游戏一直是最受欢迎的类型之一。从经典的《反恐精英》（CS）到现代的《使命召唤》（CallofDuty），FPS游戏凭借其紧张刺激的游戏体验和高度沉浸感，吸引了无数玩家。如果你是一名游戏开发者，或者对游戏开发感兴趣，那么掌握如何使用虚幻引擎4（UnrealEngine4，简称UE4）制作FPS游戏将是一
构建一个数据分析Agent：提升分析效率的实践 Ethan独立开发人工智能 AI ai agent
在上一篇文章中,我们讨论了如何构建一个智能客服Agent。今天,我想分享另一个实际项目:如何构建一个数据分析Agent。这个项目源于我们一个金融客户的真实需求-提升数据分析效率,加快决策速度。从分析师的痛点说起记得和分析师团队交流时的场景：小张：每天要分析这么多数据,真的很耗时小李：是啊,而且经常要写各种分析报告我：主要在哪些环节比较耗时？小张：数据清洗、指标计算、图表生成这些都很繁琐我：这些正好
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =