数学工具构造器

天猫复购预测 - rank 7 , top 0.16%

最近尝试了一个数据比赛，截止2021年2月，成绩是 rank 7 / 4313

文章目录

1. 特征工程
- 1.1 特征工程总览
- 1.2 通过PySpark构造统计特征
- - 1.2.1 特征构造器的特点
  - 1.2.2 可以构造哪些统计特征
- 1.3 通过Node2Vec构造图嵌入特征
- - 1.3.1 为什么用graph-embedding获取隐向量
  - 1.3.2 什么是Node2Vec
- 1.4 通过Word2Vec构造词嵌入向量
- 1.5 boruta特征筛选
2. 模型训练与模型融合
参考资料

1. 特征工程

1.1 特征工程总览

图1. 本项目特征工程总览

上图为本项目用到的特征工程，主要分为统计特征，图嵌入特征，词嵌入特征，最后通过join操作将各个特征join到主键为user_id, merchant_id的训练数据上。

如果您觉得图片过于模糊，可前往 Github 下载PDF。

1.2 通过PySpark构造统计特征

特征构造器：build_feat_pyspark.py
调用特征构造器：fesys_pyspark.py

1.2.1 特征构造器的特点

本项目的一大创新点就是开发了一个 特征构造器 FeatureBuilder 。该构造器专门用于构造日志数据中的统计特征，其特点有：

以主键为核心构建特征表
支持通过where语句来丰富特征库
支持dummy计数、用户自定义聚集函数等操作获取统计特征
采用PySpark计算，可在集群中并行

该构造器的设计哲学是以主键为核心构建与主键相关的特征列。如本赛题中，训练数据的主键为user_id, merchant_id，那么我们就可以构造出user_id, merchant_id, user_id, merchant_id 这三个特征表。

例如，在user_id特征表中构造用户最喜欢的商品、店铺等统计特征，在merchant_id特征表中构造商铺历史中各个年龄阶段的占比等统计特征，在user_id, merchant_id特征表中构造用户，商铺的交互次数等统计特征。

同时，我们还可以通过加上where语句让特征成倍地增加。例如，除了计算全局的（即不加where的）统计特征外，还可以计算双十一期间的统计特征，有购买行为限定的统计特征等等。

我们用一个例子讲讲dummy计数、用户自定义聚集函数这些特性。例如我们获取【商铺在各个年龄段的计数和占比】这些特征时，可以用这个代码：

feat_builder.buildCountFeatures('merchant_id', ['age_range'], dummy=True, ratio=True)
# agg_funcs=['mean', 'max', 'min', 'median', 'std', 'var', unique_udf]

可以看到这8列是对【商铺在8个年龄段的计数】的统计。

这8列是对【商铺在8个年龄段的占比】的统计。

如果我们要获取【商铺购买记录中年龄段的最小值、最大值、平均值等统计量】这些特征时，可以用这个代码：

feat_builder.buildCountFeatures('merchant_id', ['age_range'], dummy=False, ratio=False,
agg_funcs=['mean', 'max', 'min', 'median', 'std', 'var', unique_udf] )

最后，特征构造器 支持持久化序列化等操作，在构建训练数据与测试数据时只需要依次将各个特征表join到主表即可，使各个特征解耦和。

1.2.2 可以构造哪些统计特征

计算用户和商铺的复购次数（复购率用rebuy_udf算）
【商家】与用户的【年龄，性别】两个特征的交互
【商家，商品，品牌，类别】与多少【用户】交互过
【用户】与多少【商家，商品，品牌，类别】交互过（去重）
※【商家】,【用户，商品】与多少【商品，品牌，类别】交互过（去重）
※【用户，商家，商品，品牌，类别】的【action_type】统计（行为比例）
【用户，商家，【用户，商家】】每个【月，星期】的互动次数, 持续时间跨度，用户与商铺开始、终止时间统计
“最喜欢”特征，如用户最喜欢的商家、商品，主宾都可以互换
※ 用户在商铺的出现比例, 以及相反
※ 用户和商铺的复购率
对各种频率分布进行统计。如：商铺的用户序列是 [user1, user1, user2], 那么频率分布就是[2,1]，计算这个分布的统计特征，如方差。

然后，取action_type=purchase的where条件，再把上述特征计算一遍。

最后，取交互日期为双十一的where条件，把上述星号※的特征计算一遍。

1.3 通过Node2Vec构造图嵌入特征

生成二部图数据： create_graph_embedding_data.py
训练Node2Vec： train_node2vec.py

1.3.1 为什么用graph-embedding获取隐向量

为什么要用对二部图做graph-embedding的方法获取用户和商铺的向量呢？

我们知道，在推荐系统中有一个user-item共现矩阵，如下图：

图2. user-item共现矩阵

如果我们要通过user-item共现矩阵得到user-embedding和item-embedding，一般有两种做法：

对这个矩阵进行矩阵分解，如SVD或神经网络的方法，得到隐向量。
将矩阵视为词袋，用TF-IDF再加上LSA、LDA等方法得到主题向量。
按照时间顺序整理用户看过的物品序列，用Word2Vec学习这个序列中上下文的相关性，得到物品隐向量。反之得到用户隐向量。
将user-item共现矩阵转换为二部图的邻接矩阵（图3）后，可以在这个图上使用deep-walk，node2vec等graph-embedding的方法得到图嵌入向量。

·
图3. user-item二部图邻接矩阵

本项目经过综合考虑，选择了方案4，即图嵌入的方案，理由如下：

graph-embedding得到的用户向量与店铺向量之间的内积可以表示用户对商铺的喜欢程度，与矩阵分解的性质相似。方案2和方案3没有这个性质。
graph-embedding可以考虑到一些隐含信息，如用户1和用户2都喜欢店铺A，而用户1还喜欢店铺B，这样用户2也有可能喜欢店铺B。这样的隐含信息是矩阵分解学不到的。

1.3.2 什么是Node2Vec

图嵌入算法中最常见的是Deep Walk，它的主要思想是在由物品组成的图结构上进行随机游走，产生大量物品序列，然后将这些物品序列作为训练样本输入 Word2vec 进行训练，最终得到物品的 Embedding。因此，DeepWalk 可以被看作连接序列 Embedding 和 Graph Embedding 的一种过渡方法。图 4 展示了 DeepWalk 方法的执行过程。

图4 DeepWalk方法的过程

Node2Vec在DeepWalk的基础上，通过调整游走权重的方法试Graph Embedding的结果更倾向与体现网络的同质性（homophily）或结构性（structural equivalence）。其中“同质性”指的是距离相近节点的 Embedding 应该尽量近似，“结构性”指的是结构上相似的节点的 Embedding 应该尽量接近。

图5 网络的BFS和 DFS示意图

为了使 Graph Embedding 的结果能够表达网络的“结构性”，在随机游走的过程中，我们需要让游走的过程更倾向于 BFS（Breadth First Search，宽度优先搜索），因为 BFS 会更多地在当前节点的邻域中进行游走遍历，相当于对当前节点周边的网络结构进行一次“微观扫描”。当前节点是“局部中心节点”，还是“边缘节点”，亦或是“连接性节点”，其生成的序列包含的节点数量和顺序必然是不同的，从而让最终的 Embedding 抓取到更多结构性信息。

而为了表达“同质性”，随机游走要更倾向于 **DFS（Depth First Search，深度优先搜索）**才行，因为 DFS 更有可能通过多次跳转，游走到远方的节点上。但无论怎样，DFS 的游走更大概率会在一个大的集团内部进行，这就使得一个集团或者社区内部节点的 Embedding 更为相似，从而更多地表达网络的“同质性”。

Node2Vec主要是通过节点间的跳转概率来控制跳转的倾向性。图 6 所示为 Node2vec 算法从节点 $t$ 跳转到节点 $v$ 后，再从节点 $v$ 跳转到周围各点的跳转概率。这里，你要注意这几个节点的特点。比如，节点 $t$ 是随机游走上一步访问的节点，节点 $v$ 是当前访问的节点，节点 $x_1$ 、 $x_2$ 、 $x_3$ 是与 $v$ 相连的非 $t$ 节点，但节点 $x_1$ 还与节点 $t$ 相连，这些不同的特点决定了随机游走时下一次跳转的概率。

图6 Node2vec的跳转概率

这些概率我们还可以用具体的公式来表示，从当前节点 $v$ 跳转到下一个节点 $x$ 的概率 $\pi vx=\alpha _{pq}(t,x)\cdot \omega _{vx}$ ，其中 $\omega _{vx}$ 是边 $v x$ 的原始权重， $\alpha _{pq}(t,x)$ 是 Node2vec 定义的一个跳转权重。到底是倾向于 DFS 还是 BFS，主要就与这个跳转权重 $\alpha _{pq}(t,x)$ 的定义有关了：

$\alpha_{p q(t, x)=}\left\{\begin{array}{cc}\frac{1}{p} & \text { 如果 } d_{t x}=0 \\ 1 & \text { 如果 } d_{t x}=1 \\ \frac{1}{q} & \text { 如果 } d_{t x}=2\end{array}\right.$

$\alpha _{pq}(t,x)$ 中的参数 $p$ 和 $q$ 共同控制着随机游走的倾向性。参数 $p$ 被称为返回参数（Return Parameter）， $p$ 越小，随机游走回节点 $t$ 的可能性越大，Node2vec 就更注重表达网络的结构性。参数 $q$ 被称为进出参数（In-out Parameter）， $q$ 越小，随机游走到远方节点的可能性越大，Node2vec 更注重表达网络的同质性。反之，当前节点更可能在附近节点游走。

1.4 通过Word2Vec构造词嵌入向量

用户在浏览商品时，存在浏览相似商品的行为，我们可以利用这一特性对不同商品间的相似性进行建模。而Word2Vec可以对序列数据进行无监督学习，可以满足我们的需求。

在当前场景下，商品有brand_id和cat_id两个特征，即品牌ID和类别ID。我们可以用Word2Vec将这两个类别变量转化为低维连续变量，并根据用户历史记录中用户或商铺对brand_id和cat_id的权重对其进行加权平均，得到新的用户隐向量和商铺隐向量，丰富了特征信息。

举例，用户按时间顺序访问了以下5个商品：

item_id	cat_id	brand_id
1	A	a
2	B	b
3	B	c
4	A	a
5	A	a

对于这些商品的cat_id，我们可以得到一个序列：

[A, B, B, A, A]

假设我们用Word2Vec对cat_id序列了3维的隐向量（词嵌入向量），如下：

cat_id	dim-1	dim-2	dim-3
A	0	1	0.5
B	1	0	0.5

假如用户U1曾访问过75次cat_id = A的商品，访问过25次cat_id = B的商品，那么可以用加权平均算得U1的隐向量如下：

user_id	dim-1	dim-2	dim-3
U1	0.25	0.75	0.5

同理可以计算商铺的隐向量。

通过以上方式，我们从新的角度对用户和商铺进行了编码，引入了新的特征。

1.5 boruta特征筛选

2. 模型训练与模型融合

参考资料

【Graph Embedding】node2vec：算法原理，实现和应用

Alias Method:时间复杂度O(1)的离散采样方法

【数学】时间复杂度O(1)的离散采样算法—— Alias method/别名采样方法

07 | Embedding进阶：如何利用图结构数据生成Graph Embedding？

LeetCode刷题 2.两数相加 _深海凉_ LeetCode
题目要求：给出两个非空的链表用来表示两个非负的整数。其中，它们各自的位数是按照逆序的方式存储的，并且它们的每个节点只能存储一位数字。如果，我们将这两个数相加起来，则会返回一个新的链表来表示它们的和。您可以假设除了数字0之外，这两个数都不会以0开头。示例：输入：(2->4->3)+(5->6->4)输出：7->0->8原因：342+465=807思路：我们同时遍历两个链表，逐位计算它们的和，并与当前
计算机中计算排名用什么公式,最全面的Excel函数排名公式汇总鸦杀已尽计算机中计算排名用什么公式
在工作中，我们很常遇到需要对销售业绩或学生成绩等进行排名。使用排序的方法可以很便捷的进行排名，但是运用函数公式可能更加方便和高大上。本文列举了关于排名的几种方法：第一部分：美式排名公式一、用RANK函数两参数用法做基础排名(默认降序排列)。特点：如果有两个数字排名相同，如下图，有两个第5名，下一名就是第7名，跳过了6。也就是说最大的次序和总数据量一致，其中的第2个第5占据了“第6”这个名次。单列成
python读取多张图片文字为表格_python批量给图片加图文水印+读取excel weixin_39612220
在python3.7环境实现给图片添加图片水印以及文字水印。另附python读取excel单元格内容。利用本程序修改后可以实现，给商品sku图片批量添加水印的功能。excel操作仅测试了读取单元格内容的代码。#fromPILimportImagefromPILimportImage,ImageDraw,ImageFont##pipinstallpillow##importdatetimeimpor
云原生服务网格：微服务通信的智能中桂月二二云原生微服务架构
引言：微服务通信的范式迁移Istio日均管理3000亿服务请求，LinkedIn通过服务网格降低40%网络延迟。阿里巴巴双十一流量洪峰时，MOSN支撑百万级TPS跨集群通信。GoogleAnthos实现跨云服务治理统一，Envoy代理处理Cilium的eBPF加速提升70%吞吐。CNCF调查显示78%企业采用服务网格，华为云ASM支持万级服务自动拓扑发现，AWSAppMesh延迟优化至亚毫秒级。一
什么是TRX能量闪租？ Trx能量租赁闪兑物联网比特币智能合约能源
什么是TRX能量闪租？还不明白就来看看1.当我们在波场转u的时候，是需要矿工费那么这个矿工费可以理解为能量和带宽2.能量和TRX是两个概念，不要混淆3.转账的时候首先是需要消耗能量和带宽，当我们能量不足转账所需时，就会燃烧相应的TRX作为能量。对方账户有u需要65000的能量=13.7TRX，对方账户没有u或者交易所地址需要131000的能量=27.3TRX4.为了节省一定的trx.能量可以找我们
机器学习模型-从线性回归到神经网络 Earth explosion 机器学习线性回归神经网络
在当今的数据驱动世界中，机器学习模型是许多应用程序的核心。无论是推荐系统、图像识别，还是自动驾驶汽车，机器学习技术都在背后发挥着重要作用。在这篇文章中，我们将探索几种基础的机器学习模型，并了解它们的基本原理和应用场景。1.线性回归基本原理线性回归是最简单的机器学习模型之一。它旨在找到一个最佳拟合线来预测目标变量（通常是连续值）。线性回归假设输入变量和输出变量之间存在线性关系，其数学表达式为：[y=
【鸿蒙开发】MongoDB入门牧歌悠悠开发数据库 mongodb 数据库
https://www.mongodb.com/try/download/community下载MongoDB:varmongoose=require("mongoose");//localhost域名，代表本机//127.0.0.1ip,代码本机mongoose.connect("mongodb://localhost:27017/jiaju").then(()=>{console.log("数
使用Excel计算排名 IT铺子 Excel excel
在Excel中，有几种方法可以计算排名，常用的是使用RANK、RANK.EQ和RANK.AVG函数。这些函数可以根据给定的数据范围计算每个值的排名。以下是一些具体的排名计算示例。示例1：基本排名计算假设我们有一组学生的成绩，想要计算他们在班级中的排名。学生姓名成绩排名小明85小红92小刚78小丽88小华92步骤在“排名”列中输入公式=RANK.EQ(B2,$B$2:$B$6,0)，然后按Enter
初识开源云原生数仓Databend 开源项目精选云原生
Databend是一款开源的数据仓库产品，主要定位于OLAP场景，采用云原生架构理念（可对比snowflake），有非常好的扩展性、同时具备低成本、高性能的优势，兼容MySQL协议。Stars数8,245Forks数765主要特点针对对象存储平台进行优化的云原生架构。符合SQL:2011标准，支持复杂查询和数据版本回溯（时间旅行）功能。与流行的商业智能（BI）、提取、转换和加载（ETL）以及数据科
Scira：极简AI驱动搜索引擎开源项目精选人工智能
Scira（原名MiniPerplx）是一款极简的AI驱动搜索引擎，可帮助您在互联网上查找信息。它由VercelAISDK提供支持，并可使用Grok2.0等模型进行搜索。Stars数7,186Forks数845主要特点AI驱动的智能搜索：借助Anthropic的模型，快速获取问题的答案，让搜索变得更加智能化。网页搜索：使用Tavily的API来进行高效的网页搜索，无需额外的插件即可快速得到网页内容
vue2 - 实现elementUI表格组件table动态添加或删除行功能，表格列表动态新增/插入/删除表格行，可编辑单元格/点击修改表格内数据并更新数据列表（支持接口懒加载、表格分页、复杂嵌套表格）街尾杂货店& 前端组件与功能(开箱即用)elementui vue Table动态表格 table动态新增删除编辑动态增加一行并能编辑内容数据行内编辑功能并且校验是否为空懒加载数据表格分页怎么办
效果图在vue2+elementui开发中，详细实现el-table实现表格动态增加/删除/编辑表格行/编辑单元格数据等，并且带必填或其他校验规则(如果为空则提示)，vue2elementUI表格动态操作插入新行或点击编辑数据，统一保存或删除行后更新表格列表数据，一旦表格列表发生改变后，确保表格分页情况下或表格children父子级嵌套行表格正确更新数据，提供示例源码！提供详细示例代码，新手小白复
面试基础---微服务架构深度解析：服务拆分、数据一致性与服务调用 WeiLai1112 后端架构面试微服务职场和发展 java 后端分布式
微服务架构深度解析：服务拆分、数据一致性与服务调用引言：从抖音日活7亿看微服务架构的重要性在2023年，抖音日活用户突破7亿，其核心系统通过微服务架构实现了高并发、高可用的业务支撑。本文将深入探讨微服务架构的设计与实现，结合工业级实践与源码解析，揭示高并发场景下的微服务之道。一、微服务拆分原则1.1拆分策略业务能力：按业务领域划分数据边界：确保数据独立性团队结构：匹配团队职责1.2拆分流程单体应用
Google Chrome 60版本的全新特性与优势 xinwuji312
本文还有配套的精品资源，点击获取简介：Chrome60是GoogleChrome浏览器的一个重大更新，它在2017年推出，为用户和开发者提供了多项改进。新版浏览器通过升级V8JavaScript引擎，增强WebAssembly支持，改进CSSGrid布局，更新ServiceWorker，增强安全性，改进开发者工具，增加新的WebAPI，优化性能，增强隐私控制以及支持64位架构，从而提升浏览体验和开
linux下显示进度地复制文件(cp命令的平替) Tipriest_ Ubuntu linux 运维服务器 cp rsync 可视化进度显示
在Linux中，默认的cp命令不会显示复制进度，但可以通过以下方法实时查看复制进度和速度：方法1：使用rsync（推荐）rsync是cp的增强版，支持显示进度条和传输速度，大多数系统已预装。命令：rsync-ah--progress./ubuntu-20.04.6-desktop-amd64.iso~/Downloads/关键参数：-a：归档模式，保留文件属性。-h：人类可读的单位（如MB/s）。
《NFL橄榄球》：亚利桑那红雀·橄榄1号位棒球1号位橄榄球数据库大数据数据结构
亚利桑那红雀（英语：ArizonaCardinals）是一支位于亚利桑那州菲尼克斯近郊格兰岱尔的职业美式橄榄球球队。在2006年球季起，所有主场的比赛改于格兰岱尔菲尼克斯大学体育馆进行。1987年，亚利桑那红雀从密苏里州圣路易搬迁到亚利桑那州。1988年至2005年，球队曾以坦佩作为主场。球队现时为全国橄榄球联合会的西区球队之一。亚利桑那红雀是根据现存美式橄榄球球队来说，历史最悠久的球队之一。[1
AI浪潮下程序员的生存指南：7 条转型路径程序员
一、AI编程时代的职业危机与机遇·数据警示：Gartner预测到2026年，30%的代码将由AI生成·能力重构：传统"代码搬运工"岗位需求下降42%（Indeed招聘数据）·破局关键：从"重复劳动"转向"创造性价值输出"二、程序员转型的7大黄金赛道转型方向核心能力要求市场需求增长典型岗位示例智能架构师系统设计+AI协同开发+300%AI系统架构师技术管理者团队赋能+技术战略+180%研发效能总监数
Zotero7最新（2024）安装、配置步骤八年。。 php 开发语言
提醒：绝大部分插件都已经适配了Zotero7，但是ZotFile插件已经停止对Zotero7的支持，可以使用Attanger插件替代。如果不适应还是建议装Zotero6有关Zotero的其他文章：Zotero7最新（2024）安装、配置步骤-CSDN博客Zotero7最新配置webDAV同步功能（与InfiniCLOUD）-CSDN博客关于Zotero7无法识别拖入的pdf和caj的题录信息_zo
git常见问题之git pull时Automatic merge failed; fix conflicts and then commit the result. 信阳农夫其他 git
Administrator@PC-20151117FT04MINGW64/e/AsWorkspace/AndroidStudy(master)$gitpulloriginmaster--allow-unrelated-historiesFromgithub.com:nonfuxinyang/android-study *branch master ->FETCH_HEADAuto-m
CentOS7升级Python3后，yum使用报错信阳农夫 linux Django学习笔记 python 开发语言
原因：这是因为yum采用Python作为命令解释器，这可以从/usr/bin/yum文件中第一行#!/usr/bin/python发现。而python版本之间兼容性不太好，使得2.X版本与3.0版本之间存在语法不一致问题。而CentOS7自带的yum采用的是python2.7，当系统将python升级到3.6后，出现语法解释错误。解决方法：1、vim/usr/libexec/urlgrabber-
《Operating System Concepts》阅读笔记：p258-p271 操作系统
《OperatingSystemConcepts》学习第26天，p258-p271总结，总计14页。一、技术总结1.criticalsectionAsectionofcoderesponsibleforchangingdatathatmustonlybeexecutedbyonethreadorprocessatatimetoavoidaracecondition.2.Peterson'ssolu
【数据可视化】【1】手把手教你使用d3.js绘制折线图 Sonny叔数据可视化 javascript 开发语言数据可视化前端
d3.js可视化1.概要2.确定数据3.添加画布3.1创建svg标签3.2给画布添加属性4.设置比例尺5.绘制轴线5.1添加group标签5.2在group添加轴线6.绘制曲线7.添加图表标题8.绘制图表9.完整代码1.概要本文主要使用的时d3.js作为绘制折线图的JavaScript库，其官方网站为d3js.org。这里引用了官方的两句话来介绍d3.js：TheJavaScriptlibrary
d3-v7 数据可视化折线图+悬浮窗 deyong1024 数据可视化信息可视化
#TestD3{width:100%;height:35%;position:relative;.tooltip{opacity:0;position:absolute;padding:0.6em1em;background:#fff;text-align:center;border:1pxsolid#ddd;z-index:10;transition:all0.2sease-out;pointe
Win7 火狐浏览器 Mozilla Firefox 115.7.0esr下载地址（及Chrome、Supermium浏览器） catoop 其他 firefox
如题，官网下载地址：MozillaFirefox115.7.0esr已经发布，感兴趣的朋友可去官方下载！https://ftp.mozilla.org/pub/firefox/releases/115.7.0esr/其他方案：1、谷歌Chrome浏览器的109版本，即最后一个支持Win7的官方版本。2、Supermium浏览器。它是一款专门为老旧操作系统而优化的浏览器，使用了最新版本Chromiu
leetcode[1447]最简分数 python3实现（判断互质，gcd求最大公约数） zhang35 LeetCode leetcode 算法
#给你一个整数n，请你返回所有0到1之间（不包括0和1）满足分母小于等于n的最简分数。分数可以以任意顺序返回。####示例1：##输入：n=2#输出：["1/2"]#解释："1/2"是唯一一个分母小于等于2的最简分数。##示例2：##输入：n=3#输出：["1/2","1/3","2/3"]###示例3：
后端 - java - - 数据类型 cv高级工程师YKY java java 开发语言
1、数值型整数：byte、short、int、longbyte：8位有符号二进制补码表示的整数默认为0范围-128（-2^7）~127（2^7-1）short：16位有符号二进制补码表示的整数默认为0范围-23768（-2^15）~23767（2^15-1）int：32位有符号二进制补码表示的整数默认为0范围-2,147,483,648（-2^31）~2,147,483,647（2^31–1）包装
Ollama设置拉取模型本地保存路径和监听端口奔跑中的小象 ai ollama
在service配置文件中添加环境变量Environment具体操作如下：1.创建保存模型目录文件夹sudomkdir/home/xyh/data/ollama/modelssudochmod777/home/xyh/data/ollama/models2.修改service配置并添加环境变量Environmentsudovi/etc/systemd/system/ollama.service#将
Dify系列---【离线安装Dify】少年攻城狮人工智能
1.环境要求这里以centos7,4c8g为例，先安装好docker和docker-compose。2.下载安装包GitHub地址：GitHub-langgenius/dify:Difyisanopen-sourceLLMappdevelopmentplatform.Dify'sintuitiveinterfacecombinesAIworkflow,RAGpipeline,agentcapabi
HDU多校2019 第三场 1007（HDU 6609） Find the answer（离散化+树状数组）沙雕. 2019HDU 多校
题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=6609解题思路：先把给出来的值离散化，对于值相同位置不同的数离散化后的值不相同。两个树状数组，一个维护区间内的和，一个维护区间内的个数。对于每个i二分答案，找到右界之后询问第二个树状数组得到剩余的个数x，那么去掉的就是（i-1）-x代码：（注意行末空格）#include#include#include#
在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？玩人工智能的辣条哥人工智能人工智能 LoRA 微调
环境：LoRA微调问题描述：在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？解决方案：在LoRA（Low-RankAdaptation）微调大模型后，提升和优化推理效果可以从以下多维度策略入手，涵盖数据、模型架构、训练策略和后处理技术等方面：1.数据优化数据质量与多样性确保微调数据覆盖目标场景的多样性，避免分布偏差。加入领域相关的高质量数据，清洗噪声数据（如重复、矛盾样本）。
Transformer 的原理是什么？玩人工智能的辣条哥人工智能 transformer 深度学习人工智能
环境：Transformer问题描述：Transformer的原理是什么？通俗易懂一点。解决方案：Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，最初由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中提出。它在自然语言处理（NLP）领域取得了巨大成功，并逐渐扩展到计算机视觉（CV）和其他领域。Transforme
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name