CoderBoom

Ctr点击率预估理论基础及项目实战

1.机器学习推荐算法模型回顾

召回(粗排)
- 利用业务规则结合机器学习推荐算法得到初始推荐结果，得到部分商品召回集
- ALS\UserCF\ItemCF\FP-Growth\规则等方式召回
排序(精排)
- 1期：根据不同推荐位通过不同的模型得到推荐结果
- 2期：将推荐的所有结果通过Ctr或Cvr预估结果进行排序
- GBDT\LR\GBDT+LR\FM()\FFM()\DeepFM\Wide and deep模型\PNN()\FNN()等
结构图示

扩展 : 推荐系统排序模型

框架

从框架的角度看，推荐系统基本可以分为数据层、触发层、融合过滤层和排序层。数据层包括数据生成和数据存储，主要是利用各种数据处理工具对原始日志进行清洗，处理成格式化的数据，落地到不同类型的存储系统中，供下游的算法和模型使用。候选集触发层主要是从用户的历史行为、实时行为、地理位置等角度利用各种触发策略产生推荐的候选集(召回)。候选集融合和过滤层有两个功能，一是对出发层产生的不同候选集进行融合，提高推荐策略的覆盖度和精度；另外还要承担一定的过滤职责，从产品、运营的角度确定一些人工规则，过滤掉不符合条件的item。排序层主要是利用机器学习的模型对触发层筛选出来的候选集进行重排序。

首先将客户上报过来的数据进行数据清洗，检查数据的一致性，处理无效值和缺失值等，去除脏数据，处理成格式化数据存储到不同类型的存储系统中。对于用户行为日志和推荐日志由于随时间积累会越来越大，一般存储在分布式文件系统(HDFS)，即Hive表中，当需要的时候可以下载到本地进行离线分析。对于物品信息一般存储在MySQL中，但是对于业务数据，越来越多的客户导致物品信息表(item_info)越来越大，所以同时也会保存在Hive表和HBase中，Hive可以方便离线分析时操作，但实时程序读取的时候Hive表的实时性较差，所以同时也会写一份放在HBase中供实时程序读取。对于各个程序模块生成的结果，有进程同步关系的程序一般会使用Redis作为缓冲存储，生产者会把信息写到redis中供消费者使用。候选集生成是从用户的历史行为、实时行为、利用各种策略和算法生成推荐的候选集。同时点击反馈会根据用户的实时操作对候选集进行实时的调整，对于部分新用户和历史行为不太丰富的用户，由于候选集太小，需要一些替补策略进行补充。候选集融合规则过滤主要有两个功能，一是对生成的候选集进行融合，提高推荐策略的覆盖度和精度;另外还需根据产品、运营的角度确定一些人为的规则，过滤掉不符合条件的item，重排序主要是利用机器学习的模型对融合后的候选集进行重排序。

同时，对与候选集触发和重排序两层而言，为了效果迭代是需要频繁修改的两层，因此需要支持ABtest。为了支持高效率的迭代，我们对候选集触发和重排序两层进行了解耦，这两层的结果是正交的，因此可以分别进行对比试验，不会相互影响。同时在每一层的内部，我们会根据用户将流量划分为多份，支持多个策略同时在线对比。

排序模型分为非线性模型和线性模型，非线性模型能较好的捕捉特征中的非线性关系，但训练和预测的代价相对线性模型要高一些，这也导致了非线性模型的更新周期相对要长。相较而言，线性模型对特征的处理要求比较高(LR对特征要求较高)，需要凭借领域知识和经验人工对特征做一些先期处理，但因为线性模型简单，在训练和预测时效率较高。因此在更新周期上也可以做的更短，还可以结合业务做一些在线学习的尝试。

2.机器学习重排序-线性模型

逻辑斯特回归是一种广义线性模型 , 虽然名字里带着回归 , 但它其实是一种分类算法 , 主要运用在二分类或多分类算法 . 逻辑斯特回归采用极大似然法对模型参数进行估计 .
线性模型以LR为例展开
- 线性回归：y=w0+w1x1+w2x2+w3x3
- 非线性函数：y=1/{1+e**-x} — sigmod函数 — 以概率输出2分类的结果
线性模型：对输入特征需要做专门的处理灌入算法中学习

3.机器学习重排序-非线性模型

GBDT为例—梯度提升决策树
- 算法原理：
  - 加法模型
  - 前线分布算法
  - 梯度下降法
- 是非线性模型，在模型中数据的输入没有要求，比线性模型少了很多的处理特征的环境

4.机器学习重排序-GBDT+LR简介

GBDT+LR
- GBDT天然具有的优势是可以发现多种有区分性的特征以及特征组合 .
- LR利用GBDT的输出结果作为输入 ; LR要输入的是线性独立特征
GBDT是非线性模型
LR是线性模型
LR特征工程比较困难，可以借助GBDT方法得到关键特征
GBDT通过将样本落入到每一个叶子结点上，取值为1，其余为0，构建稀疏性向量空间，如01001，将新向量作为LR的输入进行点击率预估，以概率的形式输出点击率预估结果

5.排序模型发展

LR阶段--------特征需要处理
为什么LR需要线性独立的特征？
- LR接受的是线性独立的特征
- y=w0+w1x1+w2x2 假设x1和x2是相关变量，能够将w1x1+w2x2组合为一个wx
LR的瓶颈 :
- 1、特征都需要人工进行转换为线性特征，十分消耗人力，并且质量不能保证
- 2、特征两两作Interaction (交叉沿镇)的情况下，模型预测复杂度是平方项。在100维稠密特征的情况下，就会有组合出10000维的特征，复杂度高，增加特征困难。
- 3、三个以上的特征进行Interaction 几乎是不可行的
GBDT的优点 :
- 1、对输入特征的分布没有要求
- 2、根据熵增益自动进行特征转换、特征组合、特征选择和离散化，得到高维的组合特征，省去了人工转换的过程，并且支持了多个特征的Interaction
- 3、预测复杂度与特征个数无关
GBDT阶段-------能够做非线性处理
- 根据信息gini系数对各个特征进行交叉，得到叶子结点是各个特征的交叉的结果，可以利用GBDT算法以稀疏编码的方式对已有的样本进行预测输出，如000101
- GBDT算法的特点正好可以用来发掘有区分度的特征、特征组合，减少特征工程中人力成本。
GBDT+LR
- 利用GBDT的输出作为LR输入，输入LR的特征是独立的特征，进而进行学习

stacking模型就是上一个模型的结果作为下一个模型的输入

6.爱奇艺推荐排序模型

推荐系统的整体结构如图所示，各个模块的作用如下：
- 1、用户画像：包含用户的人群属性、历史行为、兴趣内容和偏好倾向等多维度的分析，是个性化的基石
- 2、特征工程：包含了了视频的类别属性，内容分析，人群偏好和统计特征等全方位的描绘和度量，是视频内容和质量分析的基础
- 3、召回算法：包含了多个通道的召回模型，比如协同过滤，主题模型，内容召回和SNS等通道，能够从视频库中选出多样性的偏好内容
- 4、排序模型：对多个召回通道的内容进行同一个打分排序，选出最优的少量结果。
推荐排序系统架构
- 在召回阶段，**多个通道的召回的内容是不具有可比性的，**并且因为数据量太大也难以进行更加较精确的偏好和质量评估，因此需要在排序阶段对召回结果进行统一的准确的打分排序。
- (规则排序)用户对视频的满意度是由很多维度因子来决定的，这些因子在用户满意度中的重要性也各不相同，甚至各个因子之间还有多层依赖关系，人为制定复杂的规则既难以达到好的效果，又不具有可维护性，这就需要借助机器学习的方法，使用机器学习模型来综合多方面的因子进行排序（基于模型排序效果）。
机器学习的架构解决了以下两个问题
- 训练预测的一致性
  - 机器学习模型在训练和预测之间的差异会对模型的准确性产生很大的影响，尤其是模型训练与在线服务时特征不一致，比如用户对推荐结果的反馈会实时影响到用户的偏好特征，在训练的时候用户特征的状态已经发生了变化，模型如果依据这个时候的用户特征就会产生非常大的误差。
  - 我们的解决办法是，将在线服务时的特征保存下来，然后填充到收集的用户行为样本中，这样就保证了训练和预测特征的一致性。 ===> 即增大了数据的复杂度
- 持续迭代
  - 互联网产品持续迭代上线是常态，在架构设计的时候，数据准备，模型训练和在线服务都必须能够对持续迭代有良好的支持。
  - 我们的解决方案是，数据准备和模型训练各阶段解耦，并且策略配置化，这种架构使模型测试变得非常简单，可以快速并行多个迭代测试。
召回
- 用户画像
- 特征工程
- 推荐算法
排序
- 用户行为收集，特征填充，训练样本筛选，模型训练，在线预测排序
- 机器学习算法

7.极大似然估计

求解发生概率的最大值
目的：求解发生概率最大值
步骤：1.写出似然函数，2.对似然函数求log对数，3.对似然函数求导数，4.得到最优解
机器学习三要素：
- 模型
  - 决策函数：损失函数—平方损失、绝对值损失、指数损失 ----- 最小化损失
  - 条件概率函数：极大似然估计
求解极大似然目标函数
- 步骤：
  - 1.写出似然函数
  - 2.对似然函数求log对数
  - 3.对似然函数求导数
  - 4.得到最优解
- 图解

极大似然估计的例子图解

8.梯度下降法及牛顿法

梯度下降法
- 底层实现：泰勒的一阶展开
代码实现

# 给定初始值 , xOld记录上一步的x值 , xNew下一步迭代的x值
xOld = 0
xNew = 6

# 步长
epa = 0.01

# 可接受误差
precision = 0.00001


# 定义原函数
def f(x):
	return x ** 4 - 3 * x ** 3 + 2


# 定义导函数
def f_prime(x):
	return 4 * x ** 3 - 9 * x ** 2


# 主函数
if __name__ == '__main__':
	# 循环直到函数值之差满足最小误差
	while abs(f(xNew) - f(xOld)) > precision:
		xOld = xNew
		xNew = xOld - epa * f_prime(xOld)
	# 输出极小值点
	print("最小值点为 : ", xNew, "最小值为 : ", f(xNew))
# 最小值点为 :  2.2489469258218673 最小值为 :  -6.542957528732806

总结 :
- （1）方向导数是各个方向上的导数
- （2）偏导数连续才有梯度存在
- （3）梯度的方向是方向导数中取到最大值的方向，梯度的值是方向导数的最大值。
批量梯度下降法(BGD)
- 更新规则–所有样本都参与了 theta 的更新和求解，这称之为批量梯度方法，批量梯度下降法可以找到线性回归的全局最小值（为什么？因为目标函数是凸函数，凸函数有且只有一个全局最小值），但算法本身局限在于可能存在局部最优解，但不是全局最优解。
随机梯度下降法(SGD)
- 特点 : 更快 , 在线 , 可以跳过局部最小值 , 有可能找不到全局最优值 , 有时候会在局部最优值点发生震荡 , 但是一般情况下在一定位置发生震荡 , 认为模型收敛了 . SGD比BGD更能收敛到全局最优值

牛顿法 :
- 底层实现：泰勒二阶展开
牛顿法代码 :

# 定义原函数
def f(x):
	return x ** 3.0 - 2.0


# 定义导函数
def df(x):
	return 3.0 * x ** 2.0


# 定义迭代值
def g(x):
	return x - f(x) / df(x)


# 定义初始值
x = 1.0
# 定义误差
r = 1.0

# 循环100次
for i in range(100):
	# 迭代值赋值
	x1 = g(x);
	# 误差赋值
	r = abs(x1 - x)
	# 可接受误差
	if r < 1e-10:
		print("step : % d " % i)
		break
	# 更新下一步起始位置
	x = x1
	# 显示迭代步骤
	print("step : %d , x = %f" % (i, x))
print("remaind error = %f" % r)
print("x = %f" % x)
print("check f(x) = %f , the result is %r" % (f(x), f(x) == 0))
# step : 0 , x = 1.333333
# step : 1 , x = 1.263889
# step : 2 , x = 1.259933
# step : 3 , x = 1.259921
# step : 4 , x = 1.259921
# step :  5 
# remaind error = 0.000000
# x = 1.259921
# check f(x) = 0.000000 , the result is True

梯度下降法与牛顿法的比较

9.逻辑斯特回归模型

构建似然函数
对似然函数加log对数----------------负log损失函数-------交叉熵损失
求解导数
利用梯度下降法求解得到参数
- BGD
- SGD(Mini-Batch SGD)

掌握手推梯度下降法

10.逻辑斯特回归模型实践

逻辑回归可以解决分类问题
参数信息：solver和penlty正则项

#导入数据
from sklearn.datasets import load_iris
iris=load_iris()
#数据的基础属性信息
print(iris.data)
print(iris.target)
#建立模型
X=iris.data
y=iris.target
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=22)
from sklearn.linear_model import LogisticRegression
lr=LogisticRegression(solver='newton-cg')
lr.fit(X_train,y_train)
#模型检验
print("lr model in trainset score:",lr.score(X_train,y_train))
print("lr model in testset score:",lr.score(X_test,y_test))
# lr model in trainset score: 0.9416666666666667
# lr model in testset score: 0.9666666666666667

11.线性回归和逻辑回归的API

通过sklearn的API实现不同的算法

12.GBDT_LR实战与总结

GBDT+LR实战
GBDT形成结果通过OneHot编码形成没有线性关系的独热编码
再通过LR输出0-1之间的概率值
sklearn中https://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_transformation.html
测试代码

import numpy as np
np.random.seed(10)

import matplotlib.pyplot as plt

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import (RandomTreesEmbedding, RandomForestClassifier,
                              GradientBoostingClassifier)
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve
from sklearn.pipeline import make_pipeline

n_estimator = 10
X, y = make_classification(n_samples=80000)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
X_train, X_train_lr, y_train, y_train_lr = train_test_split(
    X_train, y_train, test_size=0.5)


# Supervised transformation based on gradient boosted trees
grd = GradientBoostingClassifier(n_estimators=n_estimator)
grd_enc = OneHotEncoder()
grd_lm = LogisticRegression(solver='lbfgs', max_iter=1000)

grd.fit(X_train, y_train)
grd_enc.fit(grd.apply(X_train)[:, :, 0])
grd_lm.fit(grd_enc.transform(grd.apply(X_train_lr)[:, :, 0]), y_train_lr)

y_pred_grd_lm = grd_lm.predict_proba(grd_enc.transform(grd.apply(X_test)[:, :, 0]))[:, 1]
fpr_grd_lm, tpr_grd_lm, _ = roc_curve(y_test, y_pred_grd_lm)

# # The gradient boosted model by itself
# y_pred_grd = grd.predict_proba(X_test)[:, 1]
# fpr_grd, tpr_grd, _ = roc_curve(y_test, y_pred_grd)
plt.plot(fpr_grd_lm,tpr_grd_lm)
plt.show()

**每个样本都经过整体的每棵树的决定，并以每棵树的一片叶子结束。**通过将这些叶的特征值设置为1并将其他特征值设置为0来对样本进行编码。
然后，所得到的transformer学习数据的监督的，稀疏的，高维的分类嵌入。

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.auc.html#sklearn.metrics.auc
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html#sklearn.metrics.roc_auc_score
http://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_transformation.html

算法背景 : acebook发表了一篇介绍将GBDT+LR模型用于其广告推荐系统的论文
LR模型有以下特点：
- 计算复杂度低
- 易于并行化处理???
- 易于得到离散化目标值0或1，利用sigmoid函数将传统线性模型的输出值映射到(0,1)区间
GBDT作为一种常用的树模型，可天然地对原始特征进行特征划分、特征组合和特征选择，并得到高阶特征属性和非线性映射。从而可将GBDT模型抽象为一个特征处理器，通过GBDT分析原始特征获取到更利于LR分析的新特征。这也正是GBDT+LR模型的核心思想——利用GBDT构造的新特征来训练LR模型。
算法原理及实现
- 算法组合——stacking : stacking方法有些类似于农业中的嫁接，通过stacking方法组合的模型亦类似于嫁接植物
- Facebook论文中的GBDT+LR模型就采用了GBDT算法作为学习层，以LR算法为输出层。
算法流程& 代码简单实现
- 数据预处理 : 对变量取值中的中英文字符、缺失值和正负无穷值进行处理。
- 数据集划分 : 为了降低过拟合的风险，将训练集中的数据划分为两部分，一部分数据用于训练GBDT模型，另一部分数据通过训练好的GBDT模型得到新特征以训练LR模型。
```
From sklearn.model import train_test_split
X_gbdt,X_lr,y_gbdt,y_lr= train_test_split(X,y,test_size=0.5)
```
- GBDT特征转化 : 首先，通过sklearn中的GradientBoostingClassifier得到GBDT模型，然后使用GBDT模型的fit方法训练模型，最后使用GBDT模型的apply方法得到新特征。
```
from sklearn.ensemble import GradientBoostingClassifier
gbdt = GradientBoostingClassifier()
gbdt.fit(X_gbdt,y_gbdt)
leaves = gbdt.apply(X_lr)[:,:,0]
```
- 特征独热化 : 使用sklearn.preprocessing中的OneHotEncoder将GBDT所得特征独热化。
```
from sklearn.preprocessing import OneHotEncoder
featutes_trans =OneHotEncoder.fit_transform(leaves)
```
- LR进行分类 : 用经过离散化处理的新特征训练LR模型并得到预测结果。
```
from sklearn.linear_model import LogisticRegression
lr= LogisticRegression()
lr.fit(features_trans,y_lr)
lr.predict(features_trans)
lr.predict_proba(features_trans)[:,1]
```
调参方法简述 :

构建了模型框架后，模型中的函数参数调整也是必不可少的。对模型参数的适当调整，往往可以有效提升模型的效果。
由于GBDT+LR模型无法整体使用GridSearchCV函数，所以调参时
使用sklearn.cross_validation中的StratifiedKFold方法，将数据集进行k折交叉切分，然后以auc值为模型评估指标，对混合模型进行调参。
调参时的重点为GradientBoostingClassifier函数，可用如下图所示的调参顺序进行调参。
其中，n_estimators和learning_rate应该联合调参。
模型效果展示

我们分别使用LR模型和GBDT+LR模型对样本数据集进行学习，通过模型所得的auc值和ks值，来评估和比较模型的效果。

算法引申
- 用FFM模型替代LR模型：
- 直接将GBDT所得特征输入FFM模型；
- 用XGBoost模型替代GBDT模型；
- 将stacking模型学习层中的GBDT交叉检验；
- GBDT和LR模型使用model fusion，而不是stacking

扩展 : 【实战】GBDT+LR算法进行特征扩增

简介

CTR估计也就是广告点击率预估，计算广告训练与平滑思想说明了是用LR算法对于预测的有效性。LR（Logistic Regression）是广义线性模型，与传统线性模型相比，**LR通过Logit变换将函数值映射到0~1区间，映射后的函数就是CTR的预估值。**LR模型十分适合并行化，因此对于大数据的训练十分有效。但是对于线性模型而言，学习能力是有限的，因此需要大量的特征工程预先分析出有效的特征或者是特征组合，从而去间接的增强LR的非线性学习能力。
特征组合，是通过特征的一些线性叠加或者非线性叠加得到一个新的特征，可以有效的提高分类效果。常见的特征组合方式有笛卡尔积方式。为了降低人工组合特征的工作量，FaceBook提出了一个自动特征提取的方式GBDT+LR。

GBDT是梯度提升决策树，首先会构造一个决策树，首先在已有的模型和实际样本输出的残差上再构造一颗决策树，不断地进行迭代。每一次迭代都会产生一个增益较大的分类特征，因此GBDT树有多少个叶子节点，得到的特征空间就有多大，并将该特征作为LR模型的输入。
核心问题
- （1）建树采用ensemble决策树？
  
  一棵树的区分性是具有一定的限制的，但是多棵树可以获取多个具有区分度的特征组合，而且GBDT的每一棵树都会学习前面的树的不足。
- （2）建树算法为什么采用GBDT而不是RF?
  
  对于GBDT而言，前面的树，特征分裂主要体现在对多数样本的具有区分度的特征；后面的树，主要体现的是经过前面n棵树，残差依然比较大的少数样本。优先选用在整体上具有区分度的特征，再选用针对少数样本有区分度的特征。
代码实现

import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier,RandomForestClassifier
import xgboost as xgb
from xgboost.sklearn import XGBClassifier
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import roc_curve,roc_auc_score,confusion_matrix,classification_report
#1.随机生成数据集
np.random.seed(10)
X,y = make_classification(n_samples=1000,n_features=30)

#2.切分数据
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=223,test_size=0.5)
X_train,X_train_lr,y_train,y_train_lr = train_test_split(X_train,y_train,random_state=223,test_size=0.2)

#4.网格搜索



#5.训练模型
#5.1 RandomForest + LogisticRegression
def RF_LR():
    # Rf: 训练模型
    rf = RandomForestClassifier(n_estimators=100, max_depth=4)#n_estimators:树的数目
    rf.fit(X_train, y_train)
    rf_result = rf.apply(X_train)#apply得到叶子节点的索引

    #onehot编码
    ohe = OneHotEncoder()
    ohe.fit(rf_result)
    # 利用RF模型获取以X_train_lr为输入的叶子节点的索引值, 并对其进行one-hot编码
    X_train_leaf_ohe = ohe.transform(rf.apply(X_train_lr))

    #LR: 训练模型
    lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
    lr.fit(X_train_leaf_ohe, y_train_lr)
    #LR: 预测
    y_pred = lr.predict_proba(ohe.transform(rf.apply(X_test)))[:, 1]

    #模型评估
    fpr, tpr, _ = roc_curve(y_test, y_pred)
    auc = roc_auc_score(y_test, y_pred)
    print("RandomForest + LogisticRegression :\n", auc)
    return fpr,tpr

#5.2 XGBoost + LogisticRegression
def XGB_LR():
    # XGBoost: 训练模型
    # nthread: 并行度
    # n_estimators: Number of boosted trees to fit 要拟合树的数目
    # colsample_bytree:Subsample ratio of columns when constructing each tree
    XGB = xgb.XGBClassifier(nthread=4, learning_rate=0.08, n_estimators=100,
                            colsample_bytree=0.5)
    XGB.fit(X_train, y_train)
    XGB_result = XGB.apply(X_train)
    # onehot编码
    ohe = OneHotEncoder()
    ohe.fit(XGB_result)
    X_train__ohe = ohe.transform(XGB.apply(X_train_lr))
    # X_train__ohe = ohe.transform(rf_result)
    # LR: 训练模型
    lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
    lr.fit(X_train__ohe, y_train_lr)
    # LR: 预测
    # y_pred的shape = [n_samples, n_classes]
    y_pred = lr.predict_proba(ohe.transform(XGB.apply(X_test)))[:, 1]
    # 模型评估
    fpr, tpr, _ = roc_curve(y_test, y_pred)
    auc = roc_auc_score(y_test, y_pred)
    print("XGBoost + LogisticRegression :\n", auc)
    return fpr,tpr

#5.3 GradientBoostingClassifier+LR
def GBDT_LR():
    # GBDT: 训练模型
    # n_estimators:迭代次数
    gbdt = GradientBoostingClassifier(n_estimators=100)
    gbdt.fit(X_train, y_train)
    gbdt_result = gbdt.apply(X_train)  # 3维:shape (n_samples, n_estimators, n_classes)
    # onehot编码
    ohe = OneHotEncoder()
    ohe.fit(gbdt_result[:, :, 0])  # gbdt_result[:,:,0]获取GBDT
    # print(ohe.fit(gbdt_result[:,:,0]))
    X_train__ohe = ohe.transform(gbdt.apply(X_train_lr)[:, :, 0])
    # LR: 训练模型
    lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
    lr.fit(X_train__ohe, y_train_lr)
    # LR: 预测
    # y_pred的shape = [n_samples, n_classes]
    y_pred = lr.predict_proba(ohe.transform(gbdt.apply(X_test)[:, :, 0]))[:, 1]
    # 模型评估
    fpr, tpr, _ = roc_curve(y_test, y_pred)
    auc = roc_auc_score(y_test, y_pred)
    print("GBDT + LogisticRegression :\n", auc)
    return fpr,tpr

#5.4 LR
def LR():
    # LR: 训练模型
    lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
    lr.fit(X_train, y_train)
    # LR: 预测
    # y_pred的shape = [n_samples, n_classes]
    y_pred = lr.predict_proba(X_test)[:, 1]
    # 模型评估
    fpr, tpr, _ = roc_curve(y_test, y_pred)
    auc = roc_auc_score(y_test, y_pred)
    print("LogisticRegression :\n", auc)
    return fpr, tpr

#5.4 XGBoost
def XGBoost():
    # XGB: 训练模型
    XGB = xgb.XGBClassifier(nthread=4, learning_rate=0.08, n_estimators=100,
                            colsample_bytree=0.5)
    XGB.fit(X_train, y_train)
    # XGB: 预测
    y_pred = XGB.predict_proba(X_test)[:, 1]
    # 模型评估
    fpr, tpr, _ = roc_curve(y_test, y_pred)
    auc = roc_auc_score(y_test, y_pred)
    print("XGBoost :\n", auc)
    return fpr, tpr


# 主函数

if __name__ == '__main__':
    fpr_rf_lr,tpr_rf_lr = RF_LR()
    fpr_xgb_lr,tpr_xgb_lr = XGB_LR()
    fpr_gbdt_lr, tpr_gbdt_lr = GBDT_LR()
    fpr_lr, tpr_lr = LR()
    fpr_xgb, tpr_xgb = XGBoost()

    # plt.figure(1)
    plt.xlim(0,0.2)
    plt.ylim(0.8,1)
    plt.plot([0, 1], [0, 1], "k--")
    plt.plot(fpr_rf_lr, tpr_rf_lr, label="RF+LR")
    plt.plot(fpr_xgb_lr, tpr_xgb_lr, label="XGB+LR")
    plt.plot(fpr_gbdt_lr, tpr_gbdt_lr, label="GBDT+LR")
    plt.plot(fpr_lr, tpr_lr, label="LR")
    plt.plot(fpr_xgb, tpr_xgb, label="XGBoost")

    plt.xlabel("False positive rate")
    plt.ylabel("True positive rate")
    plt.legend(loc="best")

    plt.show()




# # gbc = GradientBoostingClassifier(loss='exponential',criterion='friedman_mse',presort='auto')
# gbc = GradientBoostingClassifier(loss='deviance',criterion='friedman_mse',presort='auto')
# gbc.fit(X_train,y_train)
#
#
#6.测试数据
# y_pred = gbc.predict(X_test)
#
#7. 模型检测
# print("classification report is: \n", classification_report(y_test,y_pred))

参考文献：

https://mp.weixin.qq.com/s?__biz=MzI1ODM5MTI4Nw%3D%3D&chksm=ea09a6badd7e2fac05f9886746bd717bc7e53503906728337b72cd1b95cd2faa4e186e79b9cd&idx=1&mid=2247486242&scene=21&sn=3723bc28c36e0c779bb20aa3f1c92b23
https://blog.csdn.net/lilyth_lilyth/article/details/48032119
https://blog.csdn.net/asdfghjkl1993/article/details/78606268
https://blog.csdn.net/TwT520Ly/article/details/79769705

13.腾讯-GBDT与LR

GBDT
- ID树—以不同的id进行分类
- 非ID树—拿所有样本构建树
LR
- 接受GBDT输出结合Onehot编码数据

14.CTR在广告场景应用

ctr广告场景的引用
- 搜索类广告
- 展示类广告
- 社交类广告
计费方式
- cpm展示既收费----展示到一定次数>100
- cpc点击即收费-----点击率Ctr*bid — (常见)
- cpa转化即收费-----需要转换
如果ctr不高怎么办？
- 展示量低？— 提高展示量
- 展示量高，点击偏低
  - 文案
  - 广告关键词？-----重新购买关键词
  - 推广结果排名较低
GBDT+LR模型

15.Avazu-CTR-Prediction-LR代码

数据源+数据导入
数据的基本分析
特征工程
建立模型
模型校验
模型预测
模型保存

#1.导入数据并进行简单的数据探索
import os
data_path = os.path.join(".", "train_small.csv")
import pandas as pd
ctr_data1 = pd.read_csv(data_path)
#2.数据的简单描述信息
print(ctr_data1.shape)
# print ctr_data.head()
# print ctr_data.describe()
print (ctr_data1.columns)
print ("="*100)
training_Set=ctr_data1.drop(['id','site_id', 'app_id', 'device_id', 'device_ip', 'site_domain',
                  'site_category', 'app_domain', 'app_category', 'device_model'], axis=1)
ctr_data=training_Set.values #numpy--ndarry
#2.对数据进行处理和分析
from sklearn.model_selection import train_test_split
X=ctr_data[:,1:]
print (X.shape)
y=ctr_data[:,0]
print (y.shape)
X_train, X_test, y_train, y_test=train_test_split(X,y,test_size=0.22,random_state=33)
print (X_train.shape)
print (y_train.shape)
# #3.引入机器学习算法
from sklearn.linear_model import LogisticRegression
# lr=LogisticRegression()
#           0       0.83      1.00      0.91     18240
#           1       0.00      0.00      0.00      3760
#
# avg / total       0.69      0.83      0.75     22000
lr=LogisticRegression(C=0.1, penalty= 'l1')
#              precision    recall  f1-score   support
#
#           0       0.83      1.00      0.91     18240
#           1       0.40      0.00      0.00      3760
#
# avg / total       0.76      0.83      0.75     22000
lr.fit(X_train,y_train)
# #4.模型预测
y_pred=lr.predict(X_test)
print (y_pred)
# # #5.模型校验
print( lr.score(X_train,y_train))
print (lr.score(X_test,y_test))
from sklearn.metrics import confusion_matrix
print( confusion_matrix(y_test,y_pred))
from sklearn.metrics import classification_report
print( classification_report(y_test,y_pred))
# #6.保存模型
from sklearn.externals import joblib
joblib.dump(lr,filename="Ctr_Predict.pkl")
# #8.按照要求写入对应的csv文件
import numpy as np
import pandas as pd
ctr_data2=pd.read_csv("test.csv")
ctr_data3=ctr_data2.drop(['click','site_id', 'app_id', 'device_id', 'device_ip', 'site_domain',
                  'site_category', 'app_domain', 'app_category', 'device_model'], axis=1)
print( ctr_data3)
ids=ctr_data3.values[0:,0]
y_pred_test=lr.predict(ctr_data3.values[0:,1:])
# # # print ids
submit=np.concatenate((ids.reshape(len(ids),1),y_pred_test.reshape(len(y_pred_test),1)),axis=1)
df=pd.DataFrame(submit)
df.to_csv("submit.csv", header=['id', 'click'], index=False)

17.Ctr广告点击率预估代码实战

18.Ctr技术发展应用

百度蜂巢
阿里妈妈
京东
- 规则-------LR--------GBDT提取关键特征------GBDT+LR(分类概率)
- FM—FFM—DeepFM—WideAndDeep
FM—能够提取二阶特征----通过隐向量latent vector做内积提取
FFM—在FM基础上增加了Field(域)概念
FNN—Filed Neural network–只能学习到高阶特征
PNN—在神经网络中增加了product-layer
Wide and Deep===线性回归或LR+DEEP–需要借助人工特征工程
DeepFM—FM提取一阶和二阶特征—Deep提取高阶特征—Sigmod函数给出预测值

19.总结

机器学习基础概念
语言基础—Python语言—Scala—Julia—R语言
(项目1)用户画像—挖掘类标签
(项目2)推荐系统—基于sparkmllib模型和surprise库模型–tensorflow—召回
(项目3)推荐结果排序----模型排序
(项目4)Ctr广告点击率预估\Cvr广告的转化率预估

扩展 2:

区别 :

监督学习和非监督学习主要却别在于 : 监督学习有类别标签 , 非监督学习没有类别标签
分类和回归的主要区别在于 : 分类的预测值不是连续值 , 而回归的预测值是连续值
分类和聚类的主要区别在于 : 分类有类别标签 , 聚类没有
生成模型和判别模型的主要区别 : 生成模型主要利用联合概率分布 , 而判别模型主要利用条件概率分布
点击预估&转化预估

扩展3 :

CTR预估数据特点：
- 1.输入中包含类别型和连续型数据。类别型数据需要one-hot,连续型数据可以先离散化再one-hot，也可以直接保留原值
- 2.维度非常高
- 3.数据非常稀疏
- 4.特征按照Field分组
  CTR预估重点在于学习组合特征。
LR，FTRL。线性模型有个致命的缺点：无法提取高阶的组合特征(线性y=w0+w1+w2等)。
LR最大的缺点就是无法组合特征，依赖于人工的特征组合，这也直接使得它表达能力受限，基本上只能处理线性可分或近似线性可分的问题。
FM模型

FM通过隐向量latent vector做内积来表示组合特征，从理论上解决了低阶和高阶组合特征提取的问题。但是实际应用中受限于计算复杂度，一般也就只考虑到2阶交叉特征。

后面有进行了改进 , 提出了FFM , 增加了Field的概念
CNN模型的缺点是：偏向于学习相邻特征的组合特征。 RNN模型的缺点是：比较适用于有序列(时序)关系的数据。
FNN : 先使用预先训练好的FM，得到隐向量，然后作为DNN的输入来训练模型。缺点在于：受限于FM预训练的效果。
随后提出了PNN，PNN为了捕获高阶组合特征，在embedding layer和first hidden layer之间增加了一个product layer。根据product layer使用内积、外积、混合分别衍生出IPNN, OPNN, PNN三种类型。
无论是FNN还是PNN , 都避免不了 : 对于低阶的组合特征，学习到的比较少。而前面我们说过，低阶特征对于CTR也是非常重要的。
为了同时学习低阶和高阶组合特征，提出了Wide&Deep模型。它混合了一个线性模型（Wide part）和Deep模型(Deep part)。这两部分模型需要不同的输入，而Wide part部分的输入，依旧依赖人工特征工程。
这些模型普遍都存在两个问题：
- 1.偏向于提取低阶或者高阶的组合特征。不能同时提取这两种类型的特征。
- 2.需要专业的领域知识来做特征工程。
DeepFM在Wide&Deep的基础上进行改进，成功解决了这两个问题，并做了一些改进，其优势/优点如下：
- 1.不需要预训练FM得到隐向量
- 2.不需要人工特征工程
- 3.能同时学习低阶和高阶的组合特征
- 4.FM模块和Deep模块共享Feature Embedding部分，可以更快的训练，以及更精确的训练学习
FNN使用预训练的FM来初始化DNN，然后只有Deep部分，不能学习低阶组合特征。
FNN缺点 :
- Embedding的参数受FM的影响，不一定准确
- 预训练阶段增加了计算复杂度，训练效率低
- FNN只能学习到高阶的组合特征。模型中没有对低阶特征建模。
PNN：为了捕获高阶特征。PNN在第一个隐藏层和embedding层之间，增加了一个product layer。
PNN缺点：
- 内积外积计算复杂度高。采用近似计算的方法外积没有内积稳定。
- product layer的输出需要与第一个隐藏层全连接，导致计算复杂度居高不下
- 和FNN一样，只能学习到高阶的特征组合。没有对于1阶和2阶特征进行建模。
Wide & Deep设计的初衷是想同时学习低阶和高阶组合特征，但是wide部分需要领域知识进行特征工程。
Wide&Deep缺点 : 需要特征工程提取低阶组合特征
DeepFM优点 :
- 没有用FM去预训练隐向量V，并用V去初始化神经网络。（相比之下FNN就需要预训练FM来初始化DNN）
- FM模块不是独立的，是跟整个模型一起训练学习得到的。（相比之下Wide&Deep中的Wide和Deep部分是没有共享的）
- 不需要特征工程。（相比之下Wide&Deep中的Wide部分需要特征工程）
- 训练效率高。（相比PNN没有那么多参数）
上述东西太多太杂 , 记住最核心的 :
- 没有预训练（no pre-training）
- 共享Feature Embedding，没有特征工程（no feature engineering）
- 同时学习低阶和高阶组合特征（capture both low-high-order interaction features）
超参数建议

超参数	建议	备注
激活函数	1.IPNN使用tanh ; 2,其余使用ReLU
学习方法	Adam
Dropout	0.6~0.9
隐藏层数量	3~5 , 根据实际数据大小调整
网络形状	constant , 一共有四种 : 固定、增长、下降、菱形	PS:constant效果最好 , 就是隐藏层每一层的神经元的数量相同

你可能感兴趣的:(机器学习,推荐系统,Python,决策树)

python求基本勾股数_第一章：勾股数组（1）
毕达哥拉斯定理(即勾股定理)，它表明任一个直角三角形的两条直角边长的平方和等于斜边长的平方。用公式表示就是a^2+b^2=c^2第一个问题是，是否存在无穷多个勾股数组，即满足方程a^2+b^2=c^2的自然数三元组(a,b,c)。答案是“肯定的”。如果取勾股数组(a，b，c)，用整数d乘它，则得到新的勾股数组(da，db，dc)。这是成立的，因为(da)^2+(db)^2=d^2(a^2+b^2)
python flask restful_Flask应用示例1 - 通过Flask实现Restful服务 weixin_39548787 python flask restful
1，前言Python的强大，已经涉及到软件开发领域的方方面面。然而，Python入门容易，精确很难，需要深入研究。在Web方面同样如此，常用的PythonWeb框架，例如Django、Flask、Tornado等等，共计有100多种，各有优劣。本文以Flask为例，介绍Flask的Restful实现方式，主要实现对数据表的增删查改操作。2，需求在开发代码之前，需要提前明确URL请求、HTTP方法与
通俗易懂：什么是决策树？淦暴尼算法 python 决策树算法机器学习
1.引言：决策树就像“选择题”你是否曾经在生活中做过“选择题”？比如：今天要不要带伞？晚饭吃什么？该不该买那件心仪已久的商品？其实，我们的大脑经常会像“决策树”一样，通过一连串问题和判断，逐步缩小选择范围，最终做出决定。**决策树（DecisionTree）**就是这样一种模拟人类决策过程的机器学习模型。它通过“提问-分支-决策”的方式，把复杂问题拆解成一系列简单的判断，广泛应用于分类（如判断邮件
Python中几个有趣的语法糖 weixin_34368949 python
2019独角兽企业重金招聘Python工程师标准>>>withwith语句适用于对资源进行访问的场合，确保不管使用过程中是否发生异常都会执行必要的“清理”操作，释放资源，比如文件使用后自动关闭、线程中锁的自动获取和释放等。http://www.ibm.com/developerworks/cn/opensource/os-cn-pythonwith/fieldyield的好处是显而易见的，把一个函
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
实用:python中的语法糖 Monkey_24 python Python学习记录语法糖 python if else yield from for in
案例一:for循环:foriin[1,2,3]:print(i)等价于:foriin[1,2,3]:print(i)案例二:yield生成器:foriin(lambdan:(yieldfromrange(n)))(3):print(i)等价于:deffn(n):foriinrange(n):yieldigt=fn(3)foriingt:print(i)案例三:ifelse判断(lambdan:pr
【工具篇】【从冷笑话到职场革命：Manus 100 问挑战人类认知极限】再见孙悟空_ AI 进阶之旅》【2025 AI工具合集】【2025 AI学习从零单排系列】Manus AI Manus manus邀请码 manus体验 Manus PPT Manus 对比 DeepSeek
一、基础认知篇1.Manus到底是什么？它是全球首款通用型AI智能体，简单来说就是能独立完成任务的数字助手。比如你让它分析股票，它不仅能给出报告，还能自动调用Python生成图表，甚至在你睡觉的时候还能在云端继续工作。2.名字“Manus”有什么含义？来自拉丁语“MensetManus”，直译是“心智与手”。官方解释是希望它既能思考又能行动，把人类的想法变成现实，就像有个AI助手帮你干活。3.谁开
python +pyautocad 在CAD中画一个线段带箭头默金…… AutoCAD python 前端数据库
python+pyautocad在CAD中画一个线段带箭头#!/usr/bin/envpython#-*-coding:utf-8-*-frompyautocadimportAutocad,APoint,aDoubleimportmathpyacad=Autocad(create_if_not_exists=True)pyacad.prompt("Hello!Autocadfrompyautoca
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
机器学习中的数据预处理：从入门到实践耐思nice～机器学习由浅入深-吴恩达机器学习人工智能
在当今的智能时代，机器学习已经渗透到我们生活的方方面面。比如我们常用的推荐系统，它能根据我们的浏览记录精准推送喜欢的商品或视频，这背后就离不开机器学习的支撑。而一个优秀的机器学习模型，离不开高质量的数据，数据预处理正是保证数据质量的关键环节，它就像烹饪前的食材处理，直接影响着最终“菜品”的口感，也就是模型的性能。今天，我们就来全面学习机器学习中数据预处理的关键步骤。一、数据预处理的重要性数据预处理
python 语法糖【不断更新】 linzch3 python python
1.得到a和b两个数的最大值solution:c=[b,a][a>b]测试：>>>a=1>>>b=2>>>c=[b,a][a>b]>>>c22.假设现在给定了一个list:a=[[1,2],[3,4,5],[6,7],[8],[9]]问如何将其转化成：[1,2,3,4,5,6,7,8,9]其实就是将所有数据都拿出来组成一个1*n的list。solution1:使用列表表达式>>>a=[[1,2],
pyautocad 的项目扩展与二次开发
pyautocad的项目扩展与二次开发1.项目的基础介绍pyautocad是一个开源项目，它提供了一个Python库，用于与AutoCAD进行交互。通过这个库，开发者可以在Python脚本中调用AutoCAD的功能，实现自动化的绘图、修改和管理等功能。该项目的目标是让开发者能够更加便捷地控制AutoCAD，提高工作效率。2.项目的核心功能pyautocad的核心功能包括：与AutoCAD的COM接
深入解析 SymPy 中的符号计算：导数与变量替换的实践指南老歌老听老掉牙 python sympy
在符号计算领域，SymPy作为Python的核心代数库，为数学推导提供了强大支持。然而，当处理复杂表达式时，用户常遇到两个典型挑战：函数导数的正确计算和变量的有效替换。本文将深入探讨这些问题，提供专业解决方案，并揭示其背后的数学原理函数导数的正确计算方法问题本质分析在SymPy中计算导数时，常见错误是将函数视为独立符号而非变量依赖关系。考虑以下情景：h=symbols('h')R_h=symbol
springboot+vue生态系统的气象数据可视化平台Java+python-计算机毕业设计
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python：勾股数 Dominick_Su Python编程 python 开发语言后端
找出一定范围内的勾股数a,b,c（均为正整数），而且三个数互质。importmathMAX=100#设定范围,a,b,c都在100以内PN=[]#PythagoreanNumber勾股数forainrange(2,int(MAX//math.sqrt(2))+1):forbinrange(a+1,int(math.sqrt(MAX*MAX-a*a))+1,2):c=int(math.sqrt(s:
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
如何使用爬虫简单的爬取一个网页的静态前端代码
什么是爬虫？Python爬虫是一种使用Python语言编写的程序，用于自动访问网页并提取所需信息。它通常用于网络数据抓取、数据挖掘和信息收集。Python爬虫可以模拟浏览器行为，向服务器发送请求并接收响应数据，然后解析这些数据以获取有用的信息。爬虫的基本原理（流程）发送请求：爬虫向目标网站的服务器发送HTTP请求（通常是GET请求）。获取响应：服务器返回网页的HTML内容。解析内容：爬虫解析HTM
[Python] -项目实战8- 构建一个简单的 Todo List Web 应用（Flask）踏雪无痕老爷子 Python python 开发语言
一、为什么选Flask？轻量上手快：仅需几行代码就能跑一个可用的Web应用。灵活扩展：可接入数据库、身份认证、前端框架等。教育性强：涵盖前后端交互基础，适合入门全栈开发。二、项目结构建议flask_todo/├──app.py├──templates/│└──index.html├──static/│└──style.css├──todo.db└──requirements.txtapp.py：后
Protein FID：AI蛋白质结构生成模型评估新指标
一、引言：蛋白质生成模型面临的评估挑战近年来，AI驱动的蛋白质结构生成模型取得了令人瞩目的进展，但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准，但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而，尽管最先进的模型在当前评估指标上表现卓越，但它们在实际设计应用中的成功率仍然相对有限。例如，有研究报告显示生成结构的实验成功率仅为3%，而计算机模拟评分却远高于
Python连接AutoCAD第三方库pyautocad基础介绍（一） Smile丶Life丶 AutoCAD插件开发 python 开发语言 AutoCAD pyautocad
一、前言在开始探索Python连接CAD实现自动化绘图之前，让我们先明确一下读懂本教程所需的技术及知识基础。首先需要你熟练使用Python编程语言，其次，对于CAD软件，本教程将以常见的AutoCAD平台为例，但您至少需要对CAD的基本操作和绘图原理有初步的认识。了解如何创建、编辑图形对象，设置图层、颜色、线型等属性，以及保存和导出CAD图纸的基本流程。以下是本文所使用的开发环境：Python解释
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW) Python毕设源码程序高学长 python 课程设计 uni-app
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW)该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+uni+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+UNI等等组成，B/S模式+pychram管理
Python-Django毕业设计养老院老人日常生活管理系统（程序+Lw) Python计算机毕设程序源码_ python django 课程设计
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+Vue等等组成，B/S模式+pychram管理等等。环境需要1.运行环境：最好是python3.7.7，我们在这个版本上开发的。其他版
Supervisor 入门指南一篇就够 —— 安装、项目配置与常见报错速查逻极 python 开发工具笔记 python 运维工具开发 supervisor
Supervisor入门指南一篇就够——安装、项目配置与常见报错速查一、Supervisor是什么在服务器进程管理中，Supervisor是一款用Python编写的进程守护与管理工具。它的核心功能是将普通的命令行进程转变为后台daemon进程，并且在进程因意外情况退出时，能够自动将其重启，保证进程的持续运行。在实际应用中，它常出现在多层架构里。比如在Nginx→Gunicorn/Django→Su
Python基础（字符串的切片与断言）日暮凡尘 python 开发语言 pycharm
'''1.输入一个字符串，判断是否只包含英文字母（大写或小写）。输出True或False。2.输入一个字符串，统计里面数字字符（0-9）的数量。3.输入两个字符串，第一个是主串，第二个是要查找的字符，判断字符是否在主串中。4.输入一个字符串，将所有数字字符转换成整数后求和。5.统计字符串中空格的数量6.输入字符串和数字n，判断字符串是否只包含数字且长度等于n。7.验证用户输入的手机号格式（中国手机
python 变量进阶（理解）程序员同行者
变量进阶（理解）目标变量的引用可变和不可变类型局部变量和全局变量01.变量的引用变量和数据都是保存在内存中的在Python中函数的参数传递以及返回值都是靠引用传递的1.1引用的概念在Python中变量和数据是分开存储的数据保存在内存中的一个位置变量中保存着数据在内存中的地址变量中记录数据的地址，就叫做引用使用id()函数可以查看变量中保存数据所在的内存地址注意：如果变量已经被定义，当给一个变量赋值
python——for_in循环何处望天明CS python
#Nico#时间：2021/4/2021:09#for-in循环'''in表达式从（字符串、序列等）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象''''''for-in的语法结构for自定义变量in可迭代对象:循环体'''#字符串中取值foritemin'python':print(item)#range产生一个整数序列，也是一个可迭代对象foriinrange(10):print
一步一步学Python3(小学生也适用) 第十七篇:循环语句for in循环
一、Pythonforin循环Pythonforin循环，是用来遍历任何数据序列，如一个列表，一个字符串，一个字典，一个元组等。forin循环的一般语法如下：foritemin序列:语句块else:语句块forin字符串：把每个字符循环出来'''字符串：把每个字符循环出来'''str1='老树Python''''把字符串str1元素进行循环，每循环出一个元素，就把该元素赋值给item'''fori
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
python 循环结构(for-in) 编程小僧 python基础
循环结构(for-in)说明：也是循环结构的一种，经常用于遍历字符串、列表，元组，字典等格式：forxiny:循环体执行流程：x依次表示y中的一个元素，遍历完所有元素循环结束示例1：遍历字符串s='Iloveyoumorethanicansay'foriins:print(i)示例2：遍历列表l=['鹅鹅鹅','曲项向天歌','锄禾日当午','春种一粒粟']foriinl:print(i)#可以
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

推荐系统-Ctr点击率预估理论基础及项目实战