报告，今天也有好好学习

支付宝营销策略分析【基于ABTest进行数据分析实战】附ABTest详细介绍

今天分享一下一个利用A/B测试解决问题的项目，本文会尽可能详细的将我所理解的A/B测试应用到项目当中，希望对大家有所帮助。

那在开始之前我会在重新介绍一下什么是A/B测试？

一、A/B测试
- 实现步骤
- 假设检验
- 如何判断一个样本统计量符合什么分布?
- 不同分布的拒绝域
- - 对称型（Z分布、t分布）
  - 非对称型（卡方分布、F分布）
二、项目实战
- 1 数据预处理
- 2 样本容量检验
- 3 假设检验
- - 3.1 提出零假设和备择假设
  - 3.2 确定检验方向
  - 3.3 选定统计方法
  - - 3.3.1 方法一：公式计算
    - 3.3.2 方法二：Python函数计算
    - 3.3.3 方法三：蒙特卡洛法模拟
- 4 结论

一、A/B测试

A/B测试类似于以前的对比实验，是让组成成分相同（相似）的群组在同一时间维度下去随机的使用一个方案（方案A、或者B、C…），收集各组用户体验数据和业务数据，最后分析出哪个方案最好。

实现步骤

现状分析：分析业务数据，确定当前最关键的改进点。
假设建立：根据现状分析作出优化改进的假设，提出优化建议。
设定目标：设置主要目标，用来衡量各优化版本的优劣；设置辅助目标，用来评估优化版本对其他方面的影响。
设计开发：制作若干个优化版本的设计原型。
确定分流方案：使用各类A/B测试平台分配流量。初始阶段，优化方案的流量设置可以较小，根据情况逐渐增加流量。注意分流时要尽可能做到没有区别。
采集数据：通过各大平台自身的数据收集系统自动采集数据。
分析A/B测试结果：统计显著性达到95%或以上并且维持一段时间，实验可以结束；如果在95%以下，则可能需要延长测试时间；如果很长时间统计显著性不能达到95%甚至90%，则需要决定是否中止试验或重新设计方案。

PS: 先说一下，这里的实现步骤并非权威步骤，不是一定要这么划分。

假设检验

要想充分搞懂A/B测试，必须理解它的原理——假设检验。
在一个设计适当的 A/B 测试中，处理 A 和处理 B 之间任何可观测到的差异，必定是由下面两个因素之一所导致的。

分配对象中的随机可能性
处理 A 和处理 B 之间的真实差异

假设检验是对 A/B 测试（或任何随机实验）的进一步分析，意在评估随机性是否可以合理地解释 A 组和 B 组之间观测到的差异。

这里需要介绍一下几个专业术语：

零假设：完全归咎于偶然性的假设，即各个处理是等同的，并且组间差异完全是由偶然性所导致的。
事实上，我们希望能证明零假设是错误的，并证明 A 和 B 结果之间的差异要比偶然性可能导致的差异更大。
备择假设：与零假设相反，即实验者希望证实的假设。
单向检验：在假设检验中，只从一个方向上计数偶然性结果。简单来讲就是最终只需判断大于或者只需判断小于。
双向检验：在假设检验中，从正反两个方向上计数偶然性结果。

假设检验的基本思想是“小概率事件”原理，其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证法思想是先提出检验假设，再用适当的统计方法，利用小概率原理，确定假设是否成立。对于不同的问题，检验的显著性水平α不一定相同，一般认为，事件发生的概率小于0.1、0.05或0.01等，即“小概率事件”。但是，如果说你犯下第一类错误（即拒绝正确的假设： $H_0$ 是真，但拒绝 $H_0$ ）的成本越高，你的α值就要设置得越小。

接下来介绍假设检验的基本步骤：

提出零假设和备择假设；
根据备择假设确定检验方向；
简单来说含有不等号的是双向检验，反之则是单向检验；
选定统计方法。根据资料的类型和特点，可分别选用Z检验、T检验，秩和检验和卡方检验等；
选定显著性水平α。但记住判断结论时不能绝对化，应注意无论接受或拒绝检验假设，都有判断错误的可能性。

如何判断一个样本统计量符合什么分布?

如何选定统计方法？那就得判断你的样本统计量符合什么分布了。

上图就是判断一个样本统计量符合什么分布的流程图，非常nice！

下面呢，则是关于Z分布，T分布，卡方分布的简单了解，其中注意考虑多个总体问题时如何计算处理。

接下来再看一下这几种分布的概率密度分布图。

可以看出，T分布与标准正态分布（Z分布）都是以0为对称的分布，T分布的方差大所以分布形态更扁平些。

不同分布的拒绝域

对称型（Z分布、t分布）

双侧检验：

单侧检验：

非对称型（卡方分布、F分布）

卡方分布：

拒绝域：

（卡方分布在左侧的拒绝域特别小，所以拒绝的区间的值也比较少），所以卡方检验的拒绝域一般
放在右侧。F分布同理。

二、项目实战

项目来源：
https://tianchi.aliyun.com/dataset/dataDetail?dataId=50893

数据介绍：
从支付宝的两个营销活动中收集的真实数据集。该数据集包含支付宝中的两个商业定位活动日志。由于隐私问题，数据被采样和脱敏。虽然该数据集的统计结果与支付宝的实际规模有偏差，但不影响解决方案的适用性。

主要提供了三个数据集：

emb_tb_2.csv: 用户特征数据集。
effect_tb.csv: 广告点击情况数据集。
seed_cand_tb.csv: 用户类型数据集。

本分析报告的主要使用广告点击情况数据，涉及字段如下：

dmp_id：营销策略编号（这里我们这么设置1为对照组，2为营销策略一，3为营销策略二）。
user_id：支付宝用户ID。
label：用户当天是否点击活动广告（0：未点击，1：点击）。

接下来正式开始实战。

1 数据预处理

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

data = pd.read_csv('effect_tb.csv',header = None)
data.columns = ['dt','user_id','label','dmp_id']  # 文件中没有字段名
# 日志天数属性用不上，删除该列
data = data.drop(columns='dt')
data

data.info(null_counts = True)

查看数据统计情况，主要是看dmp_id。

data.describe()

接下来查看数据重复情况。

data[data.duplicated(keep = False)]

存在重复项，需要进行去重。

data = data.drop_duplicates()

# 检查是否还有重复项
data[data.duplicated(keep = False)]

从先前操作已知数据类型正常，接下来利用透视表来看各属性是否存在不合理情况。

data.pivot_table(index = 'dmp_id',columns = 'label',values = 'user_id',aggfunc = 'count')

从以上看出属性字段无异常取值，无需进行处理。

2 样本容量检验

在进行A/B测试前，需检查样本容量是否满足试验所需最小值。

这里需要借助样本量计算工具：https://www.evanmiller.org/ab-testing/sample-size.html

首先需要设定点击率基准线以及最小提升比例，我们将对照组的点击率设为基准线。

data[data["dmp_id"] == 1]["label"].mean()

对照组的点击率为1.26%，假设我们希望新的营销策略能够让广告点击率至少提升一个百分点，则算得所需最小样本量为2167。

data["dmp_id"].value_counts()

可得411107和316205远大于2167，满足最小样本量需求。

3 假设检验

我们先查看一下这三种营销策略的点击率情况。

print("对照组： " ,data[data["dmp_id"] == 1]["label"].describe())
print("策略一： " ,data[data["dmp_id"] == 2]["label"].describe())
print("策略二： " ,data[data["dmp_id"] == 3]["label"].describe())

可以看到策略一和策略二相比对照组在点击率上都有不同程度的提升。

其中策略一提升0.2个百分点，策略二提升1.3个百分点，只有策略二满足了前面我们对点击率提升最小值的要求。

接下来需要进行假设检验，看策略二点击率的提升是否显著。

3.1 提出零假设和备择假设

设对照组点击率为 $p_1$ ，策略二点击率为 $p_2$ ，则：

零假设 $H_0$ ： $p_1$ >= $p_2$ ，即 $p_1$ - $p_2$ >=0；
备择假设 $H_1$ ： $p_1$ < $p_2$ ，即 $p_1$ - $p_2$ <0。

3.2 确定检验方向

由备择假设可以看出，检验方向为单项检验（左）。

3.3 选定统计方法

由于样本较大，故采用Z检验。此时检验统计量的公式如下： $\frac{p_1-p_2}{\sqrt{( \frac{1}{n_1}+\frac{1}{n_2})\times p_c \times (1-p_c)}}$ 其中 $p_c$ 为总和点击率。

3.3.1 方法一：公式计算

# 用户数
n1 = len(data[data.dmp_id == 1])  # 对照组
n2 = len(data[data.dmp_id == 3])  # 策略二

# 点击数
c1 = len(data[data.dmp_id ==1][data.label == 1])
c2 = len(data[data.dmp_id ==3][data.label == 1])

# 计算点击率
p1 = c1 / n1
p2 = c2 / n2

# 总和点击率（点击率的联合估计）
pc = (c1 + c2) / (n1 + n2)

print("总和点击率pc：", pc)

# 计算检验统计量z
z = (p1 - p2) / np.sqrt(pc * (1 - pc)*(1/n1 + 1/n2))

print("检验统计量z：", z)

这里我去 $\alpha$ 为0.05，此时我们利用python提供的scipy模块，查询 $\alpha=0.5$ 时对应的z分位数。

from scipy.stats import norm
z_alpha = norm.ppf(0.05)
# 若为双侧，则norm.ppf(0.05/2)
z_alpha

$z_\alpha = -1.64$ ，检验统计量z = -59.44，该检验为左侧单尾检验，拒绝域为{z＜ $z_\alpha$ }，z=-59.44落在拒绝域。

所以我们可以得出结论：在显著性水平为0.05时，拒绝原假设，策略二点击率的提升在统计上是显著的。

假设检验并不能真正的衡量差异的大小，它只能判断差异是否比随机造成的更大。因此，我们在报告假设检验结果的同时，应给出效应的大小。对比平均值时，衡量效应大小的常见标准之一是Cohen’d，中文一般翻译作科恩d值： $d=\frac{样本_1平均值-样本_2平均值}{标准差}$
这里的标准差，由于是双独立样本的，需要用合并标准差（pooled standard deviations）代替。也就是以合并标准差为单位，计算两个样本平均值之间相差多少。双独立样本的合并标准差可以如下计算： $s=\frac{((n_1-1)\times s^2_1+(n_2-1)\times s^2_2)}{n_1+n_2-2}$

其中s是合并标准差，n1和n2是第一个样本和第二个样本的大小，s1和s2是第一个和第二个样本的标准差。减法是对自由度数量的调整。

# 合并标准差
std1 = data[data.dmp_id ==1].label.std()
std2 = data[data.dmp_id ==3].label.std()
s = np.sqrt(((n1 - 1)* std1**2 + (n2 - 1)* std2**2 ) / (n1 + n2 - 2))
# 效应量Cohen's d
d = (p1 - p2) / s
print('Cohen\'s d为：', d)

一般上Cohen’s d取值0.2-0.5为小效应，0.5-0.8中等效应，0.8以上为大效应。

3.3.2 方法二：Python函数计算

import statsmodels.stats.proportion as sp
# alternative='smaller'代表左尾
z_score, p = sp.proportions_ztest([c1, c2], [n1,n2], alternative = "smaller")
print("检验统计量z：",z_score,"，p值：", p)

用p值判断与用检验统计量z判断是等效的，这里p值为0，同样也拒绝零假设。

至此，我们可以给出报告：

对照组的点击率为：0.0126，标准差为：0.11
策略二的点击率为：0.0262，标准差为：0.16
独立样本z=-59.44，p=0，单尾检验（左），拒绝零假设。
效应量Cohen’s d= -0.11，较小。

根据前面案例，我们用的是两个比率的z检验函数proportion.proportions_ztest，输入的是两组各自的总数和点击率；如果是一般性的z检验，可以用weightstats.ztest函数，直接输入两组的具体数值，可参考https://www.statsmodels.org/stable/generated/statsmodels.stats.weightstats.ztest.html

import statsmodels.stats.weightstats as sw
z_score1, p_value1 = sw.ztest(data[data.dmp_id ==1].label, data[data.dmp_id ==3].label, alternative='smaller')
print('检验统计量z:', z_score1, '，p值:', p_value1)

可以看到计算结果很接近，但是有点差异。因为非比率的z检验是不计算联合估计的。

作为补充，我们再检验下策略一的点击率提升是否显著。

z_score, p = sp.proportions_ztest([c1, len(data[data.dmp_id ==2][data.label == 1])],[n1, len(data[data.dmp_id ==2])], alternative = "smaller")
print('检验统计量Z:',z_score,',p值：',p)

p值约为 7.450121742737582e-46，p<α,但是因为前面我们设置了对点击率提升的最小要求（1%），这里仍然只选择第二组策略进行推广。

3.3.3 方法三：蒙特卡洛法模拟

蒙特卡洛法其实就是模拟法，用计算机模拟多次抽样，获得分布。

在零假设成立（p1>=p2）的前提下， p1=p2 为临界情况（即零假设中最接近备择假设的情况）。如果连相等的情况都能拒绝，那么零假设的剩下部分（ p1>p2）就更能够拒绝了。

定义effect_tb.csv中样本的总点击率为 p_all：

p_all = data.label.mean()
print('p_all:', p_all)

我们进行一次模拟，以 p_all 为对照组和策略二共同的点击率，即取p_old=p_new=p_all，分别进行n_old次和n_new次二点分布的抽样，使模拟的样本大小同effect_tb.csv中的样本大小相同：

choice1 = np.random.choice(2, size=n1, p=[1-p_all, p_all])
choice2 = np.random.choice(2, size=n2, p=[1-p_all, p_all])
diff = choice1.mean() - choice2.mean()
print('对照组结果：', choice1, '，策略二结果：', choice2, '，模拟的转化率差值：', diff)

因为是随机抽样，所以每次模拟的点击率差值也是不同的，多运行几次就会发现，我们模拟出的结果很难比effect_tb.csv中样本的点击率差值更小，这说明了什么？

# 计算effect_tb.csv样本的点击率差值
data_diff = data[data["dmp_id"] == 1]["label"].mean()-data[data["dmp_id"] == 3]["label"].mean()
print('effect_tb.csv样本的点击率差值:', data_diff)

按照如上方式进行多次模拟，这里我们进行10000次，并计算出每个样本得到的策略点击率差值，将其存储在diffs中：

diffs=[]
for i in range(10000):
    p2_diff = np.random.choice(2,size=n2,p=[1-p_all,p_all]).mean()
    p1_diff = np.random.choice(2,size=n1,p=[1-p_all,p_all]).mean()
    diffs.append(p1_diff - p2_diff)

实际上每次模拟都得到了一个大小为316205的样本，此处得到了10000个样本。在图上将模拟得到的diffs绘制为直方图，将effect_tb.csv中样本的点击率差值绘制为竖线：

diffs = np.array(diffs)
plt.hist(diffs)
plt.axvline(data_diff)

在diffs列表的数值中，有多大比例小于effect_tb.csv中观察到的点击率率差值？

(diffs < data_diff).mean()

本次方法得到的答案是0,和方法二中的P值接近（一样）。

上图的含义是，在p_old=p_new时，进行10000次模拟得到的差值中，0%的可能比effect_tb.csv中的差值更极端，说明effect_tb.csv在p_old=p_new的前提是很小概率（这次是0概率）事件。反过来说，我们只做了一次A/B测试就得到了零假设中的极端情况，则零假设很有可能是不成立的。

现在图中的直方图是，若对照组和策略二的点击率相等，随机10000次，两者的差值的分布。
因为次数够多，根据大数定律，近似于真实的分布。
越靠近中间的部分，说明该数值出现的次数越多，越靠近两侧，说明该数值出现的越少，也可以说情况就越极端。
竖线是样本effect_tb.csv的差值所在位置，它落在了很左侧，体现在竖线左侧的面积（这次为0）很小。
竖线左侧的面积占比，即发生“竖线及竖线左侧极端情况”（diff<=-0.014）的可能性。
也就是说，effect_tb.csv这个样本，在对照组和策略二点击率相等的情况下，有可能出现，但出现的可能性很小（这次为0）。
所以反推出，对照组和策略二的点击率很有可能不相等。

思考：

若diffs的分布就是标准正态（这里只是近似），则竖线左侧的面积占比其实就是p值（左侧or右侧or双侧要根据备择假设给定的方向），那p值到底要多小才算真的小？

这需要我们自己给定一个标准，这个标准其实就是 α，是犯第一类错误的上界，常见的取值有0.1、0.05、0.01。

所谓第一类错误，即拒真错误，也就是零假设为真，我们却拒绝了。所以要取定一个 α ，并规定当p值小于 α 时，认为原假设在该显著性水平下被拒绝。
还有第二类错误——取伪，即零假设明明是错的，但是我们保留了零假设。拒真的可能性越小，则取伪的可能性越大。所以不能一味地取极小的α 。

4 结论

通过三种方法的计算得出，在两种营销策略中，策略二对广告点击率有显著提升效果，且相较于对照组点击率提升了近一倍，因而在两组营销策略中应选择第二组进行推广。

参考鸣谢：
https://baike.baidu.com/item/AB测试/9231223?fr=aladdin
https://baike.baidu.com/item/假设检验
https://zhuanlan.zhihu.com/p/68019926
《面对数据科学家的实用统计学》

推荐关注的专栏

‍‍‍ 机器学习：分享机器学习实战项目和常用模型讲解
‍‍‍ 数据分析：分享数据分析实战项目和常用技能整理

往期内容回顾

懂得假设检验就可以了吗？实际遇到的需要ABTest的业务和练习时的ABTest项目区别有多大？
【Python】如何应对电商平台中的马太效应？我利用ABTest来寻求电商流量分配的最优解

CSDN@报告，今天也有好好学习

Elasticsearch（ES）详解：从入门到实践坚持蛊 elasticsearch jenkins 大数据
引言简介：Elasticsearch是一个基于Lucene的分布式搜索引擎，具有高效的全文搜索功能，广泛应用于日志分析、搜索引擎、实时数据处理等领域。本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索、分布式搜索、实时数据分析主要应用场景：日志
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
HCIE数通 VS HCIE云计算：如何选择最适合你的方向？ IT程序媛-桃子数通华为认证云计算云计算华为数通
在华为认证体系中，HCIE（HuaweiCertifiedInternetworkExpert）无疑是技术专家级别的标志。而在众多HCIE认证方向中，数通（Datacom）和云计算（CloudComputing）成为了很多考生纠结的焦点。它们各有优势，那么对于不同的职业发展规划，应该选择哪个更适合自己呢？【点赞+关注】私我领取华为认证考试复习资料/题库今天，我们就从多个角度来详细对比HCIE数通和
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
uniapp uview u-textarea maxlength无效问题尤小白 uview组件库 uni-app 前端
watch:{'dataModel.question':{handler(val){if(val.length>=200){this.dataModel.question=val.substr(0,200)}},immediate:true,deep:true,},},
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
SpringBoot下kafka配置生产者和消费者种豆走天下 java 面试开发语言
SpringBoot下kafka配置生产者和消费者KafkaResourceConfiguration.javapackageits.uts.kafkatest;importlombok.Data;importorg.apache.kafka.clients.consumer.ConsumerConfig;importorg.apache.kafka.clients.producer.Produc
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
【C常用的标准库函数】 niuTaylor c语言算法开发语言
以下是C语言在面试和工程中常用的标准库函数的全面总结，按头文件分类，涵盖输入输出、字符串处理、内存管理、数学计算、时间处理等核心内容：一、输入输出（stdio.h）文件操作FILE*fopen(constchar*path,constchar*mode)功能：打开文件。模式："r"（读）、"w"（写）、"a"（追加）、"rb"（二进制读）等。示例：FILE*fp=fopen("data.txt",
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
uniApp实战二：仿今日相机水印功能博主逸尘 uniApp实战 uni-app 数码相机 javascript
文章目录1.最终效果预览2.页面实现1.最终效果预览2.页面实现页面布局拍照data定义data(){return{snapSrc:"",cvHeight:"",cvWidth:"",tKey:"时间:",addKey:"地点:",};},点击事件及方法handleTakePhotoNew(){this.snapSrc=""uni.chooseImage({count:1,success:(res
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
qt c++线程中的同步和异步我要进步！ qt c++
一、线程同步用于协调多个线程对共享资源的访问，避免竞态条件。常用工具：QMutex（互斥锁）保护临界区，确保一次仅一个线程访问资源。QMutexmutex;intsharedData=0;voidThread::run(){mutex.lock();sharedData++;//安全操作mutex.unlock();}QMutexLocker自动管理锁生命周期：{QMutexLockerlocke
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
PHP的架构设计 weixin_34294649 php
首先，大概陈述一下架构的关联，如下所述：首先会先设计标准DALclass(STDAL)，放置getData,delete,update等标准常见的功能函数在来设计程式会用到的各种DAL，基本上每一个Table都需要有一个DAL来实现，后面根据table应用、画面呈现等需求，也可以一个table有多个DAL，这各观念类似View的概念。根据商业逻辑的操作，制作对应的BLL，像是insert、upda
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
一文理清概念：数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG) Debug_Snail Hadoop Big Data Data Science 数据仓库大数据数据中台数据湖数据治理
数据仓库、数据中台、数据湖、湖仓一体是数据管理和分析领域的重要概念，它们在功能、架构和应用场景上各有特点，同时也在演进中相互关联和补充。以下是对它们的定义和关系的详细解析：1.核心概念（1）数据仓库（DataWarehouse,DW）定义：一种面向主题的、集成的、稳定的数据存储系统，用于支持企业决策分析（如BI、报表）。数据通常经过ETL（抽取、转换、加载）处理，以结构化形式存储，采用Schema
Oracle创建表空间、删除、状态、重命名、修改、增加、移动水煮白菜王 Oracle oracle 数据库
目录Oracle基本学习笔记创建表空间1.表空间创建格式3.表空间状态属性4.重命名表空间5.修改表空间数据文件的大小6.删除表空间的数据文件7.修改表空间中数据文件的状态8.表空间中数据文件的移动Oracle基本学习笔记创建表空间需要使用CREATETABLESPACE语句。其基本语法如下:CREATE[TEMPORARYIUNDO]TABLESPACEtablespacename[DATAFI
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam