oax_knud

机器学习与数据挖掘实验一：牛顿法，梯度下降实现对数几率回归【详细原理+python代码】

系列文章目录

机器学习与数据挖掘实验一：牛顿法，梯度下降实现对数几率回归【详细原理+python代码】
机器学习与数据挖掘实验二：以信息增益为划分准则构造决策树【例题求解】
机器学习与数据挖掘实验三：基于 CNN (VGG，GoogLeNet)的海面舰船图像分类【详细原理+python代码】
机器学习与数据挖掘实验四：基于特征工程的支持向量机分类实验【详细原理+python代码】

文章目录

系列文章目录
一、问题重述
二、实验环境与依赖库
- 2.1 实验环境
- 2.2 依赖库
三、判断西瓜好坏的对率回归模型
- 3.1 附件西瓜数据分析
- 3.2 基于对率回归模型的西瓜分类数学原理
四、对率回归模型求解
- 4.1 代价函数构建
- 4.2 目标函数构建
- 4.3 对率回归模型求解
- - 4.3.1 牛顿法迭代函数原理
  - 4.3.2 梯度下降法迭代函数推导
五、对率回归模型求解代码实现
- 5.1 对率回归模型程序框架
- - 5.1.1 LogisticRegression类
- 5.2 基本函数说明
- - 5.2.1 构造函数.
  - 5.2.2 读取特征和标签数据
  - 5.2.3 迭代方法选择函数
  - 5.2.4 迭代求解实现函数
- 5.3 牛顿法求解实现
- - 5.3.1 牛顿法算法核心.
  - 5.3.2 牛顿法python实现
- 5.4 梯度下降法.
- - 5.4.1 梯度下降法算法核心
  - 5.4.2 梯度下降法python实现
- 5.5 机器学习sklearn库实现.
六、结果分析
- 6.1 定性结果分析
- 6.2 定量结果分析
附录
- LogisticRegression代码实现

一、问题重述

基于西瓜数据集3.0构建对率回归模型，通过python语言实现牛顿法和梯度下降法求解此模型，最终，给出求解结果分析。数据如下表所示：

ID	density	Sugar_content	label
1	0.697	0.46	1
2	0.774	0.376	1
3	0.634	0.264	1
4	0.608	0.318	1
5	0.556	0.215	1
6	0.403	0.237	1
7	0.481	0.149	1
8	0.437	0.211	1
9	0.666	0.091	0
10	0.243	0.0267	0
11	0.245	0.057	0
12	0.343	0.099	0
13	0.639	0.161	0
14	0.657	0.198	0
15	0.36	0.37	0
16	0.593	0.042	0
17	0.719	0.103	0

针对以上问题，我将其分为三个部分进行分析：

通过附件西瓜数据集3.0中编号，密度，含糖率，好瓜四列数据，构建判断西瓜的对率回归模型。
通过牛顿法和梯度下降法分别对对率回归模型进行求解。
对 2 中求解结果进行分析对比，并得到最终结论。

二、实验环境与依赖库

2.1 实验环境

pycharm，python 3.8

2.2 依赖库

numpy:提供高性能的矩阵运算，实现多维数组计算。
pandas:从各种文件格式比如CSV、JSON、Excel等导入数据，并进行数据预处理，简单计算等操作。
matplotlib:绘制函数图像。
pycallgraph:绘制函数调用关系图。

三、判断西瓜好坏的对率回归模型

在3.1小节中，我对于附件的西瓜数据进行分析并分成无关数据，标签数据，特征数据三类。在3.2小节中，根据附件提供数据，建立对率回归模型判断对西瓜的好坏进行分类。

3.1 附件西瓜数据分析

对于附件的数据，我们将其分为三类：无关数据，西瓜特征数据，西瓜标签数据。由于西瓜编号与西瓜是否为好瓜无关，因此，我们将其设定为无关数据剔除；同时，西瓜的密度，含糖率与西瓜是否为好瓜密切相关，因此我们将其设定为西瓜特征数据；最后，我们用 0，1 表示西瓜是否为好瓜，当标签为 1 时表示西瓜为好瓜，当标签为 0 时表示西瓜为坏瓜。

3.2 基于对率回归模型的西瓜分类数学原理

进行数据初步分类后，我们构建西瓜是否为好瓜的对率回归模型。我们假设 $\mathbf{X}_{m\times(n+1)}$ 为西瓜特征矩阵的增广矩阵，其中有m个样本，每个样本具有n个特征。 $\beta_{(n+1) \times 1}$ 表示逻辑回归模型权重矩阵， $\hat{Y}_{\mathrm{m\times 1}}$ 表示西瓜好坏的分类预测结果概率。则对数几率模型计算流程如图所示：

由此，我们得到西瓜好坏判断对率回归模型表达式如下：
$\hat{\boldsymbol{Y}}=\frac{1}{1+e^{X \boldsymbol{\beta}}}$

四、对率回归模型求解

在4.1节中，根据概率论知识，利用极大似然法构造代价函数。在4.2节中，通过代价函数最小化构建对率回归模型的目标函数。在4.3节中，针对牛顿法和梯度下降法，分别计算两者的迭代更新公式，求解当目标函数达到最小值时，样本特征权重的值。

4.1 代价函数构建

在3.2节，我们得到了西瓜分类对率回归模型表达式，接下来通过极大似然法估计 $\beta_{(n+1) \times 1}$ 矩阵的数值。
首先，计算在 $y = 1$ 和 $y = 0$ 时的后验条件概率如下：

$p_{1}(\hat{x} ; \beta)=p(y=1 \mid \hat{x} ; \beta)=\frac{e^{x \beta}}{1+e^{x \beta}}$

$p_{0}(\hat{x} ; \beta)=p(y=0 \mid \hat{x} ; \beta)=\frac{1}{1+e^{x \beta}}$
其中 $p_{1}(\hat{x} ;\beta)$ 表示在 $\beta$ 和 $\hat{x}$ 条件下 $y = i$ 的后验条件概率。
然后，我们通过极大似然估计法构造对数函数如下：
$L(\beta)=\sum_{i=1}^{m} \ln \left(\boldsymbol{p}\left(y_{i} \mid \boldsymbol{x}_{i} ; \beta\right)\right)$
将后验条件概率带入得：
$L(\beta)=-\sum_{i=1}^{m}\left(\ln \left(y_{i} e^{\hat{x}_i \beta}+1-y_{i}\right)-\ln \left(1+e^{\hat{x}_i \beta}\right)\right)$
当 $y_i=0$ 或 $y_i=1$ 时，可以化简得到：

$L(\beta)=\left\{\begin{array}{ll} \sum_{i=1}^{m}\left(\ln \left(1+e^{\boldsymbol{\hat{x}}_{i} \beta}\right)\right), & \boldsymbol{y}_{i}=0 \\ \sum_{i=1}^{m}\left(-\hat{x}_{i} \beta+\ln \left(1+e^{\hat{x}_{i} \beta}\right)\right), & y_{i}=1 \end{array}\right.$

将两式综合可以得到最终的代价函数如下：
$L(\beta)=-\sum_{i=1}^{m}\left(y_{i} \hat{x}_{i} \beta+\ln \left(1+e^{\hat{x}_{i} \beta}\right)\right)$

4.2 目标函数构建

当对率回归模型的代价函数越小，则分类结果的误差越小。因此为了使得代价函数达到最小，构建如下目标函数：
$\beta^{*}=\underset{\beta}{\arg \min \ } \boldsymbol{L}(\boldsymbol{\beta})$

4.3 对率回归模型求解

根据凸优化理论，我们采用牛顿法和梯度下降法两种方法求解使得代价函数达到最小值时的 $\boldsymbol{\beta}^{*}$ 。

4.3.1 牛顿法迭代函数原理

首先，我们计算 $\beta_{(n+1) \times 1}$ 的一阶导数和二阶导数如下：
$\frac{L(\beta)}{\partial \beta}=\left[\frac{\partial L}{\partial \beta_{1}}, \frac{\partial L}{\partial \beta_{2}}, \ldots \ldots ., \frac{\partial L}{\partial \beta_{n}}\right]$
$\frac{\boldsymbol{L}^{\mathbf{2}}(\boldsymbol{\beta})}{\boldsymbol{\partial \boldsymbol { \beta }} \boldsymbol{\partial} \boldsymbol{\beta}^{\boldsymbol{T}}}=\left[\begin{array}{cccc} \frac{\partial^{2} L}{\partial \beta_{1}^{2}} & \frac{\partial^{2} L}{\partial \beta_{1} \beta_{2}} & \cdots & \frac{\partial^{2} L}{\partial \beta_{1} \beta_{n}} \\ \frac{\partial^{2} L}{\partial \beta_{2} \beta_{1}} & \frac{\partial^{2} L}{\partial \beta_{2}^{2}} & \cdots & \frac{\partial^{2} L}{\partial \beta_{2} \beta_{n}} \\ \frac{\partial^{2} L}{\partial \beta_{n} \beta_{1}} & \frac{\partial^{2} L}{\partial \beta_{n} \beta_{2}} & \cdots & \frac{\partial^{2} L}{\partial \beta_{n}^{2}} \end{array}\right]$

其次，我们将目标函数进行包含二阶导数的泰勒展开，如下：
$\mathrm{L}(\beta+\Delta \beta)=L(\beta)+\Delta \beta^{T} \frac{\partial L}{\partial \beta}+\frac{1}{2} \Delta \beta^{T} \frac{\partial^{2} L}{\partial \beta^{2}} \Delta \beta$
根据函数最小值性质，当偏导数为0时，函数取得最值。因此得到：

$\frac{L(\beta)}{\partial \beta}=0 \quad \frac{L^{2}(\beta)}{\partial \beta \partial \beta^{T}}=0$

$\Delta \beta^{T} \frac{\partial \mathrm{L}}{\partial \beta}+\frac{1}{2} \Delta \beta^{T} \frac{\partial^{2} \mathrm{~L}}{\partial \beta^{2}} \Delta \beta=0$
将其化简可得：

$\Delta \beta^{T} \frac{\partial L}{\partial \beta}=-\Delta \beta^{T} \frac{\partial^{2} L}{\partial \beta^{2}} \Delta \beta \Leftrightarrow \Delta \beta=-\left(\frac{\partial^{2} L}{\partial \beta^{2}}\right)^{-1} \frac{\partial L}{\partial \beta}$

由此，我们得到牛顿法的梯度下降公式如下：

$\beta^{T}=\beta^{T+1}+\Delta \beta \Leftrightarrow \beta^{T+1}=\beta^{T}-\Delta \beta \Leftrightarrow \beta^{T+1}=\beta^{T}-\left(\frac{\partial^{2} L}{\partial \beta^{2}}\right)^{-1} \frac{\partial L}{\partial \beta}$

4.3.2 梯度下降法迭代函数推导

首先，我们构建梯度 $\nabla L(\beta)$ ，它表示当前函数位置的导数，即函数在该点处的方向导数沿该方向可以取得较大值。

$\nabla L(\beta)=\frac{d L(\beta)}{d \beta}$
然后将目标函数进行包含一阶导数的泰勒展开，公式如下：

$L(\beta)=L\left(\beta_{0}\right)+\left(\beta-\beta_{0}\right) \cdot \nabla L\left(\beta_{0}\right)$
我们采用一个单位向量 $v$ 与标量$\alpha $的内积表示。 $\boldsymbol{\beta}-\boldsymbol{\beta}_{o}$ ，公式如下：

$\beta-\beta_{0}=\alpha v$
将其带入泰勒展开式，化简如下：

$L(\beta)=L\left(\beta_{0}\right)+\alpha v \cdot \nabla L\left(\beta_{0}\right)$
为使得目标函数达到最小值，我们可以得知 $L(\beta)L(β)<L(β0)$

$v=-\frac{\nabla L\left(\beta_{0}\right)}{\left\|\nabla L\left(\beta_{0}\right)\right\|} .$
将其带入 $\beta-\beta_{0}=\alpha v$ 得：

$\beta=\beta_{0}-\alpha \frac{\nabla L\left(\beta_{0}\right)}{\left\|\nabla L\left(\beta_{0}\right)\right\|}=\beta_{0}-\alpha^{\prime} \nabla L\left(\beta_{0}\right)$
由此，我们得到迭代公式如下：

$\beta^{T+1}=\beta^{\top}-\alpha \nabla L\left(\beta_{0}\right)$

五、对率回归模型求解代码实现

在5.1小节，概述对率回归模型求解LogisticRegression类的基本框架，并通过类图绘制其包含的操作函数。在5.2小节，对于构造函数，数据读取函数，迭代方法选择函数进行了详细描述并给出代码。在5.3和5.4小节，概述了牛顿法和梯度下降法求解对率回归模型的函数调用关系以及算法流程，并在附上两者实现的核心函数代码。在5.5小节，通过sklearn库中的逻辑回归模型LogisticRegression训练数据集得到sklearn机器学习库的训练结果。

5.1 对率回归模型程序框架

5.1.1 LogisticRegression类

为实现对率回归模型求解，我新建文件LogisticRegression.py，并在其中中创建LogisticRegression类，其中包含五类函数用于求解对率回归模型，LogisticRegression类结构如图所示。在接下来的4个小节中，我将对其中主要函数进行说明。

5.2 基本函数说明

5.2.1 构造函数.

对于构造函数init()，首先初始化特征权重 $\beta$ 矩阵为[1,1,1]，误差阈值默认为1e-5，代价函数最小化求解方法为梯度下降法，代码如下：

def __init__(self, method="gradientdescent", err = 1e-5):
		# beta:特征权重，初始化为[1,1,1]
		# method:选择方法，包括牛顿法和梯度下降法以及sklearn方法
		# err：误差，默认1e-5
		self.beta = beta = np.ones((1, 3))
		self.method = method
		self.err = err

5.2.2 读取特征和标签数据

对于西瓜数据的读取，在这里我采用pandas库对附件watermelon3.0alpha.csv中数据进行读取，其中返回值表示西瓜特征向量 $X$ ，标签向量 $Y$ 以及DataFrame类型的西瓜原始数据data。其中原始数据用于绘图使用，西瓜特征向量和标签向量用于训练对率回归模型使用。其代码如下：

def read_watermelon_data(self,filename):
		data=pd.read_csv(filename)
		Xtrain=data[["density","Sugar_content"]]
		Ytrain=data["label"]
		X=np.array(Xtrain)
		Y=np.array(Ytrain).reshape((len(Ytrain),1))
		return data,X,Y

5.2.3 迭代方法选择函数

对于迭代方法选择函数，我们通过根据构造函数中self.method的取值分别调用self.newton，self.gradient，self.sklearn_method方法，如果self.method的值不在三个取值范围之中，则抛出异常。实现代码如下：

def fit(self, X, Y):
		if self.method == "newton":
				return self.newton(X, Y)
		elif self.method == "gradientdescent":
				return self.gradient(X, Y)
		elif self.method=="sklearn":
				return self.sklearn_method(X,Y)
		else:
				raise ValueError('Unknown method!')

5.2.4 迭代求解实现函数

在迭代求解实现时，创建了三种类型的函数，self.newton，self. gradient，self. sklearn_method，对于这三种方法的实现，我将在下一小节进行说明。

5.3 牛顿法求解实现

5.3.1 牛顿法算法核心.

首先，给出牛顿法算法核心流程图，如图所示。

初始化权重矩阵为[ 1 , 1 , 1 ]并设定误差阈值（默认1e-5），然后计算代价函数对权重矩阵beta的一阶导数和二阶导数，带入牛顿法的迭代公式对beta进行更新，当更新前的代价值与更新后的代价值相差小于阈值时，停止迭代，输出结果。

5.3.2 牛顿法python实现

通过pycallgraph类绘制牛顿法运行函数调用示意图如图所示。

首先，初始化LogisticRegression类，创建optmizer1对象并设置其方法为newton，然后调用optmizer1.newton函数实现牛顿法迭代求解最小代价时的权重矩阵。
对于newton函数的实现，首先将西瓜特征矩阵 $X$ 增加一列，生成增广矩阵X1，然后初始化原始代价值old_l为0，调用cal_loss(Y,z)函数计算beta权重矩阵下的新代价值new_l。循环计算代价函数对于权重矩阵beta的一阶导数first_order和二阶导数second_order，并通过牛顿法的迭代公式更新beta矩阵的值。然后更新old_l并调用cal_loss(Y,z)更新new_l，当old_l - new_l的绝对值小于误差阈值时，跳出循环并得到最终的beta值。实现代码如下：

def newton(self, X, Y):
		N = X.shape[0] #获取样本个数N
		one = np.ones((N, 1)) #生成[N,1]的数值为1的向量
		X1 = np.hstack([X, one]) #生成X的增广矩阵
		z = X1.dot(self.beta.T) #生成[N,1]的点乘向量
		old_l = 0 #初始化代价函数初值为0
		new_l = self.cal_loss(Y,z) #计算对数似然的代价函数值
		iters = 0#迭代次数
		while(np.abs(old_l - new_l) > self.err):#当两次代价函数值之差大于设定误差阈值时，停止迭代
		#计算y=1的后验概率，得到[N, 1]的p1向量
		p1 = np.exp(z) / (1 + np.exp(z))
		#y=1的后验概率和y=0的后验概率相乘并将其格式调整为 [1,N],然后生成对角矩阵[N, N]
		p = np.diag((p1 * (1-p1)).reshape(N))
		#计算L对于beta的一阶导数，生成[1, d+1]向量
		first_order = -np.sum(X1 * (Y - p1), 0, keepdims=True)
		#计算L对于beta的二阶导数，生成[d+1, d+1]向量
		second_order = X1.T.dot(p).dot(X1)
		#更新beta，迭代函数
		self.beta -= first_order.dot(np.linalg.inv(second_order))
		#更新代价函数
		z = X1.dot(self.beta.T)
		old_l = new_l
		new_l = self.cal_loss(Y,z)
		iters += 1#增加迭代次数
		return self.beta

5.4 梯度下降法.

5.4.1 梯度下降法算法核心

梯度下降法的核心算法流程如图所示。首先，初始化权重矩阵，设定误差阈值（默认1e-5）以及学习率 $\alpha$ （默认0.5），然后计算代价函数对权重矩阵beta的一阶导数，并对beta进行迭代更新。当更新前的代价值与更新后的代价值相差小于阈值时，停止迭代，输出结果。

5.4.2 梯度下降法python实现

通过pycallgraph绘制梯度下降法运行函数调用图，如图所示。

首先，初始化LogisticRegression类，创建optmizer2对象并设置其方法为gradientdescent，然后调用optmizer2.newton函数实现梯度下降法迭代求解最小代价时的权重矩阵。
对于gradient函数的实现，首先将西瓜特征矩阵X增加一列，生成增广矩阵X1，然后初始化原始代价值old_l为0，调用cal_loss(Y,z)函数计算beta权重矩阵下的新的代价值new_l。循环计算代价函数对于权重矩阵beta的一阶导数first_order，并通过函数更新beta矩阵的值（α为学习率），然后更新old_l并调用cal_loss(Y,z)更新new_l，当old_l - new_l的绝对值小于误差阈值时，跳出循环并得到最终的beta值。实现代码如下：

def gradient(self, X, Y, learn_rate=0.5):
		N = X.shape[0] #获取样本个数N
		one = np.ones((N, 1)) #生成[N,1]的数值为1的向量
		X1 = np.hstack([X, one]) #生成X的增广矩阵
		z = X1.dot(self.beta.T) #生成[N,1]的点乘向量
		old_l = 0 #初始化代价函数初值为0
		new_l = self.cal_loss(Y,z)   #计算对数似然的代价函数值
		iters = 0
		while(np.abs(old_l - new_l) > self.err):
		p1 = np.exp(z) / (1 + np.exp(z))#计算y=1的后验概率，得到[N, 1]的p1向量
		p = np.diag((p1 * (1-p1)).reshape(N))
		first_order = -np.sum(X1 * (Y - p1), 0, keepdims=True)
		#更新beta，迭代函数
		self.beta -= learn_rate * first_order
		z = X1.dot(self.beta.T)
		old_l = new_l
		new_l = self.cal_loss(Y,z)
		iters += 1
		return self.beta

5.5 机器学习sklearn库实现.

在sklearn库中，可以通过LogisticRegression类实现对于逻辑回归模型的求解。我们首先通过from sklearn.linear_model import LogisticRegression引入sklearn中LogisticRegression包，然后初始化逻辑回归模型，设置迭代求解方法为lbfgs（拟牛顿法），然后调用fit方法对西瓜数据集进行训练，最终得到权重矩阵beta。其代码如下：

def sklearn_method(self, X, Y):
		from sklearn.linear_model import LogisticRegression
		reg = LogisticRegression(solver='lbfgs', C=1000).fit(X, Y)
		self.beta = np.c_[reg.coef_, reg.intercept_]
		print("sklearn中使用lbfgs方法权重矩阵：",self.beta)
		return self.beta
\end{lstlisting}

六、结果分析

6.1 定性结果分析

通过matplotlib中scatter函数以及plot函数绘制不同种类西瓜的散点图以及三种方法求解逻辑回归的结果图。如图所示：

通过观察图可以发现，numpy实现的牛顿法，梯度下降法以及sklearn实现的拟牛顿法求解逻辑回归时，对于西瓜好坏的分类效果基本相当。三者对于好瓜的分类均存在3个样本的误判，对于坏瓜的分类存在1个样本的误判，准确率在76.47左右。准确率之所以不高的原因在于附件样本数据过少，只有17个。

6.2 定量结果分析

对于三种方法，输出其迭代次数，最终代价函数值以及beta矩阵进行定量分析，如下表：

方法	迭代次数	最终代价值	Beta权重矩阵
牛顿法	4	8.6836	[3.148203，12.485565，4.4154285]
梯度下降法	242	8.6841	[3.106223，12.3094587，4.3562010]
Sklearn	9	/	[3.039079，11.955709，4.2495913]

sklearn中未查询到计算逻辑回归最终代价值的属性，因此未计算。
对比三种方法的迭代次数以及最终权重矩阵beta，我们可以得到以下结论：

迭代次数对比：牛顿法和sklearn中lbgfs方法迭代次数较少，而梯度下降法在同等条件下迭代次数较多，耗费时间较长。
代价函数值对比：牛顿法和梯度下降法最终得到得代价值均为8.68左右，相差较小。因此其迭代效果可以认为基本相等。
特征权重矩阵对比：通过表，我们可以得出三种方法计算出得权重矩阵的值基本上稳定在 3 ，12 ，4 附近，相差较小。根据权重矩阵，我们可以得到三种方法的各指标权重以及常数项如表所示。

方法	Density权重	Sugar_content权重	常数
牛顿法	3.148203	12.485565	4.
梯度下降法	3.106223	12.3094587	4.
Sklearn	3.039079	11.955709	4.

附录

LogisticRegression代码实现

# -*- coding: utf-8 -*-
"""
@Time ： 2022-03-18 10:37
@Author ： oax_knud
@File ：LogisticRegression1.py
@IDE ：PyCharm
"""
#依赖库
"""
numpy:向量运算
matplotlib:绘图
pandas:读取csv文件数据
"""
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from pycallgraph import PyCallGraph
from pycallgraph.output import GraphvizOutput
from pycallgraph import Config
from pycallgraph import GlobbingFilter


#构造逻辑回归类
class LogisticRegression(object):
		def __init__(self, method="gradientdescent", err = 1e-5):
				# 初始化
				"""
				beta:特征权重，初始化为[1,1,1]
				method:选择方法，包括牛顿法和梯度下降法
				eps：误差，默认1e-5
				"""
				self.beta = beta = np.ones((1, 3))
				self.method = method
				self.err = err
		#选择方法
		def fit(self, X, Y):
				"""
				param X: 西瓜特征数据
				param Y: 标签数据
				return: 逻辑回归特征权重beta
				"""
				if self.method == "newton":
				return self.newton(X, Y)
				elif self.method == "gradientdescent":
				return self.gradient(X, Y)
				elif self.method=="sklearn":
				return self.sklearn_method(X,Y)
				else:
				raise ValueError('Unknown method!')
		#计算代价函数
		def cal_loss(self,Y,z):
				"""
				:param Y: [N,1]Y向量，N表示样本个数，1表示标签个数
				:param z: X增广矩阵点成beta，生成[N,1]的点乘向量
				return: 代价函数值
				"""
				return np.sum(-Y*z + np.log(1+np.exp(z)))
		
		#牛顿法
		def newton(self, X, Y):
				"""
				param X: [N,d]X向量，N表示样本个数，d表示特征个数
				param Y: [N,1]Y向量，N表示样本个数，1表示标签个数
				return: [1,d+1]beta向量，特征权重向量(包括权重和常数)
				"""
				N = X.shape[0] #获取样本个数N
				one = np.ones((N, 1)) #生成[N,1]的数值为1的向量
				X1 = np.hstack([X, one]) #生成X的增广矩阵
				z = X1.dot(self.beta.T) #生成[N,1]的点乘向量
				old_l = 0 #初始化代价函数初值为0
				new_l = np.sum(-Y*z + np.log(1+np.exp(z))) #计算对数似然的代价函数值
				iters = 0#迭代次数
				while(np.abs(old_l - new_l) > self.err):#当两次代价函数值之差大于设定误差阈值时，停止迭代
				#计算y=1的后验概率，得到[N, 1]的p1向量
				p1 = np.exp(z) / (1 + np.exp(z))
				#y=1的后验概率和y=0的后验概率相乘并将其格式调整为 [1,N],然后生成对角矩阵[N, N]
				p = np.diag((p1 * (1-p1)).reshape(N))
				#计算L对于beta的一阶导数，生成[1, d+1]向量
				first_order = -np.sum(X1 * (Y - p1), 0, keepdims=True)
				#计算L对于beta的二阶导数，生成[d+1, d+1]向量
				second_order = X1.T.dot(p).dot(X1)
				
				#更新beta，迭代函数
				self.beta -= first_order.dot(np.linalg.inv(second_order))
				#更新代价函数
				z = X1.dot(self.beta.T)
				old_l = new_l
				new_l = self.cal_loss(Y,z)
				iters += 1#增加迭代次数
				print("牛顿法收敛的迭代次数: ", iters)
				print('牛顿法收敛后对应的代价函数值: ', new_l)
				print("牛顿法收敛后对应的权重矩阵:",self.beta)
				return self.beta
				
		#梯度下降法
		def gradient(self, X, Y, learn_rate=0.5):
				"""
				param X: [N,d]X向量，N表示样本个数，d表示特征个数
				param Y: [N,1]Y向量，N表示样本个数，1表示标签个数
				learn_rate:学习率，默认0.5
				return: [1,d+1]beta向量，特征权重向量(包括权重和常数)
				"""
				N = X.shape[0] #获取样本个数N
				one = np.ones((N, 1)) #生成[N,1]的数值为1的向量
				X1 = np.hstack([X, one]) #生成X的增广矩阵
				z = X1.dot(self.beta.T) #生成[N,1]的点乘向量
				old_l = 0 #初始化代价函数初值为0
				new_l = self.cal_loss(Y,z)   #计算对数似然的代价函数值
				iters = 0
				while(np.abs(old_l - new_l) > self.err):
				#计算y=1的后验概率，得到[N, 1]的p1向量
				p1 = np.exp(z) / (1 + np.exp(z))
				#y=1的后验概率和y=0的后验概率相乘并将其格式调整为 [1,N],然后生成对角矩阵[N, N]
				p = np.diag((p1 * (1-p1)).reshape(N))
				#计算L对于beta的一阶导数，生成[1, d+1]向量
				first_order = -np.sum(X1 * (Y - p1), 0, keepdims=True)
				#更新beta，迭代函数
				self.beta -= learn_rate * first_order
				z = X1.dot(self.beta.T)
				old_l = new_l
				new_l = self.cal_loss(Y,z)
				iters += 1
				print("梯度下降法收敛的迭代次数iters: ", iters)
				print('梯度下降法收敛后对应的代价函数值: ', new_l)
				print("梯度下降法收敛后对应的权重矩阵:", self.beta)
				return self.beta
		
		def sklearn_method(self, X, Y):
				'''
				sklearn 模块中的lbfgs方法求beta
				param X:(x,1) shape[N,d+1]
				@param Y:label shape[N,1]
				@return beta (w,b) shape [1,d+1]
				'''
				from sklearn.linear_model import LogisticRegression
				# print("请选择使用的求解方法：")
				# print("1:lbfgs,拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数")
				reg = LogisticRegression(solver='lbfgs', C=1000).fit(X, Y)
				self.beta = np.c_[reg.coef_, reg.intercept_]
				print("sklearn中使用lbfgs方法权重矩阵：",self.beta)
				print("iter:",reg.n_iter_)
				return self.beta
		
		def read_watermelon_data(self,filename):
				'''
				读取西瓜数据并转换
				filename:数据文件
				return:
				param data:pandas形式原始数据
				param X: [N,d]X向量，N表示样本个数，d表示特征个数
				param Y: [N,1]Y向量，N表示样本个数，1表示标签个数
				'''
				data=pd.read_csv(filename)
				Xtrain=data[["density","Sugar_content"]]
				Ytrain=data["label"]
				X=np.array(Xtrain)
				Y=np.array(Ytrain).reshape((len(Ytrain),1))
				return data,X,Y
		
if __name__ == "__main__":
		filename="watermelon3.0alpha.csv"
		print("请选择使用求解逻辑回归模型的方法：")
		print("1:牛顿法")
		print("2:梯度下降法")
		print("3:机器学习sklearn库调用")
		num=int(input())
		if num==1:
				#牛顿法
				graphviz = GraphvizOutput()
				graphviz.output_file = 'newton.png'
				with PyCallGraph(output=graphviz):
						optmizer1=LogisticRegression("newton")
						data,X, Y = optmizer1.read_watermelon_data(filename)
						beta_newton=optmizer1.fit(X,Y)
				#绘图
				label1 = np.array(data[data["label"]==1])
				label0 = np.array(data[data["label"]==0])
				plt.scatter(label1[:, 1], label1[:, 2], c='r', marker='+',label="good watermelon")
				plt.scatter(label0[:, 1], label0[:, 2], c='b', marker='o',label="bad watermelon")
				ymin = -(beta_newton[0, 0] * 0.1 + beta_newton[0, 2]) / beta_newton[0, 1]
				ymax = -(beta_newton[0, 0] * 0.9 + beta_newton[0, 2]) / beta_newton[0, 1]
				plt.plot([0.1, 0.9], [ymin, ymax], 'g-', label='Newton method')
				plt.xlabel('density')
				plt.ylabel('sugar rate')
				plt.title("logit regression using newton")
				plt.legend()
				plt.show()
		elif num==2:
		#梯度下降法
				graphviz = GraphvizOutput()
				graphviz.output_file = 'grad.png'
				with PyCallGraph(output=graphviz):
						optmizer2=LogisticRegression("gradientdescent")
						data,X, Y = optmizer2.read_watermelon_data(filename)
						beta_grad=optmizer2.fit(X,Y)
				#绘图
				label1 = np.array(data[data["label"]==1])
				label0 = np.array(data[data["label"]==0])
				plt.scatter(label1[:, 1], label1[:, 2], c='r', marker='+',label="good watermelon")
				plt.scatter(label0[:, 1], label0[:, 2], c='b', marker='o',label="bad watermelon")
				ymin = -(beta_grad[0, 0] * 0.1 + beta_grad[0, 2]) / beta_grad[0, 1]
				ymax = -(beta_grad[0, 0] * 0.9 + beta_grad[0, 2]) / beta_grad[0, 1]
				plt.plot([0.1, 0.9], [ymin, ymax], 'g-', label='Gradientdescent method')
				plt.xlabel('density')
				plt.ylabel('sugar rate')
				plt.title("logit regression using gradientdescent")
				plt.legend()
				plt.show()
		elif num==3:
		#梯度下降法
				optmizer3=LogisticRegression("sklearn")
				data,X, Y = optmizer3.read_watermelon_data(filename)
				beta_sklearn=optmizer3.fit(X,Y)
				#绘图
				label1 = np.array(data[data["label"]==1])
				label0 = np.array(data[data["label"]==0])
				plt.scatter(label1[:, 1], label1[:, 2], c='r', marker='+',label="good watermelon")
				plt.scatter(label0[:, 1], label0[:, 2], c='b', marker='o',label="bad watermelon")
				ymin = -(beta_sklearn[0, 0] * 0.1 + beta_sklearn[0, 2]) / beta_sklearn[0, 1]
				ymax = -(beta_sklearn[0, 0] * 0.9 + beta_sklearn[0, 2]) / beta_sklearn[0, 1]
				plt.plot([0.1, 0.9], [ymin, ymax], 'g-', label='sklearn(lbfgs) method')
				plt.xlabel('density')
				plt.ylabel('sugar rate')
				plt.title("logit regression using sklearn")
				plt.legend()
				plt.show()
		else:
		print("error")

你可能感兴趣的:(python机器学习,python,数据挖掘,逻辑回归)

自学 python 中的异步编程 asyncio (五)：asyncio 与线程thread Eaton5959 python
自学python中的异步编程asyncio(一)：学习基本概念自学python中的异步编程asyncio(二)：asyncio模块与核心组件自学python中的异步编程asyncio(三)：asyncio实现基本异步编程自学python中的异步编程asyncio(四)：基本的异步IO编程自学python中的异步编程asyncio(五)：asyncio与线程thread自学python中的异步编程a
在 Python 异步协程中使用同步队列土谷祠房客 python 协程阻塞
在Python异步协程中使用同步队列使用Pythonasyncio进行异步编程时，可以使用异步队列asyncio.Queue在并发的协程间进行数据交互。不过，asyncio.Queue不是线程安全的，如果需要在不同线程的异步程序之间或者不同线程的异步程序和同步程序间交换数据，就需要使用queue模块中的Queue这个队列，因为它是线程安全的。在asyncio异步协程中使用queue.Queue
2024华为OD机试E卷-数大雁-（C++/Java/Python） 2024剑指offer python 华为od c++java
2024华为OD机试最新E卷题库-(C卷+D卷+E卷)-(JAVA、Python、C++)目录题目描述输入描述输出描述用例1用例2用例3用例4考点题目解析代码c++python题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体的：大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”。大雁会
华为OD机试 - 数大雁（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 c++java 华为OD 华为od机试 python 华为od javascript
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体的:1.大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”。2.大雁会依次完整发出”quack”，即字符串中’q’,‘u’,‘a’,‘c’,‘k’这5个字母按顺序完整
【Python】Tkinter电器销售有限公司销售数据分析（源码）【独一无二】不争不抢不显不露 python 数据分析开发语言
一、设计要求该项目创建一个数据分析软件，利用Tkinter和Matplotlib构建图形用户界面（GUI），读取和分析美迪电器销售有限公司销售数据。用户可以通过界面选择月份查看数据详情、生成销量图表并计算月总销量和年总销量。二、设计思路2.模块引入首先引入了所需的模块，包括Tkinter（用于GUI创建和管理）、ttk（Tkinter主题化控件）、messagebox（用于弹出消息框）、panda
【Python】super() 函数和 MRO 顺序的实例剖析彭彭不吃虫子 python 开发语言
1.构造函数（__init__(self[,...])）在类中定义__init__()方法，可以实现在实例化对象的时候进行个性化定制：>>>classC:... def__init__(self,x,y):... self.x=x... self.y=y... defadd(self):... returnself.x+self.y... defmu
【Python】类与对象:self在其中的作用，面向对象的优势，函数和方法的区别彭彭不吃虫子 python 开发语言
1.self在类和对象中的功能与用处在面向对象编程（OOP）中，self是类中方法的第一个参数，它指向当前实例（对象）。每个类的方法第一个参数通常是self，它用于引用当前对象本身，这使得我们能够访问类中的属性和其他方法。功能与用处：访问实例属性：self允许在类的方法中引用对象的属性。例如，如果类中有一个实例属性name，你可以通过self.name来访问它。修改实例属性：通过self，方法可以
Python在WRF模型自动化运行及前后处理中实践技术应用-包括数据处理、模型运行、结果可视化等步骤。 KY_chenzhao python 自动化开发语言
1.背景与目标WRF（WeatherResearchandForecasting）模型是中尺度气象数值模式的佼佼者，广泛应用于气象预报和气候研究。Python在WRF模型中的应用主要体现在前后处理、自动化运行和数据可视化等方面。本文将以风速预测为例，详细说明Python在WRF模型中的具体应用，包括数据处理、模型运行、结果可视化等步骤。2.数据准备数据来源包括WRF模型的输出数据和实际观测数据。这
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
PySide6 GUI 学习笔记——Python文件编译打包 Humbunklung PySide6 学习笔记 python
前面编写的软件工具都必须运行在Python环境中，且通过命令行的方式运行，通过Python打包工具，我们可以把.py文件封装成对应平台的运行文件，供用户执行。常见Python打包工具工具简介官网/文档地址py2exe将Python脚本转换为Windows可执行文件https://www.py2exe.orgcx_Freeze跨平台的Python打包工具，它可以将Python脚本打包为可执行文件或动
ChatGPT Canvas：开启AI编程新纪元——你的AI代码生成器来了！前端
OpenAI近日宣布ChatGPTCanvas全面开放，并带来了两项重磅更新：直接运行Python代码和整合GPTs生态系统。这意味着，即使你不是专业的程序员，也能轻松体验编程的乐趣，并利用AI的力量创造出更多可能性。这对于想要学习编程或提高工作效率的用户来说，无疑是一个巨大的福音。这篇文章将深入探讨这两项更新，并展望ChatGPTCanvas的未来发展。直接运行Python代码：降低编程门槛，释
华为OD机试E卷 --数大雁--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体：1.大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”2.大雁会依次完整发出”quack”，即字符串中’q，u,a，c，k这5个字母按
Python中的Pipeline快速教学、 Coding Is Fun python 开发语言
在Python中，Pipeline通常指的是机器学习工作流中的流水线，尤其是在使用scikit-learn库时。Pipeline允许你将多个数据处理步骤和模型训练步骤串联起来，形成一个有序的工作流程。这不仅使代码更简洁，还能确保在训练和预测时一致的数据处理。以下是一个快速教学，帮助你掌握Python中Pipeline的核心概念和使用方法。目录安装和导入必要的库Pipeline的基本概念创建一个简单
Python实用记录(十五)：PyQt/PySide6打包成exe，精简版（nuitka/pyinstaller/auto-py-to-exe） ZZY_dl 实用操作总结 python pyqt 开发语言
文章目录Python打包工具：Nuitka、PyInstaller和Auto-py-to-exe详解方式一：Nuitka安装与使用方式二：PyInstaller安装环境打包方式使用spec文件打包打包后文件说明打包参数说明方式三：Auto-py-to-exe安装环境✅⚠️▶️➡️⭐❄️✅⚠️▶️➡️⭐❄️✅⚠️▶️➡️⭐❄️✅⚠️Python打包工具：Nuitka、PyInstaller和Auto
Python 操作二进制文件昱晏 Python 1024程序员节 python
在计算机中，文件可以分为两种类型：文本文件和二进制文件。文本文件包含人类可读的字符，而二进制文件包含计算机指令或数据，无法直接阅读。常见的二进制文件包括图片、音频、视频、可执行文件等。Python提供了处理二进制文件的工具，允许你读写任意类型的数据。1以二进制模式打开文件在Python中，操作二进制文件时，需要使用'b'作为文件模式的一部分。常见的二进制文件模式有：'rb'：以二进制读取文件。'w
第9章：Python TDD解决货币对象相等性比较难题 Tester_孙大壮测试驱动开发 python 驱动开发开发语言
写在前面这本书是我们老板推荐过的，我在《价值心法》的推荐书单里也看到了它。用了一段时间Cursor软件后，我突然思考，对于测试开发工程师来说，什么才更有价值呢？如何让AI工具更好地辅助自己写代码，或许优质的单元测试是一个切入点。就我个人而言，这本书确实很有帮助。第一次读的时候，很多细节我都不太懂，但将书中内容应用到工作中后，我受益匪浅。比如面对一些让人抓狂的代码设计时，书里的方法能让我逐步深入理解
Python input 怎么使用彭彭不吃虫子 windows 数据库服务器
一、input()函数简介Python的input()函数是一个内置函数，用于从用户接收输入。当程序运行到input()函数时，会暂停并等待用户输入一些文本，用户输入的文本将作为函数的返回值。这使得我们可以在程序中获取用户的输入，以便根据输入执行相应的操作。二、input()函数语法input()函数的基本语法如下：input(prompt=None)其中，prompt参数是可选的，它表示在等待用
实操数据预处理：从理论到实践的基础步骤炼丹侠 python 机器学习人工智能
在快速发展的人工智能领域，数据不仅是基础，更是推动技术创新的关键力量。高质量的数据集是构建高效、准确模型的前提。本文将全面深入探讨数据预处理的各个环节，从基础的数据清洗到复杂的数据增强，再到高效的Python应用实践，为你提供一站式的数据处理解决方案。无论你的经验如何，这篇文章都将成为你宝贵的资源。数据清洗：打好数据质量的基础数据清洗是提升数据质量的首要步骤，涵盖了如下几个关键操作：缺失值的智能处
【python】实用的文件操作-多个excel文件的两种合并方式匡虐文件操作 python
【python】实用的文件操作-excel文件两种合并方式工作中常遇到多个excel文件表的结构一样，只是内容不同，现需要将其合并在一起。有两种方式，一种是合并成一张表，将其他表中的数据追加到同一张表中。另外一种是存放成一个文件多张表，不同的文件放到一个excel文件的不同工作簿中。1、合成一张表importpandasaspdimportospath=r'C:\Users\lenovo\Docu
python-mysql-连接池 Xiaohuansong python笔记 python mysql 连接池
利用内部队列编写的简易的支持上下文的连接池，目前只支持多线程内的链接代码如下实现了最大最小连接池的限制，链接回收，dml封装，动态维护链接等操作importMySQLdbimportloggingimportQueuefromthreadingimportThreadfromcontextlibimportcontextmanagerimporttimeclassMysqlTool(object)
BUUCTF_Crypto_[WUSTCTF2020]B@se qq_58370970 经验分享
给了一个txt文件：从题目可以看出是与base64相关，不难发现是base64的变种，将base64的顺序改变了，但还有4个字符不知道可以写python脚本得到缺失的4个字符代码如下：importstrings='JASGBWcQPRXEFLbCDIlmnHUVKTYZdMovwipatNOefghq56rs****kxyz012789+/'j='ABCDEFGHIJKLMNOPQRSTUVWXY
Python mysql数据库连接池戴** Python
最近在写一个Python的文本分析,需要大量的读取数据库(千万级别mysql)并进行更新操作,运行着程序发现一个问题,过了一会儿程序就报错说链接已经满了,或者是端口不可重复使用,因此我在网上找到了一个连接池的代码用于解决这个问题,在此处贴出代码本身是有配置文件的,因为我觉得在我的项目中不必要所以就删除了#!/usr/bin/envpython#-*-coding:utf-8-*-importpym
Python的Selenium库中的模块、类和异常的汇总 qq_24654817 python selenium 开发语言
1.`selenium.common.exceptions`：包含了Selenium中可能出现的异常。2.`selenium.webdriver.chrome.options`：用于配置Chrome浏览器的选项。3.`selenium.webdriver.chrome.service`：用于管理Chrome浏览器的后台服务。4.`selenium.webdriver.chrome.webdrive
代码编写java代做c++程序代编程Python代c#设计C语言接单软件定制 matlabgoodboy java c++c#
您提到的服务涵盖了多种编程语言和软件开发需求，包括Java代码编写、C++程序代编、Python编程代做、C#设计、C语言编程，以及软件定制服务。这些服务在软件开发领域非常常见，且有着广泛的应用。以下是对这些服务更详细的解释和接单时的一些建议：服务详解Java代码编写Java以其跨平台性、面向对象和丰富的API而著称，广泛应用于企业级应用、Android应用开发、Web服务端开发等领域。您可以提供
10个方法：用Python执行SQL、Excel常见任务_python util 前端收割机程序员 python sql excel
使用Python的最大优点之一是能够从网络的巨大范围中获取数据的能力，而不是只能访问手动下载的文件。在Python的requests库可以帮助你分类不同的网站，并从它们获取数据，而BeautifulSoup库可以帮助你处理和过滤数据，那么你精确得到你所需要的。如果你要去这条路线，请小心使用权问题。（不用担心，如果你想跳过这个部分，可以的！原始的csv文件在这里，你可以随意下载，如果你宁愿开始这个练
基于Python爬虫的豆瓣电影影评数据可视化分析 wp_tao Python副业接单实战项目 python 爬虫信息可视化
文章目录前言一、数据抓取二、数据可视化1.绘制词云图2.读入数据总结前言本文以电影《你好，李焕英》在豆瓣上的影评数据为爬取和分析的目标，利用python爬虫技术对影评数据进行了爬取，使用pandas库进行了数据清洗，使用jieba库进行分词，使用collections库进行词频统计，使用wordcloud库绘制词云图，使用matplotlib库绘制了评论人所在城市占比饼状图，并使用matplotl
BP神经网络及其Python和MATLAB实现预测陈辰学长神经网络 python matlab
BP神经网络及其Python和MATLAB实现预测引言BP神经网络（BackPropagationNeuralNetwork），即反向传播神经网络，是一种通过反向传播算法进行监督学习的多层前馈网络。这种网络能够通过不断地调整和改变神经元的连接权重，达到对特定任务的学习和优化。由于其高度的灵活性和适应性，BP神经网络在模式识别、函数逼近、优化问题等多个领域有着广泛的应用。本文将详细介绍BP神经网络的
【Python】selenium结合js模拟鼠标点击、拦截弹窗、鼠标悬停方法汇总（使用 execute_script 执行点击的方法）翠花上酸菜 selenium 网络爬虫 python selenium javascript
我们在写selenium获取网络信息的时候，有时候我们会受到对方浏览器的监控，对方通过分析用户行为模式，如点击、滚动、停留时间等，网站可以识别出异常行为，进而对Selenium爬虫进行限制。这里我们可以加入JavaScript的使用。Selenium可以执行JavaScript，通过使用execute_script方法，来执行点击操作。它可以绕过一些Selenium直接操作元素时可能遇到的问题，比
Conda与Bash的完美融合：激活你的开发环境 2401_85760095 conda bash 开发语言
Conda与Bash的完美融合：激活你的开发环境在Python开发者的日常工作中，Conda不仅作为包管理器，更是一个强大的环境管理工具。为了在bashshell中使用Conda创建的环境，需要进行初始化操作。condainitbash命令正是为此设计的，它可以修改bash的配置文件，使得Conda的环境能够在每次启动bashshell时自动激活。本文将详细介绍如何使用condainitbash命
2024年最全selenium UI使用小技巧集合_python selenium 中 2401_84692253 程序员 selenium ui python
al=driver.switch_to.alertal.send_keys(“口罩太贵了”)al.accept()#确认对话框time.sleep(3)driver.quit()###鼠标事件用selenium做自动化，有时候会遇到需要模拟鼠标操作才能进行的情况，比如单击、双击、点击鼠标右键、拖拽等等。而selenium给我们提供了一个类来处理这类事件——ActionChainsActionCha
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa