weixin_39702649

python logistic regression_机器学习算法与Python实践之逻辑回归（Logistic Regression）

机器学习算法与Python实践这个系列主要是参考下载地址：https://bbs.pinggu.org/thread-2256090-1-1.html

一、逻辑回归(LogisticRegression)

Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测，也就是根据某广告被用户点击的可能性，把最可能被用户点击的广告摆在用户能看到的地方，然后叫他“你点我啊！”用户点了，你就有钱收了。这就是为什么我们的电脑现在广告泛滥的原因了。

还有类似的某用户购买某商品的可能性，某病人患有某种疾病的可能性啊等等。这个世界是随机的(当然了，人为的确定性系统除外，但也有可能有噪声或产生错误的结果，只是这个错误发生的可能性太小了，小到千万年不遇，小到忽略不计而已)，所以万物的发生都可以用可能性或者几率(Odds)来表达。“几率”指的是某事物发生的可能性与不发生的可能性的比值。

Logistic regression可以用来回归，也可以用来分类，主要是二分类。还记得上几节讲的支持向量机SVM吗？它就是个二分类的例如，它可以将两个不同类别的样本给分开，思想是找到最能区分它们的那个分类超平面。但当你给一个新的样本给它，它能够给你的只有一个答案，你这个样本是正类还是负类。例如你问SVM，某个女生是否喜欢你，它只会回答你喜欢或者不喜欢。这对我们来说，显得太粗鲁了，要不希望，要不绝望，这都不利于身心健康。那如果它可以告诉我，她很喜欢、有一点喜欢、不怎么喜欢或者一点都不喜欢，你想都不用想了等等，告诉你她有49%的几率喜欢你，总比直接说她不喜欢你，来得温柔。而且还提供了额外的信息，她来到你的身边你有多少希望，你得再努力多少倍，知己知彼百战百胜，哈哈。Logistic regression就是这么温柔的，它给我们提供的就是你的这个样本属于正类的可能性是多少。

还得来点数学。(更多的理解，请参阅参考文献)假设我们的样本是{x, y}，y是0或者1，表示正类或者负类，x是我们的m维的样本特征向量。那么这个样本x属于正类，也就是y=1的“概率”可以通过下面的逻辑函数来表示：

这里θ是模型参数，也就是回归系数，σ是sigmoid函数。实际上这个函数是由下面的对数几率(也就是x属于正类的可能性和负类的可能性的比值的对数)变换得到的：

换句话说，y也就是我们关系的变量，例如她喜不喜欢你，与多个自变量(因素)有关，例如你人品怎样、车子是两个轮的还是四个轮的、长得胜过潘安还是和犀利哥有得一拼、有千尺豪宅还是三寸茅庐等等，我们把这些因素表示为x1, x2,…, xm。那这个女的怎样考量这些因素呢？最快的方式就是把这些因素的得分都加起来，最后得到的和越大，就表示越喜欢。但每个人心里其实都有一杆称，每个人考虑的因素不同，萝卜青菜，各有所爱嘛。例如这个女生更看中你的人品，人品的权值是0.6，不看重你有没有钱，没钱了一起努力奋斗，那么有没有钱的权值是0.001等等。我们将这些对应x1, x2,…, xm的权值叫做回归系数，表达为θ1, θ2,…, θm。他们的加权和就是你的总得分了。请选择你的心仪男生，非诚勿扰！哈哈。

所以说上面的logistic回归就是一个线性分类模型，它与线性回归的不同点在于：为了将线性回归输出的很大范围的数，例如从负无穷到正无穷，压缩到0和1之间，这样的输出值表达为“可能性”才能说服广大民众。当然了，把大值压缩到这个范围还有个很好的好处，就是可以消除特别冒尖的变量的影响(不知道理解的是否正确)。而实现这个伟大的功能其实就只需要平凡一举，也就是在输出加一个logistic函数。另外，对于二分类来说，可以简单的认为：如果样本x属于正类的概率大于0.5，那么就判定它是正类，否则就是负类。实际上，SVM的类概率就是样本到边界的距离，这个活实际上就让logistic regression给干了。

所以说，LogisticRegression 就是一个被logistic方程归一化后的线性回归，仅此而已。

好了，关于LR的八卦就聊到这。归入到正统的机器学习框架下，模型选好了，只是模型的参数θ还是未知的，我们需要用我们收集到的数据来训练求解得到它。那我们下一步要做的事情就是建立代价函数了。

LogisticRegression最基本的学习算法是最大似然。啥叫最大似然，可以看看我的另一篇博文“从最大似然到EM算法浅解”。

假设我们有n个独立的训练样本{(x1, y1) ,(x2, y2),…, (xn, yn)}，y={0, 1}。那每一个观察到的样本(xi, yi)出现的概率是：

上面为什么是这样呢？当y=1的时候，后面那一项是不是没有了，那就只剩下x属于1类的概率，当y=0的时候，第一项是不是没有了，那就只剩下后面那个x属于0的概率(1减去x属于1的概率)。所以不管y是0还是1，上面得到的数，都是(x, y)出现的概率。那我们的整个样本集，也就是n个独立的样本出现的似然函数为(因为每个样本都是独立的，所以n个样本出现的概率就是他们各自出现的概率相乘)：

那最大似然法就是求模型中使得似然函数最大的系数取值θ*。这个最大似然就是我们的代价函数(cost function)了。

OK，那代价函数有了，我们下一步要做的就是优化求解了。我们先尝试对上面的代价函数求导，看导数为0的时候可不可以解出来，也就是有没有解析解，有这个解的时候，就皆大欢喜了，一步到位。如果没有就需要通过迭代了，耗时耗力。

我们先变换下L(θ)：取自然对数，然后化简(不要看到一堆公式就害怕哦，很简单的哦，只需要耐心一点点，自己动手推推就知道了。注：有xi的时候，表示它是第i个样本，下面没有做区分了，相信你的眼睛是雪亮的)，得到：

这时候，用L(θ)对θ求导，得到：

然后我们令该导数为0，你会很失望的发现，它无法解析求解。不信你就去尝试一下。所以没办法了，只能借助高大上的迭代来搞定了。这里选用了经典的梯度下降算法。

二、优化求解

2.1、梯度下降(gradient descent)

Gradient descent 又叫 steepest descent，是利用一阶的梯度信息找到函数局部最优解的一种方法，也是机器学习里面最简单最常用的一种优化方法。它的思想很简单，和我开篇说的那样，要找最小值，我只需要每一步都往下走(也就是每一步都可以让代价函数小一点)，然后不断的走，那肯定能走到最小值的地方，例如下图所示：

但，我同时也需要更快的到达最小值啊，怎么办呢？我们需要每一步都找下坡最快的地方，也就是每一步我走某个方向，都比走其他方法，要离最小值更近。而这个下坡最快的方向，就是梯度的负方向了。

对logistic Regression来说，梯度下降算法新鲜出炉，如下：

其中，参数α叫学习率，就是每一步走多远，这个参数蛮关键的。如果设置的太多，那么很容易就在最优值附加徘徊，因为你步伐太大了。例如要从广州到上海，但是你的一步的距离就是广州到北京那么远，没有半步的说法，自己能迈那么大步，是幸运呢？还是不幸呢？事物总有两面性嘛，它带来的好处是能很快的从远离最优值的地方回到最优值附近，只是在最优值附近的时候，它有心无力了。但如果设置的太小，那收敛速度就太慢了，向蜗牛一样，虽然会落在最优的点，但是这速度如果是猴年马月，我们也没这耐心啊。所以有的改进就是在这个学习率这个地方下刀子的。我开始迭代是，学习率大，慢慢的接近最优值的时候，我的学习率变小就可以了。所谓采两者之精华啊！这个优化具体见2.3 。

梯度下降算法的伪代码如下：

################################################

初始化回归系数为1

重复下面步骤直到收敛{

计算整个数据集的梯度

使用alpha x gradient来更新回归系数

}

返回回归系数值

################################################

注：因为本文中是求解的Logit回归的代价函数是似然函数，需要最大化似然函数。所以我们要用的是梯度上升算法。但因为其和梯度下降的原理是一样的，只是一个是找最大值，一个是找最小值。找最大值的方向就是梯度的方向，最小值的方向就是梯度的负方向。不影响我们的说明，所以当时自己就忘了改过来了，谢谢评论下面@wxltt的指出。另外，最大似然可以通过取负对数，转化为求最小值。代码里面的注释也是有误的，写的代码是梯度上升，注销成了梯度下降，对大家造成的不便，希望大家海涵。

2.2、随机梯度下降SGD (stochastic gradient descent)

梯度下降算法在每次更新回归系数的时候都需要遍历整个数据集(计算整个数据集的回归误差)，该方法对小数据集尚可。但当遇到有数十亿样本和成千上万的特征时，就有点力不从心了，它的计算复杂度太高。改进的方法是一次仅用一个样本点(的回归误差)来更新回归系数。这个方法叫随机梯度下降算法。由于可以在新的样本到来的时候对分类器进行增量的更新(假设我们已经在数据库A上训练好一个分类器h了，那新来一个样本x。对非增量学习算法来说，我们需要把x和数据库A混在一起，组成新的数据库B，再重新训练新的分类器。但对增量学习算法，我们只需要用新样本x来更新已有分类器h的参数即可)，所以它属于在线学习算法。与在线学习相对应，一次处理整个数据集的叫“批处理”。

随机梯度下降算法的伪代码如下：

################################################

初始化回归系数为1

重复下面步骤直到收敛{

对数据集中每个样本

计算该样本的梯度

使用alpha xgradient来更新回归系数

}

返回回归系数值

##################################[url=]#######[/url]#######

2.3、改进的随机梯度下降

评价一个优化算法的优劣主要是看它是否收敛，也就是说参数是否达到稳定值，是否还会不断的变化？收敛速度是否快？

上图展示了随机梯度下降算法在200次迭代中(请先看第三和第四节再回来看这里。我们的数据库有100个二维样本，每个样本都对系数调整一次，所以共有200*100=20000次调整)三个回归系数的变化过程。其中系数X2经过50次迭代就达到了稳定值。但系数X1和X0到100次迭代后稳定。而且可恨的是系数X1和X2还在很调皮的周期波动，迭代次数很大了，心还停不下来。产生这个现象的原因是存在一些无法正确分类的样本点，也就是我们的数据集并非线性可分，但我们的logistic regression是线性分类模型，对非线性可分情况无能为力。然而我们的优化程序并没能意识到这些不正常的样本点，还一视同仁的对待，调整系数去减少对这些样本的分类误差，从而导致了在每次迭代时引发系数的剧烈改变。对我们来说，我们期待算法能避免来回波动，从而快速稳定和收敛到某个值。

对随机梯度下降算法，我们做两处改进来避免上述的波动问题：

1)在每次迭代时，调整更新步长alpha的值。随着迭代的进行，alpha越来越小，这会缓解系数的高频波动(也就是每次迭代系数改变得太大，跳的跨度太大)。当然了，为了避免alpha随着迭代不断减小到接近于0(这时候，系数几乎没有调整，那么迭代也没有意义了)，我们约束alpha一定大于一个稍微大点的常数项，具体见代码。

2)每次迭代，改变样本的优化顺序。也就是随机选择样本来更新回归系数。这样做可以减少周期性的波动，因为样本顺序的改变，使得每次迭代不再形成周期性。

改进的随机梯度下降算法的伪代码如下：

################################################

初始化回归系数为1

重复下面步骤直到收敛{

对随机遍历的数据集中的每个样本

随着迭代的逐渐进行，减小alpha的值

计算该样本的梯度

使用alpha x gradient来更新回归系数

}

返回回归系数值

################################################

比较原始的随机梯度下降和改进后的梯度下降，可以看到两点不同：

1)系数不再出现周期性波动。

2)系数可以很快的稳定下来，也就是快速收敛。这里只迭代了20次就收敛了。而上面的随机梯度下降需要迭代200次才能稳定。

三、Python实现

我使用的Python是2.7.5版本的。附加的库有Numpy和Matplotlib。在代码中已经有了比较详细的注释了。不知道有没有错误的地方，如果有，还望大家指正(每次的运行结果都有可能不同)。里面我写了个可视化结果的函数，但只能在二维的数据上面使用。直接贴代码：

logRegression.py#################################################

# logRegression: Logistic Regression

# Author : zouxy

# Date : 2014-03-02

#################################################

from numpy import *

import matplotlib.pyplot as plt

import time

# calculate the sigmoid function

def sigmoid(inX):

return 1.0 / (1 + exp(-inX))

# train a logistic regression model using some optional optimize algorithm

# input: train_x is a mat datatype, each row stands for one sample

# train_y is mat datatype too, each row is the corresponding label

# opts is optimize option include step and maximum number of iterations

def trainLogRegres(train_x, train_y, opts):

# calculate training time

startTime = time.time()

numSamples, numFeatures = shape(train_x)

alpha = opts['alpha']; maxIter = opts['maxIter']

weights = ones((numFeatures, 1))

# optimize through gradient descent algorilthm

for k in range(maxIter):

if opts['optimizeType'] == 'gradDescent': # gradient descent algorilthm

output = sigmoid(train_x * weights)

error = train_y - output

weights = weights + alpha * train_x.transpose() * error

elif opts['optimizeType'] == 'stocGradDescent': # stochastic gradient descent

for i in range(numSamples):

output = sigmoid(train_x[i, :] * weights)

error = train_y[i, 0] - output

weights = weights + alpha * train_x[i, :].transpose() * error

elif opts['optimizeType'] == 'smoothStocGradDescent': # smooth stochastic gradient descent

# randomly select samples to optimize for reducing cycle fluctuations

dataIndex = range(numSamples)

for i in range(numSamples):

alpha = 4.0 / (1.0 + k + i) + 0.01

randIndex = int(random.uniform(0, len(dataIndex)))

output = sigmoid(train_x[randIndex, :] * weights)

error = train_y[randIndex, 0] - output

weights = weights + alpha * train_x[randIndex, :].transpose() * error

del(dataIndex[randIndex]) # during one interation, delete the optimized sample

else:

raise NameError('Not support optimize method type!')

print 'Congratulations, training complete! Took%fs!' % (time.time() - startTime)

return weights

# test your trained Logistic Regression model given test set

def testLogRegres(weights, test_x, test_y):

numSamples, numFeatures = shape(test_x)

matchCount = 0

for i in xrange(numSamples):

predict = sigmoid(test_x[i, :] * weights)[0, 0] > 0.5

if predict == bool(test_y[i, 0]):

matchCount += 1

accuracy = float(matchCount) / numSamples

return accuracy

# show your trained logistic regression model only available with 2-D data

def showLogRegres(weights, train_x, train_y):

# notice: train_x and train_y is mat datatype

numSamples, numFeatures = shape(train_x)

if numFeatures != 3:

print "Sorry! I can not draw because the dimension of your data is not 2!"

return 1

# draw all samples

for i in xrange(numSamples):

if int(train_y[i, 0]) == 0:

plt.plot(train_x[i, 1], train_x[i, 2], 'or')

elif int(train_y[i, 0]) == 1:

plt.plot(train_x[i, 1], train_x[i, 2], 'ob')

# draw the classify line

min_x = min(train_x[:, 1])[0, 0]

max_x = max(train_x[:, 1])[0, 0]

weights = weights.getA() # convert mat to array

y_min_x = float(-weights[0] - weights[1] * min_x) / weights[2]

y_max_x = float(-weights[0] - weights[1] * max_x) / weights[2]

plt.plot([min_x, max_x], [y_min_x, y_max_x], '-g')

plt.xlabel('X1'); plt.ylabel('X2')

plt.show()

四、测试结果

测试代码：

test_logRegression.py#################################################

# logRegression: Logistic Regression

# Author : zouxy

# Date : 2014-03-02

#################################################

from numpy import *

import matplotlib.pyplot as plt

import time

def loadData():

train_x = []

train_y = []

fileIn = open('E:/Python/Machine Learning in Action/testSet.txt')

for line in fileIn.readlines():

lineArr = line.strip().split()

train_x.append([1.0, float(lineArr[0]), float(lineArr[1])])

train_y.append(float(lineArr[2]))

return mat(train_x), mat(train_y).transpose()

## step 1: load data

print "step 1: load data..."

train_x, train_y = loadData()

test_x = train_x; test_y = train_y

## step 2: training...

print "step 2: training..."

opts = {'alpha': 0.01, 'maxIter': 20, 'optimizeType': 'smoothStocGradDescent'}

optimalWeights = trainLogRegres(train_x, train_y, opts)

## step 3: testing

print "step 3: testing..."

accuracy = testLogRegres(optimalWeights, test_x, test_y)

## step 4: show the result

print "step 4: show the result..."

print 'The classify accuracy is: %.3f%%' % (accuracy * 100)

showLogRegres(optimalWeights, train_x, train_y)

测试数据是二维的，共100个样本。有2个类。如下：

testSet.txt-0.017612 14.053064 0

-1.395634 4.662541 1

-0.752157 6.538620 0

-1.322371 7.152853 0

0.423363 11.054677 0

0.406704 7.067335 1

0.667394 12.741452 0

-2.460150 6.866805 1

0.569411 9.548755 0

-0.026632 10.427743 0

0.850433 6.920334 1

1.347183 13.175500 0

1.176813 3.167020 1

-1.781871 9.097953 0

-0.566606 5.749003 1

0.931635 1.589505 1

-0.024205 6.151823 1

-0.036453 2.690988 1

-0.196949 0.444165 1

1.014459 5.754399 1

1.985298 3.230619 1

-1.693453 -0.557540 1

-0.576525 11.778922 0

-0.346811 -1.678730 1

-2.124484 2.672471 1

1.217916 9.597015 0

-0.733928 9.098687 0

-3.642001 -1.618087 1

0.315985 3.523953 1

1.416614 9.619232 0

-0.386323 3.989286 1

0.556921 8.294984 1

1.224863 11.587360 0

-1.347803 -2.406051 1

1.196604 4.951851 1

0.275221 9.543647 0

0.470575 9.332488 0

-1.889567 9.542662 0

-1.527893 12.150579 0

-1.185247 11.309318 0

-0.445678 3.297303 1

1.042222 6.105155 1

-0.618787 10.320986 0

1.152083 0.548467 1

0.828534 2.676045 1

-1.237728 10.549033 0

-0.683565 -2.166125 1

0.229456 5.921938 1

-0.959885 11.555336 0

0.492911 10.993324 0

0.184992 8.721488 0

-0.355715 10.325976 0

-0.397822 8.058397 0

0.824839 13.730343 0

1.507278 5.027866 1

0.099671 6.835839 1

-0.344008 10.717485 0

1.785928 7.718645 1

-0.918801 11.560217 0

-0.364009 4.747300 1

-0.841722 4.119083 1

0.490426 1.960539 1

-0.007194 9.075792 0

0.356107 12.447863 0

0.342578 12.281162 0

-0.810823 -1.466018 1

2.530777 6.476801 1

1.296683 11.607559 0

0.475487 12.040035 0

-0.783277 11.009725 0

0.074798 11.023650 0

-1.337472 0.468339 1

-0.102781 13.763651 0

-0.147324 2.874846 1

0.518389 9.887035 0

1.015399 7.571882 0

-1.658086 -0.027255 1

1.319944 2.171228 1

2.056216 5.019981 1

-0.851633 4.375691 1

-1.510047 6.061992 0

-1.076637 -3.181888 1

1.821096 10.283990 0

3.010150 8.401766 1

-1.099458 1.688274 1

-0.834872 -1.733869 1

-0.846637 3.849075 1

1.400102 12.628781 0

1.752842 5.468166 1

0.078557 0.059736 1

0.089392 -0.715300 1

1.825662 12.693808 0

0.197445 9.744638 0

0.126117 0.922311 1

-0.679797 1.220530 1

0.677983 2.556666 1

0.761349 10.693862 0

-2.168791 0.143632 1

1.388610 9.341997 0

0.317029 14.739025 0

训练结果：

(a)梯度下降算法迭代500次。(b)随机梯度下降算法迭代200次。

(c)改进的随机梯度下降算法迭代20次。(d)改进的随机梯度下降算法迭代200次。

———————————————————————————————————————摘自：http://blog.csdn.net/zouxy09/article/details/20319673

你可能感兴趣的:(python,logistic,regression)

Python 机器学习基础之【常用机器学习库】 NumPy 数值计算库仙魁XAN Python 机器学习基础+实战案例 python 机器学习 numpy 数值计算
Python机器学习基础之【常用机器学习库】NumPy数值计算库目录Python机器学习基础之【常用机器学习库】NumPy数值计算库一、简单介绍二、Numpy基础1、安装NumPy2、导入NumPy3、创建数组4、数组操作5、常用函数6、矩阵运算7、广播机制8、随机数三、在机器学习中使用到Numpy的简单示例1、数据预处理1.1数据归一化1.2数据标准化2、特征工程1.1多项式特征3、简单线性回归
Python中的heapq介绍余弦的倒数 Python 学习笔记 python 开发语言
heapq是Python标准库中的一个模块，专门用于处理堆数据结构，它提供了一些非常便捷的函数来操作最小堆（元素按照从小到大的顺序排列，堆顶元素最小），以下是详细介绍：1.主要函数heapify(iterable)：功能：将一个可迭代对象就地转化为堆结构。这个操作的时间复杂度是O(n)O(n)O(n)，其中nnn是可迭代对象的元素个数。示例：importheapqmy_list=[3,1,4,1,
Numpy进阶第3关：Numpy迭代数组叶清歌数据分析 python
本关任务：利用本关相关知识，将一个ndarray类型的数组，顺时针旋转90度后输出。相关知识NumPy迭代器对象numpy.nditer提供了一种灵活访问一个或者多个数组元素的方式。利用nditer对象可以实现完成访问数组中的每一个元素，这项最基本的功能，使用标准的Python迭代器接口，可以逐个访问每一个元素。In:x=np.arange(6).reshape(2,3)In:foryinnp.n
（python）在一个Python文件中从位于该文件所在文件夹外的另一个文件导入函数或类 ZhangTao_zata python 开发语言
☆问题描述假设有如下目录结构project/│├──utils.py│└──subfolder/└──myfile.py在这种情况下，utils.py文件位于subfolder文件夹的外面。要从myfile.py中导入utils.py中的内容★解决方案要在一个Python文件中从位于该文件所在文件夹外的另一个文件导入函数或类，你需要确保两个文件都在Python的搜索路径中。假设你有如下的目录结构：
python引入另外一个文件中的函数 serve the people 日常琐问 python java 前端
在Python中，可以通过import语句引入另一个文件中的函数。下面是具体的步骤和示例：准备两个Python文件文件1：utils.py这是定义了函数的文件，假设它包含一个简单的函数：utils.pydefgreet(name):returnf"Hello,{name}!"文件2：main.py在这个文件中，我们将引入utils.py中的greet函数并使用它。main.py引入utils.py
python中的迭代器和生成器争xx鸣 python 迭代器生成器
自学python过程中会遗漏一些东西，当初看书的时候碰到这些都跳过了，在一次面试中被问到了生成器，才意识到它在使用中的重要性，然后重新翻回去看了书并总结如下。1、迭代器（Iterator）在Python中的for循环使用的就是迭代器的机制，与C语言的循环有所不同。由于使用了迭代器，for循环除了支持常见的序列（元组、列表）外，还支持字典和文件对象。对于任何的可迭代对象都有一个iter方法，使用it
深入理解Python中的生成器与迭代器：概念、区别与实战应用清水白石008 python Python题库开源软件 python 开发语言
深入理解Python中的生成器与迭代器：概念、区别与实战应用开篇在Python编程世界中，生成器（Generators）和迭代器（Iterators）是两个核心概念，它们在处理大型数据集、节省内存以及实现高效循环结构方面扮演着至关重要的角色。本文旨在通过详尽的介绍和实例解析，帮助开发者们全面理解和掌握这两种机制，并能够灵活运用到实际开发中。一、迭代器（Iterators）的基本概念迭代器是一种设计
Python中的迭代器：深入理解与实践应用傻啦嘿哟关于python那些事儿 python android 开发语言 1024程序员节
一、引言在Python编程语言中，迭代器（Iterator）是一种特殊类型的对象，它允许我们遍历数据集合（如列表、元组、字典等）中的每一个元素，而无需了解集合的底层实现细节。迭代器提供了一种统一的方法来访问集合中的元素，使得代码更加简洁、易读，并且能够高效地处理大量数据。本文将深入探讨Python中迭代器的概念、工作原理、实现方式以及实际应用案例，旨在帮助新手朋友全面理解并掌握迭代器的使用技巧。二
Leetcode ---119. 杨辉三角 II（数组） Zrf@ Leetcode 数组
119.杨辉三角II给定一个非负索引k，其中k≤33，返回杨辉三角的第k行。在杨辉三角中，每个数是它左上方和右上方的数的和。示例1：输入:3输出:[1,3,3,1]python思路：与杨辉三角的思路一致。classSolution:defgetRow(self,rowIndex:int)->List[int]:yh=[[]]*(rowIndex+1)forrowinrange(len(yh)):y
Python中的迭代器与生成器程序猿-张益达 Python进阶 python 开发语言
Python中的迭代器与生成器在Python中存在两种好用的功能：迭代器与生成器。以list容器为例，在使用该容器迭代一组数据时，必须事先将所有数据存储到容器中，才能开始迭代；而生成器却不同，它可以实现在迭代的同时生成元素。也就是说，对于可以用某种算法推算得到的多个数据，生成器并不会一次性生成它们，而是什么时候需要，才什么时候生成。迭代器迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一
使用brew报错:Bad credentials/GitHub API Error: API rate limit exceeded for weixin_33868027 git php python
2019独角兽企业重金招聘Python工程师标准>>>背景描述XHProf是一个轻量级的PHP性能分析工具.使用XHProf的时候，在点击[ViewFullCallgraph]查看结果分析图时，会报错，原因是缺少graphviz绘图软件。在使用brew安装graphviz软件出现了一些错误，特此记录一下.具体内容首先使用brew搜索是否存在graphviz软件，报错：$brewsearchgrap
Python进阶————迭代器与生成器记得多吃点 Python进阶知识 python 开发语言
迭代器与生成器前言一、迭代器二、生成器2.1创建生成器的两种方式2.1.1生成器推导式2.1.2yield关键字2.2使用生成器生成批次数据三、区别与联系3.1区别3.2联系总结前言我们之前学习遍历的时候，系统会一下子给我们显示所有的数据，我们希望当我们需要数据的时候再给我们数据，那么，我们就需要迭代器与生成器的帮助。迭代器和生成器在Python中都是用来处理数据序列的重要工具，它们之间的主要区别
Python中的【迭代器】和【生成器】 Matthew575 Python python 开发语言
Python是一门被多层语法糖包装的编程语言，用户使用起来容易上手。但若不了解其底层机制，就无法精通其语言。最近研究了Python中的迭代器和生成器迭代器迭代是访问集合元素的一种方式，在Python中，迭代是通过for…in…语句来完成的。在Python中，可直接作用于for循环的对象都称为可迭代对象（Iterable），而可以作用于for循环的数据类型有以下两类：一类是集合数据类型，比如常见的s
Python Qt6快速入门-图形视图(Graphics View) 视觉与物联智能 Python编程实例 python pyqt6 qt6 GUI 开发语言
图形视图(GraphicsView)文章目录图形视图(GraphicsView)1、GraphicsView架构1.1场景(Scene)1.2视图(View)1.3项目(Item)2、GraphicsView坐标系统2.1项目坐标2.2场景坐标2.3视图坐标2.4坐标映射3、QGraphicsView使用实例GraphicsView提供了一个用于管理大量定制2D图形项目并与之交互的界面，以及一个用
python入门教程jupyter_Jupyter Notebooks的安装和使用介绍 weixin_39953618
最近又开始重新学习Python，学习中使用到了一款编辑器JupyterNotebooks，非常想安利给初学python的同学。注：本文内容仅针对windows环境下安装和配置JupyterNotebooks。1.JupyterNotebooks简介国际惯例还是来一段官方的介绍：Notebooks其实就像是你的python笔记本一样，不仅可以运行书写的python代码，同时还支持markdown格式
第03课：Anaconda 与 Jupyter Notebook 红色石头Will 深度学习 PyTorch 极简入门人工智能深度学习 PyTorch
本文将为大家介绍深度学习实战非常重要的两个工具：Anaconda和JupyterNotebook。Anaconda为什么选择Anaconda我们知道Python是人工智能的首选语言。为了更好、更方便地使用Python来编写深度学习相关程序，可以使用集成开发环境或集成管理系统，最流行的比如PyCharm和Anaconda。本文我推荐使用Anaconda。之所以选择Anaconda，是因为Anacon
Python程序员爬取大量视频资源，最终面临刑期2年的惩罚！夜色恬静一人 python 爬虫开发语言 Python
Python程序员爬取大量视频资源，最终面临刑期2年的惩罚！近日，一名Python程序员因为涉嫌大规模爬取视频资源而被判处2年有期徒刑。这个案例引起了广泛的关注，也引发了对于网络爬虫合法性和道德问题的讨论。据了解，这名程序员利用Python编程语言开发了一套自动化爬虫工具，通过抓取网站上的视频链接，批量下载了超过13万部视频资源。这些资源包括电影、电视剧以及其他各种类型的视频内容。然而，尽管他成功
PyDeequ库在AWS EMR启动集群中数据质量检查功能的配置方法和实现代码 weixin_30777913 python spark 大数据云计算 aws
PyDeequ是一个基于ApacheSpark的PythonAPI，专门用于定义和执行“数据单元测试”，从而在大规模数据集中测量数据质量。PyDeequ框架在PySpark代码中提供了全面的数据质量检查功能，能够帮助用户&有效地监控和提升大规模数据集的数据质量。它在PySpark代码中的数据质量检查功能主要包括以下几个方面：核心组件指标计算（MetricsComputation）：利用分析器（An
python实现简单的二维有限元计算成田日上曾经笔记 python 悬臂梁有限元结构力学
有限元算法依据常见的有限元法教材，简单复现悬臂梁在重力作用下的形变（为了变形更明显，重力大小扩大了10倍），还没来得及写注释。【卧槽快跑，没注释！】节点是随机函数撒的点，完全没有优化；meshpy库中的Delauny优化算法计算得到三角单元；pygame实现图形绘制，图形如下（文字是自己后来写上去的）：importnumpyasnpimportcopyimportpygame,sysfrompyg
Python报错：PermissionError: [Errno 13] Permission denied解决方案详解：642 python 开发语言
写项目时候出现了PermissionError:[Errno13]Permissiondenied:'C:\\Users\\lenovo\\AppData\\Local\\Temp\\tmpjbuaiz4w.wav'错误，测试了一下发现是项目中音频的错误，下方是测试代码frompydubimportAudioSegmentfrompydub.playbackimportplayaudio=Audi
yolov8使用Python训练识别枫林古月 YOLO从零开始 YOLO python 开发语言
环境要求:根据《yolov8训练环境搭建》搭建好运行环境参考文献:1、yolo官方文档python版本：https://docs.ultralytics.com/usage/python/2、github文档https://github.com/ultralytics/ultralytics/blob/main/README.zh-CN.md3、标定源数据的生成使用labelImg来标定类别,输出
设计转换Apache Hive的HQL语句为Snowflake SQL语句的Python程序方法 weixin_30777913 python 数据仓库 hive sql
首先，根据以下各类HQL语句的基本实例和官方文档记录的这些命令语句各种参数设置，得到各种HQL语句的完整实例，然后在Snowflake的官方文档找到它们对应的SnowflakeSQL语句，建立起对应的关系表。在这个过程中要注意HQL语句和SnowflakeSQL语句的区别，比如Hive可以给单个用户加权限，但是Snowflake数据仓库是RBAC，也就是基于角色的权限控制，所以HQL语句中给用户加
【Python百日基础系列】Day25 - 真机安装Ubuntu20.04服务器版 + Mysql8 岳涛@泰山医院 Dash python ubuntu
文章目录一、Ubuntu服务器版下载二、制作启动U盘，RAW写入三、笔记本真机安装Ubuntu20.04服务器版3.1设置笔记本U盘启动，插入启动U盘3.2检查安装文件完整性，需要一两分钟3.3选择语言3.4确认语言和布局3.5确认网络连接3.6输入代理地址，默认空着就行3.7确认服务器地址，默认就行3.8设置磁盘，默认就行3.9再次确认磁盘分区，默认就行3.10输入用户名、电脑名和密码3.11安
Erpnext安装人间不值得T皿T 开源项目 python erp 开源项目 javascript
Erpnext安装环境要求Ubuntu23.04x86_64Python3.10.12pip23.0.1nodev18.16.0npm9.5.1yarn1.22.22MariaDB10.11.2Redis7.0.8wkhtmltox0.12.6.1bench5.22.6环境安装Reids安装//安装7.0.8也可不指定版本直接执行sudoaptinstallredis-serversudoapti
wifi模块服务器通讯协议,模块之间通信协议高杉峻 wifi模块服务器通讯协议
模块之间通信协议内容精选换一换IEC61499是分布式工业测量，控制和监控系统的功能块标准，既然它是面向工业测量和控制的系统，对系统的确定性(Deterministic)要求必然也比较高。确定性又是安全性的前提。保证系统的确定性的两个重要措施是保证系统的实时性和同步性。分布式系统结构又进一步增加了实现确定性的难来自：博客网络编程一、网络编程基础python的网络编程模块主要支持两种Internet
呼叫中心部门如何激发员工的创新和潜能野蛮的大西瓜 FreeIPCC转载开源人工智能音频实时音视频视频编解码
呼叫中心部门如何激发员工的创新和潜能作者：基于Java、Python与FreeSWITCH的开源大模型智能呼叫中心系统FreeAICC，Github地址：https://github.com/FreeIPCC/FreeAICC激发员工的创新和潜能是提升组织竞争力、推动持续发展的关键。以下是一些有效的策略，旨在营造一个鼓励创新、促进个人成长的工作环境：一、建立创新文化倡导开放思维：鼓励员工提出新想法
Python 爬虫实战案例 - 获取拉勾网招聘职位信息西攻城狮北 python 爬虫拉勾网招聘信息
引言拉勾网，作为互联网招聘领域的佼佼者，汇聚了海量且多样的职位招聘信息。这些信息涵盖了从新兴科技领域到传统行业转型所需的各类岗位，无论是初出茅庐的应届生，还是经验丰富的职场老手，都能在其中探寻到机遇。对于求职者而言，能够快速、全面地掌握招聘职位的详细情况，如薪资待遇的高低、工作地点的便利性、职位描述所要求的技能与职责等，无疑能在求职路上抢占先机。而企业方，通过分析同行业职位信息的发布趋势、薪资水平
Python Flask框架基础（五）数据库 525小白菜 Python Web编程数据库 python flask
数据库是大多数动态Web程序的基础设施，本章主要介绍如何给Flask程序添加数据库支持，具体来说就是在Python中使用DBMS来对数据库进行管理和操作。使用ORM不光可以解决SQL注入的问题，而且它为不同的DBMS提供统一的Python接口库，使得切换数据库非常简单。ORM把底层的SQL数据实体转化成高层的Python对象，这样甚至不用了解SQL，只需要通过Python代码即可完成数据库操作，O
python调用git在windows,ImportError在Windows 10 Git Bash上使用Anaconda Python导入_ssl Kuchiki Touko
ContextIamworkingbehindacorporateproxywithaself-signedcertificate.Ihavedocumentedthisextensively.TheissuenowisthatTLS/SSLmoduleisnotloadingcorrectlytoevenverifythecertificates.Windows10Anaconda2018.12
在 MicroPython ESP32-C3 单片机中调用 DeepSeek API 以及部分问题的解决电池漏液 python 单片机嵌入式硬件
在MicroPythonESP32-C3单片机中调用DeepSeekAPI的实践与问题解决背景本文记录在MicroPythonESP32-C3上调用DeepSeekAPI时遇到的问题及解决方案，包含中文编码异常处理和请求报文长度限制问题。依赖代码使用到urequests模块(requests模块的micropython版本)安装方法参考mpremote安装第三方库mpremotemipinstal
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc